Modellfreie Darstellung und modellfreie Kenngrößen

  • Drucken

Modellfreie Darstellung

Eine Darstellung heißt modellfrei, wenn zur Veranschaulichung kein bestimmtes Modell (über die Verteilung der Daten) erforderlich ist. Als Beispiel für die modellfreie Darstellung von Daten wurde die Brechzahl organischer Flüssigkeiten gewählt (Quelle: CRC Handbook of Chemistry and Physics, 62nd Ed., Seite E-378f). Um die Daten in ihrer Urform zu betrachten, werden sie über ihrem Index (d. h. ihrer laufenden Nummer) gezeichnet, wobei im oberen Teil der Grafik eine unsortierte, im unteren Teil eine sortierte Darstellung erfolgt (Abb. 1; weil die Rohdaten bereits sortiert sind, sind beide Teilbilder identisch).


 

ModellfreiRohdaten

 

 

 

 

 

 

 

 


Die nächste Variante nennt sich Boxplot; dabei werden die Rohdaten zusammen mit ihren parameterfreien Kennzahlen (Median, Quantile und arithmetischer Mittelwert) gezeichnet.

 

 

ModellfreiBoxplot

 

 

 

 

 

 

 

 

 

Ebenso wie in der Darstellung der Rohdaten deutet sich hier bereits an, daß eine etwas linkssteile (=rechtsschiefe) Verteilung vorliegt. Um die Verteilung zu näher untersuchen, kann ein sogenannter Perzentilplot (hier: Quantilplot, vgl. Abb. 3) gewählt werden. Geringe Datendichten entsprechen in diesem Diagramm Bereichen mit großer Steigung und umgekehrt.

 

ModellfreiQuantilsplot

 

 

 

 

 

 

 

 

 

Die Symmetrie der Verteilung kann bereits wesentlich besser beurteilt werden, als dies bei der Darstellung der Rohdaten oder der Darstellung als Boxplot möglich war (Kurvenverlauf etwa entlang der Hauptdiagonalen).

 

ModellfreiHistogramm

 

 

 

 

 

 

 

 

 

Als wahrscheinlich bekannteste Variante der Darstellung ist da Histogramm zu nennen (vgl. Abb. 4). Zur Erzeugung eines Histogramms wird der Wertebereich der Daten in Klassen unterteilt, wobei alle Daten einer dieser Klassen zugeordnet werden. Das Histogramm sollte nicht als einzige Methode zur Datenvisualisierung herangezogen werden, da nicht nur die Daten selbst, sondern ebenso Anzahl und Position der Klassen das Aussehen der Verteilung beeinflussen können.

 

 

ModellfreiSymmetrieplot














Für die Beurteilung der Symmetrie einer Verteilung besser geeignet ist deswegen auch der Symmetrieplot. Für einen Symmetrieplot werden die Daten an der i-ten Stelle unterhalb und oberhalb des Medians gegeneinander aufgetragen. Ist die Verteilung symmetrisch, liegen die Werte auf einer Geraden der Steigung 1. Eine Abweichung nach oben (wie im vorliegenden Fall) bedeutet hingegen, daß der i-te Wert oberhalb weiter von der Mitte entfernt ist als unterhalb, d. h., es liegt eine linkssteile Verteilung vor.


Modellfreie Kenngrößen

Die Beschreibung von Daten durch modellfreie Kenngrößen wird im allgemeinen nach den Kriterien Lage, Streuung, Schiefe und Wölbung vorgenommen. Sowohl die Beschreibung durch Kenngrößen, als auch die modellfreie Darstellung haben - für sich betrachtet - jeweils Vor- und Nachteile. In der Kombination jedoch ist damit eine zuverlässige Beschreibung der vorhandenen Daten möglich.

Für die Verteilung der Brechzahlen organischer Flüssigkeiten ergeben sich z. B. die folgenden Kennzahlen

Lageparameter

arithmetischer Mittelwert 1.44093, harmonischer Mittelwert 1.43858, Median 1.429

Streuungsparameter

Standard Abweichung 0.0592407, Range 0.466

Schiefeparameter

Skewness 0.918296 (d. h., die Verteilung ist linkssteil)

Wölbungsparameter

Kurtosis 2.00744 (d. h., die Verteilung ist stark gewölbt, also leptokurtisch).

 

Interessiert?  Kontakt

Übersicht?      Neue Prozesse