Was ist statistische Standardisierung?

17.02.2017

Stellen Sie sich vor, Sie haben eine Menge statistische Daten und stellen diese grafisch dar. Es gibt jeweils beidesmal einen hübschen Hügel, welcher wie die Gauss’sche Glockenkurve aussieht. Sie möchten nun die beiden Hügel miteinander vergleichen – Dies geht aber nicht, den beide Hügel haben eine ganz andere Lage. Der eine ist irgendwo um die 0 und der andere liegt irgendwo bei 200.

Eine Standardisierung der beiden Daten kann Ihnen hierbei behilflich sein.

PS: Die Gauss’sche Glockenkurve heisst übrigens auch Normalverteilung und dieses Verfahren findet man auch unter dem Namen z-Transformation.

Wie sehen die Hügel nach der Standardisierung aus?

Wenn die Daten standardisiert wurden, liegt ihr Erwartungswert bei 0 und die Standardabweichung bei 1.

standardisierung

Quelle dieses genialen Bildes: http://www.statistics4u.info/fundstat_germ/ee_ztransform.html

Dabei gelten folgende Regeln:

  • Geht man vom Erwartungswert nach links und rechts „eine“ Standardabweichung findet man ca. 70% der Werte
  • Geht man vom Erwartungswert nach links und rechts „zwei“ Standardabweichungen findet man ca. 95% der Werte
  • Geht man vom Erwartungswert nach links und rechts „drei“ Standardabweichungen findet man ca. 99% der Werte

Und wie mache ich diese Standardisierung?

Die Formel, um Ihre Daten zu standardisieren, ist ganz simpel:

standardisierung2

In Python kann man dies mit Numpy Methoden folgendermassen erreichen:

X = (X - X.mean()) / X.std()

Mü oder X.mean() steht dabei für den Erwartungswert und sigma oder X.std() für die Standardabweichung.

Was ist der Erwartungswert?

Erwartungswert ist einfach gesagt einfach der Durchschnitt der Werte. Andere Namen dafür sind Mittelwert oder arithmetisches Mittel.

mittelwert

Was ist die Standardabweichung?

Die Standardabweichung ist der Wert, den die meisten Daten im Durchschnitt vom Erwartungswert abweichen. Es ist ein Mass für die Streubreite der Daten.

standardabweichung

Warum funktioniert das?

Nun, die Schritte, die in der Formel gemacht werden, kann man sich so vorstellen.

1. Zuerst rechnet man jeden Wert der Daten minus den Mittelwert. Der Mittelwert selber geht also nach 0, alle kleineren Werte sind dann links und alle grösseren Werte rechts davon. Der Hügel wird also quasi um den Mittelwert nach links verschoben, damit er genau über der 0 steht.

2. Dann steht der Hügel zwar am richtigen Ort, ist aber noch zu breit. Darum quetscht man den Hügel um den Faktor der Standardabweichung. An der Formel sieht man, dass das ganze nur in X-Richtung passiert, der Hügel ist also noch gleich gross wie vorher.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit deinem WordPress.com-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s