17.02.2017
Stellen Sie sich vor, Sie haben eine Menge statistische Daten und stellen diese grafisch dar. Es gibt jeweils beidesmal einen hübschen Hügel, welcher wie die Gauss’sche Glockenkurve aussieht. Sie möchten nun die beiden Hügel miteinander vergleichen – Dies geht aber nicht, den beide Hügel haben eine ganz andere Lage. Der eine ist irgendwo um die 0 und der andere liegt irgendwo bei 200.
Eine Standardisierung der beiden Daten kann Ihnen hierbei behilflich sein.
PS: Die Gauss’sche Glockenkurve heisst übrigens auch Normalverteilung und dieses Verfahren findet man auch unter dem Namen z-Transformation.
Wie sehen die Hügel nach der Standardisierung aus?
Wenn die Daten standardisiert wurden, liegt ihr Erwartungswert bei 0 und die Standardabweichung bei 1.
Quelle dieses genialen Bildes: http://www.statistics4u.info/fundstat_germ/ee_ztransform.html
Dabei gelten folgende Regeln:
- Geht man vom Erwartungswert nach links und rechts „eine“ Standardabweichung findet man ca. 70% der Werte
- Geht man vom Erwartungswert nach links und rechts „zwei“ Standardabweichungen findet man ca. 95% der Werte
- Geht man vom Erwartungswert nach links und rechts „drei“ Standardabweichungen findet man ca. 99% der Werte
Und wie mache ich diese Standardisierung?
Die Formel, um Ihre Daten zu standardisieren, ist ganz simpel:
In Python kann man dies mit Numpy Methoden folgendermassen erreichen:
X = (X - X.mean()) / X.std()
Mü oder X.mean() steht dabei für den Erwartungswert und sigma oder X.std() für die Standardabweichung.
Was ist der Erwartungswert?
Erwartungswert ist einfach gesagt einfach der Durchschnitt der Werte. Andere Namen dafür sind Mittelwert oder arithmetisches Mittel.
Was ist die Standardabweichung?
Die Standardabweichung ist der Wert, den die meisten Daten im Durchschnitt vom Erwartungswert abweichen. Es ist ein Mass für die Streubreite der Daten.
Warum funktioniert das?
Nun, die Schritte, die in der Formel gemacht werden, kann man sich so vorstellen.
1. Zuerst rechnet man jeden Wert der Daten minus den Mittelwert. Der Mittelwert selber geht also nach 0, alle kleineren Werte sind dann links und alle grösseren Werte rechts davon. Der Hügel wird also quasi um den Mittelwert nach links verschoben, damit er genau über der 0 steht.
2. Dann steht der Hügel zwar am richtigen Ort, ist aber noch zu breit. Darum quetscht man den Hügel um den Faktor der Standardabweichung. An der Formel sieht man, dass das ganze nur in X-Richtung passiert, der Hügel ist also noch gleich gross wie vorher.