Zentral- und Streuungsmaße

Beschreibung:

Diese Lernhilfe illustriert die wichtigsten Zentral- und Streuungsmaße. Die Datenwerte sind durch ihre Positionen auf einer Skala dargestellt. Sie lassen sich mit der Maus verschieben, und ihre Anzahl kann (bis 20) frei gewählt werden. Folgende statistischen Kenngrößen können eingeblendet werden:

Median (Zentralwert): Werden die Datenwerte der Größe nach geordnet, so ist der Median
  • für eine ungerade Anzahl von Datenwerten jener Wert, der genau in der Mitte der Liste liegt, und
  • für eine gerade Anzahl von Datenwerten das arithmetische Mittel der beiden Werte, die in der Mitte der Liste liegen.
Sind alle Datenwerte voneinander verschieden, so liegen gleich viele Werte unterhalb wie oberhalb des Median.
In der entsprechenden Anzeige wird der Median als senkrechte blaue Linie dargestellt.
Quartile: Der Median teilt die (der Größe nach geordnete) Liste der Datenwerte in eine untere und eine obere Teil-Liste (wobei im Fall einer ungeraden Zahl von Datenwerten der mittlere Wert nicht berücksichtigt wird).
  • Das untere Quartil ist der Median der unteren Teil-Liste, und
  • das obere Quartil ist der Median der oberen Teil-Liste.
Die Idee besteht also (bis auf Details, die die genaue Definition dieser Kenngrößen betreffen und davon abhängen, ob sie aus einer Liste mit einer geraden oder ungeraden Anzahl von Werten gebildet werden) darin, die Datenwerte in vier Klassen aufzuteilen:
  • Ein Viertel der Werte liegt unterhalb des unteren Quartils,
  • ein Viertel der Werte liegt zwischen dem unteren Quartil und dem Median,
  • ein Viertel der Werte liegt zwischen dem Medien und dem oberen Quartil, und
  • ein Viertel der Werte liegt oberhalb des oberen Quartils.
Die Differenz zwischen dem oberen und dem unteren Quartil heißt Quartilsabstand. Er ist gleich der Breite des Bereichs zwischen den beiden Quartilen (die "mittleren 50% der Datenwerte").
In der entsprechenden Anzeige sind die Quartile als senkrechte grüne Linien dargestellt, der Bereich zwischen ihnen ist blassgrün unterlegt. Der Median liegt in diesem Bereich, aber nicht unbedingt in der Mitte.
Mittelwert (arithmetisches Mittel, Durchschnittswert): Diese Kennzahl ist definiert als der Quotient

 Summe der Datenwerte 
Anzahl der Datenwerte
 

oder, durch eine Formel ausgedrückt,

m  =    x1 + x2 + ... + xn 
n
 ,

wobei x1, x2, ... xn die Datenwerte sind.
In der entsprechenden Anzeige wird der Mittelwert als senkrechte rote Linie dargestellt.
Standardabweichung: Sie ist durch die Formel

    _____________________________  
s  =   Ö  (x1 - m)2 + (x2 - m)2 + ... + (xn - m)2
n
 

definiert, wobei m der Mittelwert ist.
In der entsprechenden Anzeige ist der Bereich zwischen m  - s  und m  + s  hellgrau unterlegt. Der Mittelwert liegt genau in der Mitte dieses Bereichs.

Aufgaben:
  1. Wähle im unteren Drop-Down-Menü "Beispiel 1 (Median und Quartile)" und als Ansichten "Median" und "Quartile". Ziehe mit der Maus den größten (ganz rechts stehenden) Datenwert 3.3 langsam nach links, bis er schließlich zum kleinsten Datenwert wird. Erkläre (unter Zuhilfenahme der Definition des Medians und der Quartile) die Änderungen, die diese drei Kenngrößen dabei erfahren!
     
  2. Wähle im unteren Drop-Down-Menü "Beispiel 2 (Median und Quartile)" und als Ansichten "Median" und "Quartile". Ziehe mit der Maus den größten (ganz rechts stehenden) Datenwert 3.3 langsam nach links, bis er schließlich zum kleinsten Datenwert wird. Erkläre (unter Zuhilfenahme der Definition des Medians und der Quartile) die Änderungen, die diese drei Kenngrößen dabei erfahren!
     
  3. Wähle im unteren Drop-Down-Menü "Beispiel 3 (Median und Mittelwert)" und als Ansichten "Median" und "Mittelwert". Ändere die Datenwerte so, dass
     
    • der Mittelwert kleiner als der Median ist,
    • der Mittelwert größer als der Median ist,
    • der Mittelwert gleich dem Median ist.
       
  4. Wähle im unteren Drop-Down-Menü "Beispiel 4 (Zufallsgenerator)" und als Ansichten "Mittelwert" und "Standardabweichung". Ein Zufallsgenerator würfelt Datenwerte, wie sie auch in der Realität häufig vorkommen. Zähle ab, wie viel Prozent der Daten vom Mittelwert nicht weiter entfernt sind als eine Standardabweichung. Wenn du noch einmal "Beispiel 4 (Zufallsgenerator)" wählt, wird erneut gewürfelt. Wiederhole diese Übung mehrere Male. Fällt die eine (ungefähre) Gesetzmäßigkeit auf?
     
  5. Wähle im unteren Drop-Down-Menü "Beispiel 4 (Zufallsgenerator)" und als Ansichten "Quartile" und "Standardabweichung". Ist der (grüne) Bereich zwischen den Quartilen oder der durch die Standardabweichung definierte (graue) Bereich größer? Wiederhole diese Übung mehrere Male. Warum ist meistens der grüne Bereich größer?
     
  6. Wähle im unteren Drop-Down-Menü "Beispiel 5 (Ausreißer)" und studiere, wie sich "Ausreißer" (d.h. stark abweichende Datenwerte, die möglicherweise auf Messfehler zurückgehen) auf die statistischen Kenngrößen auswirken! Ziehe dazu den Ausreißer (ganz rechts bei 3.8) mit der Maus quer über die Daten bis ganz nach links. Beobachte und erkläre, wie sich Median, Quartile, Mittelwert und Standardabweichung dabei ändern. Wie empfindlich sind sie gegenüber Ausreißern?
     
  7. Kannst du Daten finden, für die der Mittelwert außerhalb des (grünen) Bereich zwischen den Quartilen liegt?
    Tipp: Starte mit "Beispiel 5 (Ausreißer)"!
     
  8. Um Datensätze zu beschreiben, werden oft nur einige wenige statistische Kenngrößen angegeben. Die zwei gebräuchlichsten Methoden sind:
     
    • Angabe des Medians und der beiden Quartile. (Graphisch entspricht das dem "Box-Plot-Diagramm").
    • Angabe des Mittelwerts und der Standardabweichung (manchmal in der Schreibweise m  ± s ).
       
    Diskutiere die Vor- und Nachteile dieser beiden Methoden!