Suche im Lexikon
Lexikon auf Ihrer Homepage Lexikon als Lesezeichen hinzufügen

Median

Dieser Artikel behandelt den Median in der Statistik. Weitere Bedeutungen sind unter Median (Begriffsklärung) aufgeführt.

Der Median (von (lat.:medianus - in der Mitte befindlich, der Mittlere) bezeichnet als Zentralmaß oder 50%-Quantil in der Stochastik die mittlere Zahl in einer sortierten Liste von Zahlen, wie zum Beispiel: 1,4,6,8,19.

Im Vergleich zum arithmetischen Mittel ist der Median unempfindlich gegenüber Extremwerten und deshalb oft die wichtigere und aussagekräftigere Maßzahl. Man kann sagen: Der Median ist eine robuste Version eines Mittelwertes. [1]

Inhaltsverzeichnis

Berechnung

  • Alle Werte werden (aufsteigend) geordnet.
  • Wenn die Anzahl der Werte ungerade ist, ist die mittlere Zahl der Median.
  • Wenn die Anzahl der Werte gerade ist, ist der Durchschnitt der zwei mittleren Zahlen (des Unter- und Obermedians) der Median.

Eigenschaften

Nur bei völlig symmetrischen Verteilungen wie der so genannten Normalverteilung sind das arithmetische Mittel, der Median und der Modalwert identisch. Der Median teilt eine Grundgesamtheit in zwei Hälften gleicher Größe, so dass alle Merkmalsausprägungen der einen Hälfte gleich oder kleiner (und in der anderen gleich oder größer) als der Medianwert sind. Durch diese Eigenschaft eignet sich der Median besonders gut als Lageparameter für nicht normalverteilte Grundgesamtheiten, wie sie beispielsweise auf nach oben offenen Skalen positiver Zahlen vorkommen. Dieser Vorteil verkehrt sich jedoch in einen Nachteil, wenn die Verteilung der Daten z.B. bimodal ist.

  • Beispiel:

Messwerte 1, 2, 4, 4 , 4, 5, 50; Der Median (auch der Ober- und der Untermedian) ist der Wert an der mittleren Stelle, also 4. Das arithmetisches Mittel ist hier 10. Wäre der höchste Wert nicht 50 sondern nur 15 würde das am Wert des Medians nichts ändern, der Durchschnittswert würde aber auf 5 sinken. Der Median reagiert hier also unempfindlich auf den Extremwert und ist deshalb die aussagekräftigere Maßzahl.

  • Beispiel:

Die Einkommen einer Gruppe von 10 Personen verteilen sich wie folgt: 9 Personen verdienen jeweils EUR 1.000 und 1 Person verdient EUR 1.000.000. Das Durchschnittseinkommen beträgt EUR 100.900, der Median jedoch nur EUR 1.000. Der Median wäre für diese Daten die aussagekräftigere Maßzahl.

  • Beispiel:

Die Einkommen einer Gruppe von 10 Personen verteilen sich wie folgt: 6 Personen verdienen jeweils EUR 1.000 und 4 Personen verdienen jeweils EUR 2.000. Der Median beträgt nur EUR 1.000, das Durchschnittseinkommen EUR 1.400. Das arithmetische Mittel wäre für diese Daten die aussagekräftigere Maßzahl.

Anwendungsbereiche

Median eines Notenspiegels. Höchstens die Hälfte der Arbeiten sind schlechter und höchstens die Hälfte besser als der Median 3. Das arithmetische Mittel ist 3,26, und ist in diesem Fall die aussagekräftigere statistische Kenngröße, da der Median nur eine wesentlich gröbere Aussage trifft.

Nur für nominale Variablen, die keine numerischen Ausprägungen haben, ist der Modalwert das einzige Maß, das festgestellt werden kann. Für ordinale Variablen, bei denen es kein quantitativ sinnvolles Intervall zwischen den Werten gibt, eignet sich der Median am besten [2], aber auch bei bei intervall- und verhältnisskalierten Daten (hier ist aber das arithmetische Mittel oft das bessere Maß) kann der Median angewendet werden [3], als:

Median einer Stichprobe

Ein Wert <math>m</math> ist Median einer Stichprobe, wenn mindestens die Hälfte der Beobachtungen in der Stichprobe einen Wert <math> \leq m </math> und mindestens die Hälfte einen Wert <math> \geq m </math> hat.

Sortiert man die Beobachtungswerte der Größe nach, das heißt geht man zur nach dem Rang geordneten Stichprobe über, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einziges mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) ein Median der Stichprobe, da für alle diese Werte obige Bedingung zutrifft.

Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Median <math>\tilde x</math> einer geordneten Stichprobe <math>(x_1, x_2, \dots, x_n)</math> von <math>n</math> Messwerten ist dann also

<math>\begin{align}\tilde x

&=\begin{cases}

 x_\frac{n+1}{2}                                    & n\text{ ungerade}\\
 \frac 12\left(x_{\frac n2} + x_{\frac n2 + 1}\right) & n \text{ gerade.}

\end{cases}\\ &= \tfrac 12\left(x_{\lceil{\frac n2}\rceil} + x_{\lfloor{\frac n2 + 1}\rfloor}\right) &= \tfrac 12\left(\tilde x_u + \tilde x_o\right) \end{align} </math>

  • Ober und Untermedian

Oft möchte man dagegen sicherstellen, dass der Median in jedem Fall eines der Elemente der Stichprobe sein soll. In diesem Fall wird alternativ zu dieser Definition bei einer geraden Anzahl von Elementen entweder der Untermedian <math>\tilde x_u = x_\frac{n}{2}</math> oder der Obermedian <math>\tilde x_o = x_{\frac{n}{2}+1}</math> genutzt und als Median bezeichnet.

Im Falle einer ungeraden Anzahl der Beobachtungen werden der Untermedian <math> \tilde x_u</math> und der Obermedian <math> \tilde x_o</math> definiert als <math>\tilde x=\tilde x_u=\tilde x_o</math>. Bei einer geraden Anzahl von Elementen werden der Ober- und Untermedian definiert als

<math>\tilde x_u = x_\frac{n}{2}</math>,
<math>\tilde x_o = x_{\frac{n}{2}+1}</math>

und es gilt:

<math>\tilde x = \tfrac 12\left(\tilde x_u + \tilde x_o\right)</math>.

Diese Medianbestimmung spielt beispielsweise bei Datenbanksystemen eine große Rolle, wie z. B. bei SELECT-Abfragen mittels des Medians der Mediane.

  • Eigenschaften:

Der Median <math>\tilde x</math>, und im Fall einer geraden Anzahl von Messwerten alle Werte <math>\tilde x</math> mit <math>\tilde{x}_u \le \tilde x \le \tilde{x}_o</math>, minimieren die Summe der absoluten Abweichungen, das heißt für ein beliebiges <math>x</math> gilt

<math>\sum_{i=1}^n |\tilde x - x_i| \le \sum_{i=1}^n |x - x_i|.</math>

Der Median ist Grundlage der Methode der kleinsten absoluten Abweichungen und Verfahren der robusten Regression. Das arithmetische Mittel dagegen minimiert die Summe der quadratischen Abweichungen und ist Grundlage der Methode der kleinsten Quadrate und der Regressionsanalyse und ist mathematisch leichter zu handhaben, jedoch nicht robust gegen Ausreißer. Der Median könnte algorithmisch bestimmt werden, indem die Messwerte sortiert werden. Da dies mit Aufwand <math>\mathcal{O}\left( n \log n\right) </math> verbunden ist, wird im Allgemeinen zu speziellen Algorithmen zur Quantilsbestimmung mit linearem Aufwand <math>\mathcal{O}\left( n \right) </math> gegriffen oder zu Abschätzungen wie der Cornish-Fisher-Methode. Das arithmetische Mittel lässt sich ebenfalls in linearer Zeit bestimmten.

Median von gruppierten Daten

Vor allem in den Sozialwissenschaften wird bei Statistiken häufig der Median geschätzt, da nicht alle Daten explizit und exakt gegeben sind, sondern nur in Intervallen gruppiert vorliegen. So wird beispielsweise bei Umfragen selten nach dem exakten Gehalt gefragt, sondern nur nach der Einkommensklasse, also dem Bereich, in welchem das Gehalt liegt. Die Berechnungsvorschrift für diese Schätzung unterscheidet sich deswegen von der oben vorgestellten exakten Berechnung des Medians. Es seien <math>n</math> die Anzahl aller Daten, <math>n_i</math> die jeweilige Anzahl der Daten der <math>i</math>-ten Gruppe und <math>u_i</math> bzw. <math>o_i</math> die entsprechenden oberen bzw. unteren Intervallgrenzen. Zunächst wird nun die mediane Klasse (oder mediane Gruppe) bestimmt, d. h. diejenige Gruppe, in welche der Median (nach obiger, konventioneller Definition) hineinfällt, z. B. die <math>m</math>-te Gruppe. Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, wird z. B. Gleichverteilung postuliert, sodass man sich der linearen Interpolation als Hilfsmittel bedienen kann, um eine Schätzung des Medians der gruppierten Daten zu erhalten:

<math>x_\mathrm{med} = u_m+\frac{\frac n2 - \sum\limits_{k=1}^{m-1}n_k}{n_m} \cdot (o_m-u_m).</math>

Im Gegensatz zur konventionellen Definition des Medians muss dieser nicht zwangsläufig ein Element aus der tatsächlichen Datenmenge sein, welche in aller Regel nicht bekannt ist.

  • Beispiel:

Einkommen:

Klasse (<math>i</math>) Bereich (<math>u_i</math> bis <math>o_i</math>) Gruppengröße (<math>n_i</math>)
1 mind. 0, weniger als 1500 160
2 mind. 1500, weniger als 2500 320
3 mind. 2500, weniger als 3500 212

Man berechne

<math>\tfrac n2 = \tfrac{212+320+160}2 = \tfrac{692}2=346.</math>

Also liegt der Median in der 2. Klasse (d. h. <math>m=2</math>), da die erste Klasse nur 160 Elemente umfasst. Somit ergibt sich als Schätzung für den Median

<math>x_\mathrm{med} = 1500 + \tfrac{346-160}{320}\cdot (2500-1500) = 2081{,}25.</math>

Eine Veranschaulichung dieses Verfahrens zur Festlegung des Medians bei gruppierten Daten ist die grafische Ermittlung mit Hilfe der Summenkurve. Hier wird der Abszissenwert <math>x_\mathrm{med}\,</math> gesucht, der zum Ordinatenwert <math>\tfrac{n}{2}</math> gehört. Bei kleinerem und geradem <math>n</math> kann auch stattdessen der Ordinatenwert <math>\tfrac{n}{2}+1</math> gewählt werden.

Median einer Verteilung

Dichtefunktion einer Dreiecksverteilung mit Median

Eine Verallgemeinerung des Begriffes liefert die Betrachtung einer reellwertigen Zufallsvariable <math>X</math> und ihrer Verteilung, beziehungsweise ihrer Verteilungsfunktion <math>F</math>. Dort ist der Median das 0,5-Quantil, also

<math>\inf\left\{x\in\R:F(x) \ge \frac 12\right\}.</math>

Übertragen auf die oben genannte Stichprobe wäre nach dieser Definition der Median vergleichbar mit dem dort erwähnten Untermedian. Er ist, neben beispielsweise Erwartungswert und Modus, ein Lageparameter. Für symmetrische Verteilungen, d. h. Verteilungen mit der Eigenschaft <math>f(\mu-x)=f(\mu+x)</math> für alle reellen <math>x</math>, stimmen Median und Erwartungswert überein. Für Verteilungen mit monoton fallender Dichte über der Menge der positiven reellen Zahlen wie der Exponentialverteilung (d. h. für <math>0<x<y</math> gilt <math>f(x) \ge f(y)</math>) ist

<math>m \le \mu</math>,

wobei das Gleichheitszeichen nur für die Stetige Gleichverteilung gilt. Ein typische Beispiel für diese Situation ist die Exponentialverteilung. Zwischen Erwartungswert <math>\mu</math>, Median <math>m</math> und Standardabweichung <math>\sigma</math> besteht ein allgemeiner Zusammenhang durch die Tschebyschow-Ungleichung der Form

<math> \left|\mu-m\right| \leq \sigma</math>.

Das Gleichheitszeichen gilt für die diskrete Zufallsvariable X mit <math>\operatorname{P}\left[X=\mu-\sigma\right]=\operatorname{P}\left[X=\mu+\sigma\right]=1/2</math>.

  • Beispiel:

Bei der Dreiecksverteilung

<math>f(x) = \frac x{18},\quad 0 \le x \le 6,</math>

ist der Median der <math>x</math>-Wert, welcher die Fläche

<math>F(x)=\frac 12\cdot x\cdot\frac{x}{18}</math>

unter der Dichtefunktion in zwei gleich große Flächen teilt. Dieser Wert wird somit durch die Gleichung

<math>F(m)=\frac 12\cdot m\cdot\frac{m}{18}=\frac 12</math>

bestimmt. Für deren Lösung <math>m=\sqrt{18}\approx 4{,}24</math> gilt damit <math>P(X \le 4{,}24) \approx 0{,}5</math>. D. h. in diesem Beispiel ist der Median <math>m</math> nicht identisch mit dem Erwartungswert <math>E(X)=4</math>.

<math>F(x) = 1 - e^{-\lambda x}</math> für <math>x \geq 0.</math>
Ihr Median <math>m</math> ergibt sich als eindeutig bestimmte Lösung der Gleichung <math>F(m) = \tfrac{1}{2}</math> zu
<math>1 - e^{-\lambda m} = \frac{1}{2} \iff e^{-\lambda m} = \frac{1}{2} \iff m = \frac{\ln 2}{\lambda}.</math>
Wegen <math>\ln 2 < 1</math> ist der Median hier kleiner als der Erwartungswert <math>\mu = \tfrac{1}{\lambda}</math>.

Alternativen

  • Die Wohlfahrtsfunktion ist eine Alternative zum Median bei der Ermittlung des Masseneinkommens aus einer gegebenen Einkommensverteilung.
  • Eine andere Möglichkeit als der Median mit Extremwerten umzugehen, ist die Benutzung eines getrimmten Mittelwerts, den man ermittelt in dem man die kleinsten und größten Werte vor der Berechnung entfernt (typischerweise werden 5% der Werte weggelassen).[4]
  • Nach Butler[5] gibt auch eine strengere Definition von Median (die weniger gebräuchlich ist), die sagt, der Median ist der Wert, für den gilt, die Zahl der kleineren Werte in der Reihe ist gleich der Zahl der größeren Werte in der Reihe. Für Spezialfälle wie 3, 3, 3, 3, 4 oder 1, 2, 3, 3, 3 gibt es ein Verfahren, mit dem man einen eindeutigen Median unter Beibehaltung der strengeren Definition berechnen kann.[6],

Siehe auch

Literatur

  • Hans-Otto Georgii: Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. de Gruyter Lehrbuch, Berlin 2009, ISBN 978-3-11-021526-7.

Weblinks

Referenzen

  1. [1] Mathematik für Informatiker 1,2 und 3/Robuste Statistik - pdf von Labs/Schreyer
  2. [2] Statistik-Zentrale Tendenz von Stephen Berman
  3. [3] Grundbegriffe der Statistik von Jutta Gut
  4. [4] Grundlagen der Statistik/ Mittelwert von Hans Lohninger
  5. [5] Butler, Christopher (1985). Statistics in Linguistics. Oxford: Blackwell
  6. [6] Statistik-Zentrale Tendenz von Stephen Berman
Impressum AGB Datenschutz KundenserviceMediadatenfreenet AGJobsSitemap
gekennzeichnet mit
JUSPROG e.V. - Jugendschutz
freenet ist Mitglied im JUSPROG e.V.