Gini-Koeffizient

Gini-Koeffizient

Der Gini-Koeffizient oder auch Gini-Index ist ein statistisches Maß, das vom italienischen Statistiker Corrado Gini zur Darstellung von Ungleichverteilungen entwickelt wurde. Ungleichverteilungskoeffizienten lassen sich für jegliche Verteilungen berechnen.

Inhaltsverzeichnis

Anwendungen

Gini-Koeffizient der Einkommensverteilung nach dem CIA World Factbook mit den Daten von 2009

Wirtschaft, Einkommen, Vermögen

Der Gini-Koeffizient wird besonders in der Wohlfahrtsökonomie verwendet.

Informationstheorie

In der Informationstheorie wird er als Maß der „Reinheit“ oder „Unreinheit“ von Information verwendet.

Maschinelles Lernen

Beim Erzeugen eines Entscheidungsbaums kann der Gini-Index, genauer gesagt die Änderung des Gini-Index, auch „Gini Gain“ genannt, als Kriterium verwendet werden, um diejenige Entscheidungsregel auszuwählen, bei der die Kindknoten möglichst „rein“ werden.[1] Die Idee ist, dass bei einer „reinen“ Entscheidung der Baum fertig ist, weshalb die Änderung des Gini-Index als Maß geeignet ist.

Bankwesen

In Banken wird der Gini-Koeffizient als Maß dafür verwendet, wie gut ein Ratingsystem gute von schlechten Kunden trennen kann (Trennschärfe).[2]

Normierung

Die Skala möglicher Werte reicht je nach Anwendungsfall von 0 bis 1, von 0 bis 100, von 0 bis 10000. Je nach Anwendungsfall meint der kleinste oder eben der größte Wert die Gleichverteilung.

Der Wert der absoluten Ungleichheit kann dabei im Allgemeinen nur asymptotisch erreicht werden. Durch Renormierung kann man dies vermeiden.

Berechnung (diskrete Verteilungen)

Oftmals ist eine gewisse (große) Menge auf eine von vornherein bestimmte (kleine) Anzahl Ausprägungen zu verteilen: dies kann alle Geldscheine in Deutschland auf ihre Nennwerte sein, alle Geldmünzen in einer Kasse auf ihre Nennwerte, alle Buchstaben eines Textes (beispielsweise der gesamten Bibel) auf die einzelne Buchstaben (a,b,c,d,...), Marktvolumen auf die Firmen eines Oligopols, beispielsweise Telefonminuten auf die vier Mobilfunkbetreiber. Hier spricht man auch vom Herfindahl-Index.

Man verwendet hier [1]

gini := \sum_i p_i^2 wobei pi die relative Häufigkeit des Wertes i ist.

Ist pi = 1 für ein i und 0 für alle anderen, so gilt gini = 1. Ein Wert von 0 kann nur asymptotisch angenommen werden.

Verteilung mit Quantilen

Eine gewisser Teil einer Menge A wird einem Teil einer anderen Menge B zugeordnet. Dies kann Geld (A) auf Menschen (B) sein, dies kann Regen (A) auf Fläche (B) sein, dies kann Eisfläche (A) auf Weltmeerfläche (B) sein, Wohnfläche (A) auf Bevölkerungsteile (B), konsumierte Milch (A) auf Haushalte (B), Stromverbrauch (A) auf Städte (B), alle homogenen Dinge sind hier denkbar, die sich gut aufteilen lassen.

Der Gini-Koeffizient ist die auf die Gleichverteilung normierte Fläche zwischen den Lorenz-Kurven einer Gleichverteilung und der beobachteten Verteilung.

\mbox {GUK} = \frac {A_g-A_{ug}} {A_g}

mit Ag der Fläche unter der Lorenz-Kurve einer Gleicheverteilung und Aug der Fläche unter der Lorenz-Kurve für die beobachtete Verteilung.

Beispiel

A wird auf B verteilt, beispielsweise wird das Vermögen (A) auf die Bevölkerung (B) verteilt, alternativ Einkommen (A) auf Haushalte (B)...

50 Prozent von B (b1) wird  2,5 Prozent von A zugeordnet (v1).
40 Prozent von B (b2) wird 47,5 Prozent von A zugeordnet (v2).
 9 Prozent von B (b3) wird 27,0 Prozent von A zugeordnet (v3).
 1 Prozent von B (b4) wird 23,0 Prozent von A zugeordnet (v4).

In einem ersten Schritt werden die Daten „normalisiert“ dargestellt:

b1 = 0,50     v1 = 0,025          v1/b1 =  0,05
b2 = 0,40     v2 = 0,475          v2/b2 =  1,188
b3 = 0,09     v3 = 0,270          v3/b3 =  3
b4 = 0,01     v4 = 0,230          v4/b4 = 23

Im zweiten Schritt wird der Gini-Koeffizient berechnet.

Den Gini-Ungleichverteilungskoeffizienten (GUK) erhält man durch Auswertung einer Lorenz-Kurve.

Damit tatsächlich eine Lorenz-Kurve entsteht, müssen gegebenenfalls die obigen Werte umsortiert werden. Alle Werte-Paare (vi,bi) müssen zunächst so vorsortiert werden, dass gilt:

\frac {v_i} {b_i} \ge \frac {v_{i-1}} {b_{i-1}}

Bei dem obigen Beispiel liegt schon die richtige Sortierung vor, so dass nicht umsortiert werden muss.

Die gesuchte Lorenz-Kurve entsteht, wenn man (xi,yi)-Paare als Punkte in ein kartesisches Koordinatensystem einträgt und anschließend benachbarte Punkte mit einer Geraden verbindet. Die (xi,yi)-Paare entstehen aus den (vi,bi)-Paaren nach folgender Rechenvorschrift:

x_n = \sum_{j=1}^n b_j \mbox { und } y_n = \sum_{j=1}^n v_j.

Im zweiten Schritt werden aus den Daten des ersten Schritts die nachfolgenden Daten durch Summation ermittelt (wobei am Anfang 1 fester Wert dazu kommt):

x0 = 0,00     y0 = 0
x1 = 0,50     y1 = 0,025
x2 = 0,90     y2 = 0,5    (da 0,5 + 0,4 = 0,9 und 0,025 + 0,475 = 0,5 ist)
x3 = 0,99     y3 = 0,77
x4 = 1,00     y4 = 1

Bei totaler Gleichverteilung des Vermögens ist die Lorenz-Kurve eine gerade Linie von Punkt (0|0) zu Punkt (1|1).

Zur Bestimmung des Gini-Koeffizienten werden zuerst zwei Größen bestimmt, die graphisch betrachtet Flächen sind. Einmal die Fläche unter der Gleichverteilungslinie, nennen wir diese Größe beispielsweise A. Die zweite Fläche ist die Fläche unter der tatsächlichen Verteilungskurve, nennen wir diese Größe beispielsweise B. Mit diesen beiden Größen berechnet sich der Gini-Ungleichverteilungskoeffizient wie folgt:

\mbox {GUK} = \frac {A-B} {A}
B ist die dunkelgraue Fläche; A setzt sich aus der hell- und der dunkelgrauen Fläche zusammen.

Errechnen der y-Werte der Lorenz-Kurve der tatsächlichen Verteilung:

y0 = 0,000
y1 = v1 = 0,025
y2 = v1 + v2 = 0,500
y3 = v1 + v2 + v3 = 0,770
y4 = v1 + v2 + v3 + v4 = 1,000

Berechnung der Fläche B unter der Lorenz-Kurve der tatsächlichen Verteilung (siehe unten):

(y1 - 0,5 · v1) · b1 = 0,00625
(y2 - 0,5 · v2) · b2 = 0,105
(y3 - 0,5 · v3) · b3 = 0,05715
(y4 - 0,5 · v4) · b4 = 0,00885

B = 0,17725

Da eine normierte Darstellung verwendet wird, verbindet die Kurve der totalen Gleichverteilung die Eckpunkte (0|0) und (1|1) miteinander. Das Dreieck mit der Fläche A beträgt also 0,5. Darum gilt für den Gini-Ungleichverteilungskoeffizienten:

\mbox {GUK} = \frac {A - B}{A} = \frac {0{,}5 - B}{0{,}5} = 1 - 2 \cdot B = 1 - 0{,}3545
     = 0{,}6455[3]

Graphisch betrachtet ist der Gini-Koeffizient das Verhältnis der Fläche zwischen Gleichverteilungslinie und Lorenzkurve (A-B) zur Fläche unterhalb der Gleichverteilungslinie (A).

Erläuterung zur Berechnung

Die gesamte Gini-Fläche ist ein Rechteck mit den Seiten v1 + v2 + v3 + v4 mal b1 + b2 + b3 + b4. Die Gini-Fläche einer Gleichverteilung ist die Hälfte der gesamten Gini-Fläche. Zur Berechnung der Fläche unter der Kurve werden alle Einzelflächen addiert. Nehmen wir beispielsweise b2. Voll anzurechnen ist das Rechteck mit der Höhe y1 und der Breite b2 (d. h. von x1 bis x2). Von dem Rechteck, das von der Höhe y1 bis zur Höhe y2 geht, ist nur die Hälfte zu nehmen, da die andere Hälfte oberhalb der Ginilinie nicht zur Gini-Fläche gehört. Also ist die

Fläche = y_1 \cdot b_2 + \frac{(y_2 - y_1)\cdot b_2}{2} = \frac{(y_2 + y_1) \cdot b_2}{2}

oder auch

Fläche = (y_2 - \frac{v_2}{2}) \cdot b_2.

Alternative Anschauung zur Flächenberechnung: Die Einzelfläche über b2 ist die Differenz aus der Rechtecksfläche, die von den Punkten (x1,y0=0), (x2,y0=0), (x2,y2), (x1,y1) begrenzt wird (Inhalt: b_2 \cdot y_2 ) , abzüglich der Fläche des rechtwinkligen Dreiecks, das von den Punkten (x1,y1), (x2,y1), (x1,y2) begrenzt wird (Inhalt: \frac{b_2 \cdot v_2}{2}), mit gleichem Ergebnis.

Datenreduktion

Der Gini-Koeffizient ist ein statistisches Maß zur Berechnung der Ungleichheitsverteilung. Solche Maße reduzieren prinzipiell einen mehr oder minder komplexeren Datensatz auf eine einfache Kennzahl, die zu Fehlinterpretationen führen kann, wenn sie nicht sachgemäß verwendet wird.

Verschiedene Lorenzkurven - gleicher Gini-Koeffizient

Im Fall des Gini-Koeffizienten gibt es beispielsweise zu jeder Lorenzkurve mindestens eine andere Lorenzkurve mit exakt dem gleichen Gini-Wert. Diese erhält man durch Spiegelung der ursprünglichen Lorenzkurve an der Senkrechten zur Winkelhalbierenden, die durch die Punkte (0,1) und (1,0) verläuft. Wenn auf 50%/50% die Mengen 10%/90% zu verteilen sind, ergibt dies die gleich Lorenzkurve wie die Verteilung von 90%/10%. Die beiden Lorenzkurven sind in der Abbildung dargestellt. Für die beiden unterschiedlichen Kurven ergibt sich ein gemeinsamer Gini-Koeffizient von 0,4.[4] Tatsächlich gibt es zu einem Gini-Koeffizienten sogar unendlich viele mögliche Lorenzkurven. In diesem Punkt gleicht der Gini-Koeffizient jeder anderen Kennzahl, die aus der Akkumulation einer größeren Datenmenge abgeleitet ist. Ungleichverteilungskennzahlen wie der Gini-Koeffizient entstehen aus Aggregation von Daten mit der gezielten Absicht, Komplexität zu reduzieren. Der damit einhergehende Informationsverlust ist also keine unbeabsichtigte Nebenwirkung. Für Komplexitätsreduktionen gilt generell, dass sie erst dann zu einem Nachteil werden, wenn man ihr Zustandekommen und ihre Abbildungsfunktion vergisst.

Siehe hierzu auch: Satz von Rothschild und Stiglitz

Fehlerquelle bei Vergleichen

Aussagen, in denen Ungleichheitskoeffizienten miteinander verglichen werden, erfordern eine besonders kritische Überprüfung der Berechnung der einzelnen Koeffizienten. Für einen korrekten Vergleich ist es erforderlich, dass diese Koeffizienten in allen Fällen einheitlich berechnet wurden. Beispielsweise führt die unterschiedliche Granularität der Eingangsdaten zu unterschiedlichen Ergebnissen bei der Berechnung der Ungleichverteilung. Ein mit wenigen Quantilen berechneter Gini-Koeffizient zeigt in der Regel eine etwas geringere Ungleichverteilung an als ein mit mehr Quantilen berechneter Koeffizient, weil im letzteren Fall dank höherer Messauflösung die Ungleichverteilung berücksichtigt werden kann, die innerhalb der Bereiche (d. h. zwischen den Quantilen) im ersten Fall wegen der gröberen Messauflösung unausgewertet bleibt.


Weblinks

Siehe auch

Einzelnachweise

  1. a b Breiman, L. and Friedman, JH and Olshen, RA and Stone, CJ: Classification and regression trees. Chapman and Hall, New York 1984.
  2. Leitfadenreihe zum Kreditrisiko: Ratingmodelle und -validierung, Österreichische Nationalbank und Finanzmarktaufsicht, 2004. http://www.oenb.at/de/img/ratingmodelle_tcm14-16319.pdf
  3. On-Line-Rechner: Ungleichverteilung
  4. Vergleich: www.umverteilung.de/rechner/?quantiles=50,10|50,90 (blaue Kurve) und www.umverteilung.de/rechner/?quantiles=90,50|10,50 (rote Kurve)

Wikimedia Foundation.

Schlagen Sie auch in anderen Wörterbüchern nach:

  • GINI-Koeffizient — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung …   Deutsch Wikipedia

  • Gini-Koeffizient — I. Statistik:Maßgröße zur Kennzeichnung der relativen ⇡ Konzentration. Ist x̅ das ⇡ arithmetische Mittel der Werte x1, ..., xn, so ist der G. durch definiert. Der G. ist als relatives Streuungsmaß zu interpretieren. Er kann auch mithilfe der ⇡… …   Lexikon der Economics

  • Gini — ist der Familienname folgender Personen: Corrado Gini (1884–1965), italienischer Statistiker Marc Gini (* 1984), Schweizer Skirennfahrer Sandra Gini (* 1982), Schweizer Skirennfahrerin Gini ist der Vorname folgender Personen: Gini Müller (* 1971) …   Deutsch Wikipedia

  • Gini-Verteilungsfunktion — ⇡ Gini Koeffizient, ⇡ personelle Einkommensverteilung …   Lexikon der Economics

  • Gini-Index — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung …   Deutsch Wikipedia

  • Hoover-Koeffizient — Die Hoover Ungleichverteilung ist der direkteste und einfachste aller Ungleichverteilungkoeffizienten. Er beschreibt die relative Abweichung vom Mittelwert. Er ist „direkt“, weil er zum Beispiel bei einer Ungleichverteilung von Geld einfach den… …   Deutsch Wikipedia

  • Giniindex — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung …   Deutsch Wikipedia

  • Ginikoeffizient — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung …   Deutsch Wikipedia

  • Lorenzsches Konzentrationsmaß — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung …   Deutsch Wikipedia

  • Ungleichverteilungsmaß — Ein Ungleichverteilungsmaß beschreibt den Grad der Ungleichverteilung einer Größe gegenüber einer anderen Größe. In den Sozialwissenschaften sind diese Größen auf der einen Seite häufig Ressourcen wie Einkommen oder Vermögen und auf der anderen… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”