Histogramm

Histogramm
Beispiel für ein Histogramm

Ein Histogramm ist eine graphische Darstellung der Häufigkeitsverteilung metrisch skalierter Merkmale. Ein Histogramm erfordert die Einteilung der Daten in Klassen, die eine konstante oder variable Breite haben können. Im Histogramm werden über den Klassen direkt aneinander angrenzende Rechtecke errichtet, deren Flächeninhalt die (relative) Klassenhäufigkeit darstellt.[1][2][3] Die Höhe der Rechtecke repräsentiert die (relative) Häufigkeitsdichte, also die (relative) Häufigkeit dividiert durch die Breite der entsprechenden Klasse.

Histogramme können auch als Abschätzung der Wahrscheinlichkeitsdichte einer kontinuierlichen Zufallsvariablen aufgefasst werden.

Inhaltsverzeichnis

Anwendung

Anwendung finden Histogramme in der beschreibenden Statistik und in der Bildverarbeitung. Man verwendet Histogramme dann,

  • wenn man vermutet, dass mehrere Faktoren einen Prozess beeinflussen, und man diese nachweisen will
  • wenn man sinnvolle Spezifikationsgrenzen für einen Prozess definieren möchte
  • wenn man den tatsächlichen Verlauf der Häufigkeitsverteilung sehen möchte und nicht nur Einzeldaten, wie den Mittelwert und die Standardabweichung

Konstruktion eines Histogramms

Zur Konstruktion eines Histogramms teilt man den Wertebereich der Stichprobe in k aneinander angrenzende Intervalle, die sog. Klassen, auf.[4] Dabei ist darauf zu achten, dass die Randklassen nicht offen sind. Das heißt, die erste und die letzte Klasse müssen eine untere bzw. obere Grenze besitzen.[5][1] Die Klassen müssen nicht gleich breit sein. Allerdings vereinfachen zumindest im Mittelbereich gleichgroße Klassen die Interpretation. Über jeder Klasse wird dann ein Rechteck errichtet, dessen Fläche proportional zur jeweiligen Klassenhäufigkeit ist.

Häufigkeitsdichte

Beispiel für ein Histogramm mit konstanter Klassenbreite, bei dem die absoluten Häufigkeiten auf der Ordinate abgetragen sind.

Da die Fläche eines Rechtecks gleich der Klassenhäufigkeit nj ist, errechnet sich die Höhe des Rechtecks hj, die sog. Häufigkeitsdichte, als Quotient aus (absoluter oder relativer) Häufigkeit und Klassenbreite hj = nj / dj, mit dj der Klassenbreite. Dies wird unmittelbar klar, wenn man sich überlegt, dass die Fläche eines Rechtecks dem Produkt aus Breite (Klassenbreite) und Länge bzw. Höhe (Häufigkeitsdichte) entspricht. Die Klasse mit der größten Häufigkeitsdichte wird Modalklasse genannt[1]. Sind die Klassen gleich breit, so sind Häufigkeitsdichte und absolute bzw. relative Häufigkeiten proportional zueinander. Die Höhen der Rechtecke sind in diesem Fall vergleichbar und unter Beachtung der Klassenbreite als Proportionalitätsfaktor als Häufigkeit interpretierbar.

Um ein Histogramm zeichnen zu können, muss eine genügend große Anzahl an Messwerten einen sinnvollen Verlauf ergeben.

Abschätzung der Anzahl der Klassen

Sturges-Regel

Für die Festlegung der Anzahl der Klassen bzw. Rechtecke existieren verschiedene Faustregeln:

Anzahl der Messungen Balkenzahl
<50 5 bis 7
50 bis 100 6 bis 10
100 bis 250 7 bis 12
>250 10 bis 20

Gegebenenfalls kann man die Anzahl der Balken k auch nach der Sturges-Regel[6] berechnen:

k = 1 + \log_2 n = 1 + 3,3 \cdot \log_{10} n

Die Sturges-Regel sollte aber nicht mehr verwendet werden, da sie die Streuung nicht berücksichtigt.


Alternativ kann die Klassenbreite h mit der Regel nach Scott[7]

h = \frac {3{,}49 \cdot \sigma} {\sqrt[3]{n}}

oder der Regel nach Freedman und Diaconis[8]

h = \frac {2 \cdot (Q_3-Q_1)} {\sqrt[3]{n}}

berechnet werden. Dabei sind σ die Standardabweichung, n die Anzahl der Messungen und Q3Q1 der Interquartilsabstand.

Die Regel nach Scott ist so nur für normalverteilte Daten definiert. Für andere Fälle führte Scott Korrekturfaktoren in Abhängigkeit von Schiefe und Exzess ein.

Eigenschaften

Ein Histogramm ist eine flächenproportionale Darstellung der vorliegenden Häufigkeiten. Die Fläche eines Rechtecks entspricht c \cdot f(x_j), wobei f(x_j)\, die relative Klassenhäufigkeit der Klasse j\, und c\, ein Proportionalitätsfaktor ist.

Ist c\, gleich dem Stichprobenumfang, d.h. c=n\,, so ist die Fläche eines jeden Rechtecks gleich der absoluten Klassenhäufigkeit. Das Histogramm wird in diesem Fall, in dem die Summe der Flächeninhalte der Rechtecke dem Stichprobenumfang n entspricht, absolut genannt.[9] Werden zur Konstruktion des Histogramms exakt die relativen Klassenhäufigkeiten verwendet (c=1\,), wird das Histogramm als relativ oder normiert bezeichnet. Da die Flächeninhalte der Rechtecke nun den entsprechenden relativen Klassenhäufigkeiten entsprechen, summieren sich die Flächeninhalte in diesem Fall zu 1.[9]

Bei einem Histogramm grenzen die Rechtecke im Gegensatz zum Säulendiagramm direkt aneinander, d. h. es existieren keine Abstände zwischen ihnen. Denn die Breite der Rechtecke entspricht den gebildeten Intervallen (Klassen), die ebenfalls direkt aneinander grenzen.

Im Unterschied zum Säulendiagramm muss bei einem Histogramm die x-Achse immer eine Skala sein, deren Werte geordnet und gleichabständig sind.

Drei Kennzeichen eines Histogramms können zu dessen Beurteilung herangezogen werden:

  • der allgemeine Kurvenverlauf
  • die Streuung
  • die Zentrierung

Beispiel für ein Histogramm

Es liegen für 32 europäische Länder als Indikator für den Wohlstand die Zahlen der PKWs pro 1000 Einwohner vor. Die Werte werden wie folgt in Klassen eingeteilt.

Klasse j Zahl der PKW pro 1000 Anzahl der Länder
(absolute Klassenhäufigkeit)
nj
Klassenbreite
dj
Rechteckhöhe
(Häufigkeitsdichte)
hj = nj/dj
1 über 0 - bis 200 5 200 - 0 = 200 0,025
2 über 200 bis 300 6 100 0,06
3 über 300 bis 400 6 100 0,06
4 über 400 bis 500 9 100 0,09
5 über 500 bis 700 6 200 0,03
Summe Σ   32  

Mit Hilfe der Tabelle erhält man das folgende Histogramm:

Histogramm der Zahl der PKWs auf 1000 Personen in 32 ausgewählten Ländern


Auf der Abszisse werden die Klassengrenzen und Klassenmittel abgetragen. In der Regel gibt man bei einem Histogramm die Ordinate nicht an, weil sonst die Gefahr besteht, die Höhe eines Rechtecks anstatt ihrer Fläche als Häufigkeit zu interpretieren. Sind dagegen alle Klassen gleich breit, kann man für die Höhe der Rechtecke die Klassenhäufigkeit nj verwenden und diese auf der Ordinate abtragen.

Geschichte

Wohl erstmals tauchte ein Histogramm 1786 in der Arbeit "The Commercial and Political Atlas" des um 1800 lebenden schottischen Ingenieurs und Volkswirts William Playfair auf, der zuvor auch das Balken- und Tortendiagramm einführte.[10] Im Jahr 1833 verwendete auch der Franzose André-Michel Guerry Histogramme zur Visualisierung von Daten.[11] Weiterentwickelt wurde das Histogramm durch den belgischen Statistiker und Sozialwissenschaftler Adolphe Quetelet um 1846. Der Begriff "Histogramm" wurde jedoch erstmals vom englischen Mathematiker Karl Pearson im Jahr 1891 in einer Vorlesungsreihe genutzt und schließlich 1895 in seiner heutigen Bedeutung eingeführt.[12][13][14]

Average Shifted Histogramm

Das linke Bild zeigt vier Histogramme für den gleichen Datensatz. Zwar sind die Klassenbreiten in jedem Histogramm gleich 2,0, jedoch verschiebt sich der Beginn der ersten Klasse (-6.0, -5.5, -5.0 und -4.5). Obwohl jeweils der gleiche Datensatz benutzt wurde, kommen doch sehr unterschiedliche Histogramme heraus.

Neben dem Problem der Klassenanzahl bzw. Klassenbreite spielt also auch die Wahl der (linken) Klassengrenzen eine Rolle. David Scott hat daher das Average Shifted Histogramm vorgeschlagen.[15] Im rechten Bild wurden die vier Histogramme überlagert und dann für jeden Wert x die Histogrammhöhen gemittelt. Dies ergibt das Average Shifted Histogramm. Üblicherweise werden deutlich mehr als vier Histogramme überlagert und gemittelt.

Das Average Shifted Histogramm löst das Problem der Wahl der (linken) Klassengrenzen, jedoch nicht das Problem der Wahl der optimalen Klassenbreiten.

Einzuordnen ist das Average Shifted Histogramm zwischen dem Histogramm und der Kerndichteschätzung.

Histogramm in der Bildverarbeitung

Histogramm eines Graustufen-Bilds mit einem hohen Anteil an Schwarz und Weiß

In der digitalen Bildverarbeitung versteht man unter einem Histogramm die statistische Häufigkeit der Grauwerte bzw. der Farbwerte in einem Bild. Das Histogramm eines Bildes erlaubt eine Aussage über die vorkommenden Grau- bzw. Farbwerte und über Kontrastumfang und Helligkeit des Bildes. In einem farbigen Bild kann entweder ein Histogramm über alle möglichen Farben oder Histogramme über die einzelnen Farbkanäle erstellt werden; letzteres ist meist sinnvoller, da die meisten Verfahren auf Grauwertbildern basieren und so die sofortige Weiterverarbeitung möglich ist. Die Anzahl der Farbkanäle in einem Bild ist abhängig vom Modus, d. h. pro Farbauszug gibt es einen Kanal. Daher haben CMYK-Bilder vier Farbkanäle, RGB-Farbbilder nur drei.

Ein Histogramm visualisiert die Verteilung der Helligkeitswerte eines Bildes. Über einer Achse, die den Wertebereich der Farbwerte darstellt, sind als Balken die einzelnen Häufigkeiten des Vorkommens der Farbwerte aufgetragen. Je höher der Balken über einem Farbwert ist, desto häufiger kommt dieser Farbwert im Bild vor.

Histogramme findet man häufig im Bereich der digitalen Fotografie. Gut ausgestattete digitale Fotoapparate zeigen auf dem Display während der Motivsuche als Hilfe für ein ausgewogeneres Bild in Echtzeit oder für bereits gespeicherte Aufnahmen ein Histogramm an. Das Betrachten eines Histogramms erlaubt es dem Fotografen, das Ergebnis oder das geplante Foto genauer zu kontrollieren, als es das Kameradisplay erlaubt. Zum Beispiel kann man typische Fehler wie Unter- und Überbelichtung erkennen und diese durch entsprechende Belichtungskorrektur beheben. Da die Helligkeit und v. a. Kontrastumfang des Bildes bei der späteren Bearbeitung und Verwertung eine große Rolle spielen, lohnt es sich beim Fotografieren, auf die Histogrammanzeige zu achten.

Eine klassische Anwendung von Histogrammen in der Bildverarbeitung liegt in der Egalisierung (Äqualisierung, engl. equalizing), bei der das Histogramm mit einer Egalisierungsfunktion transformiert wird. Dadurch kann eine bessere Verteilung der Farbgebung erreicht werden, die über eine bloße Kontrastverstärkung hinausgeht.

Beispiel High-key- und Low-key-Fotografie

Histogramm einer High-key-Aufnahme: 70 % der Pixel in diesem Bild konzentrieren sich in den oberen 2 % (250-255) des gesamten Tonwertumfangs (0-255). Der Rest der Pixel (30 %) verteilt sich auf die restlichen 250 Tonwerte.

Bei Low-key-Aufnahmen konzentrieren sich die Details in den niedrigen Tonwerten. Der Ausschlag ist demnach im unteren Bereich am stärksten. (Es liegen viele Pixel mit niedrigen Tonwerten vor.)

Für High-key-Aufnahmen gilt das Gegenteil, also viele Pixel mit hohen Tonwerten und kaum ein Ausschlag in den niedrigen Tonwerten.

Bei überbelichteten Aufnahmen "schmiegt" sich die Wahrscheinlichkeitskurve an der rechten (hellen) Seite an und das Maximum wird möglicherweise gar nicht erreicht. Es werden also nicht alle hellen Details wiedergegeben, da ein bestimmter Helligkeitsbereich abgeschnitten ist und der darunterliegende als weiß definiert wird.

Siehe auch

 Commons: Histogramme – Sammlung von Bildern, Videos und Audiodateien

Weblinks

Einzelnachweise

  1. a b c Bernd Rönz, Hans G. Strohe, Lexikon Statistik, Gabler Verlag, 1994, S. 157
  2. Larry Wasserman, All of Nonparametric Statistics, Springer, 2005, S. 127
  3. Arens et al., Mathematik, Spektrum Akademischer Verlag, 2008, S. 1226
  4. Thomas A. Runkler: Data Mining: Methoden und Algorithmen intelligenter Datenanalyse. 1. Auflage. Vieweg + Teubner, 2010, S. 47.
  5. Erhard Cramer, Udo Kamps: Grundlagen der Wahrscheinlichkeitsrechnung und Statistik: Ein Skript für Studierende der Informatik, der Ingenieur- und Wirtschaftswissenschaften. 2. Auflage. Springer, 2008, S. 45.
  6. Herbert A. Sturges: The choice of a class interval. In: Jornal of the American Statistical Association. Nr. 21, 1926, S. 65-66.
  7. David W. Scott: On optimal and data-based histogram. In: Biometrika. 3, Nr. 66, 1979, S. 605–610, doi:10.1093/biomet/66.3.605.
  8. David Freedman, Persi Diaconis: n the histogram as a density estimator: L2 theory. In: Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete. 57, Nr. 4, 1981, S. 453-476, doi:10.1007/BF01025868.
  9. a b Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage. Springer, 2005, S. 31-32.
  10. Playfair, William; The Commercial and Political Atlas: Representing, by Means of Stained Copper-Plate Charts, the Progress of the Commerce, Revenues, Expenditure and Debts of England during the Whole of the Eighteenth Century, London 1786
  11. André-Michel Guerry: Essai sur la Statistique Morale de la France. Paris 1833.
  12. Sheldon M. Ross: Introductory Statistics. 2. Auflage. Elsevier Academic Press, 2005, S. 56-57.
  13. Yadolah Dodge: The Concise Encyclopedia of Statistics. Springer, 2008, S. 236-237.
  14. Eileen Magnello: Karl Pearson's Gresham Lectures: W. F. R. Weldon, Speciation and the Origins of Pearsonian Statistics. In: The British Journal for the History of Science, Vol. 29, No. 1. Cambridge University Press, 1996, S. 48.
  15. David Scott: Multivariate Density Estimation: Theory, Practice, and Visualization. John Wiley, 1992, ISBN 978-0471547709.

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Histogramm — Balkendiagramm * * * His|to|grạmm 〈n. 11〉 graf. Darstellung von Messwerten in Form nebeneinandergereihter Säulen, wobei die Höhe der einzelnen Säulen dem jeweiligen Messwert entspricht * * * His|to|grạmm, das; s, e [zu griech. histós = Mastbaum …   Universal-Lexikon

  • Histogramm — histograma statusas T sritis Standartizacija ir metrologija apibrėžtis Kiekybinės charakteristikos dažnių skirstinio grafinė išraiška, susidedanti iš aibės besiribojančių stačiakampių, kurių kiekvieno pagrindas lygus grupės pločiui, o plotas… …   Penkiakalbis aiškinamasis metrologijos terminų žodynas

  • Histogramm — histograma statusas T sritis Standartizacija ir metrologija apibrėžtis Stulpelinė diagrama, grafiškai vaizduojanti statistinį pasiskirstymą. atitikmenys: angl. histogram vok. Balkendiagramm, n; Histogramm, n; Säulendiagramm, n rus. гистограмма, f …   Penkiakalbis aiškinamasis metrologijos terminų žodynas

  • Histogramm-Differenz — Die Histogramm Differenz (Abkürzung HD) ist eine positive Zahl, die durch Bildung der Differenz zweier Histogramme entsteht. Sie dient als Maß für die Unterschiedlichkeit zweier Histogramme und findet Anwendung in der Schnitterkennung und der… …   Deutsch Wikipedia

  • Histogramm — His|to|grạmm 〈n.; Gen.: s, Pl.: e〉 graf. Darstellung von Messwerten in Form nebeneinander gereihter Säulen, wobei die Höhe der einzelnen Säulen dem jeweiligen Messwert entspricht [Etym.: <Histo… + …gramm] …   Lexikalische Deutsches Wörterbuch

  • Histogramm — graphische Darstellung einer ⇡ Häufigkeitsverteilung in Bezug auf ein ⇡ quantitatives Merkmal, bei dem eine ⇡ Klassenbildung vorgenommen wurde. Über den jeweiligen Klassenintervallen werden Rechtecke derart gezeichnet, dass die Maßzahl der Fläche …   Lexikon der Economics

  • Histogramm — His|to|gramm das; s, e <zu 1↑...gramm> grafische Darstellung einer Häufigkeitsverteilung in Form von Säulen, die den Häufigkeiten der Messwerte entsprechen …   Das große Fremdwörterbuch

  • Histogramm — His|to|grạmm, das; s, e <griechisch> (Statistik grafische Darstellung von Häufigkeiten in Form von Säulen) …   Die deutsche Rechtschreibung

  • Balkendiagramm — Histogramm * * * Bạl|ken|dia|gramm, das: ↑ Diagramm, bei dem die Zahlenwerte in Form von (meist horizontal angeordneten) Balken dargestellt werden: das B. als Instrument des Projektmanagements. * * * Balkendiagramm   [engl. bar chart], ein… …   Universal-Lexikon

  • Grauwertspreizung — Als Punktoperatoren bezeichnet man eine umfangreiche Klasse von Bildverarbeitungsoperationen in der digitalen Bildverarbeitung. Unter dem Oberbegriff der Punktoperatoren lassen sich häufig genutzte Verfahren zur Kontrastverstärkung,… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”