- Big Data
-
Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen und beteilige dich an der Diskussion! (+)
Begründung: Wikifizierung und OMA-Test --Crazy1880 08:16, 21. Feb. 2011 (CET)Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard-Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes, Exabytes und Zettabytes.
Nach aktuellen Berechnungen verzehnfacht sich die verfügbare Datenmenge circa alle fünf Jahre. Dieser Trend wird verstärkt durch die zunehmende maschinelle Erzeugung von Daten z. B. über Protokolle von Telekommunikationsverbinden (CDR) und Web-Zugriffen (Weblogs), automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Weitere Beispiele für Big Data gibt es in der Finanzindustrie (Finanz-Transaktionen, Börsendaten), dem Energiesektor (Verbrauchsdaten), Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls große Datenmengen an, z. B. in der Geologie, Genetik, Klimaforschung und Kernphysik.
Kritik gibt es vor allem daran, dass die Daten oft nur nach quantitativen Aspekten erhoben und ausgewertet werden, statistische Grundprinzipien wie Repräsentativität aber nicht gewahrt werden. Dadurch enthalten die so gewonnen Erkenntnisse oft einen verfälschenden Trend.
Inhaltsverzeichnis
Beispiele
Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. Beispiele hierfür sind:
- zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
- bessere, schnellere Marktforschung
- Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection)
- Einführung und Optimierung von intelligenter Energie-Verbrauchssteuerung (Smart-Meetering)
- Erkennen von Interdependenzen in der medizinischen Behandlung
- Real-Time Cross- und Upsellung im eCommerce und stationären Vertrieb
- Aufbau von flexiblen Billing-Systemen in der Telekommunikation
Verarbeitung von Big Data
Klassische relationale Datenbanksysteme sowie Statistik und Visualisierungstools sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die massiv parallel auf bis zu hunderten oder tausenden von Prozessoren bzw. Servern arbeitet. Hierbei gibt es folgende Herausforderungen
- Verarbeitung von vielen Datensätzen
- Verarbeitung von vielen Spalten innerhalb eines Datensatzes
- schneller Import von großen Datenmengen
- sofortige Abfragemöglichkeit von importieren Daten (Real-Time-Processing)
- kurze Antwortzeiten auch bei komplexen Abfragen
- Möglichkeit zur Verarbeitung von vielen gleichzeitigen Abfragen (Concurrent Queries)
Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce Ansatz, der in der Open Source Software Hadoop, sowie in einigen kommerziellen Produkten (Aster Data, Greenplum, etc) zum Einsatz kommt.
Kritik
Kritik gibt es an "Big Data" vor allem dahingehend, dass die Datenerhebung und Auswertung oft nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten diese Daten zu verarbeiten begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. So kritisierte die Sozialforscherin Danah Boyd[1]:
- Größere Datenmengen müssen nicht qualitativ bessere Daten sein
- Nicht alle Daten sind gleich erzeugt
- "Was" und "Warum" sind zwei unterschiedliche Fragen
- Vorsicht bei Interpretationen
- Nur weil es verfügbar sind, ist es nicht ethisch
So ermittelte ein Forscher beispielsweise, dass Nutzer eines sozialen Netzes nicht mehr als 150 Freundschaften pflegen würden - was jedoch lediglich eine technische Begrenzung des Netzwerkes war[1]. Und sicherlich würde nicht jeder alle seine Facebook-Freunde in einem Interview als Freunde benennen - der Begriff eines "Freundes" auf Facebook gibt lediglich eine Kommunikationsbereitschaft an.
Einzelnachweise
- ↑ a b Danah Boyd: Privacy and Publicity in the Context of Big Data. In: WWW 2010 conference. 29. April 2010, abgerufen am 18. April 2011 (html, englisch, Keynote WWW 2010).
Wikimedia Foundation.