Big Data

Big Data
QS-Informatik

Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen und beteilige dich an der Diskussion! (+)
Begründung: Wikifizierung und OMA-Test --Crazy1880 08:16, 21. Feb. 2011 (CET)

Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard-Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind hierbei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes, Exabytes und Zettabytes.

Nach aktuellen Berechnungen verzehnfacht sich die verfügbare Datenmenge circa alle fünf Jahre. Dieser Trend wird verstärkt durch die zunehmende maschinelle Erzeugung von Daten z. B. über Protokolle von Telekommunikationsverbinden (CDR) und Web-Zugriffen (Weblogs), automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Weitere Beispiele für Big Data gibt es in der Finanzindustrie (Finanz-Transaktionen, Börsendaten), dem Energiesektor (Verbrauchsdaten), Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls große Datenmengen an, z. B. in der Geologie, Genetik, Klimaforschung und Kernphysik.

Kritik gibt es vor allem daran, dass die Daten oft nur nach quantitativen Aspekten erhoben und ausgewertet werden, statistische Grundprinzipien wie Repräsentativität aber nicht gewahrt werden. Dadurch enthalten die so gewonnen Erkenntnisse oft einen verfälschenden Trend.

Inhaltsverzeichnis

Beispiele

Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. Beispiele hierfür sind:

  • zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
  • bessere, schnellere Marktforschung
  • Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection)
  • Einführung und Optimierung von intelligenter Energie-Verbrauchssteuerung (Smart-Meetering)
  • Erkennen von Interdependenzen in der medizinischen Behandlung
  • Real-Time Cross- und Upsellung im eCommerce und stationären Vertrieb
  • Aufbau von flexiblen Billing-Systemen in der Telekommunikation

Verarbeitung von Big Data

Klassische relationale Datenbanksysteme sowie Statistik und Visualisierungstools sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die massiv parallel auf bis zu hunderten oder tausenden von Prozessoren bzw. Servern arbeitet. Hierbei gibt es folgende Herausforderungen

  • Verarbeitung von vielen Datensätzen
  • Verarbeitung von vielen Spalten innerhalb eines Datensatzes
  • schneller Import von großen Datenmengen
  • sofortige Abfragemöglichkeit von importieren Daten (Real-Time-Processing)
  • kurze Antwortzeiten auch bei komplexen Abfragen
  • Möglichkeit zur Verarbeitung von vielen gleichzeitigen Abfragen (Concurrent Queries)

Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce Ansatz, der in der Open Source Software Hadoop, sowie in einigen kommerziellen Produkten (Aster Data, Greenplum, etc) zum Einsatz kommt.

Kritik

Kritik gibt es an "Big Data" vor allem dahingehend, dass die Datenerhebung und Auswertung oft nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten diese Daten zu verarbeiten begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. So kritisierte die Sozialforscherin Danah Boyd[1]:

  • Größere Datenmengen müssen nicht qualitativ bessere Daten sein
  • Nicht alle Daten sind gleich erzeugt
  • "Was" und "Warum" sind zwei unterschiedliche Fragen
  • Vorsicht bei Interpretationen
  • Nur weil es verfügbar sind, ist es nicht ethisch

So ermittelte ein Forscher beispielsweise, dass Nutzer eines sozialen Netzes nicht mehr als 150 Freundschaften pflegen würden - was jedoch lediglich eine technische Begrenzung des Netzwerkes war[1]. Und sicherlich würde nicht jeder alle seine Facebook-Freunde in einem Interview als Freunde benennen - der Begriff eines "Freundes" auf Facebook gibt lediglich eine Kommunikationsbereitschaft an.

Einzelnachweise

  1. a b Danah Boyd: Privacy and Publicity in the Context of Big Data. In: WWW 2010 conference. 29. April 2010, abgerufen am 18. April 2011 (html, englisch, Keynote WWW 2010).

Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Big data — Une visualisation des données créée par IBM montre que les Big data que Wikipedia modifie à l aide du bot (en)  …   Wikipédia en Français

  • Data-centric programming language — defines a category of programming languages where the primary function is the management and manipulation of data. A data centric programming language includes built in processing primitives for accessing data stored in sets, tables, lists, and… …   Wikipedia

  • Big Lots — Big Lots, Inc. Type Public NYSE: BIG S P 500 Component Industry Retail …   Wikipedia

  • Data Intensive Computing — is a class of parallel computing applications which use a data parallel approach to processing large volumes of data typically terabytes or petabytes in size and typically referred to as Big Data. Computing applications which devote most of their …   Wikipedia

  • Big bang adoption — is the adoption type of the instant changeover, when everybody associated with the new system moves to the fully functioning new system on a given date (Eason, 1988).When a new system needs to be implemented in an organization, there are three… …   Wikipedia

  • Big Creek, California — Big Creek   census designated place   …   Wikipedia

  • Big Brother 2007 (UK) — Big Brother endgame seriesname = Big Brother UK series = Eighth series (2007) previous = Big Brother 2006 (UK) next = Big Brother 2008 (UK) imagebg = #fff hm1 = Brian hm1 enter = Day 17 hm1 exit = Day 94 hm1 stat = winner hm3 = Amanda Sam hm3… …   Wikipedia

  • Big Sur — is a sparsely populated region of the central California, United States, coast where the Santa Lucia Mountains rise abruptly from the Pacific Ocean. The terrain offers stunning views, making Big Sur a popular tourist destination. Big Sur s Cone… …   Wikipedia

  • Big Thompson River — Der Big Thompson River im Viestenz Smith ParkVorlage:Infobox Fluss/KARTE fehlt …   Deutsch Wikipedia

  • Big Comic Original — Обложка журнала Специализация: манга Периодичность: раз в две недели Язы …   Википедия

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”