Unstrukturierte Daten

Unstrukturierte Daten

In der Wirtschaftsinformatik und Computerlinguistik sind unstrukturierte Daten digitalisierte Informationen, die in einer nicht formalisierten Struktur vorliegen und auf die dadurch von Computerprogrammen nicht über eine einzelne Schnittstelle aggregiert zugegriffen werden kann. Beispiele sind digitale Texte in natürlicher Sprache und digitale Tonaufnahmen menschlicher Sprache.

Inhaltsverzeichnis

Einordnung

Unterschieden werden unstrukturierte Daten von strukturierten und semistrukturierten Daten. Betrachtet man eine E-Mail, so liegt diese in einer gewissen Struktur vor: Sie enthält einen Empfänger, einen Absender und eventuell einen Titel. Damit gehört sie zu den semistrukturierten Daten. Der Inhalt der E-Mail selbst ist jedoch strukturlos.

Die automatische Nutzbarkeit unstrukturierter Daten ist dadurch eingeschränkt, dass für sie kein Datenmodell und meist auch keine Metadaten vorliegen. Auch in Textdokumenten sind Metadaten und Daten vermischt. Um Strukturen daraus zu gewinnen, ist Modellierung erforderlich. Des Weiteren wird von unstrukturierten Daten im Zusammenhang mit der Ablage von Dokumenten ohne vorhandenem Data-Warehousing gesprochen.[1] Dadurch sind diese nicht indizierbar und können dementsprechend nicht gemeinsam durchsucht werden.

Bedeutung

Viele Daten sind bei ihrem Ursprung unstrukturiert. Sie gewinnen Struktur, indem sie durch menschliche Intervention in ein Schema gebracht werden. Der Vorgang der Strukturierung kann Nachteile hervorrufen, da er oft mit einem Informationsverlust verbunden ist. Im Unternehmensumfeld liegen oftmals wichtige Informationen in unstrukturierten Daten vor, deren Nichterfassung auch rechtliche Probleme verursachen kann.[2] Daher befassen sich die Felder Wissensmanagement und Datenmanagement mit deren Integration und Verwaltung.

Um die unstrukturierten Daten mit Strukturen zu versehen, existiert im Bereich Open Source das Framework UIMA (Unstructured Information Management Architecture). Dies ist ein Framework zum Erstellen von Anwendungen zur Verarbeitung von unstrukturierten Informationen.

Behandlung von unstrukturierten Daten

Speziell für die Strukturierung der Daten können folgende Verfahren in Betracht gezogen werden:

  1. Textanalyse und Textmining existieren schon seit vielen Jahren auf dem Markt. Die Produkte dafür weisen eine solide Marktreife auf. Verschiedene kleine spezialisierte Hersteller haben Werkzeuge dafür entwickelt. Manche Business-Intelligence-Hersteller haben solchen Technologien auf Druck des Marktes dazu gekauft. Textmining kann manuell, durch statistische Verfahren, über maschinelles Lernen oder über die Verarbeitung der natürlichen Sprachen erfolgen. Es kann Begriffe und Konzepte in Thesauri liefern, die unabdingbar für zusätzliche Business-Intelligence-Analysen werden können.[3][4]
  2. Maschinelles Lernen basiert auf statistische Verfahren wie Bayesian, neuronalen Netzwerke, oder latenten semantischen Analyse (LSA). Es ist viel effektiver als die klassischen statistischen Verfahren, jedoch nicht überall anwendbar. Es erfordert Überwachung und Training der Maschinen, und wie bei den Data-Mining Verfahren ist ein tiefes Wissen der Materie notwendig.[3]
  3. Linguistische Verfahren können schneller als maschinelles Lernen sein, und manchmal auch akkurater. Sie können Ambiguität reduzieren, benötigen aber nach wie vor die menschliche Intervention. Hier sind die Modelle in Vergleich zu LSA und maschinellem Lernen einfacher zu verstehen.
Siehe auch: Datenmodellierung

Einzelnachweise

  1. Computerwoche: Unstrukturierte Daten, Der ungehobene Schatz
  2. cio.de: Unstrukturierte Daten: Die Bombe tickt
  3. a b Computerwoche: Auf Datensuche mit Textmining und Web-Mining
  4. BI Kennzahlen benötigen einen Kontext , beyenetwork, 1. Dezember 2009 (englisch)

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Daten — sind „zum Zweck der Verarbeitung zusammengefasste Zeichen, die aufgrund bekannter oder unterstellter Abmachungen Informationen (d. h. Angaben über Sachverhalte und Vorgänge) darstellen“ (Gabler). [1] Etymologie (Duden): Plural von Datum; von …   Deutsch Wikipedia

  • Computerdaten — Daten sind logisch gruppierte Informationseinheiten (engl., aber auch in der Informationstheorie Datum, von lat. dare = geben, datum = das Gegebene), die zwischen Systemen übertragen werden oder auf Systemen gespeichert sind. Inhaltsverzeichnis 1 …   Deutsch Wikipedia

  • Unternehmensdaten — Der Begriffs Unternehmensdaten kann eine mehrfache Bedeutung haben. Erstens umfasst er alle Daten die in einem Unternehmen im Rahmen der elektronischen Datenverarbeitung intern anfallen, zweitens sind damit die Daten gemeint, mit denen das… …   Deutsch Wikipedia

  • Google Inc. — 37.422222222222 122.08444444444 Koordinaten: 37° 25′ 20″ N, 122° 5′ 4″ W Google Inc …   Deutsch Wikipedia

  • Enterprise Search — bzw. Unternehmensweite Suche bezeichnet ein Teilgebiet von Information Retrieval und bezeichnet den Vorgang der computergestützten inhaltsorientierten Suche mit Hilfe einer unternehmensinternen Suchmaschine, welche Content mittels so genannter… …   Deutsch Wikipedia

  • Wissensentdeckung in Datenbanken — Knowledge Discovery in Databases (KDD), zu Deutsch Erkenntnisgewinnung aus Datenbeständen, umfasst das geläufigere Data Mining (data mining) und vorbereitende Analysen hierzu. Ziel des KDD ist die Erkennung bislang unbekannter fachlicher… …   Deutsch Wikipedia

  • Content Repository for Java Technology API — (JCR) ist eine Spezifikation für eine Java Plattform API, um auf Content in einer einheitlichen Methode zuzugreifen.[1][2] Content Repositories werden von den unterschiedlichsten Informationssystemen genutzt, die beliebige Dokumente zusammen mit… …   Deutsch Wikipedia

  • Input Management — Unter Input Management versteht man die Herangehensweise zur digitalen Erfassung von geschäftsrelevanten Daten (Content), die Auswahl von geeigneter Hard und Software und die Anbindung an nachfolgende Geschäftsanwendungen. Erfasst werden im Input …   Deutsch Wikipedia

  • Collanos — Workplace Entwickler Collanos Software Aktuelle Version 1.4 (11. Dezember 2008) Betriebssystem …   Deutsch Wikipedia

  • Volltextdatenbank — Volltextdatenbank,   ein Form von Datenbank, in der Texte, wie etwa Zeitungs und Zeitschriftenartikel, Patentschriften, Gesetzestexte o. Ä. vollständig gespeichert werden. Im Unterschied zu anderen Datenbanken werden hier also unstrukturierte… …   Universal-Lexikon

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”