UIMA

UIMA: UIMA

Maintainer Apache Software Foundation

Entwickler IBM jetzt Apache Software Foundation

Aktuelle Version 2.3.0

Betriebssystem plattformunabhängig

Programmiersprache Java / C++

Kategorie Natural language processing

Lizenz Apache License

[1]

UIMA (Unstructured Information Management Architecture, deutsch Architektur zur Verwaltung unstrukturierter Informationen) ist ein Framework zur Programmierung von NLP-Anwendungen, d. h. zur Sprachverarbeitung.

Das Projekt UIMA wurde 2005 von IBM gestartet und wird seit Oktober 2006 von Apache betreut. Ziel des Projekts ist es, ein standardisiertes Framework zum Erstellen von Anwendungen zur Verarbeitung unstrukturierter Informationen, insbesondere natürlicher Sprache (Natural Language Processing, NLP) zu bieten. Unstrukturierte Informationen können in beliebigen Formaten vorliegen, z. B. Bild- oder Audio-Daten, jedoch sind Texte die gängigsten Informationen.

Das Konzept von UIMA sieht vor, dass eine Pipeline implementiert wird, in der zunächst Daten eingelesen werden, diese dann verschiedene Analyse- und Verarbeitungsschritte durchlaufen und schließlich an einen oder mehrere sogenannte Verbraucher geliefert werden, die die Ergebnisse verarbeiten, z. B. in einer Datenbank speichern. In jedem einzelnen Analyse-Schritt werden die Daten mit bestimmten Annotationen versehen, d. h. ein definierter Bereich der Datenmenge, also beispielsweise ein Teil des Texts, bekommt eine Anmerkung. Durch die starke Modularisierung in Pipelinestufen können die einzelnen Stufen leicht wiederverwendet werden.

Ein Beispiel für eine Pipeline ist eine simple Anwendung, die die durchschnittliche Anzahl von Wörtern pro Satz in einem Text berechnen soll. Hierzu wird zunächst eine Pipelinestufe benötigt, die den Text einliest, z. B. aus einer Datei. Die zweite Stufe durchläuft den Text und markiert alle Wörter, indem alle Positionen von Leerzeichen im Text ermittelt werden. Die dritte Stufe führt analog dazu eine Satz-Erkennung durch, indem Markierungen von Satzzeichen zu Satzzeichen gesetzt werden. Diese beiden Schritte sind unabhängig voneinander und könnten demnach auch vertauscht werden. Die letzte Pipelinestufe muss nun nur noch die Anzahl markierter Wörter durch die Anzahl markierter Sätze teilen und ausgeben. Eine Erweiterung könnte nun sein, die Anzahl der Verben pro Satz zu zählen, hierzu würde nach der dritten Stufe eine Wortart-Erkennung eingebaut, die jedes Wort mit einer Annotation wie „Verb“, „Nomen“ usw. versieht, und der Verbraucher würde statt der Wort-Annotationen die Wortart-Annotationen zählen, die „Verb“ entsprechen; alle anderen Teile der Pipeline können wiederverwendet werden. UIMA übernimmt in dieser Anwendung die Verwaltung der Pipeline und die interne Repräsentation der zu verarbeitenden Daten samt Annotationen, außerdem bietet es dem Entwickler alle nötigen Schnittstellen zum Einlesen und Auslesen der Informationen.

UIMA wird insbesondere in der NLP-Forschung eingesetzt, entwickelt sich aber auch immer mehr zum Industrie-Standard für NLP-Anwendungen.

Weblinks

UIMA-Projektseite bei Apache

Kategorien:
Computerlinguistik
Angewandte Linguistik
Apache-Projekt
Freies Programmierwerkzeug

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

UIMA — stands for Unstructured Information Management Architecture. It is a component software architecture for the development, discovery, composition, and deployment of multi modal analytics for the analysis of unstructured information and its… … Wikipedia
uimă — ÚIMĂ, uime, s.f. (pop.) Inflamaţie a ganglionilor limfatici (de la gât şi de la subsuori); scurtă. [var.: údmă s.f.] – cf. ngr. í d h m a umflătură dureroasă . Trimis de ana zecheru, 13.09.2007. Sursa: DEX 98 ÚIMĂ s. v. scurtă … Dicționar Român
UIMA — (Unstructured Information Management applications, Aplicaciones para la administración de información no estructurada) son sistemas de software que analizan grandes volúmenes de información no estructurada con el fin de descubrir que es lo… … Wikipedia Español
UIMA — abbr. Unstructured Information Management Architecture (IBM) … Dictionary of abbreviations
simmisskrubu — uima allas … Suomen slangisanakirjaa
Languageware — is a natural language processing (NLP) technology, developed by IBM, that allows applications to understand natural language text. It comprises a light weight set of Java libraries which provide a range of NLP functions; language identification,… … Wikipedia
Ukrainian Institute of Modern Art — The Ukrainian Institute of Modern Art (UIMA) (Ukrainian: Український Інститут Модерного Мистецтва, Ukrayinskyi Instytut Modernoho Mystetstva ) is a modern art museum serving the greater Chicago area with an ongoing program of cultural exhibitions … Wikipedia
Text mining — Text mining, sometimes alternately referred to as text data mining , roughly equivalent to text analytics , refers generally to the process of deriving high quality information from text. High quality information is typically derived through the… … Wikipedia
Temis (éditeur logiciel) — Pour les articles homonymes, voir Temis. Logo de Temis (éditeur logiciel) Personnages clés … Wikipédia en Français
Data mining — Not to be confused with analytics, information extraction, or data analysis. Data mining (the analysis step of the knowledge discovery in databases process,[1] or KDD), a relatively young and interdisciplinary field of computer science[2][3] is… … Wikipedia

Academic dictionaries and encyclopedias

UIMA

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

UIMA
Maintainer	Apache Software Foundation
Entwickler	IBM jetzt Apache Software Foundation
Aktuelle Version	2.3.0
Betriebssystem	plattformunabhängig
Programmiersprache	Java / C++
Kategorie	Natural language processing
Lizenz	Apache License
[1]

Academic dictionaries and encyclopedias

Deutsch Wikipedia

UIMA

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link