- Information Retrieval Facility
-
Das Information Retrieval Facility (kurz IRF) ist eine Forschungsplattform und dient der Zusammenarbeit von Experten im Bereich der Information Retrieval (IR). Sie wurde 2006 gegründet und hat ihren Sitz in Wien. Das IRF ist das weltweit erste E-Science-System, das ausschließlich der semantischen Verarbeitung von Text gewidmet ist. Vorsitzender des wissenschaftlichen Vorstandes ist Cornelis Joost van Rijsbergen. Zu den Mitarbeitern zählen unter Anderem Experten, Forscher und Studenten in den Bereichen Information Retrieval und Informationsmanagement.
Inhaltsverzeichnis
Ziele
Die wissenschaftlichen Ziele von Information Retrieval Facility sind:
- Modellierung innovativer und fachbezogener Information-Retrieval-Systeme für globale Patentdokumentsammlungen.
- Die Erforschung und Entwicklung einer adäquaten technischen Infrastruktur, die interaktive Experimente mit formalen und mathematischen Retrieval-Konzepten für sehr große Dokumentsammlungen ermöglicht.
- Die Untersuchung der Usability von Multi Modal User-Interfaces sehr groß angelegter Information-Retrieval-Systeme
- Integration von Usern und deren Bedürfnissen in den Prozess der Modellierung von Information-Retrieval-Systemen um eine genaue Leistungsbewertung zu ermöglichen.
- die Möglichkeit unterschiedliche Ansichten von Patentdaten in Abhängigkeit von deren Fokus zu gewährleisten.
- Definition standardisierter Methoden für die Bewertung der Information-Retrieval-Prozesse in den Patentschriftkollektionen
- die Fähigkeit Text-und Nicht-Text-Teile eines Patents in einer kohärenten Weise in den Griff zu bekommen.
- das Entwerfen, die Erprobung und Bewertung von Suchmaschinen die es ermöglichen strukturierte und semi-strukturierte Dokumente in sehr großen Patent-Sammlungen zu finden.
- Die Integration der zeitlichen Dimension von Patentdokumenten in Retrieval-Strategien.
- Die Verbesserung der Effizienz und Präzision von Patent-Retrieval basierend auf Ontologien und verschiedenen Sprach-Techniken.
- Verbesserte IR-Methoden mit denen die Nutzung unstrukturierter Abfragen innerhalb eines Patentdokuments möglich wird.
- Formale (mathematische) Identifikation und Spezifikation von Business-relevanten Informationen im Bereich der Intellectual Property
- Erforschung von effizienten Skalierungsmechanismen im Information-Retrieval Bereich unter Berücksichtigung der Merkmale von Patentdaten.
- Die Ermittlung und das Experimentieren mit Computing-Architekturen für sehr hohes Kapazität-Informations-Management.
- Die Schaffung einer offene E-Science-Plattform die auf eine einheitliche und einfache Weise die Erstellung und Durchführung von IR-Experimenten auf einer gemeinsamen Forschungsinfrastruktur ermöglicht.
- Die Entdeckung und Erforschung neuartiger Anwendungszwecke und Business-Anwendungen, die sich aus Informationen der Intellectual Property ergeben.
- Aktivieren der formalen Information Retrieval, Sprachen und semantische Verarbeitungen in den Bereich der angewandten Wissenschaften, in der globalen, industriellen Kontext zu bringen.
- Entwicklung und Integration von verschiedenen Informations-Zugriffsmethoden Forschung über effektive Methoden für die interaktive Information-Retrieval.
Semantic Supercomputing
Aktuelle Technologien zur Extraktion von Konzepten aus unstrukturierten Dokumenten sind mit intensiver Rechenleistung verbunden. Um das interaktive Experimentieren mit großen Text-Korpusen zu ermöglichen, besitzt das IRF eine High-Performance-Computing-Umgebung. Diese ist mit den neuesten Technologien ausgestattet:
- Multi-Node Cluster (gegenwärtig 80 Core, bis zu 1024)
- Höchstgeschwindigkeits-Interconnect Technologie
- Single System Image mit großem Compound Memory (gegenwärtig 320 GB, bis zu 4 TB)
- voll integriertes konfigurierbares Computing (gegenwärtig 4 FPGA Core, bis zu 256)
Die Kombination all dieser HPC Funktionen zur Beschleunigung des Text Mining Vorgangs repräsentiert IRF Weg zur Umsetzung des semantischen Supercomputing.
Welt Patent Corpus
Die Zielsetzung des IRF ist mit State-of-the-art Information-Retrieval-Technologien eine Plattform für Patent-Experten zu schaffen. Es wird erwartet dass die Information Retrieval (IR)-Technologien in den Mittelpunkt der Informationstechnologie treten werden. Alle Branchen profitieren von der Anwendung der Text Mining-Verfahren auf die jeweils speziellen Anforderungen der Patent-Forschung. Obwohl alle Ideen und Konzepte universell für alle Arten des geistigen Eigentums anwendbar sind sieht man sich doch immer wieder mit anspruchsvollen technischen und organisatorischen Probleme konfrontiert.
Der gesamte Korpus der Patent-Dokumente stellt möglicherweise den größten Korpus von zusammengesetzten Dokumenten dar, der es Text Mining Wissenschaftlern und Endnutzern gleichermaßen erlaubt, ihn zu für ihre Zwecke zu nutzen. Mehr noch Patente haben sich zu einem entscheidenden Thema insbesondere für große globale Unternehmen und Universitäten entwickelt. Die industriellen Anwender von Patentdaten gehören zu den anspruchsvollsten und wichtigsten Informationsprofis überhaupt. Als Folge daraus könnten genau diese Zielgruppen am meisten von einer Technologie profitieren die ihnen bei der Erforschung großer Datenmengen hilft.
Weblinks
- Offizielle Seite: ir-facility.org
- YouTube: The future of information retrieval Part1
- YouTube: The future of information retrieval Part2
Referenzen
Kategorien:- Information Retrieval
- Semantik
- Computerlinguistik
- Angewandte Linguistik
- Organisation (Wien)
- Modellierung innovativer und fachbezogener Information-Retrieval-Systeme für globale Patentdokumentsammlungen.
Wikimedia Foundation.