- Lucene
-
Lucene Entwickler Apache Software Foundation Aktuelle Version 3.4
(14. September 2011)Betriebssystem plattformunabhängig Programmiersprache Java Kategorie Such- und Index-Programmierschnittstelle Lizenz Apache-Lizenz Deutschsprachig Nein lucene.apache.org Lucene ist ein Freie-Software-Projekt der Apache Software Foundation, das eine Suchsoftware erstellt. Durch die hohe Leistungsfähigkeit und Skalierbarkeit können die Lucene-Werkzeuge für beliebige Projektgrößen und Anforderungen eingesetzt werden. So setzt beispielsweise Wikipedia Lucene für die Volltextsuche ein. Zudem verwenden die beiden Desktop-Suchprogramme Beagle und Strigi eine C#- bzw. C++- Portierung von Lucene als Indexer.
Inhaltsverzeichnis
Bestandteile / Unterprojekte
Neben den grundlegenden Eigenschaften von Lucene Core, dem Hauptbestandteil des Projektes, verfügt Lucene über eine reichhaltige Auswahl zusätzlicher Funktionen und Werkzeuge, welche durch eine Open-Source-Gemeinschaft aktiv weiterentwickelt werden:
- Lucene Core (Java)
- Der Hauptbestandteil des Projektes – Lucene Core – ist eine freie Java-Bibliothek zum Erzeugen und Durchsuchen von Text-Indizes (Information-Retrieval-System). Mit ihrer Hilfe lassen sich Volltextsuchen für beliebige Textinhalte implementieren. Sie wurde auf viele Programmiersprachen portiert, darunter Perl, C#, C++, Python, Ruby und PHP. Die Bibliothek setzt sich aus zwei Hauptbestandteilen zusammen: Eine Komponente erzeugt den Index, wobei diesem beliebige Textdokumente hinzugefügt werden. Dieser Index wird danach von einer Query Engine durchsucht.
- Lucene.Net
- ist eine Portierung von Lucene Core (des Quelltext, der Programmierschnittstelle, der Algorithmen und Klassen) zu C# und auf Microsofts .NET-Plattform
- Lucy
- ein C-Portierung von Lucene Core mit Perl- und Ruby-Sprachanbindungen
- PyLucene
- ein Python-Portierung von Lucene Core
- Droids
- Crawler
- Nutch
- eine Anwendung für Websuche, die auf Lucene Java aufbaut
- Solr
- Solr basiert auf Lucene Core und ist eine Volltext-Suchmaschine mit Web-Schnittstelle. Dokumente zur Indexierung übernimmt Solr im XML-Format per HTTP-Request. Suchanfragen werden mittels HTTP GET durchgeführt, Resultate werden als XML oder in anderen Formaten wie JSON zurückgegeben. Solr lässt sich in einen Webserver und Servlet-Container wie Apache Tomcat integrieren. Mit Jetty enthält das Solr-Softwarepaket zudem selbst einen Servlet-Container. Mit dem Release 3.1 sind die Projekte Solr und Lucene zu einer Entwicklung zusammengeführt worden, die von einem gemeinsamen Projektteam weiterentwickelt werden.[1]
- Tika
- ein Parser. Er extrahiert Metadaten oder strukturierten Text aus einer Reihe von Dokumentformaten mittels spezialisierter (möglichst ohnehin existierender) Bibliotheken wie PDFBox oder Apache POI, die einheitlich über Tika angesprochen werden und automatisch ausgewählt werden können.
Geschichte
Doug Cutting begann bereits 1997 während seiner Beschäftigung bei Excite an Lucene zu arbeiten. Die Ansätze verschwanden zunächst wieder in der Schublade, bis zur Veröffentlichung von Version 0.01 als Freie Software am 30. März 2000. Mit Version 1.2 RC1 vom 2. Oktober 2001 wurde es Teil des Apache-Projektes und im Zuge dessen die Lizenz von der bisher verwendeten LGPL auf die Apache-Lizenz umgestellt. Version 2.9 vom 23. September 2009 brachte unter anderem Geschwindigkeitsverbesserungen.[2]
Anhang
Quellen
- ↑ http://lucene.apache.org/solr/#March+2011+-+Solr+3.1+Released
- ↑ http://www.heise.de/open/artikel/Such-Engine-Lucene-in-Version-2-9-erschienen-810377.html
Literatur
- Manfred Hardt, Fabian Theis: Suchmaschinen entwickeln mit Apache Lucene, Entwickler.Press, 2004.
- Erik Hatcher et al.: Lucene in Action, Manning, 2005 (über Lucene 1.4), 2nd ed. 2010 (über Lucene 3.0).
Weblinks
- lucene.apache.org/java – offizielle Internetpräsenz
- Portierungen in andere Programmiersprachen bei wiki.apache.org
- www.lucenetutorial.com – englischsprachige Einführung
Kategorien:- Freie Such-Software
- Apache-Projekt
- Java-Bibliothek
- Java-Programm
Wikimedia Foundation.