- Bielefeld Academic Search Engine
-
BASE (Bielefeld Academic Search Engine) ist eine Suchmaschine für wissenschaftliche, multidisziplinäre Internetquellen. Sie wird von der Universitätsbibliothek Bielefeld mit der Suchmaschinentechnologie der Open-Source-Software Solr/Lucene betrieben.[1] BASE wird als strategisches Projekt fortlaufend weiterentwickelt.[2]
Inhaltsverzeichnis
Zielgruppe und Zielsetzung
Das Angebot von BASE richtet sich in erster Linie an Wissenschaftler in Universitäten und Forschungseinrichtungen und an Studierende. Mit der Entwicklung von BASE verfolgt die Universitätsbibliothek das Ziel, mit Hilfe der Suchmaschinentechnologie einen verlässlichen, qualitativ hochwertigen Suchdienst für Forschung und Lehre aufzubauen.[3]
BASE möchte Zugang geben zu den Inhalten wissenschaftlicher Repositorien, die im Rahmen der Open-Access-Bewegung kostenfrei über das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) zur Verfügung gestellt werden. Die Suchmaschine ist als offizieller OAI-Service-Provider[4] registriert und war am EU-Projekt Digital Repository Infrastructure Vision for European Research (DRIVER)[5] beteiligt, welches 2009 abgeschlossen wurde.
Aufgrund der intellektuellen Auswahl der Quellen hat BASE den Anspruch, fachlich qualifizierte Informationen in Verbindung mit umfangreichen und hochwertigen Metadaten zu liefern und sich dadurch von kommerziellen Suchmaschinen zu unterscheiden.[6]
Entwicklungsgeschichte
Chronologie
Datum Ereignis Juni 2001 Aus festgestellten Defiziten einer Metasuchumgebung am Beispiel des Bibiotheksportals "Digitale Bibliothek NRW" entsteht eine neue Konzeptidee: Entwicklung einer nichtkommerziellen Suchmaschine für die wissenschaftliche Nutzung[7] Feb. 2002 - Aug. 2002 Evaluierung von Suchmaschinentechnologie[8] 2003, Sommer Beginn der technischen Umsetzung; Entwicklung eines Prototyps (Math-Demonstrator)[9] Okt. 2003 Bekanntgabe der Zusammenarbeit der UB Bielefeld und der Firma FAST: Beginn einer strategischen Partnerschaft zur Erprobung und Förderung von Enterprise-Suchtechnologien; Vereinbarung über den Einsatz des Systems "FAST Data Search"[10] 2004, Frühjahr Abschluss der Erprobungsphase Juni 2004 Freischaltung der Bielefeld Academic Search Engine[11][12] Aug. 2004 Integration weiterer Quellen (Hochschulschriftenserver, OAI-Quellen, nicht OAI-fähige Quellen); erste Indexierung von Volltexten (elektronische Dissertationen der Ruhruniversität Bochum)[13] Aug. 2005 neue Möglichkeiten der Suchverfeinerung (Einschränkung auf die Datenquelle), verschiedene Treffersortierungen, Suchhistorie über durchgeführte Suchanfragen[14] Feb. 2006 Ersatz der Einzelserverlösung durch Serverfarm (6 Linux-Rechner)[15] Mär. 2006 Integration von trefferbezogenen Links auf die wissenschaftliche Suchmaschine Google Scholar[16] Juni 2006 Beginn der Teilnahme am EU-Projekt DRIVER (Digital Repository Infrastructure Vision for European Research) [17] Mai 2007 Suche nach ähnlichen Wortformen[17] Juli 2007 über 100 deutsche Repositorien in BASE; Einführung eines öffentlichen Testbereichs: BASE Lab[18] Okt. 2007 Multilinguale Suche (Eurovoc-Thesaurus)[19] Juli 2008 Übernahme der Suchergebnisse über Erweiterungen des Firefox-Browsers in Literaturverwaltungsprogramme[20] Jan. 2009 Website-Relaunch: Filterung nach Dokumentenarten in erweiterter Suche[21] Aug. 2010 Mehr als 25 Millionen Dokumente im BASE-Index[22] Feb. 2011 Vorbereitung des Plattform-Wechsels von FAST auf Lucene/Solr[23] Mai 2011 Freigabe des mit Lucene/Solr produzierten BASE-Index[24] Aug. 2011 Mehr als 30 Millionen Dokumente aus über 2.000 Quellen im BASE-Index[25] Inhalte
Wissenschaftliche Internetquellen
Die Inhalte von BASE sind multidisziplinär. Ausgewertet werden ausschließlich wissenschaftliche Quellen. BASE hat den Anspruch, "Internetquellen des 'Unsichtbaren Web', die in kommerziellen Suchmaschinen nicht indexiert werden oder in deren großen Treffermengen untergehen"[6] zu erschließen. BASE bietet an:
- OAI-Metadaten
- Die Suchmaschine enthält in erster Linie Metadaten aus Repositorien, die ihre Inhalte über das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) bereitstellen. Neben den OAI-Metadaten werden ausgewählte Webquellen und lokale Datenbestände der Bibliothek indexiert.[6]
- Daten von lokalen Dokumentenservern der Universität Bielefeld
- Ausgewählte Webseiten (z. B. Webseiten wissenschaftlicher Organisationen)[26]
Auswahl der Quellen und Transparenz
Alle durchsuchten Quellen werden intellektuell ausgewählt und geprüft. Ein Quellenverzeichnis macht die Auswahl transparent.[26][27]
Aktualität und Umfang
Der Index wird täglich aktualisiert, die Inhalte einzelner Dokumentenserver werden wöchentlich ergänzt.[26]
Zurzeit sind 31.044.880 Dokumente aus 2026 Quellen über BASE suchbar[27]. Die Anzahl der Dokumente und Quellen steigt seit Produktionsaufnahme stetig und der Index wird weiter ausgebaut. So werden Repository-Betreiber, die nicht im Quellenverzeichnis aufgeführt sind, gebeten, sich mit dem BASE-Team in Verbindung zu setzen.[27]
Länderabdeckung und Sprachen
Quellen nach Ländern
Insgesamt befinden sich Quellen aus 75 Ländern im Index. Die meisten Repsoitorien stammen aus den USA (377), Deutschland (204), Großbritannien (149), Spanien (115), Japan (105), Brasilien (97), Italien (84), Kanada (68), Australien (67) und Polen (59). Insgesamt führen die englischsprachigen Quellen, gefolgt von den deutschen und spanischen.[27]
Quellen nach Kontinenten
Die europäischen Länder sind am häufigsten vertreten, gefolgt von Nordamerika, Asien, Südamerika, Australien und Afrika.
Kontinent Quellen Dokumente Europa 1030 10.150.926 Nordamerika 454 13.712.004 Asien 274 2.071.692 Südamerika 144 558.292 Australien/Ozeanien 82 2.639.713 Afrika 31 138.517 International / nicht zugeordnet 12 1.888.897 Alle Angaben: Stand 4. Oktober 2011[28]
Lizenzpflichtige Quellen
Die Möglichkeit, nur freie oder nur lizenzpflichtige Quellen zu durchsuchen, wird in BASE nicht mehr angeboten, da immer mehr Repositorien über das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) auch Metadaten zu nicht frei zugänglichen Dokumenten anbieten und BASE deshalb den freien Zugang nicht mehr garantieren kann. Das bedeutet, dass die Metadaten der Dokumente zwar angezeigt werden, diese aber im elektronischen Volltext nicht unbedingt frei zugänglich sind. Ist das Dokument lizenzpflichtig, verweist BASE darauf, dass die Lizenzkontrolle ausschließlich vom Datenlieferanten vorgenommen wird und der Informationssuchende sich an seine Institution oder Universität wenden soll, um den Zugang zu erhalten. BASE weist also nicht ausschließlich Open-Access-Angebote nach.[1]
Funktionen
Die barrierrefreie Benutzeroberfläche von BASE ist einfach und übersichtlich gestaltet. Sie wird grundsätzlich in deutscher und englischer Sprache angeboten, die Rechercheoberfläche zusätzlich in polnisch und spanisch.
Die Startseite von BASE beinhaltet allgemeine Informationen über das Rechercheportal. Von hier aus erfolgt der Übergang zu den einzelnen Funktions- und Recherchebereichen von BASE: Standardsuche, Erweiterte Suche und Hilfe. Die Optionen befinden sich in einer Überschriftleiste, die für alle Rechercheseiten einheitlich gestaltet ist, so dass problemlos zwischen den Funktionen gewechselt werden kann.
Neben den über das Navigationsmenü aufrufbaren allgemeinen Hilfeseiten gibt es zu ausgewählten Funktionen eine kontextsensitive Hilfe. Die allgemeinen Hilfeseiten geben einen Einstieg und Überblick über die Nutzung von BASE.
Recherchefunktionalität
Standardsuche Bewusst am Erfolg von Google orientiert, präsentiert BASE dem Benutzer für den Sucheinstieg die Standardsuche mit nur einem einfachen Suchschlitz, der standardmäßig für die Freitextsuche zur Verfügung steht. Mithilfe einer in der Hilfe erklärten Syntax ist es möglich, die Suche einzelner Begriffe auf einzelne Metadatenfelder zu beschränken. Bei der Eingabe der Suchbegriffe können Platzhalter für eine Rechtstrunkierung verwendet werden.
Zusätzlich bietet die Standardsuche die Option der automatischen Erweiterung der Suchbegriffe auf andere Wortformen (Lemmatisierung).
Erweiterte Suche Die Erweiterte Suche eröffnet standardmäßig die Möglichkeit, die Suchbegriffe spezifisch für die folgenden Metadatenfelder einzugeben: Gesamtes Dokument, Autor, Titel, Schlagwörter und (Teil der) URL. Die Suche im gesamten Dokument entspricht der Standardsuche. Die fünf einzelnen Metadatenfelder können miteinander kombiniert werden. Sie werden automatisch mit dem Booleschen Operator UND verknüpft. Innerhalb eines Suchfeldes können die Suchbegriffe durch verschiedene Boolesche Operatoren über eine spezielle, in der Hilfe dokumentierte Syntax kombiniert werden.
Daneben besteht die Option der Eingrenzung der Suche auf die Herkunft der Quellen (bestimmte Länder oder Kontinente), auf bestimmte Erscheinungsjahre oder –zeiträume sowie auf bestimmte Dokumentarten (z. B. Bücher, Artikel, Dissertationen, Videos). Ebenso kann die Anzahl der in der Trefferliste angezeigten Titel begrenzt werden (10, 20, 30, 50 oder 100).
Ergebnisanzeige Die Suchergebnisse werden in einer Liste ausgegeben, die standardmäßig nach Relevanz sortiert wird. Die Ermittlung der Relevanz erfolgt nach verschiedenen Kriterien, z. B. spielt es eine Rolle, ob der Suchbegriff im Titel oder nur an anderer Stelle vorkommt. Das vorgegebene Ranking kann jedoch verändert und eine benutzerdefinierte Sortierung nach Autor, Titel oder Erscheinungsjahr gewählt werden, optional auf- oder absteigend. Neben der Zahl der Treffer wird auch die Suchdauer angezeigt.
Das einzelne Suchergebnis enthält - soweit vorhanden - umfangreiche, qualifizierte Metadaten (z. B. neben Titel und Autor auch Schlagwörter, Verlag, Quelle, Sprache, Abstract, URL). In die Trefferanzeige integriert ist der
- Link zur Quelle und/oder dem elektronischen Volltext,
- Link zu einer neuen Suchanfrage nach dem Autor,
- Link zu einer Suchanfrage in Google Scholar.
- Durch die Suche nach dem Titel in Google Scholar können mit ihm verknüpfte Zitationen oder verschiedene Versionen des Werkes gefunden werden.
Ist die Treffermenge zu umfangreich, kann sie eingegrenzt werden auf einen Autor, ein Schlagwort, einen Erscheinungszeitraum, eine Quelle, eine Sprache oder einen Dateityp.
Aus der Trefferliste heraus kann durch Änderung der aktuellen Suchfrage direkt eine neue Suche ausgelöst werden. Ebenso kann mit der BASE-Suchfrage eine Suche in Google Scholar gestartet werden. Außerdem werden die letzten zehn Suchanfragen angezeigt, die jeweils neu abgesetzt werden können.
BASE Lab
BASE bietet mit BASE Lab einen öffentlichen Testbereich an, in dem neue Funktionen erprobt werden können. Zur Zeit befinden sich folgende Funktionalitäten im Test[29]:
- Neuer Index auf Basis von Lucene/Solr und Einführung neuer Dienste wie RSS und E-Mail-Versand[23]
- Browsing im Index der Dewey-Dezimalklassifikation (DDC)
- BASE Search Plugin für den Browser (Firefox ab Version 2 und Internet Explorer ab Version 7)
- Einbindung der BASE Suchbox in andere Webseiten inklusive des BASE Logos
Technische Grundlagen
Suchmaschinentechnologie
Technische Basis ist die Suchmaschinentechnologie von Solr und VuFind.[6] Sie ermöglicht
- den Einsatz von linguistischen Verfahren zur Optimierung von Suchanfragen (z. B. Lemmatisierung, Kompositazerlegung, Permutationen)
- Durch automatische Spracherkennung und Erzeugung von Wörterbüchern werden die Suchbegriffe auf weitere Wortformen (Plural, Genitiv) erweitert.
- Relevanz-Ranking der Suchergebnisse
- Die Relevanz wird durch einen in der Software enthaltenen Algorithmus ermittelt
- Nachträgliche Eingrenzung der Treffermenge nach bestimmten Kriterien (Autor, Schlagwort, Erscheinungsjahr, Quelle, Sprache und Dokumentart).
Integration der Datenquellen
Die Daten werden über unterschiedliche Schnittstellen in die Suchmaschine eingebunden, nämlich über[30]
- OAI-Harvesting
- Metadaten ausgewählter OAI-Dokumentenserver werden über das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) eingebunden.
- Web-Crawler
- Inhalte aus wissenschaftlichen Webseiten werden durch einen integrierten Webcrawler eingesammelt. Die hier ermittelten Volltextdaten werden auf enthaltene Metadaten hin analysiert.
Schnittstellen zu Fremdanbietern
BASE ermöglicht durch Links in den Trefferlisten die direkte Suche nach einzelnen Titeln in Google Scholar. Es ist auch möglich, eine Suchanfrage direkt in Google Scholar ausführen zu lassen. In diesen Fällen wird das Internetangebot von BASE komplett verlassen. Nutzt der Anwender BASE vor Ort in einer Bibliothek, können Links in den Google-Trefferlisten zum durch die Bibliothek angebotenen Volltext führen. Dies setzt die Konfiguration seitens der Bibliothek voraus.[31]
Vergleichbare Angebote
Ein ähnliches Angebot wie BASE bieten die wissenschaftlichen Suchmaschinen Scirus vom Elsevier Verlag, OAIster von der University of Michigan und Scientific Commons der Universität St. Gallen. BASE beschränkt sich auf wissenschaftliche Hochschulserver im Gegensatz zu Scirus, das auch viele Zeitschriftenartikel von Verlagen, und zu Scientific Commons, das frei zugängliche wissenschaftliche Informationen ganz allgemein anbietet. OAIster bedient dasselbe Feld wie BASE, ist vom Umfang her aber deutlich kleiner und stellt diese über OCLC und WorldCat zur Verfügung.
Literatur
- Dirk Pieper, Friedrich Summann: Bielefeld Academic Search Engine (BASE): An end-user oriented institutional repository search service. In: Library Hi Tech. Bd. 24, Nr. 4, 2006, S. 614-619. Abruf: 4. Oktober 2011.
- Dirk Pieper, Sebastian Wolf: BASE - Eine Suchmaschine für OAI-Quellen und wissenschaftliche Webseiten. In: Information, Wissenschaft & Praxis (IWP). Bd. 58, Nr. 3, 2007, S. 179-182. Abruf: 4. Oktober 2011.
- Weiterführende Literatur auf der BASE-Website Ueber BASE: Publikationen. Abruf: 4. Oktober 2011.
Weblinks
Einzelnachweise
- ↑ a b FAQ. Stand 4. Oktober 2011.
- ↑ Über BASE: Dienste und Weiterentwicklungen. Stand 4. Oktober 2011.
- ↑ Norbert Lossau: Suchmaschinentechnologie und Digitale Bibliotheken - Bibliotheken müssen das wissenschaftliche Internet erschließen. In: Zeitschrift für Buch- und Bibliothekswesen (ZfBB). 51 (2004), 5/6, S. 293. Abruf: 4.Oktober 2011.
- ↑ Liste der offiziellen OAI-Service-Provider: http://www.openarchives.org/service/listproviders.html. Stand 4. Oktober 2011.
- ↑ Website des Projekts DRIVER: http://www.driver-repository.eu/. Stand 4. Oktober 2011.
- ↑ a b c d Über BASE: Die Suchmaschine. Stand 4. Oktober 2011.
- ↑ Norbert Lossau, Friedrich Summann: Suchmaschinentechnologie und Digitale Bibliotheken: Von der Theorie zur Praxis. In: Zeitschrift für Buch- und Bibliothekswesen (ZfBB). 52 (2005), 1, S. 13. Abruf: 4. Oktober 2011
- ↑ Norbert Lossau, Friedrich Summann: Suchmaschinentechnologie und Digitale Bibliotheken: Von der Theorie zur Praxis. In: Zeitschrift für Buch- und Bibliothekswesen (ZfBB). 52 (2005), 1, S. 13. Abruf: 4. Oktober 2011. Ein Einsatz von Google-Software ist früh an organisatorischen Schwierigkeiten gescheitert. Getestet wurden Convera, Mnogo, Lucene, Fast Data Search.
- ↑ Norbert Lossau, Friedrich Summann: Suchmaschinentechnologie und Digitale Bibliotheken: Von der Theorie zur Praxis. In: Zeitschrift für Buch- und Bibliothekswesen (ZfBB). 52 (2005), 1, S. 13f. Abruf: 4. Oktober 2011. Gemeinsam mit dem Hochschulbibliothekszentrum Köln (hbz) wurde auf Basis dieser Vorarbeiten ein Antrag auf die Teilnahme am nationalen Projekt "Verteilte Dokumentenserver (VDS)" gestellt.
- ↑ Universitätsbibliothek Bielefeld und Branchenführer FAST starten strategische Partnerschaft zur Erprobung und Förderung von Enterprise-Suchtechnologien der neuen Generation für digitale Bibliotheken. Universität Bielefeld, Informations- und Pressestelle: Pressemitteilung Nr. 168/2003. Abruf: 4. Oktober 2011.
- ↑ Norbert Lossau, Friedrich Summann: Suchmaschinentechnologie und Digitale Bibliotheken: Von der Theorie zur Praxis. In: Zeitschrift für Buch- und Bibliothekswesen (ZfBB). 52 (2005), 1, S. 14f. Abruf: 4. Oktober 2011.
- ↑ Urte Kramer: Bielefeld Academic Search Engine. In: InetBib. 24. Juni 24. Abruf: 4. Oktober 2011.
- ↑ Urte Kramer: BASE Update. In: InetBib. 27. August 2004. Abruf: 4. Oktober 2011.
- ↑ Urte Kramer: BASE: neues Release. In: InetBib. 10. August 2005. Abruf: 4. Oktober 2011.
- ↑ Friedrich Summann, Sebastian Wolf: Suchmaschinentechnologie und wissenschaftliche Suchumgebung. In: VÖB Online-Mitteilungen. OM 86 (Juni 2006), S. 6. Abruf: 4. Oktober 2011.
- ↑ Sebastian Wolf: BASE - neues Release mit Google-Scholar-Links. In: InetBib. 2. März 2006. Abruf: 4. Oktober 2011.
- ↑ a b Sebastian Wolf: BASE-Update / DRIVER. In: InetBib. 18. Mai 2007. Abruf: 4. Oktober 2011. Ziel des Projekts ist die Vernetzung wissenschaftlicher Repositorien von Universitäten und Forschungseinrichtungen in Europa. Die UB Bielefeld ist für die Bereiche Harvesting, Aggregation, Speicherung und Indexierung von OAI-Metadaten verantwortlich und bringt in das Projekt ihre durch BASE erworbene Expertise ein.
- ↑ Sebastian Wolf: Mehr als 100 deutsche Repositories in BASE / Neue Features im BASE Lab. In: InetBib. 6. Juli 2007. Abruf: 4. Oktober 2011.
- ↑ Sebastian Wolf: Über 500 Repositories in BASE. In: InetBib. 18. Mai 2007. Abruf: 4. Oktober 2011.
- ↑ Dirk Pieper: BASE Update. In: InetBib. 7. Juli 2008. Abruf: 4. Oktober 2011.
- ↑ Sebastian Wolf: Suchmaschine BASE: Über 1080 Quellen und neue Funktionen. In: InetBib. 3. Februar 2009. Abruf: 4. Oktober 2011.
- ↑ Dirk Pieper: Mehr als 25 Millionen Dokumente in BASE. In: InetBib. 4. August 2010. Abruf: 4. Oktober 2011.
- ↑ a b Dirk Pieper: Neue BASE Version im BASE Lab. Mailingliste InetBib. 14. Februar 2011. Abruf: 4. Oktober 2011.
- ↑ Dirk Pieper: BASE Migration. Posting in der Mailingliste InetBib. 18. Mai 2011. Abruf: 4. Oktober 2011.
- ↑ Sebastian Wolf: Suchmaschine BASE: Über 30 Mio. Dokumente / 2000 Quellen. Posting in der Mailingliste InetBib. 22. August 2011. Abruf: 4. Oktober 2011.
- ↑ a b c Dirk Pieper, Sebastian Wolf: Wissenschaftliche Dokumente in Suchmaschinen. In: Handbuch Internet-Suchmaschinen. Heidelberg, 2009, S. 362. Abruf: 4. Oktober 2011.
- ↑ a b c d Über BASE: Die Quellen (Liste). Abruf: 4. Oktober 2011.
- ↑ Über BASE: Die Quellen (Karten). Abruf: 4. Oktober 2011.
- ↑ BASE Lab. Abruf: 4. Oktober 2011.
- ↑ Norbert Lossau, Friedrich Summann: Suchmaschinentechnologie und Digitale Bibliotheken: Von der Theorie zur Praxis. In: Zeitschrift für Buch- und Bibliothekswesen (ZfBB). 52 (2005), 1, S. 15. Abruf: 4. Oktober 2011.
- ↑ Dirk Pieper, Sebastian Wolf: BASE - Eine Suchmaschine für OAI-Quellen und wissenschaftliche Webseiten. In: Information, Wissenschaft & Praxis (IWP). Bd. 58, Nr. 3, 2007, S. 155. Abruf: 4. Oktober 2011.
- OAI-Metadaten
Wikimedia Foundation.