String-Matching-Algorithmus

String-Matching-Algorithmus: Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen und beteilige dich an der Diskussion! (+)
Begründung: Hat seit 2005 Allgemeinen Überarbeitenbaustein. Einleitungssatz mit 8 Kommata ist nicht gerade verständlich.--Flegmon 20:05, 11. Mai 2011 (CEST)

In der Informatik sind String-Matching-Algorithmen eine Gruppe von Algorithmen, die das Finden von Textsegmenten in einer Zeichenkette (engl. string) anhand eines vorgegebenen Suchmusters beschreiben. Sie zählen somit zur Klasse der Zeichenkettenalgorithmen.

Im engeren Sinne suchen diese Algorithmen nach exakten Übereinstimmungen (engl. matches). Im weiteren Sinne sind auch Algorithmen gemeint, die ungefähre Übereinstimmungen zulassen, wobei der Begriff ungefähr durch ein Toleranzkriterium genau definiert sein muss.

Das Problem besteht darin, diese Aufgabe möglichst effizient zu lösen. In der Praxis ist dies bedeutsam, wenn in großen Textmengen (wie z. B. Wikipedia) Suchbegriffe gefunden werden sollen.

Inhaltsverzeichnis

1 Exakte Suche

1.1 Problemstellung

1.2 Lösungsmethoden

1.2.1 Naiver Algorithmus

1.2.2 Der Knuth-Morris-Pratt-Algorithmus

1.2.3 Suche im Suffixbaum

1.3 Übersicht

1.4 Weitere Algorithmen

2 Mustervergleichssuche

3 Unscharfe Suche

4 Siehe auch

5 Weblinks

6 Einzelnachweise

Exakte Suche

Problemstellung

Grundsätzlich sind zwei Situationen zu unterscheiden:

Nach Vorgabe einer Suchmaske sollen beliebige Texte durchsucht werden.

Der Text ist vorgegeben, und dann sollen beliebige Suchmasken im Text gefunden werden.

Der zweite Fall entspricht etwa der Aufgabe, die Wikipedia derart aufzubereiten, dass beliebige Suchmasken schnell und effizient aufgefunden werden. Auch Suchmaschinen im Internet finden sich in der zweiten Situation.

Im Folgenden wird jedoch nur auf die erste Situation eingegangen.

Lösungsmethoden

Naiver Algorithmus

Der einfachste Algorithmus besteht darin, ein so genanntes Suchfenster von der Länge der Suchmaske über den Text zu schieben. In jeder Position der Suchmaske werden die Symbole der Maske mit denen des darunterliegenden Textes verglichen. Wenn ein nichtübereinstimmendes Symbol gefunden wird, wird das Fenster um eine Position verschoben, und erneut ein Vergleich angestellt; wenn alle Symbole im Fenster übereinstimmen, ist die Suchmaske gefunden worden. Der Algorithmus endet, wenn der ganze Text vom Fenster abgesucht worden ist.

Dieser Algorithmus hat eine Laufzeit von der Ordnung O=n·m, wenn m die Länge der Suchmaske und n die Länge des Textes ist.

Pseudocode:

Eingabe: Strings T = T₁... T_n und P = P₁ ... P_m Ausgabe: q die Stellen an denen P in T auftritt

For q = 0 to n − m do If P₁ = T_q+1 and P₂ = T_q+2 and ... and P_m = T_q+m: Print q

Überraschenderweise ist der naive Ansatz in der Praxis sehr schnell, da Fehler in natürlichsprachigen Texten nach 1 bis 2 Zeichen auftauchen. Für die englische Sprache ergibt sich eine Wahrscheinlichkeit von 1.07 Zeichen. Somit ist der naive Ansatz nahezu linear schnell.

Dies wird auch deutlich wenn man sich den ungünstigsten Fall selbst ansieht. Er lautet

Text: aaa...aab Muster: ab

Derartige Fälle sind in natürlich sprachlichen Texten äußerst unwahrscheinlich.

Der Knuth-Morris-Pratt-Algorithmus

Der Knuth-Morris-Pratt-Algorithmus baut auf dem naiven Suchalgorithmus auf. Wesentlicher Unterschied ist, dass das Vergleichsfenster nicht immer um nur eine Position weitergerückt wird, sondern eventuell um mehr als eine Position.

Dazu muss zu Anfang die Suchmaske analysiert werden, so dass bei jeder teilweisen Übereinstimmung, etwa der ersten k Symbole, bekannt ist, ob der Anfang der Suchmaske mit dem Ende der letzten übereinstimmenden Teilmaske übereinstimmt. Die Verschiebung der Suchmaske erfolgt nach der überlappenden Übereinstimmung; zusätzlicher Vorteil ist, dass die schon verglichenen Symbole nicht noch einmal verglichen werden müssen.

Suche im Suffixbaum

Insbesondere, wenn der zu durchsuchende Text im voraus bekannt ist, und in diesem später nach vielen unterschiedlichen Mustern gesucht werden soll, bietet sich die Konstruktion eines Suffixbaums an. Diese Konstruktion kann in O(n) erfolgen. Anschließend kann jedes Muster ohne erneute Vorbereitung des Texts in O(m) gesucht werden: Sofern es vorhanden ist, kann man von der Quelle des Suffixbaums den entsprechenden Knoten erreichen, ansonsten schlägt die Suche fehl (es ist kein entsprechender Knoten vorhanden).^[1]

Übersicht

Vorbereitungszeit Suchzeit

Naiver Algorithmus 0 (keine) Θ(n·m)

Rabin-Karp-Algorithmus Θ(m) average Θ(n+m),
worst Θ(n·m)

Endlicher Automat O(m |Σ|) Θ(n)

Knuth-Morris-Pratt-Algorithmus Θ(m) Θ(n)

Boyer-Moore-Algorithmus^[2] Θ(m) average Θ(n/m),
worst Θ(n)

Shift-Or-Algorithmus (Bitap Algorithmus, Baeza-Yates-Gonnet) Θ(m+|Σ|) Θ(n)

Suche im Suffixbaum Θ(n) Θ(m)

Wobei m die Länge der Suchmaske und n die Länge des Textes ist.

Weitere Algorithmen

Boyer-Moore-Algorithmus:

Skip-Search-Algorithmus

Baeza-Yates-Gonnet-Algorithmus („shift-or“)

Soundex

Kölner Phonetik

Mustervergleichssuche

Hauptartikel: Pattern Matching

Die Suche nach Mustern ist zwischen unscharfer und exakter Suche anzusiedeln, da der Benutzer explizit angeben muss, welchen Spielraum er für bestimmte Zeichenklassen an bestimmten String-Positionen zulässt.

Unscharfe Suche

Hauptartikel: unscharfe Suche, phonetische Suche

Bei der unscharfen Suche entscheidet üblicherweise der Algorithmus nach Vorgabe eines Güte- oder Abstandskriteriums, wie groß die Abweichung von Treffern gehen darf.

Siehe auch

Suchverfahren

Levenshtein-Distanz (approximative Suche)

Volltextrecherche

Weblinks

Java-Animationen, die die Funktionsweise so gut wie aller exakten Suchalgorithmen veranschaulichen

StringSearch – high-performance pattern matching algorithms in Java – Implementierungen vieler String-Matching-Algorithmen in Java (BNDM, Boyer-Moore-Horspool, Boyer-Moore-Horspool-Raita, Shift-Or)

einfache und ausführliche Erklärung des Boyer-Moore-Algorithmus

Shift-And- (Shift-Or-)Algorithmus

Einzelnachweise

↑ Gusfield, Dan (1999 [1997]) Algorithms on Strings, Sequences and Trees. ISBN 0-521-58519-8. Kapitel 7.1.APL1.

↑ R. S. Boyer, J. S. Moore: A fast string searching algorithm. In: Comm. ACM. 20, 1977, S. 762–772. doi:10.1145/359842.359859.

Kategorie:
Suchalgorithmus

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

String-Matching-Algorithmen — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. String Matching Algorithmen, etwa Zeichenketten Übereinstimmungs… … Deutsch Wikipedia
String Matching — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. String Matching Algorithmen, etwa Zeichenketten Übereinstimmungs… … Deutsch Wikipedia
Algorithmus von Knuth-Morris-Pratt — Der Knuth Morris Pratt Algorithmus wurde nach Donald Ervin Knuth, James Hiram Morris und Vaughan Ronald Pratt benannt und ist ein String Matching Algorithmus. Seine asymptotische Laufzeit ist linear in der Länge des Musters (auch Suchbegriff,… … Deutsch Wikipedia
String-Algorithmus — Bei Zeichenkettenalgorithmen (englisch string algorithms) handelt es sich um Algorithmen, die auf Zeichenketten arbeiten. Dabei werden beispielsweise Übereinstimmungen innerhalb eines oder zwischen mehreren Zeichenketten gesucht. Anwendungen sind … Deutsch Wikipedia
Boyer-Moore-Algorithmus — Der Boyer Moore Algorithmus ist ein String Matching Algorithmus. Der Algorithmus wird dazu genutzt, um in einem Text T einen bestimmten Teiltext (Muster M) zu finden und wurde 1977 von Robert S. Boyer und J Strother Moore entwickelt.… … Deutsch Wikipedia
Knuth-Morris-Pratt-Algorithmus — Der Knuth Morris Pratt Algorithmus wurde nach Donald Ervin Knuth, James Hiram Morris und Vaughan Ronald Pratt benannt und ist ein String Matching Algorithmus. Seine asymptotische Laufzeit ist linear in der Länge des Musters (auch Suchbegriff,… … Deutsch Wikipedia
Pattern matching — (engl. für Musterabgleich) oder musterbasierte Suche ist ein Begriff für symbolverarbeitende Verfahren, die anhand eines vorgegebenen Musters diskrete Strukturen oder Teilmengen einer diskreten Struktur identifizieren. Inhaltsverzeichnis 1… … Deutsch Wikipedia
Pattern Matching — (engl. für Musterabgleich) oder musterbasierte Suche ist ein Begriff für symbolverarbeitende Verfahren, die anhand eines vorgegebenen Musters diskrete Strukturen oder Teilmengen einer diskreten Struktur identifizieren. Inhaltsverzeichnis 1… … Deutsch Wikipedia
Shift-And-Algorithmus — Der Baeza Yates Gonnet Algorithmus bzw. Shift or Algorithmus, der auch unter dem Namen Shift and bekannt ist, löst das String Matching Problem indem er einen nichtdeterministischen Automaten simuliert. Unter anderem wird eine Abwandlung dieses… … Deutsch Wikipedia
Shift-Or-Algorithmus — Der Baeza Yates Gonnet Algorithmus bzw. Shift or Algorithmus, der auch unter dem Namen Shift and bekannt ist, löst das String Matching Problem indem er einen nichtdeterministischen Automaten simuliert. Unter anderem wird eine Abwandlung dieses… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

String-Matching-Algorithmus

Inhaltsverzeichnis

Exakte Suche

Problemstellung

Lösungsmethoden

Naiver Algorithmus

Der Knuth-Morris-Pratt-Algorithmus

Suche im Suffixbaum

Übersicht

Weitere Algorithmen

Mustervergleichssuche

Unscharfe Suche

Siehe auch

Weblinks

Einzelnachweise

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

	Vorbereitungszeit	Suchzeit
Naiver Algorithmus	0 (keine)	Θ(n·m)
Rabin-Karp-Algorithmus	Θ(m)	average Θ(n+m), worst Θ(n·m)
Endlicher Automat	O(m \|Σ\|)	Θ(n)
Knuth-Morris-Pratt-Algorithmus	Θ(m)	Θ(n)
Boyer-Moore-Algorithmus^[2]	Θ(m)	average Θ(n/m), worst Θ(n)
Shift-Or-Algorithmus (Bitap Algorithmus, Baeza-Yates-Gonnet)	Θ(m+\|Σ\|)	Θ(n)
Suche im Suffixbaum	Θ(n)	Θ(m)

Academic dictionaries and encyclopedias

Deutsch Wikipedia

String-Matching-Algorithmus

Inhaltsverzeichnis

Exakte Suche

Problemstellung

Lösungsmethoden

Naiver Algorithmus

Der Knuth-Morris-Pratt-Algorithmus

Suche im Suffixbaum

Übersicht

Weitere Algorithmen

Mustervergleichssuche

Unscharfe Suche

Siehe auch

Weblinks

Einzelnachweise

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link