Shift-Or

Der Baeza-Yates-Gonnet-Algorithmus bzw. Shift-or-Algorithmus, der auch unter dem Namen Shift-and bekannt ist, löst das String Matching-Problem indem er einen nichtdeterministischen Automaten simuliert. Unter anderem wird eine Abwandlung dieses Algorithmus bei dem Unix-Tool grep benutzt.

Da die Implementierung auf Bit-Operationen zurückgeführt werden kann, ist der Algorithmus alleine von der Ausführung her bereits sehr effizient. Kombiniert man dies mit dem zu Grunde liegenden System (im Preprocessing einmal Schleife über das Muster, während der Suche einmal Schleife über den Text) ergibt sich ein extrem effizienter Algorithmus.

Grundlage

Grundlage des Algorithmus bildet eine Menge von Vektoren $R j$ mit folgender Definition:

$R_{j+1}[i] = \begin{cases} 1, &amp; \mbox{falls }i=0\\1, &amp; \mbox{falls }R_j[i-1]=1 \mbox{ und } Musterzeichen_i=Eingabezeichen_{j+1}\\0, &amp; \mbox{sonst}\end{cases}$

Anschaulich bedeutet dies, dass $R j [i]$ genau dann $1$ ist, wenn nach der Verarbeitung von $j$ Zeichen des Textes die letzten $i$ Zeichen mit den ersten $i$ Zeichen des Suchmusters übereinstimmen.

Ein Treffer für ein Suchmuster mit Länge $m$ ist demnach gefunden, falls $R j [m] = 1$ .

Weiterhin werden die charakteristischen Vektoren für alle möglicherweise im Text vorkommenden Zeichen benötigt:

$s_a[i] = \begin{cases} 1, &amp; \mbox{falls im Suchmuster an Stelle } i \mbox{ das Zeichen } a \mbox{ steht}\\0, &amp; \mbox{sonst} \end{cases}$

Beispiel:

Suchmuster $a b c a c$ , Länge $m = 5$

Charakteristische Vektoren:

$\begin{matrix} &amp; s_a &amp; s_b &amp; s_c &amp; s_d &amp; ...\\ a &amp; 1 &amp; 0 &amp; 0 &amp; 0 &amp; ...\\ b &amp; 0 &amp; 1 &amp; 0 &amp; 0 &amp; ...\\ c &amp; 0 &amp; 0 &amp; 1 &amp; 0 &amp; ...\\ a &amp; 1 &amp; 0 &amp; 0 &amp; 0 &amp; ...\\ c &amp; 0 &amp; 0 &amp; 1 &amp; 0 &amp; ... \end{matrix}$

Ablauf (exaktes Matching)

Um den Ablauf zu vereinfachen, wird zunächst eine spezielle Bit-Operation $B i t s h i f t$ bzw. $\gg$ für den Vektor $R$ eingeführt: $R=\begin{matrix} 0\\ 0\\ 0\\ 0\\ 0 \end{matrix} \to Bitshift(R) = \begin{matrix} 1\\ 0\\ 0\\ 0\\ 0 \end{matrix} \to Bitshift(R) = \begin{matrix} 1\\ 1\\ 0\\ 0\\ 0 \end{matrix} \to Bitshift(R) = \begin{matrix} 1\\ 1\\ 1\\ 0\\ 0 \end{matrix}$

Der Algorithmus für exakte Übereinstimmungen lässt sich nun auf wenige einfache Schritte reduzieren:

Initialisiere den $R$ -Vektor mit 0 (für alle Positionen) und beginne mit dem ersten Zeichen des zu durchsuchenden Textes
Verschiebe alle Bits in $R$ mittels $B i t s h i f t$ um eine Position nach rechts.
Führe eine $U N D$ -Verknüpfung von $R$ und dem charakteristischen Vektor des aktuellen Textzeichens durch.
Gehe zum nächsten Textzeichen. Falls Ende erreicht, breche ab, sonst gehe zu (2)

Die Schritte (2) und (3) führen bei genauer Betrachtung genau die Berechnungsvorschrift für $R$ aus: Durch das Shiften wird aus dem "alten" $R$ das Zeichen an Stelle $i$ an die Stelle $i + 1$ angelegt (entspricht in Kombination mit $U N D$ der Bedingung $R j [i] = 1$ ). Der charakteristische Vektor des aktuellen Textzeichens enthält an der Stelle $i + 1$ genau dann eine $1$ , falls Muster und Text hier übereinstimmen. Durch das $U N D$ werden beide Bedingungen verknüpft.

Beispiel (exaktes Matching)

Muster: $a b c a c$ , $m = 5$

Text: $a b c a b c a c$

$\begin{vmatrix} i \setminus &amp; R_0 &amp; \gg &amp; s_a &amp; R_1\\ 1 &amp; 0 &amp; 1 &amp; 1 &amp; 1 \\ 2 &amp; 0 &amp; 0 &amp; 0 &amp; 0 \\ 3 &amp; 0 &amp; 0 &amp; 0 &amp; 0 \\ 4 &amp; 0 &amp; 0 &amp; 1 &amp; 0 \\ 5 &amp; 0 &amp; 0 &amp; 0 &amp; 0 \end{vmatrix} \begin{vmatrix} \gg &amp; s_b &amp; R_2\\ 1 &amp; 0 &amp; 0 \\ 1 &amp; 1 &amp; 1 \\ 0 &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 \end{vmatrix} \begin{vmatrix} \gg &amp; s_c &amp; R_3 \\ 1 &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 \\ 1 &amp; 1 &amp; 1 \\ 0 &amp; 0 &amp; 0 \\ 0 &amp; 1 &amp; 0 \end{vmatrix} \begin{vmatrix} \gg &amp; s_a &amp; R_4 \\ 1 &amp; 1 &amp; 1 \\ 0 &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 \\ 1 &amp; 1 &amp; 1 \\ 0 &amp; 0 &amp; 0 \end{vmatrix} \begin{vmatrix} \gg &amp; s_b &amp; R_5 \\ 1 &amp; 0 &amp; 0 \\ 1 &amp; 1 &amp; 1 \\ 0 &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 \\ 1 &amp; 0 &amp; 0 \end{vmatrix} \begin{vmatrix} \gg &amp; s_c &amp; R_6 \\ 1 &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 \\ 1 &amp; 1 &amp; 1 \\ 0 &amp; 0 &amp; 0 \\ 0 &amp; 1 &amp; 0 \end{vmatrix} \begin{vmatrix} \gg &amp; s_a &amp; R_7 \\ 1 &amp; 1 &amp; 1 \\ 0 &amp; 0 &amp; 0 \\ 0 &amp; 0 &amp; 0 \\ 1 &amp; 1 &amp; 1 \\ 0 &amp; 0 &amp; 0 \end{vmatrix} \begin{vmatrix} \gg &amp; s_c &amp; R_8 \\ 1 &amp; 0 &amp; 0 \\ 1 &amp; 0 &amp; 0 \\ 0 &amp; 1 &amp; 0 \\ 0 &amp; 0 &amp; 0 \\ 1 &amp; 1 &amp; 1 \end{vmatrix}$

Da $R 8 [5] = 1$ liegt ein Treffer bei $8 - 5 + 1$ (Position − Musterlänge + Korrektur für erstes Zeichen) vor.

Erweiterung (approximatives Matching)

Der Algorithmus kann durch leichte Modifikationen eine fehlertolerante Suche durchführen. Hierfür wird der Vektor $R$ aufgeteilt:

$R_j^0[i]$ : entspricht dem vorherigen $R j [i]$ ; Der Index $0$ steht für die Anzahl der aufgetretenen Fehler.
$R_j^1[i]$ : Bezeichnet einen $R$ -Vektor, der auf Treffer mit maximal einem Fehler ausgerichtet ist.
...
$R_j^k[i]$ : Bezeichnet einen $R$ -Vektor, der auf Treffer mit maximal $k$ Fehlern ausgerichtet ist.

Achtung: Bei den fehlerbehafteten Vektoren ist die obige Interpretation mit „nach j Zeichen stimmen die letzten i mit den ersten i des Musters überein“ schwierig und nicht mehr unbedingt einleuchtend.

Die Berechnungsvorschrift für $R_j^0[i]$ bleibt unverändert. Für Fehlervektoren $R_{j+1}^k$ wird nach der verursachenden Aktion unterschieden:

Einfügen eines Zeichens in das Suchmuster

$R_{j+1}^k = (Bitshift(R_j^k)\ \wedge\ s_x) \quad \vee \ R_j^{k-1}$

Interpretation: $R_j^k[i]=1$ , falls nach $j$ Zeichen der Eingabe von den letzten $i + k$ Zeichen mindestens $i$ Zeichen mit dem Suchmuster übereinstimmen und der Rest durch Einfügen der fehlenden Zeichen zur Übereinstimmung gebracht werden kann.

Löschen eines Zeichens aus dem Suchmuster

$R_{j+1}^k = (Bitshift(R_j^k)\ \wedge\ s_x) \quad \vee \ Bitshift(R_{j+1}^{k-1})$

Erläuterung: Der erste Teil des Ausdrucks beschreibt den Fall, dass bereits $k$ Fehler vorhanden sind, aber das aktuelle Zeichen von Text und Muster übereinstimmen. Der zweite Teil beschreibt den Fehlerfall: Schaut man sich bei $j + 1$ Zeichen des Textes nicht die ersten $i$ Zeichen an, sondern nur die ersten $i - 1$ (im Vektor die Position darüber), so stimmt das Muster bis auf $k - 1$ Fehler überein. Das $i .$ Zeichen des Musters wird daraufhin einfach gelöscht.

Ersetzen eines Zeichens im Muster

$R_{j+1}^k = (Bitshift(R_j^k)\ \wedge\ s_x) \quad \vee \ Bitshift(R_j^{k-1})$

Erläuterung: Der erste Teil des Ausdrucks beschreibt den Fall, dass bereits $k$ Fehler vorhanden sind, aber das aktuelle Zeichen von Text und Muster übereinstimmen. Der zweite Teil beschreibt den Fehlerfall: Nach $j$ Zeichen stimmten die letzten $i - 1$ Zeichen überein. Ersetzt man nun also das $i .$ Zeichen im Muster durch das $j + 1.$ Zeichen des Textes, stimmen auch nach $j + 1$ Zeichen die letzten $i$ Zeichen mit den ersten $i$ Zeichen des „neuen“ Musters überein.

Die Varianten können mittels $O D E R$ beliebig verknüpft werden.

Weblinks

StringSearch – high-performance pattern matching algorithms in Java (Implementierungen des Shift-Or-Algorithmus in Java; englisch)

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

Shift — generally means to change (position). Shift may refer to: * Gear shift, to change gears in a car * Shift work, an employment practice * Shift (music), a change of level in music * Shift (magazine), a former Canadian technology and culture… … Wikipedia
Shift — (sh[i^]ft), v. t. [imp. & p. p. {Shifted}; p. pr. & vb. n. {Shifting}.] [OE. shiften, schiften, to divide, change, remove. AS. sciftan to divide; akin to LG. & D. schiften to divide, distinguish, part Icel. skipta to divide, to part, to shift, to … The Collaborative International Dictionary of English
shift — shift; shift·abil·i·ty; shift·able; shift·er; shift·ful; shift·i·ly; shift·i·ness; shift·less; shift·man; make·shift; blue·shift·ed; make·shift·ness; shift·less·ly; shift·less·ness; … English syllables
Shift — Shift, n. [Cf. Icel. skipti. See {Shift}, v. t.] 1. The act of shifting. Specifically: (a) The act of putting one thing in the place of another, or of changing the place of a thing; change; substitution. [1913 Webster] My going to Oxford was not… … The Collaborative International Dictionary of English
Shift — Расположение клавиши Shift Shift клавиша на клавиатуре компьютера, предназначенная для ввода заглавных букв. При одновременном нажатии клавиши … Википедия
shift — ► VERB 1) move or change from one position to another. 2) Brit. informal move quickly. 3) (shift oneself) Brit. informal move or rouse oneself. 4) Brit. remove (a stain). 5) informal sell (goods) quickly or in large quantities. 6) … English terms dictionary
shift — [shift] vt. [ME schiften < OE sciftan, to divide, separate < IE * skeib > SHIP] 1. to move or transfer from one person, place, or position to another [to shift the blame] 2. to replace by another or others; change or exchange 3. to… … English World dictionary
Shift — steht für: die Umschalttaste beziehungsweise Hochstelltaste auf Tastaturen Schiften beim Segeln in der Fotografie als Shift Effekt, um Bilder perspektivisch zu entzerren, und Tilt und Shift Objektive, mit denen diese Aufgabe schon bei der… … Deutsch Wikipedia
Shift TV — ist ein webbasierter Dienst, der Internetnutzern seit März 2005 die Möglichkeit bietet, auf einen netzwerkbasierten TV Rekorder, der in einem Rechenzentrum steht, Programme deutscher TV Sender aufzuzeichnen. shift TV wird von der 1997 gegründeten … Deutsch Wikipedia
Shift — Shift, v. i. 1. To divide; to distribute. [Obs.] [1913 Webster] Some this, some that, as that him liketh shift. Chaucer. [1913 Webster] 2. To make a change or changes; to change position; to move; to veer; to substitute one thing for another;… … The Collaborative International Dictionary of English
shift — [n1] switch, fluctuation about face*, alteration, bend, change, changeover, conversion, deflection, deviation, displacement, double, fault, modification, move, passage, permutation, rearrangement, removal, shifting, substitution, tack, transfer,… … New thesaurus

Academic dictionaries and encyclopedias

Shift-Or

Inhaltsverzeichnis

Grundlage

Ablauf (exaktes Matching)

Beispiel (exaktes Matching)

Erweiterung (approximatives Matching)

Einfügen eines Zeichens in das Suchmuster

Löschen eines Zeichens aus dem Suchmuster

Ersetzen eines Zeichens im Muster

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Shift-Or

Inhaltsverzeichnis

Grundlage

Ablauf (exaktes Matching)

Beispiel (exaktes Matching)

Erweiterung (approximatives Matching)

Einfügen eines Zeichens in das Suchmuster

Löschen eines Zeichens aus dem Suchmuster

Ersetzen eines Zeichens im Muster

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link