Hirschberg-Algorithmus

Hirschberg-Algorithmus

Der Hirschberg-Algorithmus berechnet das paarweise Sequenzalignment und hat einen zur Eingabe linearen Speicherbedarf. Der in 1970er Jahren von Dan Hirschberg entwickelte Algorithmus verwendet die Methode der Dynamischen Programmierung und das Divide-and-conquer Prinzip.

Inhaltsverzeichnis

Allgemeines

Der Hirschberg-Algorithmus ist ein allgemein einsetzbarer und optimaler Algorithmus zum Auffinden eines Sequenzalignment. Der bekannte BLAST-Algorithmus und der FASTA-Algorithmus sind nur suboptimale Heuristiken. Vergleicht man den Hirschberg-Algorithmus mit dem Needleman-Wunsch-Algorithmus, so handelt es sich beim Hirschberg-Algorithmus weniger um einen komplett neuen Algorithmus, sondern eher um eine clevere Strategie, die den Needleman-Wunsch-Algorithmus geschickt einsetzt, um den Speicherverbrauch zu linearisieren, was auch das Besondere an diesem Algorithmus ist: Die Berechnungen für ein Sequenzalignment benötigen nur linear viel Speicherplatz, womit die Platzkomplexität des Algorithmus in O(n) liegt. Zur Berechnung eines Alignments zweier Zeichenketten x und y mit m = | x | und n = | y | besitzt der Algorithmus eine Laufzeit von Θ(mn) und einen Speicherverbrauch von Θ(min{m,n}).

Anwendung findet der Algorithmus zum Beispiel in der Bioinformatik zum Abgleich verschiedener DNA- oder Proteinsequenzen.

In einer leicht abgewandelten Form wird Hirschbergs Algorithmus auch dazu verwendet um in einem Graphen parallel Zusammenhangskomponenten mit Aufwand Θ(log 2n) auf Θ(n2) Prozessoren zu berechnen.

Berechnung der Levenshtein-Distanz auf linearem Speicherplatz

Zum Verständnis des Hirschberg-Algorithmus ist es zunächst wichtig zu verstehen, dass sich die Levenshtein-Distanz auf linearem Speicherplatz berechnen lässt:

01 T0 := 0
02 for j in 1..n loop
03       Tj := Tj − 1 + Ins(yj)
04 end loop
05 for i in 1..m loop
06       s := T0
07       T0 := T0 + Del(xi)
08       c := T0
09       for j in 1..n loop
10             c := \min\begin{cases}s&+Sub(x_i,y_j)\\ T_j&+Del(x_i)\\c&+Ins(y_j)\end{cases}
11             s := Tj
12             Tj := c
13       end loop
14 end loop

In den Zeilen 1-4 wird das eindimensionale Feld T initialisiert. In Zeile 6 wird die Initialisierung des ersten Elements T0 in s gerettet. Danach wird T0 und c mit dem Startwert für die nächste Zeile initialisiert. Die nachfolgende Abbildung zeigt eine Momentaufnahme eines Zeilendurchlaufs. In der inneren Schleife zeigt c immer auf das jeweils zuvor berechnete Ergebnis, während s das noch benötigte Ergebnis der letzten Zeile sichert. Nach Zeile 14 steht die Levenshtein-Distanz als Ergebnis in Tn.

  ε y1 y2 y3 y4 ...
ε    0  1  2  3  ...
x1   1
x2
...

s = 0
c = T0 = 1

Es sollte klar sein, dass sich diese Berechnung auch rückwärts durchführen lässt. Dabei wird die gedachte Matrix nicht von links nach rechts und von oben nach unten durchlaufen, sondern von rechts unten nach links oben:

01 Tn := 0
02 for j in n-1..0 loop
03       Tj := Tj + 1 + Ins(yj + 1)
04 end loop
05 for i in m-1..0 loop
06       s := Tn
07       Tn := Tn + Del(xi + 1)
08       c := Tn
09       for j in n-1..0 loop
10             c := \min\begin{cases}s&+Sub(x_{i+1},y_{j+1})\\T_j&+Del(x_{i+1})\\c&+Ins(y_{j+1})\end{cases}
11             s := Tj
12             Tj := c
13       end loop
14 end loop

Berechnung des Alignments auf linearem Speicherplatz

Der Divide & Conquer-Algorithmus von Hirschberg berechnet ein Alignment der Zeichenketten | x | und | y | , indem er Vorwärts- und Rückwärtsdurchlauf miteinander kombiniert (Zeilenangaben beziehen sich auf den nachfolgend angegebenen Pseudocode):

1. Wenn | x | = 1 oder | y | = 1 liegt ein triviales Alignment-Problem vor (Zeilen 14 - 22). Ein String bestehend aus nur einem Zeichen muss auf einen anderen String ausgerichtet werden und ein Alignment wird zurückgegeben. Ist | x | > 1 und | y | > 1 geht man über zu Schritt 2.

2. Ein Vorwärtsdurchlauf berechnet ein Alignment von y und der ersten Hälfte von x (Zeilen 27 - 40). Das Ergebnis des Vorwärtsdurchlaufs ist ein Feld T^\ell, dessen Elemente die Kosten für einen Durchlauf von (0,0) bis ( | x | / 2,j) (mit 0\leq j\leq n) angeben.

3. Ein Rückwärtsdurchlauf berechnet ein Alignment von y mit der zweiten Hälfte von x (Zeilen 42 - 55). Das Ergebnis ist ein weiteres Feld Tr, dessen Elemente die Kosten für einen Durchlauf von (n,m) zurück zu ( | x | / 2,j) angeben.

4. In den Feldelementen T^\ell(n) und Tr(0) stehen die beiden Levenshtein-Distanzen für die globalen Alignments von y und den jeweiligen Hälften von x. In den restlichen Elementen von T^\ell stehen die Distanzen von der ersten x-Hälfte zu allen Präfixen von y. Entsprechend enthalten die restlichen Elemente von Tr die Distanzen von der zweiten x-Hälfte zu allen Suffixen von y.

5. Die Levenshtein-Distanz von x zu y kann nun errechnet werden, indem man entlang der mittleren Zeile der Alignment-Matrix läuft und nach einer kleinsten Summe von korrespondierenden T^\ell- und Tr-Elementen sucht. Ist eine solche minimale Summe gefunden, hat man eine Position in der mittleren Zeile gefunden, in der das optimale Alignment die mittlere Zeile bzw. die Mitte von x schneidet. An dieser Stelle wird y in zwei Teile zerteilt und damit kann auch das Alignment-Problem in zwei kleinere Alignment-Probleme zerteilt werden (Zeilen 59 - 65).

6. Schritt 1 wird rekursiv auf den beiden Teilen von x und y aufgerufen. Die beiden rekursiven Aufrufe geben Teil-Alignments zurück, die zu einem einzigen Alignment verknüpft werden. Das Alignment wird zurückgegeben (Zeilen 68 und 69).

01 --
02 -- Der Divide & Conquer-Algorithmus von Hirschberg zur
03 -- Berechnung des globalen Alignments auf linearem Speicher.
04 --
05 -- Bei m =  | x | ,n =  | y | ,n < m besitzt der Algorithmus eine Laufzeit von Θ(nm)
06 -- und einen Speicherverbrauch von Θ(min{n,m}).
07 --
08 function HirschbergAlignment(x,y : string) return A is
09        function SubAlignment(i1,j1,i2,j2 : integer) return A is
10                mitte,cut : integer
11                s,c : real
12                T^\ell,T^r : array(j1..j2) of real
13        begin
14                if i1 + 1 = i2 or j1 = j2 then
15                        -- Konstruiere Matrix T für die Teil-Strings
16                        -- x(i1 + 1..i2) und y(j1 + 1..j2)
17                        -- Achtung: Nur linearer Speicherplatz erforderlich!
18                        T := ...
19                        -- Berechne triviales Alignment auf Matrix T
20                        -- in linearer Laufzeit
21                        return Alignment(T,x(i1 + 1..i2),y(j1 + 1..j2))
22                end if
23
24                mitte := (i1 + i2) / 2
25                -- finde ausgehend von (i1,j1) den minimalen Pfad
26                -- mit dem Vorwärtsalgorithmus:
27                T^\ell(j_1) := 0
28                for j in j1 + 1..j2 loop
29                        T^\ell(j) := T^\ell(j-1) + Ins(y_j)
30                end loop
31                for i in i1 + 1..mitte loop
32                        s := T^\ell(j_1)
33                        c := T^\ell(j_1) + Del(x_i)
34                        T^\ell(j_1) := c
35                        for j in j1 + 1..j2 loop
36                                c := \min\begin{cases}T^\ell(j)&+Del(x_i)\\s&+Sub(x_i,y_j)\\c&+Ins(y_j)\end{cases}
37                                s := T^\ell(j)
38                                T^\ell(j) := c
39                        end loop
40                end loop
41                -- finde minimalen score-pfad nach (i2,j2)
42                Tr(j2) := 0
43                for j in j2 − 1..j1 loop
44                        Tr(j) := Tr(j + 1) + Ins(yj + 1)
45                end loop
46                for i in i2 − 1..mitte loop
47                        s := Tr(j2)
48                        c := Tr(j2) + Del(xi + 1)
49                        Tr(j2) := c;
50                        for j in j2 − 1..j1 loop
51                                c := \min\begin{cases}T^r(j)&+Del(x_{i+1})\\s&+Sub(x_{i+1},y_{j+1})\\c&+Ins(y_{j+1})\end{cases}
52                                s := Tr(j)
53                                Tr(j) := c
54                        end loop
55                end loop
56                -- finde den Punkt aus j1..j2 in dem der Minimale Pfad die
57                -- mittlere Zeile schneidet:
58                -- cut :=_{def} \mbox{argmin}_{j_1\leq j\leq j_2}(T^\ell(j)+T^r(j))
59                for j in j1..j2 loop
60                        if j=j1 then
61                                cut := j1
62                        elsif T^\ell(j)+T^r(j)<T^\ell(cut)+T^r(cut) then
63                                cut := j
64                        end if
65                end loop
66                -- Alignment entsteht durch Konkatenation von linkem und
67                -- rechtem Teil-Alignment:
68                return SubAlignment(i1,j1,mitte,cut)
69                                \star SubAlignment(mitte,cut,i2,j2)
70        end SubAlignment
71        m,n : integer
72 begin
73        m :=  | x | ; n :=  | y | 
74        -- Sonderbehandlung: x ist der leere String und lässt keine Zerteilung zu:
75        if m=0 then
76                return \begin{pmatrix}-\\ y_1\end{pmatrix}\star\begin{pmatrix}-\\ y_2\end{pmatrix}\star\cdots\star\begin{pmatrix}-\\y_n\end{pmatrix}
77        else
78                return SubAlignment(0,0,m,n)
79        end if
80 end HirschbergAlignment

Literatur

  • D. S. Hirschberg: A linear space algorithm for computing maximal common subsequences. In: Communications of the ACM. 18, Nr. 6, 1975, S. 341-343 (PDF).
  • Chao, K.M., Hardison, R.C. and Miller, W.: Recent developments in linear-spacealignment methods: a survey. In: Journal of Computional Biology. Nr. 4, 1994, S. 271–291 (PDF).

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Hirschberg — ist Familienname folgender Personen: ein badisches Adelsgeschlecht, siehe Hirschberger ein bayerisches Adelsgeschlecht, siehe Hirschberg (Adelsgeschlecht) ein oberpfälzisch mittelfränkisches Adelsgeschlecht, siehe Grafen von Grögling Hirschberg… …   Deutsch Wikipedia

  • Linearspace-Algorithmus — Der Hirschberg Algorithmus ist ein Algorithmus der Informatik zum Finden einer bestmöglichen Überdeckung zweier Zeichenketten (Sequenzalignment), der auf Dan Hirschberg zurückgeht. Hierbei wird versucht, die Zeichenkette zu ermitteln, die den… …   Deutsch Wikipedia

  • Needleman-Wunsch-Algorithmus — Der Needleman Wunsch Algorithmus ist ein Verfahren der Bioinformatik. Er wird für den Vergleich zweier Sequenzen (häufig zweier DNA oder Aminosäuresequenzen) genutzt. Hierfür ermittelt er das globale Alignment, d. h. eine Zuordnung der… …   Deutsch Wikipedia

  • Smith-Waterman-Algorithmus — Der Smith Waterman Algorithmus ist ein Algorithmus, der den optimalen lokalen Alignment Score (similarity score) bzw. das optimale lokale Alignment zwischen zwei Sequenzen berechnet. Ein Sequenzalignment ist eine Folge von Edit Operationen (wie z …   Deutsch Wikipedia

  • Gotoh-Algorithmus — Der Gotoh Algorithmus berechnet das Sequenzalignment von zwei Sequenzen bei affinen Gapkosten. Er verwendet das Programmierparadigma der dynamischen Programmierung. Inhaltsverzeichnis 1 Affine Gapkosten 2 Matrix Rekurrenzen 3 Effizienz …   Deutsch Wikipedia

  • Edit-Distanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… …   Deutsch Wikipedia

  • Editierdistanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… …   Deutsch Wikipedia

  • Levenshtein-Abstand — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… …   Deutsch Wikipedia

  • Levenstein-Distanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… …   Deutsch Wikipedia

  • Lewenstein-Distanz — Die Levenshtein Distanz (auch Edit Distanz, Editierdistanz oder Editierabstand) bezeichnet in der Informationstheorie ein Maß für den Unterschied zwischen zwei Zeichenketten bezüglich der minimalen Anzahl der Operationen Einfügen, Löschen und… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”