Blocks Substitution Matrix

Blocks Substitution Matrix
Die BLOSUM62-Matrix

BLOSUM (BLOcks SUbstitution Matrix[1]) ist eine evidenzbasierte Substitutionsmatrix, die für Sequenzalignment von Proteinen benutzt wird und spielt neben der Point Accepted Mutation Matrix (PAM-Matrix) eine wichtige Rolle in der Bioinformatik. Die BLOSUM wurde 1992 von Jorja G. Henikoff und Steven Henikoff entwickelt. Es existieren verschiedene Matrizen für unterschiedliche evolutionäre Distanzen. [2]

Inhaltsverzeichnis

Berechnung

BLOSUM verwendet einzelne Blöcke (ohne Lücken) von homologen Proteinen, die verglichen werden. Es existieren verschiedene BLOSUM, welche für verschiedene Anwendungsbereiche konzipiert sind. So sind BLOSUM mit hohen Nummern wie BLOSUM80 für evolutionär nahe verwandte Proteine geeignet und solche mit tiefen Nummern wie BLOSUM45 für stark divergierende Proteine geeignet. Die Autoren der BLOSUM haben entsprechend der Matrixnummer alle Blöcke, die eine höhere Sequenzidentität als die festgelegte Prozentzahl aufwiesen, zu einer einzigen Sequenz zusammengefügt (clustering), um damit den Einfluss von nahe verwandten Blöcken zu mindern. So wurden für BLOSUM80 alle Sequenzen mit mehr als 80% Sequenzidentität zusammengefügt, so dass alle verbleibenden Sequenzen untereinander verglichen weniger als 80% Identität hatten.[2] In die Matrix eingetragen werden die log-odds Werte:

S_{ij}= \left( \frac{1}{\lambda} \right)\log {\left( \frac{p_{ij}}{q_i * q_j} \right)}

wobei pi,j die Wahrscheinlichkeit die Aminosäuren i und j in einem Alignment zu finden und qi bzw. qj die Häufigkeit der Aminosäuren überhaupt bezeichnet. λ ist ein Normalisierungsfaktor, die Werte werden auf ganze Zahlen gerundet. Somit ist der Logarithmus größer als Null und eine positive Score resultiert, wenn die beiden Aminosäuren häufiger in einem Alignment gefunden werden als nur durch Zufall erwartet würde. So ist z.B. der Wert für eine Substitution von Tryptophan mit Tyrosin in der BLOSUM62 mit 2 größer als Null, was bedeutet, dass Tryptophan zu Tyrosin (und umgekehrt) häufiger mutiert als nur durch Zufall zu erwarten wäre - dies macht auch aufgrund der ähnlichen physikalischen und chemischen Eigenschaften der beiden Aminosäuren Sinn. Die größte Score wird jedoch meist für die Identität beobachtet, so hat ein Tryptophan, das ein Tryptophan bleibt eine Score von 11 und ein Tyrosin, das ein Tyrosin bleibt, eine Score von 7.
Der Vorteil der log-odds ist, dass diese addiert werden können anstatt multipliziert wie normalerweise Wahrscheinlichkeiten und dies die Berechnung numerisch einfacher macht. Die Wahrscheinlichkeit selber kann einfach zurückgewonnen werden, indem die Score exponenziert wird.

Verwendung

BLOSUM mit hohen Zahlen (z.B. BLOSUM80) werden für den Vergleich von nahe verwandten Sequenzen verwendet während BLOSUM mit tiefen Zahlen für den Vergleich von entfernt verwandten Proteinen verwendet wird. Oftmals wird ein Alignment von zwei Sequenzen durch die Verwendung der BLOSUM evaluiert. So hat z.B. das folgende Alignment

EKNGFPA 
| | |
EMQGRWA

mit der BLOSUM62 die Score 7.

Die Algorithmen, welche entweder globales (Needleman & Wunsch) oder lokales (Smith & Waterman) paarweises Sequenzalignment durchführen, verwenden für Proteinsequenzen oft BLOSUM als Substitutionsmatrix, allerdings kann dies frei gewählt werden. Die Algorithmen BLAST oder FASTA, welche eine Datenbank nach einer bestimmten Sequenz durchsuchen, verwenden für Proteinsuchen auch häufig BLOSUM. Dabei ist der Benutzer oftmals nicht in exakten Treffern interessiert und wenn auch verwandte aber nicht identische Proteine gesucht werden, dann kann mithilfe der BLOSUM evaluiert werden, ob das Alignment zu einem bestimmten Protein in der Datenbank signifikant ist oder nicht.

Einzelnachweise

  1. Im Akronym BLOSUM steht das letzte 'M' bereits für 'Matrix' und deshalb ist es falsch, von einer 'BLOSUM matrix' zu sprechen, da dies ein redundantes Akronym ist.
  2. a b Henikoff S, Henikoff JG: Amino acid substitution matrices from protein blocks. Proceedings of the National Academy of Sciences USA. 1992 Nov 15;89(22):10915-9. PMID 1438297

Weblinks

Siehe auch


Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Substitution matrix — In evolutionary biology, a substitution matrix describes the rate at which one character in a sequence changes to other character states over time. Substitution matrices are usually seen in the context of amino acid or DNA sequence alignments,… …   Wikipedia

  • Matrix — Contents 1 Science and mathematics 2 Technology 3 Arts and entertainment …   Wikipedia

  • Blosum-Matrix — In der Bioinformatik beschreiben die Einträge in einer Substitutionsmatrix eine relative Rate, mit welcher im Laufe der Evolution eine Aminosäure in eine andere mutiert (für den Fall einer Protein Matrix). Dabei gibt der Eintrag aij die relative… …   Deutsch Wikipedia

  • Substitutions Matrix — In der Bioinformatik beschreiben die Einträge in einer Substitutionsmatrix eine relative Rate, mit welcher im Laufe der Evolution eine Aminosäure in eine andere mutiert (für den Fall einer Protein Matrix). Dabei gibt der Eintrag aij die relative… …   Deutsch Wikipedia

  • Substitution cipher — In cryptography, a substitution cipher is a method of encryption by which units of plaintext are replaced with ciphertext according to a regular system; the units may be single letters (the most common), pairs of letters, triplets of letters,… …   Wikipedia

  • Matrix (mathematics) — Specific elements of a matrix are often denoted by a variable with two subscripts. For instance, a2,1 represents the element at the second row and first column of a matrix A. In mathematics, a matrix (plural matrices, or less commonly matrixes)… …   Wikipedia

  • Matrix decomposition — In the mathematical discipline of linear algebra, a matrix decomposition is a factorization of a matrix into some canonical form. There are many different matrix decompositions; each finds use among a particular class of problems. Contents 1… …   Wikipedia

  • Polygraphic substitution — A polygraphic substitution is a cipher in which a uniform substitution is performed on blocks of letters. When the length of the block is specifically known, more precise terms are used: for instance, a cipher in which pairs of letters are… …   Wikipedia

  • Blosum — Die BLOSUM62 Matrix BLOSUM (BLOcks SUbstitution Matrix[1]) ist eine evidenzbasierte Substitutionsmatrix, die für Sequenzalignment von Proteinen benutzt wird und spielt neben der Point Accepted Mutation Matrix (PAM Matrix) eine wichtige Rolle in… …   Deutsch Wikipedia

  • BLOSUM — Die BLOSUM62 Matrix BLOSUM (BLOcks SUbstitution Matrix[1]) ist eine evidenzbasierte Substitutionsmatrix, die für Sequenzalignment von Proteinen benutzt wird und spielt neben der Point Accepted Mutation Matrix (PAM Matrix) eine wichtige Rolle in… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”