- BLAST-Algorithmus
-
BLAST (Abk. für engl. Basic Local Alignment Search Tool) ist der Überbegriff für eine Sammlung der weltweit am meisten genutzten Programme zur Analyse biologischer Sequenzdaten. BLAST wird dazu verwendet, experimentell ermittelte DNA- oder Protein-Sequenzen mit bereits in einer Datenbank vorhandenen Sequenzen zu vergleichen. Als Ergebnis liefert das Programm eine Reihe lokaler Alignments, d.h. Gegenüberstellungen von Stücken der gesuchten Sequenz mit ähnlichen Stücken aus der Datenbank. Darüber hinaus gibt BLAST an, wie signifikant die gefundenen Treffer sind. Die Suche in der Datenbank erfolgt entweder über eine Webschnittstelle oder mit Hilfe von verschiedenen Stand-Alone-Programmen, die lokal installiert werden können.
Das Programm BLAST wurde von Stephen Altschul, Warren Gish, David J. Lipman, Webb Miller und Eugene Myers an den National Institutes of Health entwickelt.[1][2] Beteiligt an der Algorithmenentwicklung war auch Samuel Karlin.
Inhaltsverzeichnis
Funktionsweise
Die Idee des Algorithmus basiert auf der Wahrscheinlichkeit, dass Alignments mit vielen Treffern kurze Stücke von großer Identität besitzen. Diese Teilstücke werden dann während der Suche nach besseren und längeren Alignments weiter vergrößert.
Indem diese Segmente kurz gehalten werden, ist es möglich, die Abfragesequenz vor einer Suche zu bearbeiten und eine Tabelle aller möglichen Teilstücke mit ihrem Ursprung in der Originalsequenz vorzuhalten.
Dabei stellt der Algorithmus eine Liste aller benachbarten Worte fester Länge auf, die einen Treffer auf der Abfragesequenz mit einem höheren Scoring als ein zu wählender Parameter erzeugen würden. Anschließend wird die Zieldatenbank nach Worten in dieser Liste abgefragt und die gefundenen Treffer erweitert, um mögliche maximale zusammenhängende Treffer in beiden Richtungen zu finden.
Die Hauptanwendung von BLAST ist die Suche nach paralogen und orthologen Genen und Proteinen innerhalb eines oder mehrerer Organismen.
- siehe auch Hauptartikel Sequenzalignment
Methoden (Auswahl)
Methode Beschreibung blastp Vergleicht eine Aminosäuresequenz gegen eine Proteinsequenzdatenbank PSI-BLAST Position-Specific Iterative BLAST: Benutzt man, um entfernte Verwandte eines Proteins zu bestimmen. Zuerst wird eine Liste aller sehr ähnlichen Proteine erstellt. Über diesen Proteinen wird ein Profil erstellt, eine Art gemittelte Sequenz. Daraufhin sendet man mit diesem Profil erneut eine Suchanfrage an die Proteindatenbank und erhält eine größere Gruppe ähnlicher Sequenzen. Mit dieser Gruppe kann man wieder ein neues Profil erstellen und den Prozess beliebig oft wiederholen. Dadurch, dass verwandte Proteine in die Suche miteinbezogen werden, ist PSI-BLAST viel empfindlicher bei der Ermittlung weit entfernter Verwandtschaften als das gewöhnliche Protein-Protein BLAST.
blastn Vergleicht eine Nukleotidsequenz gegen eine Nukleotidsequenzdatenbank blastx Vergleicht eine Nukleotidsequenz (in allen Leserastern translatiert) gegen eine Proteindatenbank Man kann diese Möglichkeit nutzen, um eine mögliche Translation einer bekannten Nukleotidsequenz zu finden.
tblastn Vergleicht eine Proteinsequenz gegen eine Nukleotiddatenbank (dynamisch in allen Leserastern translatiert) tblastx Vergleicht die six-frame-Translation einer Nukleotidsequenz gegen die six-frame-Translationen einer Nukleotidsequenzdatenbank. tblastx kann nicht mit der Nukleotiddatenbank auf der BLAST Webseite verwendet werden, da sie technisch sehr aufwändig ist!
megablast megablast wird empfohlen zur Suche von identischen Sequenzen zu einer eigenen Sequenz. megablast wurde speziell erstellt, um besonders lange Sequenzen mit vorhandenen Gegenstücken aus der Datenbank abzugleichen. discontiguous megablast wird empfohlen zur Suche nach Übereinstimmungen zwischen Sequenzen, die verteilt vorliegen, z.B. von verschiedenen Organismen stammen, und eine niedrige Übereinstimmungsrate haben.
cdart cdart sucht Sequenzen mit einer möglichst identischen Anordnung von Proteindomänen unter Zuhilfenahme der CDD (=conserved domain)-Datenbank (Import von Übereinstimmungen aus SMART und Pfam) und vergleicht sie mit dem gesuchten Protein und dessen Domänen. Suchergebnisse
Die Homologie der bearbeiteten Suchsequenz wird Anhand von Score und E-Wert definiert.
Der Score ist eine quantitative Bewertung der Ähnlichkeit der Suchsequenz mit einer bekannten Sequenz (je höher, desto höher ist auch die Identität der Sequenzen).
Der E-Wert gibt die erwartete Anzahl der Hits an, deren Score mindestens so groß ist wie der beobachtete (je kleiner, desto besser).
- Die Abkürzungen vor und innerhalb der Suchergebnisse bedeuten (Auswahl):
GenBank gi|gi-number|gb|accession|locus EMBL Data Library gi|gi-number|emb|accession|locus DDBJ, DNA Database of Japan gi|gi-number|dbj|accession|locus NCBI Reference Sequence gi|gi-number|ref|accession|locus SWISS-PROT gi|gi-number|sp|accession|name General database identifier gnl|database|identifier Local Sequence identifier lcl|identifier
Anm: Die gi-Nummer ist eine Abfolge von Ziffern, die einen Datenbankeintrag des NCBI markiert.
Literatur
- Korf, I., Yandell, M., Bedell, J. BLAST. O'Reilly, Sebastopol, CA, 2003, ISBN 0-596-00299-8
- McGinnis S., & Madden T.L., (2004) BLAST: at the core of a powerful and diverse set of sequence analysis tools. Nucleic Acids Res. 32:W20-W25, [1]
- Altschul, Gish, Miller, et.al.(1990) Basic local alignment search tool. Journal of Molecular Biology 215. p. 403-410. PMID 2231712, DOI 10.1006/jmbi.1990.9999
- Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25:3389-3402. Medline
- Geer, L.Y., Domrachev, M., Lipman, D.J. & Bryant, S.H. (2002) CDART: Protein Homology by Domain Architecture Genome Res. 2002 12: 1619-1623. PMID 12368255
- Sansom, C. (2000): Database searching with DNA and protein sequences: an introduction. In: Brief Bioinform. Bd. 1, S. 22-32. PMID: 11466971 PDF
Siehe auch
Weblinks
Einzelnachweise
- ↑ Altschul, Gish, Miller, Myers, Lipman Basic local alignment search tool, J. Mol. Biol., Band 215, 1990, S. 403–410
- ↑ Interview von Altschul bei Sciencewatch 2000 über die Geschichte und die Verbesserung von BLAST
Vom Bioinformatik-Harvester unterstützte DatenbankenNCBI-BLAST | CDART | CDD | Ensembl | Entrez Gene | Flybase | Flymine | Genome-Browser | GeneCard | GFP-cDNA | Google Scholar | GoPubMed | Harvester42 | H-InvDB | HomoloGene | iHOP | IPI | MGI | Mitocheck | OMIM | PolyMeta | PSORT | RGD | Unigene | UniProt | SMART | SOSUI | SOURCE | RZPD | STRING | TAIR | Wikiprofessional | ZFIN |
Wikimedia Foundation.
Schlagen Sie auch in anderen Wörterbüchern nach:
BLAST — bezeichnet: eine junge, nicht endgültig differenzierte Zelle, siehe Blast (Biologie) einer britische Literaturzeitschrift, siehe Blast (Zeitschrift) einen Actionfilm, siehe Blast – Dem Terror entkommt niemand BLAST steht für: Basic Local… … Deutsch Wikipedia
Blast — bezeichnet: eine junge, nicht endgültig differenzierte Zelle, siehe Blast (Biologie) eine britische Literaturzeitschrift, siehe Blast (Zeitschrift) einen Actionfilm, siehe Blast – Dem Terror entkommt niemand BLAST steht für: Basic Local Alignment … Deutsch Wikipedia
Linearspace-Algorithmus — Der Hirschberg Algorithmus ist ein Algorithmus der Informatik zum Finden einer bestmöglichen Überdeckung zweier Zeichenketten (Sequenzalignment), der auf Dan Hirschberg zurückgeht. Hierbei wird versucht, die Zeichenkette zu ermitteln, die den… … Deutsch Wikipedia
Hirschberg-Algorithmus — Der Hirschberg Algorithmus berechnet das paarweise Sequenzalignment und hat einen zur Eingabe linearen Speicherbedarf. Der in 1970er Jahren von Dan Hirschberg entwickelte Algorithmus verwendet die Methode der Dynamischen Programmierung und das… … Deutsch Wikipedia
FASTA-Algorithmus — Der heuristische FASTA Algorithmus wurde 1985 von David J. Lipman und William R. Pearson als FASTP für Proteine entwickelt.[1] Das Programm wurde 1988 auf Nukleotide erweitert.[2] FASTA sucht nach Ähnlichkeiten zwischen Sequenzen oder vergleicht… … Deutsch Wikipedia
Homologene — ist ein Service des National Center for Biotechnology Information (NCBI), welcher Informationen darüber gibt, ob und welche Homologien es für ein bestimmtes Gen in anderen Spezies gibt. Die Verarbeitung der Suchanfragen erfolgt automatisch und… … Deutsch Wikipedia
DNS-Sequenzanalyse — Eine DNA Sequenzanalyse ist in der Molekularbiologie und Bioinformatik die automatisierte, computergestützte Bestimmung von charakteristischen Abschnitten, insbesondere Genen, auf einer DNA Sequenz. Untersucht werden die bei der DNA Sequenzierung … Deutsch Wikipedia
Liste von Algorithmen — Dies ist eine Liste von Artikeln zu Algorithmen in der deutschsprachigen Wikipedia. Siehe auch unter Datenstruktur für eine Liste von Datenstrukturen. Inhaltsverzeichnis 1 Klassen von Algorithmen nach Komplexität 2 Klassen von Algorithmen nach… … Deutsch Wikipedia
Stephen Altschul — Stephen Frank Altschul (* 28. Februar 1957) ist ein US amerikanischer Bioinformatiker, bekannt als Mitentwickler des BLAST Programms in der Gensequenzierung. Altschul, dessen Vater Partner bei Goldman Sachs war und Vorstand der General American… … Deutsch Wikipedia
Blocks Substitution Matrix — Die BLOSUM62 Matrix BLOSUM (BLOcks SUbstitution Matrix[1]) ist eine evidenzbasierte Substitutionsmatrix, die für Sequenzalignment von Proteinen benutzt wird und spielt neben der Point Accepted Mutation Matrix (PAM Matrix) eine wichtige Rolle in… … Deutsch Wikipedia