FASTA-Format

FASTA-Format

Das FASTA-Format ist ein textbasiertes Format zur Darstellung und Speicherung der Primärstruktur von Nukleinsäuren (Nukleinsäuresequenz) und Proteinen (Proteinsequenz) in der Bioinformatik. Die Nukleinbasen bzw. Aminosäuren werden durch einen Ein-Buchstaben-Code dargestellt. Das Format erlaubt es, den Sequenzen einen Namen und Kommentare voranzustellen.

Die Einfachheit des Formates macht es Textverarbeitungswerkzeugen und Skriptsprachen leicht, die Daten einzulesen und zu verarbeiten.

Inhaltsverzeichnis

Format

Eine Sequenz im FASTA-Format beginnt mit einer einzeiligen Beschreibung, dann folgen die Sequenzdaten. Es wird empfohlen, dass jede Zeile der Datei maximal 80 Zeichen enthalten soll. Eine Sequenz endet mit dem auftauchen einer weiteren Kopfzeile.

Es folgt ein einfaches Beispiel einer Proteinsequenz im FASTA-Format vom Cytochrom b des Asiatischen Elefanten: (siehe auch [1])

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

Kopfzeile

Die Kopfzeile (engl. Headerline) ist die Zeile, die einen (eindeutigen) Namen sowie eine Beschreibung der jeweiligen Sequenz beinhaltet. Sie steht den Sequenzdaten voran und beginnt mit einem Größer-Als-Zeichen (">"). Ohne Leerzeichen folgt daraufhin der Name und/oder eine ID der Sequenz. Viele Sequenzdatenbanken benutzen standardisierte Kopfzeilen, welche es erlauben, automatisch verschiedenen Informationen aus der Kopfzeile zu beziehen. Die Kopfzeile kann auch mehrere IDs enthalten, welche dann durch ein ^A (Control-A) Zeichen separiert werden. (Siehe [2]) Die Kopfzeile in dieser Form ist optional. Wichtig ist, dass mehrere Sequenzen in einer FASTA-Datei durch ein "> + Beschreibung" voneinander getrennt werden.

Kommentare

Nach der Kopfzeile, folgen optional eine oder mehrere Kommentarzeilen, welche jeweils mit einem Semikolon (";") beginnen. Auch das Semikolon muss das erste Zeichen in der jeweiligen Zeile sein. Viele Datenbanken und Anwendungsprogramme erkennen die Kommentare nicht, daher finden sich diese Kommentare praktisch in keiner aktuellen Sequenzdatenbank. Sie sind jedoch Teil des offiziellen Formates. Ein Beispiel einer FASTA-Datei mit mehreren Sequenzen, sowie Kommentarzeilen:

>Sequenz 1
;Kommentarzeile A
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGEVAAQL
>Sequenz 2
;Kommentarzeile B
;Kommentarzeile C
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Sequenzdarstellung

Nach Kopfzeile und Kommentar folgen eine oder mehrere Zeilen, die die Sequenz enthalten. Jede Zeile sollte nicht mehr als 80 Zeichen beinhalten. Sequenzen können Protein- oder Nukleinsäuresequenzen sein, dürfen Lücken und Alinierungszeichen enthalten. Die Sequenzen sollten gemäß den IUB/IUPAC-Standardcodes für Aminosäuren und Nukleinsäuren angegeben werden. Erlaubte Ausnahmen sind hierbei:

  • Kleinbuchstaben sind zulässig, werden aber in Großbuchstaben umgewandelt
  • Ein Binde- oder Gedankenstrich stellt eine Lücke dar
  • In Aminosäuresequenzen stellen "U" und "*" zulässige Zeichen dar. (Siehe unten)
  • Nukleotidsequenzen werden in 5' nach 3' Richtung dargestellt.

Numerische Zeichen sind nicht erlaubt, werden jedoch in einigen Datenbanken verwendet um die Position der Sequenz anzuzeigen.

Erlaubte Codes für Nukleinbasen
Code Bedeutung
A Adenin
C Cytosin
G Guanin
T Thymin
U Uracil
R G A (PuRine)
Y T C (PYrimidine)
K G T (Ketone)
M A C (AMinogruppen)
S G C (Starke Wechselwirkung)
W A T (Weiche Wechselwirkung)
B G T C (nicht A) (B kommt nach A)
D G A T (nicht C) (D kommt nach C)
H A C T (nicht G) (H kommt nach G)
V G C A (nicht T, nicht U) (V kommt nach U)
N A G C T (aNy)
- Lücke unbestimmter Länge
Tabelle II: Erlaubte Codes für Aminosäuren
Code Bedeutung
A Alanin
B Asparaginsäure or Asparagin
C Cystein
D Aspartat
E Glutamat
F Phenylalanin
G Glycin
H Histidin
I Isoleucin
K Lysin
L Leucin
M Methionin
N Asparagin
P Prolin
Q Glutamin
R Arginin
S Serin
T Threonin
U Selenocystein
V Valin
W Tryptophan
Y Tyrosin
Z Glutamat oder Glutamin
X jede Aminosäure
* Stop der Translation
- Lücke unbestimmter Länge

Dateierweiterung

Es gibt keine Standard-Dateierweiterung für eine Textdatei im FASTA-Format. Jedoch werden folgende Erweiterungen häufig verwendet: .fa, .mpfa, .fna, .fsa oder .fasta.

Sequenz-IDs

Das NCBI hat einen Standard für eine ID definiert, die für Sequenzen verwendet werden. Diese "SeqID" wird in der Kopfzeile verwendet. Die Hilfeseite der formatdb gibt folgendes an: "formatdb will automatically parse the SeqID and create indexes, but the database identifiers in the FASTA definition line must follow the conventions of the FASTA Defline Format."

Dies ist jedoch keine endgültige Definition für das Kopfzeilen-Format. Verschiedene Möglichkeiten sind nachfolgend dargestellt:

GenBank gi|gi-number|gb|accession|locus
EMBL Data Library gi|gi-number|emb|accession|locus
DDBJ, DNA Database of Japan gi|gi-number|dbj|accession|locus
NBRF PIR pir||entry
Protein Research Foundation prf||name
SWISS-PROT sp|accession|name
TrEMBL tr|accession|name
Brookhaven Protein Data Bank (1) pdb|entry|chain
Brookhaven Protein Data Bank (2) entry:chain|PDBID|CHAIN|SEQUENCE
Patents pat|country|number
GenInfo Backbone Id bbs|number
General database identifier gnl|database|identifier
NCBI Reference Sequence ref|accession|locus
Local Sequence identifier lcl|identifier

Die vertikalen Striche sind keine Separatoren gemäß der Backus-Naur Form, sondern Teil des Formats.

Siehe auch

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • FASTA format — In bioinformatics, FASTA format is a text based format for representing either nucleic acid sequences or peptide sequences, in which base pairs or amino acids are represented using single letter codes.The format also allows for sequence names and …   Wikipedia

  • Fasta-Format — Das FASTA Format ist ein textbasiertes Format zur Darstellung und Speicherung der Primärstruktur von Nukleinsäuren (Nukleinsäuresequenz) und Proteinen (Proteinsequenz) in der Bioinformatik. Die Nukleinbasen bzw. Aminosäuren werden durch einen Ein …   Deutsch Wikipedia

  • FASTA — is a DNA and Protein sequence alignment software package first described (as FASTP) by David J. Lipman and William R. Pearson in 1985 in the article [http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve db=pubmed dopt=Abstract list… …   Wikipedia

  • FASTA — steht für: FASTA Algorithmus, ein Programm zur Erfassung von Proteinen und Nukleotiden FASTA Format, ein textbasiertes FormatBKL zur Darstellung und Speicherung der Primärstruktur von Nukleinsäuren Diese Seite ist eine Begriffsklärung …   Deutsch Wikipedia

  • FASTA-Algorithmus — Der heuristische FASTA Algorithmus wurde 1985 von David J. Lipman und William R. Pearson als FASTP für Proteine entwickelt.[1] Das Programm wurde 1988 auf Nukleotide erweitert.[2] FASTA sucht nach Ähnlichkeiten zwischen Sequenzen oder vergleicht… …   Deutsch Wikipedia

  • Stockholm format — is a Multiple sequence alignment format used by Pfam and Rfam to disseminate protein and RNA sequence alignmentscite journal |author=Griffiths Jones S, Moxon S, Marshall M, Khanna A, Eddy SR, Bateman A |title=Rfam: annotating non coding RNAs in… …   Wikipedia

  • Formato FASTA — Saltar a navegación, búsqueda En bioinformática, el formato FASTA es un formato de fichero informático basado en texto, utilizado para representar secuencias bien de ácidos nucleicos, bien de péptido, y en el que los pares de bases o los… …   Wikipedia Español

  • Sequence alignment — In bioinformatics, a sequence alignment is a way of arranging the sequences of DNA, RNA, or protein to identify regions of similarity that may be a consequence of functional, structural, or evolutionary relationships between the sequences.[1]… …   Wikipedia

  • BLAST — Infobox Software name=BLAST developer=Myers, E., Altschul S.F., Gish W., Miller E.W., Lipman D.J., NCBI latest release version=2.2.18 operating system=UNIX, Linux, Mac, MS Windows genre=Bioinformatics tool license=Public Domain website=… …   Wikipedia

  • T-Coffee — Infobox Software name=T Coffee developer=Cédric Notredame, CNRS Information Génomique et Structurale latest release version=6.92 latest release date = 2008 09 12 operating system=UNIX, Linux, MS Windows|genre=Bioinformatics tool website=… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”