- Basensequenz
-
Die Nukleotidsequenz oder Basensequenz ist in der Genetik die Abfolge der Nukleotide einer Nukleinsäure. Bei DNA-Sequenzen werden für die vier Basen Adenin, Guanin, Thymin und Cytosin die Symbole A, G, T und C verwendet. RNA-Sequenzen werden auf die gleiche Weise dargestellt, die Nukleinbase Thymin ist hier allerdings durch Uracil ersetzt. Daher setzen sich RNA-Sequenzen aus den Symbolen A, C, G und U zusammen.
Übereinkunftsgemäß wird die Nukleotidsequenz vom 5'-Ende zum 3'-Ende des Stranges gelesen, in der gleichen Richtung, in der die Polymerase die Nukleinsäure synthetisiert.
Bestimmung
Eine DNA-Sequenz wird durch DNA-Sequenzierung ermittelt. DNA-Sequenzen werden unter anderem in großen öffentlichen Sequenzdatenbanken wie z. B. GenBank gespeichert.
Statistische Analyse
Aufgrund der Darstellung als Symbolfolge lässt sich die DNA statistisch gut untersuchen. Es kann beispielsweise die Häufigkeit so genannter n-Tupel, d. h. das Vorkommen von Teilwörtern der Länge n untersucht werden. So taucht im menschlichen Genom im Mittel die Folge "CG" deutlich seltener auf als alle anderen 2er-Wörter. Die lokalen Häufigkeitsverteilungen verschiedener Nukleotidwörter können erste Hinweise auf die Funktionen bestimmter DNA-Abschnitte geben (CpG-Inseln, Stoppcodons, Sequenzenden von Introns).
Siehe auch
Wikimedia Foundation.