Simplified Molecular Input Line Entry Specification

Simplified Molecular Input Line Entry Specification

Simplified Molecular Input Line Entry Specification (SMILES) ist ein chemischer Strukturcode, bei dem die Struktur beliebiger Moleküle stark vereinfacht als (ASCII-)Zeichenkette wiedergegeben werden. Mehrere Molekül-Editoren können SMILES-Strings importieren und so 2-dimensionale und 3-dimensionale Modelle erzeugen.

Die ursprüngliche SMILES Spezifikation wurde von Arthur Weininger und David Weininger in den späten 1980ern entwickelt. Insbesondere die Daylight Chemical Information Systems Inc. betrieb in den folgenden Jahren die Weiterentwicklung und Modifikation der Spezifikation. Im Jahr 2007 wurde schließlich ein offener Standard namens OpenSMILES von Blue Obelisk, einer chemisch orientierten Open-Source-Community, entwickelt.

Da die SMILES-Sprache durch die Firma Daylight kontrolliert wird und einige Probleme mit der Stereochemie und Tautomerie hat, hat die IUPAC eine eigene lineare Molekülrepresentation, InChI, entwickelt, die frei verfügbar ist.

Inhaltsverzeichnis

Beispiele

SMILES Notation Gruppenformel Trivialname
C CH4 Methan
CC CH3–CH3 Ethan
CCC CH3–CH2–CH3 Propan
Clc(c(Cl)c(Cl)c1C(=O)O)c(Cl)c1Cl C7HCl5O2 Pentachlorbenzoesäure

Konventionen

Atome

Ein Chemisches Element wird durch sein Elementsymbol, das in eckigen Klammern eingefasst ist, dargestellt (z. B. [Au] für Gold). Das Isotop des Elements kann spezifiziert werden, in dem die Massenzahl dem Elementsymbol vorangestellt wird (z. B. [2H] für Deuterium oder [235U] für spaltbares Uran); ohne diese Angabe wird das natürliche Isotopengemisch angenommen.

Ionen, also elektrisch geladene Atome, werden in der SMILES-Notation durch Angabe der Ladung in den eckigen Klammern beschrieben (z.B. [Cl-] für das Chlorid-Ion oder [Cu+2] für das Kupfer-(II)-Ion).

Direkt an das Atom gebundener Wasserstoff kann ebenfalls in der Klammernotation mit angegeben werden, dazu wird hinter dem Elementsymbol ein H, gefolgt von der Anzahl der gebundenen Wasserstoff-Atome, angegeben (für ein einzelnes Wasserstoff-Atom ist die Angabe der Anzahl nicht verpflichtend). So können einfache Moleküle wie zum Beispiel Chlorwasserstoff ([ClH]) oder Methan ([CH4]) beschrieben werden.

Um die Notation zu vereinfachen, können die eckigen Klammern bei Elementen der sogenannten „organischen Teilmenge“ weggelassen werden. Wenn die Klammern weggelassen werden, dann werden die freien Valenzen des Atoms auf die niedrigste Standardvalenz nach der abgebildeten Tabelle mit Wasserstoffatomen aufgefüllt. So reicht zum Beispiel für die Eingabe von Wasser ein O, und für Methan ein C.[1]

Element Standardvalenz(en)
B 3
C 4
N 3, 5
O 2
P 3, 5
S 2, 4, 6
F, Cl, Br, I 1

Bindungen

Um anzuzeigen, dass zwei Atome durch eine chemische Bindung verbunden sind, wird eines der folgenden Symbole zwischen die Atome gesetzt.

Bindung Symbol optional
Einfachbindung ja
Doppelbindung = nein
Dreifachbindung # nein
Vierfachbindungen* $ nein
Aromatische Bindungen : ja

* Nur OpenSMILES
Bindungen in aromatischen Systemen können statt durch abwechselnde Doppel- und Einfachbindungen durch ein Doppelpunkt symbolisiert werden.

Um die Schreibweise noch weiter zu vereinfachen, dürfen die Symbole für Einfachbindungen und aromatische Bindungen weggelassen werden.[2]

Verzweigungen

Atome mit drei oder mehr Bindungen sind Ausgangspunkt von Verzweigungen. Dabei wird nach dem entsprechenden Atom erst die Seitenkette in runden Klammern gesetzt, bevor die weiteren Bindungen folgen. Die Klammerebenen und damit die Verzweigungen können beliebig tief verschachtelt werden.[3]

Beispiele:

Strukturformel SMILES-String Name
Essigsäure - Acetic acid.svg CC(=O)O Essigsäure
Tert-Butylalkohol.png CC(C)(C)O tert-Butanol
Nitroglycerin-2D-skeletal.png C(C(CO[N+](=O)[O-])O[N+](=O)[O-])O[N+](=O)[O-] Glycerintrinitrat

Getrennte Strukturen

Bei Strukturen, die nicht zusammenhängen, wie z. B. Ionenbindungen wird ein Punkt (.) zwischen die getrennten Moleküle gesetzt.[4]
Beispiel: Natriumhydrogencarbonat (Na+HCO3) = [Na+].O=C([O-])O

Cyclische Strukturen

Eines der größten Probleme einer solchen Sprache ist es, cyclische Strukturen darzustellen. Bei SMILES geschieht dadurch, dass man nach einem Atom, das mit einem anderen Atom verbunden werden soll, welches weiter hinten steht, einen Index schreibt; dies macht man auch bei dem anderen Atom und die beiden sind verbunden.[5]

Beispiele:

Strukturformel SMILES-String Name
Strukturformel Benzol c1ccccc1 Benzol
Strukturformel Trinitrotoluol Cc1c([N+]([O-])=O)cc([N+]([O-])=O)cc1[N+]([O-])=O Trinitrotoluol
Strukturformel Naphthalin C1=CC=C2C=CC=CC2=C1 Naphthalin

Reaktionen

Reaktionen werden in SMILES mithilfe von 2 schließenden spitzen Klammern (>>) dargestellt.
Beispiel: Na+HCO3+HCl → Na+Cl+H2CO3 = [Na+].O=C([O-])O.HCl>>[Na+].[Cl-].O=C(O)O

Wenn bei einer Reaktion ein weiterer Stoff einfließt, so schreibt man ihn zwischen die Spitzen Klammern.
Beispiel: Na+HCO3-+HCl → Na+Cl-+H2CO3 = [Na+].O=C([O-])O>HCl>[Na+].[Cl-].O=C(O)O

Erweiterung

SMARTS ist eine Erweiterung von SMILES, die das Suchen nach molekularen Substrukturen ermöglicht. Hierzu wurde SMILES, um Wildcards oder spezifische Bindungen (z. B. aromatische) anzugeben, modifiziert. Es gilt, dass jeder gültige SMILES-Ausdruck ebenfalls als SMARTS verwendet werden darf. Diese Regel gilt andersherum nicht. SMARTS werden vor allem für Suchanwendungen bei chemischen Datenbanken verwendet.

Siehe auch

Weblinks

Computerprogramme

Einzelnachweise

  1. SMILES-Spezifikation, Abschnitt 3.1
  2. SMILES-Spezifikation, Abschnitt 3.2
  3. SMILES-Spezifikation, Abschnitt 3.3
  4. SMILES-Spezifikation, Abschnitt 3.7
  5. SMILES-Spezifikation, Abschnitt 3.4

Wikimedia Foundation.

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Simplified molecular input line entry specification — Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des molécules chimiques sous forme de courtes chaînes de caractères ASCII. Les chaînes SMILES peuvent être importées dans la …   Wikipédia en Français

  • Simplified molecular input line entry specification — Infobox file format name = smiles extension = .smi mime = owner = creatorcode = genre = chemical file format container for = contained by = extended from = extended to = The simplified molecular input line entry specification or SMILES is a… …   Wikipedia

  • Simplified molecular input line entry specification — SMILES (Simplified Molecular Input Line Entry Specification, англ. спецификация упрощенного представления молекул в строке ввода)  система правил (спецификация) однозначного описания состава и структуры молекулы химического вещества с… …   Википедия

  • Simplified Molecular Input Line Entry Specification — Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des molécules chimiques sous forme de courtes chaînes de caractères ASCII. Les chaînes SMILES peuvent être importées dans la …   Wikipédia en Français

  • Spécification d'écriture simplifiée des molécules — Simplified Molecular Input Line Entry Specification Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des molécules chimiques sous forme de courtes chaînes de caractères… …   Wikipédia en Français

  • Line notation — is a typographical notation system using ASCII characters, most often used for chemical nomenclature.Chemistry* International Chemical Identifier (InChI) * ROSDAL * Wiswesser Line Notation (WLN) * Simplified molecular input line entry… …   Wikipedia

  • Smiles arbitrary target specification — (SMARTS) is a language for specifying substructural patterns in molecules. The SMARTS line notation is expressive and allows extremely precise and transparent substructural specification and atom typing.SMARTS is related to the SMILES line… …   Wikipedia

  • SYBYL Line Notation — Infobox file format name = sybyl line notation extension = .sln mime = owner = creatorcode = genre = chemical file format container for = contained by = extended from = extended to = The SYBYL line notation or SLN is a specification for… …   Wikipedia

  • Wiswesser Line Notation — (WLN) ist ein komplizierter und auch veralteter linearer Strukturcode für chemische Verbindungen, erfunden 1954 von W. J. Wiswesser. Einzelne Buchstaben geben ein bestimmtes Strukturfragment wieder, eine Zeichenkette gibt die gesamte Struktur… …   Deutsch Wikipedia

  • Notation SMILES — Simplified Molecular Input Line Entry Specification Le Simplified Molecular Input Line Entry Specification ou SMILES est un langage symbolique de description de la structure des molécules chimiques sous forme de courtes chaînes de caractères… …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”