Sprachsynthese

Sprachsynthese: Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text-to-Speech-System (TTS) verwendet).

Grundsätzlich lassen sich zwei Ansätze zur Erzeugung von Sprachsignalen unterscheiden. Zum einen kann durch die sogenannte Signalmodellierung auf Sprachaufnahmen (Samples) zurückgegriffen werden. Zum anderen kann das Signal aber auch durch die sogenannte Physiologische (artikulatorische) Modellierung vollständig im Rechner erzeugt werden. Während die ersten Systeme auf Formantsynthesen beruhten, basieren die zurzeit (August 2006) industriell eingesetzten Systeme vorwiegend auf Signalmodellierung. Ein besonderes Problem für die Sprachsynthese ist die Erzeugung einer natürlichen Sprachmelodie (Prosodie).

Inhaltsverzeichnis

1 Geschichte

2 Gegenwart

3 Synthese

3.1 Unit Selection

3.1.1 Diphonesynthese

3.2 Signalerzeugung

3.2.1 Quelle-Filter-Modell

3.2.1.1 Formantsynthese

3.2.1.2 Akustisches Modell

3.2.1.3 Artikulatorische Synthese

3.2.2 Overlap Add

4 Einsatzmöglichkeiten von Text-to-Speech-Software

5 Sprachsynthese-Software

6 Sprachsynthese-Hardware

7 Einzelnachweise

8 Siehe auch

9 Literatur

10 Weblinks

Geschichte

Schon lange vor der Erfindung der elektronischen Signalverarbeitung versuchten Wissenschaftler Maschinen zu konstruieren, die menschliche Sprache erzeugen können. Gerbert von Aurillac (1003) wird ein aus Bronze gefertigter „Sprechender Kopf“ zugeschrieben, von dem berichtet wurde, dass er „ja“ und „nein“ sagen konnte. Wohl eher in den Bereich der Legenden gehören die Apparate von Albertus Magnus (1198–1280) und Roger Bacon (1214–1294).

Der deutsche, in Kopenhagen tätige Wissenschaftler Christian Kratzenstein baute 1779 aufgrund eines Preisausschreibens der St. Petersburger Akademie eine "Sprachorgel", die durch freischwingenden Lingualpfeifen mit dem menschlichen Vokaltrakt nachgebildeten Resonatoren fünf lange Vokale (a, e, i, o und u) synthetisieren konnte. Wolfgang von Kempelen entwickelte bereits seit ca. 1760 eine Sprechmaschine, die er 1791 in seiner Veröffentlichung „Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine“ darstellte. Diese Synthese basierte wie Krantzensteins auf einem Blasebalg als Lungenäquivalent, die eigentliche Anregung geschah aber erheblich anatomienäher durch eine einzelne, aufschlagende Lingualpfeife. Hiermit waren einige Vokale und auch Plosive möglich. Darüber hinaus ließen sich über verschiedene Mechanismen einige Frikative darstellen. An den Stimmbändern schloss ein Ledertubus an, der durch eine Hand verformt werden konnte, und so die variable Geometrie und Resonanzverhalten des Vokaltrakts nachbildete. Von Kempelen schrieb:

„in einer Zeit von drei Wochen eine bewundernswerte Fertigkeit im Spielen erlangen, besonders wenn man sich auf die lateinische, französische oder italienische Sprache verlegt, denn die deutsche ist [aufgrund der häufigen Konsonantenbündel] um vieles schwerer.“

Charles Wheatstone baute 1837 eine Speaking Machine, die auf diesem Entwurf beruht, ein Nachbau findet sich im Deutschen Museum. 1857 baute Joseph Faber die Euphonia, die ebenso diesem Prinzip folgt.

Ende des 19. Jahrhunderts entwickelte sich das Interesse weg vom Nachbau menschlicher Sprachorgane (genetische Sprachsynthese), hin zur Simulation des akustischen Raumes (gennematische Sprachsynthese). So synthetisierte Hermann von Helmholtz erstmals Vokale mit Hilfe von Stimmgabeln, die auf die Resonanzfrequenzen des Vokaltraktes in bestimmten Vokalstellungen abgestimmt waren. Diese Resonanzfrequenzen werden als Formanten bezeichnet. Sprachsynthese durch Kombination von Formanten war technischer Mainstream bis in die Mitte der 90er Jahre.

In den Bell Labs wurde in den 1930ern der Vocoder, ein tastaturgesteuerter elektronischer Sprachsynthesizer entwickelt, über den gesagt wurde, dass er klar verständlich war. Homer Dudley verbesserte diese Maschine zum Voder, der in der Weltausstellung 1939 präsentiert wurde. Der Voder benutzte elektrische Oszillatoren zur Erzeugung der Formantfrequenzen.

Die ersten computerbasierten Sprachsynthesesysteme wurden in den späten 1950ern entwickelt, das erste komplette Text-To-Speech-System 1968 fertiggestellt. Der Physiker John Larry Kelly, Jr entwickelte 1961 bei den Bell Labs eine Sprachsynthese mit einem IBM 704 und ließ ihn das Lied Daisy Bell singen. Der Regisseur Stanley Kubrick war davon so beeindruckt, dass er es in den Film 2001: A Space Odyssey integrierte.

Gegenwart

Während frühe elektronische Sprachsynthesen noch sehr roboterhaft klangen und teilweise schwer verständlich waren, erreichen sie etwa seit der Jahrtausendwende eine Qualität, bei der es mitunter schwierig ist, sie von menschlichen Sprechern zu unterscheiden. Dies ist hauptsächlich der Tatsache zu verdanken, dass sich die Technologie von der eigentlichen Synthese des Sprachsignals abgewandt hat und sich darauf konzentriert, aufgenommene Sprachsegmente optimal zu verketten.^[1]^[2]^[3]

Synthese

Sprachsynthese setzt eine Analyse der menschlichen Sprache voraus bezüglich der Phoneme, aber auch der Prosodie, weil eben ein Satz allein durch die Satzmelodie unterschiedliche Bedeutungen haben kann.

Was den Syntheseprozess an sich betrifft, gibt es verschiedene Methoden. Gemeinsam ist allen Methoden, dass sie auf eine Datenbank zurückgreifen, in der charakteristische Informationen über Sprachsegmente hinterlegt sind. Elemente aus diesem Inventar werden zur gewünschten Äußerung verknüpft. Sprachsynthesesysteme lassen sich anhand des Inventars der Datenbank und insbesondere der Methode zur Verknüpfung klassifizieren. Tendenziell fällt die Signalsynthese umso einfacher aus, je größer die Datenbank ist, da diese dann bereits Elemente enthält die der gewünschten Äußerung näher sind und weniger Signalbearbeitung notwendig ist. Aus dem gleichen Grund gelingt bei einer großen Datenbank meistens eine natürlicher klingende Synthese.

Eine Schwierigkeit der Synthese liegt in dem Aneinanderfügen von Inventarelementen. Da diese aus verschiedenen Äußerungen stammen, unterscheiden sie sich auch in der Lautstärke, Grundfrequenz, aber auch die Lage der Formanten variiert. Bei einer Vorverarbeitung der Datenbank oder beim Verbinden der Inventarelemente müssen diese Unterschiede möglichst gut ausgeglichen werden, um nicht die Qualität der Synthese zu beeinträchtigen.

Unit Selection

Die Unit Selection liefert die beste Qualität besonders bei einer eingeschränkten Domäne. Die Synthese verwendet eine große Sprachdatenbank, in der jede aufgenommene Äußerung in einige oder alle der folgenden Einheiten segmentiert wird:

Phoneme / Diphone,

Silben,

Morpheme,

Wörter,

Phrasen,

Sätze.

Diese Segmente werden mit einem Verzeichnis von einer Reihe akustischer und phonetischer Eigenschaften wie Grundfrequenzverlauf, Dauer oder Nachbarn gespeichert.

Für die Synthese werden durch spezielle Suchalgorithmen, gewichtete Entscheidungsbäume, eine Reihe von möglichst großen Segmenten bestimmt, die der zu synthetisierenden Äußerung hinsichtlich dieser Eigenschaften möglichst nahe kommen. Da diese Reihe ohne oder mit wenig Signalverarbeitung ausgegeben wird, bleibt die Natürlichkeit der gesprochenen Sprache erhalten, solange wenige Verkettungsstellen erforderlich sind.

Diphonesynthese

Experimente, die Anfang des 20. Jahrhunderts durchgeführt wurden, haben gezeigt, dass die korrekte Wiedergabe der Lautübergänge wesentlich für die Verständlichkeit der Sprachsynthese ist. Um alle Lautübergänge zu speichern, wird eine Datenbasis mit etwa 2500 Einträgen verwendet. Hierin ist jeweils der Zeitbereich von dem stationären Teil, die Phonemmitte des einen Phonems, bis zum stationären Teil des folgenden Phonems abgespeichert. Zur Synthese werden die Informationen entsprechend zusammengefügt (konkateniert).

Weitere Koartikulationseffekte, die viel zur Natürlichkeit der Sprache beitragen, können durch umfangreichere Datenbasen berücksichtigt werden. Ein Beispiel hierfür ist Hadifix, das Halbsilben, Diphone und Suffixe enthält.

Signalerzeugung

Die Signalerzeugung gibt die gewünschten Segmente aus der Datenbank mit dem vorgegebenen Grundfrequenzverlauf wieder. Diese Ausprägung des Grundfrequenzverlaufs kann auf verschiedene Weisen geschehen, worin sich die folgenden Verfahren unterscheiden.

Quelle-Filter-Modell

Bei Synthesen, die eine Quelle-Filter-Separation verwenden, wird eine Signalquelle mit periodischer Signalform verwendet. Deren Periodenlänge wird passend zur Grundfrequenz der zu synthetisierenden Äußerung eingestellt. Dieser Anregung wird je nach Phonemtyp zusätzlich Rauschen beigemischt. Die abschließende Filterung prägt die lautcharakteristischen Spektren auf. Vorteilhaft bei dieser Klasse von Verfahren ist die einfache Grundfrequenzsteuerung der Quelle. Ein Nachteil ergibt sich durch die in der Datenbank gespeicherten Filterparameter, deren Bestimmung aus Sprachproben schwierig ist. Je nach Art des Filters bzw. der zugrunde liegenden Sichtweise des Sprechens unterscheidet man die folgenden Verfahren:

Formantsynthese

Die Formantsynthese beruht auf der Beobachtung, dass es zur Unterscheidung der Vokale genügt, die ersten zwei Formanten treffend zu reproduzieren. Jeder Formant wird durch einen in der Mittenfrequenz und Güte steuerbaren Bandpass, ein Polfilter 2. Ordnung, nachgebildet. Die Formantsynthese ist durch analoge elektronische Schaltungen vergleichsweise einfach realisierbar.

Akustisches Modell

Das akustische Modell bildet die gesamten Resonanzeigensschaften des Vokaltrakts durch einen geeigneten Filter nach. Häufig wird der Vokaltrakt dazu vereinfacht als Rohr variablen Querschnitts betrachtet, wobei Quermoden vernachlässigt werden, da die seitliche Ausdehnung des Vokaltrakts klein ist. Die Querschnittsänderungen werden weiterhin durch äquidistante Querschnittssprünge approximiert. Ein häufig gewählter Filtertyp ist der Kreuzgliedketten-Filter, bei dem eine direkte Beziehung zwischen Querschnitt und Filterkoeffizient besteht.^[4]

Diese Filter sind eng verwandt mit dem Linear Predictive Coding (LPC), das ebenfalls für Sprachsynthesen eingesetzt wird. Bei dem LPC werden ebenfalls die gesamten Resonanzeigenschaften berücksichtigt, es besteht jedoch kein direkter Zusammenhang zwischen Filterkoeffizienten und Querschnittsverlauf des Vokaltrakts.

Artikulatorische Synthese

Die artikulatorische Synthese stellt gegenüber dem akustischen Modell eine Beziehung zwischen der Stellung der Artikulatoren und dem daraus resultierenden Querschnittsverlauf des Vokaltrakts her. Hier kommen zur Nachbildung der Resonanzcharakteristik neben zeitdiskreten Kreuzgliedkettenfiltern auch Lösungen der zeitkontinuierlichen Horngleichung zum Einsatz, aus denen das Zeitsignal durch Fouriertransformation gewonnen wird.

Overlap Add

Pitch Synchronous Overlap Add, abgekürzt PSOLA, ist ein Syntheseverfahren, bei dem sich in der Datenbank Aufzeichnungen des Sprachsignals befinden. Sofern es sich um periodische Signale handelt, sind diese mit einer Information über die Grundfrequenz (Pitch) versehen, und der Anfang jeder Periode ist markiert. Bei der Synthese werden diese Perioden mit einem bestimmten Umfeld mittels einer Fensterfunktion ausgeschnitten und dem zu synthetisierenden Signal an passender Stelle hinzuaddiert: Je nachdem ob die gewünschte Grundfrequenz höher oder tiefer liegt als die des Datenbankeintrags, werden sie entsprechend dichter oder weniger dicht als in dem Original zusammengefügt. Zur Anpassung der Lautdauer können Perioden entfallen oder doppelt ausgegeben werden. Dieses Verfahren wird auch als TD-PSOLA oder PSOLA-TD (TM) bezeichnet, wobei TD für Time Domain steht und hervorhebt, dass die Verfahren im Zeitbereich arbeiten.

Eine Weiterentwicklung ist das Multi Band Resynthesis OverLap Add – Verfahren, kurz MBROLA. Hier werden die Segmente in der Datenbank durch eine Vorverarbeitung auf eine einheitliche Grundfrequenz gebracht und Phasenlage der Harmonischen wird normalisiert. Dadurch entstehen bei der Synthese eines Übergangs von einem Segment auf das nächste weniger perzeptiv wahrnehmbare Störungen, und die erzielte Sprachqualität ist höher.

Diese Syntheseverfahren sind mit der Granularsynthese verwandt, die in Klangerzeugung und -verfremdung bei elektronischer Musikproduktion zum Einsatz kommt.

Einsatzmöglichkeiten von Text-to-Speech-Software

Die Nutzung von Sprachsynthese-Software muss kein Selbstzweck sein. Mitmenschen mit Sehbehinderungen – z.B. Grauem Star oder Altersbedingter Makuladegeneration – nutzen TTS-Softwarelösungen, um sich Texte direkt am Bildschirm vorlesen zu lassen. Blinde Menschen können einen Computer mittels einer Screenreader-Software bedienen und bekommen Bedienelemente und Textinhalte angesagt. Aber auch Dozenten nutzen die Sprachsynthese für die Aufzeichnung von Vorträgen. Ebenso nutzen Autoren TTS-Software um selbst geschriebene Texte auf Fehler und Verständlichkeit hin zu prüfen.

Besonders interessant ist der Einsatz von Softwarelösungen, die das Erzeugen von MP3-Dateien erlauben. Dann kann Sprachsynthese-Software auch für die Erzeugung einfacher Podcasts bzw. Audioblogs genutzt werden. Erfahrungsgemäß kann die Produktion von Podcasts bzw. Audioblogs sehr zeitintensiv sein.

Bei der Arbeit mit US-amerikanischen Softwarelösungen ist zu beachten, dass die vorhandenen Stimmen von unterschiedlicher Güte sind. Englische Stimmen haben eine höhere Qualität als deutsche. Eine 1:1 Kopie der Texte in eine TTS-Software kann nicht empfohlen werden, eine Nachbearbeitung der Texte ist in jedem Fall nötig. Dabei geht es nicht nur um das Ersetzen von Abkürzungen; auch das Einfügen von Satzzeichen – auch wenn diese grammatikalisch nicht korrekt sind – kann helfen, um auf das Satztempo Einfluss zu nehmen. Deutsche „Übersetzungen“ mit Anglizismen stellen für die Sprachsynthese i. d. R. ein unüberwindbares Problem dar.

Sprachsynthese-Software

BOSS entwickelt am Institut für Kommunikationswissenschaften der Universität Bonn

AnalogX SayIt

Browsealoud von textHELP

Cepstral Text-to-Speech

CereProc

DeskBot

espeak (Open Source, 20 Sprachen, SAPI5)

Festival

Festvox

FreeTTS

Infovox

IVONA Text-to-Speech

linguatec Voice Reader

Loquendo TTS

Logox Clipreader

MBROLA

MWS Reader von Micro WAL Software (MWS)

NaturalReader von NaturalSoft

ReadSpeaker: Webseiten vorlesen und Podcasting

Realspeak von Nuance (ehem. ScanSoft)

SVOX

SpeechConcept

Text Aloud MP3

virsyn CANTOR Vokalsynthese

Vocal Generator: Spezielles Programm für Hobby-Musiker

Vocaloid: zur Synthese von Gesang

VoiceFlux:Pro

Your Speaker: Incl. Steuermöglichkeit der Aussprache (Sprachsteuerungsmodul)

fürs Deutsche: Loquendo TTS, Virtual Voice, McLoud

Sprachsynthese-Hardware

Votrax

SC-01A (analog formant)

SC-02 / SSI-263 / „Arctic 263“

General Instrument Speech Processor

SP0250

SP0256-AL2 "Orator" (CTS256A-AL2)

SP0264

SP1000

National Semiconductor DT1050 Digitalker (Mozer)

Silicon Systems SSI 263 (analog formant)

Texas Instruments

TMS5110A (LPC)

TMS5200

Oki Semiconductor

MSM5205

MSM5218RS (ADPCM)

Toshiba T6721A

Einzelnachweise

↑ Dennis Klatt’s History of Speech Synthesis

↑ History and Development of Speech Synthesis (Helsinki University of Technology)

↑ Arne Hoxbergen: Die Geschichte der Sprachsynthese anhand einiger ausgewählter Beispiele. Berlin 2005.

↑ Karl Schnell: Rohrmodelle des Sprechtraktes. Frankfurt 2003.

Siehe auch

Spracherkennung

Prosodieerkennung

Stimmverschlüsselung

Sprachdialogsystem

Phonetik

Intonation (Phonetik)

Literatur

Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: Vom Text zur gesprochenen Sprache. In: Henning Lobin, Lothar Lemnitzer (Hrsg.): Texttechnologie. Perspektiven und Anwendungen. Stauffenburg, Tübingen 2004, S. 295–325, ISBN 3-86057-287-3

J. Riskin: Eighteenth-Century Wetware. Representations, 83:97-125, 2003

J. L. Flanagan: Speech Analysis, Synthesis and Perception. Springer Verlag, Berlin 1972

Weblinks

Wiktionary: Sprachsynthese – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Commons: Speech synthesis – Sammlung von Bildern, Videos und Audiodateien

Geschichte

Geschichte der Sprachsynthese anhand von Beispielen – Studienarbeit (pdf, 480 kB)

Magic Voice Speech Module für den C64

Systeme

Produkttests und ausführliche Informationen zu Sprachausgaben im INCOBS

Liste von Sprachsynthesesystemen mit Beispielen

Webinterfaces

Pediaphon – Sprachausgabe für deutschsprachige Wikipedia-Artikel

Online Demo der Text-to-Speech Sprachsynthese-Anwendung MARY - Text-to-Speech Ausgabe in verschiedene Formate

Kategorien:
Computerlinguistik
Angewandte Linguistik
Phonetik
Sprach-Interaktion
Klangsynthese

Игры ⚽ Нужен реферат?

Schlagen Sie auch in anderen Wörterbüchern nach:

Sprachsynthese — [engl. voice synthesis oder speech synthesis] (Text to Speech, TTS), das Zusammensetzen von Sprache aus Fragmenten (und die akustische Ausgabe dieser Zusammensetzung). Dies kann entweder durch ein Aneinanderreihen zuvor aufgenommener Wörter… … Universal-Lexikon
Sprachsynthese — kalbos sintezė statusas T sritis automatika atitikmenys: angl. speech synthesis vok. Sprachsynthese, f rus. синтез речи, m pranc. synthèse de parole, f … Automatikos terminų žodynas
PSOLA — Dieser Artikel als Sprachausgabe. Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text to Speech System (TTS) verwendet) … Deutsch Wikipedia
Sprachausgabe — Dieser Artikel als Sprachausgabe. Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text to Speech System (TTS) verwendet) … Deutsch Wikipedia
Sprachsynthesizer — Dieser Artikel als Sprachausgabe. Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text to Speech System (TTS) verwendet) … Deutsch Wikipedia
Stimmsynthese — Dieser Artikel als Sprachausgabe. Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text to Speech System (TTS) verwendet) … Deutsch Wikipedia
Talkie — Dieser Artikel als Sprachausgabe. Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text to Speech System (TTS) verwendet) … Deutsch Wikipedia
Text-to-Speech — Dieser Artikel als Sprachausgabe. Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text to Speech System (TTS) verwendet) … Deutsch Wikipedia
ISightseeing — Piktogramm für Newsfeed Podcasting bezeichnet das Produzieren und Anbieten von Mediendateien (Audio oder Video) über das Internet. Das Kofferwort setzt sich aus den beiden Wörtern iPod und Broadcasting zusammen.[1] Ein einzelner Podcast (deutsch … Deutsch Wikipedia
Phonecasting — Piktogramm für Newsfeed Podcasting bezeichnet das Produzieren und Anbieten von Mediendateien (Audio oder Video) über das Internet. Das Kofferwort setzt sich aus den beiden Wörtern iPod und Broadcasting zusammen.[1] Ein einzelner Podcast (deutsch … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Sprachsynthese

Inhaltsverzeichnis

Geschichte

Gegenwart

Synthese

Unit Selection

Diphonesynthese

Signalerzeugung

Quelle-Filter-Modell

Formantsynthese

Akustisches Modell

Artikulatorische Synthese

Overlap Add

Einsatzmöglichkeiten von Text-to-Speech-Software

Sprachsynthese-Software

Sprachsynthese-Hardware

Einzelnachweise

Siehe auch

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Sprachsynthese

Inhaltsverzeichnis

Geschichte

Gegenwart

Synthese

Unit Selection

Diphonesynthese

Signalerzeugung

Quelle-Filter-Modell

Formantsynthese

Akustisches Modell

Artikulatorische Synthese

Overlap Add

Einsatzmöglichkeiten von Text-to-Speech-Software

Sprachsynthese-Software

Sprachsynthese-Hardware

Einzelnachweise

Siehe auch

Literatur

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link