Dragon NaturallySpeaking

Dragon NaturallySpeaking
Dragon NaturallySpeaking
Entwickler Nuance Communications
Aktuelle Version 11.5
(Juni 2011)
Betriebssystem Windows
Kategorie Spracherkennung
Lizenz Proprietär
Deutschsprachig ja
http://www.nuance.de/naturallyspeaking/

Dragon NaturallySpeaking ist eine Spracherkennungs-Software, die das gesprochene Wort in Text auf dem Bildschirm oder Steuerungsbefehle für den Computer umsetzt. Dragon NaturallySpeaking ist in verschiedenen Ausgaben für private und professionelle Nutzer zu kaufen, unabhängige Anbieter liefern zusätzliche Fachvokabulare. Ferner werden von unabhängigen Anbietern Zusatzprogramme mit erweiterten Befehlssätzen zur Steuerung des Computers angeboten.

Inhaltsverzeichnis

Anfänge

Die Anfänge des Programms und des ursprünglichen Herstellers beruhen auf einem Prototyp von Software zur Spracherkennung, der Ende der siebziger, Anfang der achtziger Jahre des 20. Jahrhunderts von James und Janet Baker entwickelt worden war, während sie zunächst an der Carnegie Mellon University, später an einem IBM-Forschungszentrum tätig waren.[1] Die Bakers gründeten Dragon Systems im Jahre 1982. Vorläufer von Dragon NaturallySpeaking war die Software DragonDictate, die für DOS geschrieben war und noch keine kontinuierliche Spracherkennung ermöglichte. Dragon NaturallySpeaking 1.0 erschien 1997. Im Jahre 2000 wurde das Unternehmen von Lernout & Hauspie übernommen. Aus dessen Insolvenzmasse erwarb 2005 das amerikanische Unternehmen ScanSoft die Rechte daran, welches heute Nuance Communications heißt.

Funktionsweise

Dragon NaturallySpeaking ist die zwischenzeitlich weltweit führende Software zur Spracherkennung am PC. Die Software setzt Äußerungen, die in ein mit dem Computer verbundenes Mikrofon gesprochen werden, in Text oder Steuerungsbefehle um. Es handelt sich um ein sprecherabhängiges (eine Anpassung an den Nutzer erforderndes) Front-End-System, also eines, bei dem die Umsetzung der Sprache in Text auf dem Rechner des Nutzers erfolgt und unmittelbar nach dem Diktat der Äußerung sichtbar ist ("what you say is what you see"). Je nach Ausgabe wird aber auch die Umsetzung zuvor aufgezeichneter Diktate unterstützt.

Die akustischen Signale werden zur Umsetzung – vereinfacht gesagt – digital abgetastet und im Rahmen eines "akustischen Modells" nach Charakteristika eingeordnet, die eine ungefähre Zuordnung zu Lauten ermöglichen. Dieses akustische Modell wird bei einem anfänglichen Training und fortlaufend bei der Benutzung, insbesondere durch die Korrektur von Erkennungsfehlern, an die Stimme des jeweiligen Sprechers angepasst.

Zu den „erkannten“ Lauten werden dann statistische Hypothesen über die jeweils am wahrscheinlichsten gesagten Worte angestellt. Die Auswahl erfolgt dabei unter Einsatz verschiedener Varianten von Hidden Markov Modellen. Mit diesen Modellen lässt sich die Wahrscheinlichkeit beschreiben, mit welcher ein bestimmtes Wort in einer gegebenen Wortfolge vorkommt. Bei ähnlich oder gleich klingenden Lauten / Worten entscheidet die Software somit anhand von Mehrwortfolgen innerhalb der Äußerung des Sprechers, welches Ergebnis als Text auf dem Bildschirm erscheint. Dragon NaturallySpeaking verwendet dabei, wenn die Äußerung hinreichend lang ist, Zusammenhänge von bis zu vier Wörtern, so genannte Quadgramme. Grundlage hierfür ist ein Sprachmodell (linguistisches Modell), welches diese Wahrscheinlichkeiten beschreibt. Im Auslieferungszustand enthält die Software ein Standard-Sprachmodell für die jeweilige Eingabesprache, welches auf einer Analyse eines sehr großen Text-Corpus durch den Hersteller beruht. Bei der Einrichtung der Software am PC des Nutzers kann dieses Standard-Sprachmodell durch die Analyse von vorhandenen Texten des jeweiligen Nutzers an diesen angepasst werden. Dies erfolgt auch fortlaufend während der Benutzung. Für diese fortwährende Verbesserung des linguistischen Modells ist dabei insbesondere die konsequente Korrektur der falsch erkannten Wörter und Wortkombinationen wichtig.

Das Sprachmodell funktioniert ausschließlich nach statistischen Methoden, nicht nach grammatikalischen Regeln. Die Erkennungsgenauigkeit ist aufgrund dieser Funktionsweise am besten, wenn zusammenhängende Äußerungen gesprochen werden, am besten ganze längere Sätze.

Das Sprachmodell von Dragon NaturallySpeaking baut auf einem mitgelieferten Vokabular (Wort-Lexikon) auf, welches im Auslieferungszustand ca. 150.000 Wortformen (im aktiven Vordergrundvokabular) enthält. Da die Software keine grammatikalischen Regeln anwendet, sind im Vokabular nicht nur die Wortstämme, sondern alle einzelnen Wortformen hinterlegt. Dieses Vokabular lässt sich nutzerspezifisch durch Analyse eigener Texte auf unbekannte Wörter und Wortformen, aber auch durch die Korrektur bei Erkennungsfehlern um ca. weitere 150.000 Wortformen ergänzen. Um die Geschwindigkeit der Umsetzung in einem akzeptablen Bereich zu halten, ist das Vokabular n verschiedene "Slots" gegliedert, also ein Vordergrundvokabular und ein Hintergrundvokabular (dessen Größe auf ca. 250.000-300.000 Einträge geschätzt wird). Zum aktiven Zugriff wird nur das Vordergrundvokabular im Arbeitsspeicher gehalten, Wörter aus dem Hintergrundvokabular werden hinzugefügt, nachdem sie einmal verwendet (und dabei fehlerhaft erkannt und dann korrigiert) wurden.

Der Name der Software NaturallySpeaking leitet sich von der Eigenschaft einer kontinuierlichen Spracherkennung ab. Anders als bei Spracherkennungssystemen, die bis Mitte der Neunzigerjahre des 20. Jahrhunderts verwendet wurden, und auch noch anders als beim Vorgänger DragonDictate, muss der Sprecher zwischen den einzelnen Wörtern keine unnatürlichen Sprechpausen machen (diskrete Sprache), sondern kann kontinuierlich sprechen. Die Software kann aus den Lautfolgen die (wahrscheinlichen) Wortgrenzen anhand der beschriebenen Methoden selbst ermitteln.

Systemanforderungen und Features

Dragon NaturallySpeaking läuft unter dem Betriebssystem Windows in den Versionen XP, Vista, Windows 7 sowie Server 2008; für 64-bit Windows Betriebssysteme seit der Version 10.1. Für Mac OS vertreibt Nuance eine auf demselben Spracherkennungskern (der Version 11 von NaturallySpeaking) aufbauende Software, die auf den Namen Dragon Dictate hört (aber nicht mit dem genannten Vorläufer von Dragon NaturallySpeaking zu verwechseln ist und in der Funktionalität von Korrekturen und Steuerungsmöglichkeiten für den Computer hinter Dragon NaturallySpeaking noch zurückbleibt).

Seit der Version 11 setzt NaturallySpeaking auf Mehrkern-Prozessoren eine Multipass-Technik ein, bei welcher die gleiche Äußerung parallel auf zwei Prozessorkernen analysiert und die wahrscheinlichste Äußerung unter Einsatz jeweils unterschiedlicher Hidden Markov Modelle ermittelt wird, um auf diese Weise die Zuverlässigkeit zu erhöhen. Um genügend Rechner-Kapazität für andere Aufgaben, insbesondere die Ziel-Anwendungen, in die hinein diktiert wird, zu behalten, empfiehlt sich daher der Einsatz auf modernen Vierkern-Prozessoren. Prozessor und Größe des Arbeitsspeichers sowie ein ausreichend großer 2nd bzw. 3rd Level Cache haben auch erheblichen Einfluss auf die Geschwindigkeit der Umsetzung. Bei einem leistungsfähigen aktuellen PC erscheint der Text zumeist unmittelbar, nachdem eine Äußerung ausgesprochen ist.

Obwohl das Programm relativ hohe Anforderungen an die Größe des Arbeitsspeichers und die Kapazität des Prozessors stellt, ist die Benutzeroberfläche eine unauffällige „Dragon-Leiste“, die auch ganz ausgeblendet werden kann. Seit der Version 11 kann zudem noch eine Seitenleiste eingeblendet werden, die kontextabhängig mögliche Steuerungsbefehle aufführt. Das Konzept geht dahin, dass der Benutzer direkt in Ziel-Anwendungen wie Textverarbeitungsprogramme diktiert, in denen dann der gesprochene Text ohne Tastatureingabe erscheint. Ebenso können die Anwendungsprogramme durch gesprochene Befehle gesteuert werden (z. B. Speichern oder Drucken von Dokumenten, Formatierungen); diese Funktionen werden nicht zuletzt von Benutzern mit Bewegungseinschränkungen geschätzt. Zur Kommunikation mit Anwendungsprogrammen greift Dragon NaturallySpeaking auf die MSAA (Microsoft Active Accessibility)-Schnittstelle und die Microsoft-Sprachanwendungsschnittstelle SAPI 4 (nicht die Nachfolgeversion 5) zurück. Der volle Befehlssatz zur Steuerung von Anwendungen steht daher nur in entsprechend kompatiblen Anwendungsprogrammen wie Microsoft Word oder Internet Explorer zur Verfügung, in der Software als „Standardfenster“ oder „Fenster mit voller Textkontrolle“ bezeichnet (in früheren Versionen auch als Select-and-Say). Andere Software wie OpenOffice Writer, Mozilla Firefox oder Mozilla Thunderbird werden teilweise unterstützt. Dragon NaturallySpeaking verfügt daneben über ein eigenes einfaches Textverarbeitungsprogramm, welches funktional Microsoft WordPad ähnelt sowie über ein Diktierfenster, welches zum Transfer von diktiertem Text in nicht kompatible Zielanwendungen benutzt werden kann. Neben SAPI-kompatiblen Anwendungsprogrammen kann man mit Dragon Naturally Speaking die Windows-Oberfläche mit Sprachbefehlen steuern.

Erkennungsgenauigkeit

Die Software setzt ein anfängliches, etwa fünfminütiges Sprechertraining voraus, welches seit Version 9 aber auch übersprungen werden kann, sowie möglichst eine Analyse eigener Texte des Sprechers. Die Erkennungsrate liegt bei einem gut eintrainierten Profil je nach Qualität der Hardware und Deutlichkeit der Sprechweise derzeit bei mehr als 98 Prozent. Auch durch die Verwendung eines besseren als des vom Hersteller mitgelieferten Mikrofons kann die Erkennungsgenauigkeit positiv beeinflusst werden.

Traditionell galt: Je eher ein begrenztes Fachvokabular zum Einsatz kommt (etwa bei Ärzten oder Anwälten), um so besser die Erkennungsrate. Aufgrund der Steigerung der Leistungsfähigkeit des Programms und der Hardware besteht bei den aktuellen Versionen die Notwendigkeit, für bestimmte Fachgebiete jeweils eigene Vokabulare einzusetzen, jedoch praktisch nicht mehr. Jedoch gilt nach wie vor, dass im Vokabular nicht bereits vorhandene Wörter auch nicht richtig erkannt werden können.

Eine Ausnahme bildet (in der deutschen Version) die Funktion zur automatischen Bildung von Komposita. Typische Bestandteile von zusammengesetzten Wörtern sind im Vokabular zusätzlich mit Merkmalen versehen, wonach sie mit anderen Wörtern zu Komposita (ggf. mit Fugen-s) zusammengezogen werden, wenn diese unmittelbar davor oder danach diktiert werden. Auch diese Funktion ist statistisch gesteuert und liefert daher zuweilen auch falsche Komposita, z.B. bei „Zusammengesetztenwörtern“.

Solche Fälle gehören zu den wenigen, in denen Erkennungsfehler von einer Rechtschreibprüfung in der Zielanwendung bemerkt werden – im Gegensatz zu falsch erkannten Wörtern wie in dem (fiktiven) Beispiel: „Der Auszubildende ging in die Leere". Ein Korrekturlesen von mittels Spracherkennung diktierten Texten ist daher empfehlenswert, worauf der Hersteller in der Lizenzvereinbarung ausdrücklich hinweist.

Versionen

Legende: Alte Version Ältere Version; noch unterstützt Aktuelle Version Aktuelle Vorabversion Zukünftige Version
Version Veröffentlichung Editionen
Ältere Version; nicht mehr unterstützt: 1.0 Juni 1997 Personal
Ältere Version; nicht mehr unterstützt: 2.0 November 1997 Standard, Preferred, Deluxe
Ältere Version; nicht mehr unterstützt: 3.0 Oktober 1998 Point & Speak, Standard, Preferred, Professional (with optional Legal and Medical add-on products)
Ältere Version; nicht mehr unterstützt: 4.0 4. August 1999 Essentials, Standard, Preferred, Professional, Legal, Medical, Mobile
Ältere Version; nicht mehr unterstützt: 5.0 August 2000 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 6.0 15. November 2001 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 7.0 März 2003 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 8.0 November 2004 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 9.0 Juli 2006 Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server
Ältere Version; nicht mehr unterstützt: 9.5 Januar 2007 Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server
Ältere Version; nicht mehr unterstützt: 10.0 7. August 2008 Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 10.1 März 2009 Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 11.0 24. August 2010 Home, Premium, Professional, Legal
Aktuelle Version: 11.0 März 2011 Medical
Aktuelle Version: 11.5 Juni 2011 Premium
Aktuelle Version: 11.5 Juli 2011 Home, Professional, Legal

Weblinks

Einzelnachweise

  1. Geschichte von Dragon Systems (englisch), aufgerufen am 2. Juli 2011]

Wikimedia Foundation.

Игры ⚽ Нужно сделать НИР?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Dragon NaturallySpeaking — A sample dictation in Microsoft Word 2010. Developer(s) …   Wikipedia

  • Dragon Dictation — is a speech recognition App for Apple s iOS platforms including iPhone, iPod touch and iPad. The App provides automatic speech to text capabilities. It was developed by Nuance Communications, and released in December 2009 as a free App. Dragon… …   Wikipedia

  • Dragon Systems — Dragon Systems, Inc., was the company that created DragonDictate and Dragon NaturallySpeaking. It was founded in 1982 by Drs. James and Janet Baker and bought by Lernout Hauspie in 2000 …   Wikipedia

  • The Dragon — Dragon (engl. „Drache“) bezeichnet: als Ort: Dragon (Fluss), einen Fluss auf der Halbinsel Kap Anamur, Türkei als Person: Ray Dragon (* 1962), US amerikanischer Schauspieler, Regisseur und Modeschöpfer Shlomo Dragon (1922–2001), polnischer… …   Deutsch Wikipedia

  • DragonDictate — and Dragon Dictate are proprietary speech recognition software. The older program, DragonDictate, was originally developed by Dragon Systems for Microsoft Windows. It has now been replaced by Dragon NaturallySpeaking for Windows, developed by… …   Wikipedia

  • Spracherkennung — Die Spracherkennung oder auch automatische Spracherkennung ist ein Teilgebiet der angewandten Informatik, der Ingenieurwissenschaften und der Computerlinguistik. Sie beschäftigt sich mit der Untersuchung und Entwicklung von Verfahren, die… …   Deutsch Wikipedia

  • Speech recognition in Linux — There is currently no open source equivalent of proprietary speech recognition software (e.g. Nuances Dragon NaturallySpeaking or Windows Speech Recognition) for Linux. However, there are several incomplete, open source projects and solutions… …   Wikipedia

  • List of speech recognition software — Modern Speech recognition software enables a single computer user to speak text and/or commands to the computer, largely, but not entirely, bypassing the use of the keyboard and mouse interface.The idea has been portrayed in science fiction for… …   Wikipedia

  • MacSpeech Dictate — is a speech recognition program written for Mac OS X by MacSpeech. The software was released in March 2008 after being showcased at the Macworld Conference Expo in 2008 and won the Best Of Show 2008 award.MacSpeech Dictate was written using the… …   Wikipedia

  • Lernout & Hauspie — Speech Products, or L H, was a leading Belgium based speech recognition technology company, founded by Jo Lernout and Pol Hauspie, that went bankrupt in 2001. The company was based in Ypres, Flanders, in what was then called the Flanders Language …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”