- Dragon NaturallySpeaking
-
Dragon NaturallySpeaking Entwickler Nuance Communications Aktuelle Version 11.5
(Juni 2011)Betriebssystem Windows Kategorie Spracherkennung Lizenz Proprietär Deutschsprachig ja http://www.nuance.de/naturallyspeaking/ Dragon NaturallySpeaking ist eine Spracherkennungs-Software, die das gesprochene Wort in Text auf dem Bildschirm oder Steuerungsbefehle für den Computer umsetzt. Dragon NaturallySpeaking ist in verschiedenen Ausgaben für private und professionelle Nutzer zu kaufen, unabhängige Anbieter liefern zusätzliche Fachvokabulare. Ferner werden von unabhängigen Anbietern Zusatzprogramme mit erweiterten Befehlssätzen zur Steuerung des Computers angeboten.
Inhaltsverzeichnis
Anfänge
Die Anfänge des Programms und des ursprünglichen Herstellers beruhen auf einem Prototyp von Software zur Spracherkennung, der Ende der siebziger, Anfang der achtziger Jahre des 20. Jahrhunderts von James und Janet Baker entwickelt worden war, während sie zunächst an der Carnegie Mellon University, später an einem IBM-Forschungszentrum tätig waren.[1] Die Bakers gründeten Dragon Systems im Jahre 1982. Vorläufer von Dragon NaturallySpeaking war die Software DragonDictate, die für DOS geschrieben war und noch keine kontinuierliche Spracherkennung ermöglichte. Dragon NaturallySpeaking 1.0 erschien 1997. Im Jahre 2000 wurde das Unternehmen von Lernout & Hauspie übernommen. Aus dessen Insolvenzmasse erwarb 2005 das amerikanische Unternehmen ScanSoft die Rechte daran, welches heute Nuance Communications heißt.
Funktionsweise
Dragon NaturallySpeaking ist die zwischenzeitlich weltweit führende Software zur Spracherkennung am PC. Die Software setzt Äußerungen, die in ein mit dem Computer verbundenes Mikrofon gesprochen werden, in Text oder Steuerungsbefehle um. Es handelt sich um ein sprecherabhängiges (eine Anpassung an den Nutzer erforderndes) Front-End-System, also eines, bei dem die Umsetzung der Sprache in Text auf dem Rechner des Nutzers erfolgt und unmittelbar nach dem Diktat der Äußerung sichtbar ist ("what you say is what you see"). Je nach Ausgabe wird aber auch die Umsetzung zuvor aufgezeichneter Diktate unterstützt.
Die akustischen Signale werden zur Umsetzung – vereinfacht gesagt – digital abgetastet und im Rahmen eines "akustischen Modells" nach Charakteristika eingeordnet, die eine ungefähre Zuordnung zu Lauten ermöglichen. Dieses akustische Modell wird bei einem anfänglichen Training und fortlaufend bei der Benutzung, insbesondere durch die Korrektur von Erkennungsfehlern, an die Stimme des jeweiligen Sprechers angepasst.
Zu den „erkannten“ Lauten werden dann statistische Hypothesen über die jeweils am wahrscheinlichsten gesagten Worte angestellt. Die Auswahl erfolgt dabei unter Einsatz verschiedener Varianten von Hidden Markov Modellen. Mit diesen Modellen lässt sich die Wahrscheinlichkeit beschreiben, mit welcher ein bestimmtes Wort in einer gegebenen Wortfolge vorkommt. Bei ähnlich oder gleich klingenden Lauten / Worten entscheidet die Software somit anhand von Mehrwortfolgen innerhalb der Äußerung des Sprechers, welches Ergebnis als Text auf dem Bildschirm erscheint. Dragon NaturallySpeaking verwendet dabei, wenn die Äußerung hinreichend lang ist, Zusammenhänge von bis zu vier Wörtern, so genannte Quadgramme. Grundlage hierfür ist ein Sprachmodell (linguistisches Modell), welches diese Wahrscheinlichkeiten beschreibt. Im Auslieferungszustand enthält die Software ein Standard-Sprachmodell für die jeweilige Eingabesprache, welches auf einer Analyse eines sehr großen Text-Corpus durch den Hersteller beruht. Bei der Einrichtung der Software am PC des Nutzers kann dieses Standard-Sprachmodell durch die Analyse von vorhandenen Texten des jeweiligen Nutzers an diesen angepasst werden. Dies erfolgt auch fortlaufend während der Benutzung. Für diese fortwährende Verbesserung des linguistischen Modells ist dabei insbesondere die konsequente Korrektur der falsch erkannten Wörter und Wortkombinationen wichtig.
Das Sprachmodell funktioniert ausschließlich nach statistischen Methoden, nicht nach grammatikalischen Regeln. Die Erkennungsgenauigkeit ist aufgrund dieser Funktionsweise am besten, wenn zusammenhängende Äußerungen gesprochen werden, am besten ganze längere Sätze.
Das Sprachmodell von Dragon NaturallySpeaking baut auf einem mitgelieferten Vokabular (Wort-Lexikon) auf, welches im Auslieferungszustand ca. 150.000 Wortformen (im aktiven Vordergrundvokabular) enthält. Da die Software keine grammatikalischen Regeln anwendet, sind im Vokabular nicht nur die Wortstämme, sondern alle einzelnen Wortformen hinterlegt. Dieses Vokabular lässt sich nutzerspezifisch durch Analyse eigener Texte auf unbekannte Wörter und Wortformen, aber auch durch die Korrektur bei Erkennungsfehlern um ca. weitere 150.000 Wortformen ergänzen. Um die Geschwindigkeit der Umsetzung in einem akzeptablen Bereich zu halten, ist das Vokabular n verschiedene "Slots" gegliedert, also ein Vordergrundvokabular und ein Hintergrundvokabular (dessen Größe auf ca. 250.000-300.000 Einträge geschätzt wird). Zum aktiven Zugriff wird nur das Vordergrundvokabular im Arbeitsspeicher gehalten, Wörter aus dem Hintergrundvokabular werden hinzugefügt, nachdem sie einmal verwendet (und dabei fehlerhaft erkannt und dann korrigiert) wurden.
Der Name der Software NaturallySpeaking leitet sich von der Eigenschaft einer kontinuierlichen Spracherkennung ab. Anders als bei Spracherkennungssystemen, die bis Mitte der Neunzigerjahre des 20. Jahrhunderts verwendet wurden, und auch noch anders als beim Vorgänger DragonDictate, muss der Sprecher zwischen den einzelnen Wörtern keine unnatürlichen Sprechpausen machen (diskrete Sprache), sondern kann kontinuierlich sprechen. Die Software kann aus den Lautfolgen die (wahrscheinlichen) Wortgrenzen anhand der beschriebenen Methoden selbst ermitteln.
Systemanforderungen und Features
Dragon NaturallySpeaking läuft unter dem Betriebssystem Windows in den Versionen XP, Vista, Windows 7 sowie Server 2008; für 64-bit Windows Betriebssysteme seit der Version 10.1. Für Mac OS vertreibt Nuance eine auf demselben Spracherkennungskern (der Version 11 von NaturallySpeaking) aufbauende Software, die auf den Namen Dragon Dictate hört (aber nicht mit dem genannten Vorläufer von Dragon NaturallySpeaking zu verwechseln ist und in der Funktionalität von Korrekturen und Steuerungsmöglichkeiten für den Computer hinter Dragon NaturallySpeaking noch zurückbleibt).
Seit der Version 11 setzt NaturallySpeaking auf Mehrkern-Prozessoren eine Multipass-Technik ein, bei welcher die gleiche Äußerung parallel auf zwei Prozessorkernen analysiert und die wahrscheinlichste Äußerung unter Einsatz jeweils unterschiedlicher Hidden Markov Modelle ermittelt wird, um auf diese Weise die Zuverlässigkeit zu erhöhen. Um genügend Rechner-Kapazität für andere Aufgaben, insbesondere die Ziel-Anwendungen, in die hinein diktiert wird, zu behalten, empfiehlt sich daher der Einsatz auf modernen Vierkern-Prozessoren. Prozessor und Größe des Arbeitsspeichers sowie ein ausreichend großer 2nd bzw. 3rd Level Cache haben auch erheblichen Einfluss auf die Geschwindigkeit der Umsetzung. Bei einem leistungsfähigen aktuellen PC erscheint der Text zumeist unmittelbar, nachdem eine Äußerung ausgesprochen ist.
Obwohl das Programm relativ hohe Anforderungen an die Größe des Arbeitsspeichers und die Kapazität des Prozessors stellt, ist die Benutzeroberfläche eine unauffällige „Dragon-Leiste“, die auch ganz ausgeblendet werden kann. Seit der Version 11 kann zudem noch eine Seitenleiste eingeblendet werden, die kontextabhängig mögliche Steuerungsbefehle aufführt. Das Konzept geht dahin, dass der Benutzer direkt in Ziel-Anwendungen wie Textverarbeitungsprogramme diktiert, in denen dann der gesprochene Text ohne Tastatureingabe erscheint. Ebenso können die Anwendungsprogramme durch gesprochene Befehle gesteuert werden (z. B. Speichern oder Drucken von Dokumenten, Formatierungen); diese Funktionen werden nicht zuletzt von Benutzern mit Bewegungseinschränkungen geschätzt. Zur Kommunikation mit Anwendungsprogrammen greift Dragon NaturallySpeaking auf die MSAA (Microsoft Active Accessibility)-Schnittstelle und die Microsoft-Sprachanwendungsschnittstelle SAPI 4 (nicht die Nachfolgeversion 5) zurück. Der volle Befehlssatz zur Steuerung von Anwendungen steht daher nur in entsprechend kompatiblen Anwendungsprogrammen wie Microsoft Word oder Internet Explorer zur Verfügung, in der Software als „Standardfenster“ oder „Fenster mit voller Textkontrolle“ bezeichnet (in früheren Versionen auch als Select-and-Say). Andere Software wie OpenOffice Writer, Mozilla Firefox oder Mozilla Thunderbird werden teilweise unterstützt. Dragon NaturallySpeaking verfügt daneben über ein eigenes einfaches Textverarbeitungsprogramm, welches funktional Microsoft WordPad ähnelt sowie über ein Diktierfenster, welches zum Transfer von diktiertem Text in nicht kompatible Zielanwendungen benutzt werden kann. Neben SAPI-kompatiblen Anwendungsprogrammen kann man mit Dragon Naturally Speaking die Windows-Oberfläche mit Sprachbefehlen steuern.
Erkennungsgenauigkeit
Die Software setzt ein anfängliches, etwa fünfminütiges Sprechertraining voraus, welches seit Version 9 aber auch übersprungen werden kann, sowie möglichst eine Analyse eigener Texte des Sprechers. Die Erkennungsrate liegt bei einem gut eintrainierten Profil je nach Qualität der Hardware und Deutlichkeit der Sprechweise derzeit bei mehr als 98 Prozent. Auch durch die Verwendung eines besseren als des vom Hersteller mitgelieferten Mikrofons kann die Erkennungsgenauigkeit positiv beeinflusst werden.
Traditionell galt: Je eher ein begrenztes Fachvokabular zum Einsatz kommt (etwa bei Ärzten oder Anwälten), um so besser die Erkennungsrate. Aufgrund der Steigerung der Leistungsfähigkeit des Programms und der Hardware besteht bei den aktuellen Versionen die Notwendigkeit, für bestimmte Fachgebiete jeweils eigene Vokabulare einzusetzen, jedoch praktisch nicht mehr. Jedoch gilt nach wie vor, dass im Vokabular nicht bereits vorhandene Wörter auch nicht richtig erkannt werden können.
Eine Ausnahme bildet (in der deutschen Version) die Funktion zur automatischen Bildung von Komposita. Typische Bestandteile von zusammengesetzten Wörtern sind im Vokabular zusätzlich mit Merkmalen versehen, wonach sie mit anderen Wörtern zu Komposita (ggf. mit Fugen-s) zusammengezogen werden, wenn diese unmittelbar davor oder danach diktiert werden. Auch diese Funktion ist statistisch gesteuert und liefert daher zuweilen auch falsche Komposita, z.B. bei „Zusammengesetztenwörtern“.
Solche Fälle gehören zu den wenigen, in denen Erkennungsfehler von einer Rechtschreibprüfung in der Zielanwendung bemerkt werden – im Gegensatz zu falsch erkannten Wörtern wie in dem (fiktiven) Beispiel: „Der Auszubildende ging in die Leere". Ein Korrekturlesen von mittels Spracherkennung diktierten Texten ist daher empfehlenswert, worauf der Hersteller in der Lizenzvereinbarung ausdrücklich hinweist.
Versionen
Legende: Alte Version Aktuelle Version Zukünftige Version Version Veröffentlichung Editionen 1.0 Juni 1997 Personal 2.0 November 1997 Standard, Preferred, Deluxe 3.0 Oktober 1998 Point & Speak, Standard, Preferred, Professional (with optional Legal and Medical add-on products) 4.0 4. August 1999 Essentials, Standard, Preferred, Professional, Legal, Medical, Mobile 5.0 August 2000 Essentials, Standard, Preferred, Professional, Legal, Medical 6.0 15. November 2001 Essentials, Standard, Preferred, Professional, Legal, Medical 7.0 März 2003 Essentials, Standard, Preferred, Professional, Legal, Medical 8.0 November 2004 Essentials, Standard, Preferred, Professional, Legal, Medical 9.0 Juli 2006 Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server 9.5 Januar 2007 Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server 10.0 7. August 2008 Essentials, Standard, Preferred, Professional, Legal, Medical 10.1 März 2009 Standard, Preferred, Professional, Legal, Medical 11.0 24. August 2010 Home, Premium, Professional, Legal 11.0 März 2011 Medical 11.5 Juni 2011 Premium 11.5 Juli 2011 Home, Professional, Legal Weblinks
- Dragon NaturallySpeaking auf der Webseite des Herstellers, aufgerufen am 2. März 2011
- Anwenderforum für Dragon NaturallySpeaking
Einzelnachweise
- ↑ Geschichte von Dragon Systems (englisch), aufgerufen am 2. Juli 2011]
Kategorie:- Sprachsoftware
Wikimedia Foundation.