- VoiceXML
-
VoiceXML (Voice Extensible Markup Language) ist eine XML-Applikation, die der Beschreibung von Dialog-Abläufen in einem Sprachdialogsystem dient. Sie ist besonders für Telefonanwendungen entwickelt worden. Seit März 2004 ist VoiceXML eine Empfehlung des World Wide Web Consortiums (W3C) und hat damit denselben Status als Web-Standard wie HTML. Anwendungen, die in VoiceXML entwickelt wurden, laufen somit auf jeder VoiceXML-kompatiblen Sprachplattform.
Um die grafischen Benutzerschnittstellen im World Wide Web um die Ein- und Ausgabemöglichkeit der natürlichen Sprache zu erweitern und somit zu multimodalen Benutzerschnittstellen auszubauen, haben sich zwei weitere Dialogbeschreibungssprachen als Ergänzung oder Alternative zu VoiceXML entwickelt:
- SALT (Speech Application Language Tags)
- X+V (XHTML+Voice)
SALT wurde von Microsoft initiiert und dient der stärkeren Verknüpfung von Sprachanwendungen mit den Inhalten und Verfahrensweisen des World Wide Web. X+V verbindet XHTML und VoiceXML-Elemente, um Internet und Telefonie zu verschmelzen.
Inhaltsverzeichnis
Entwicklungsgeschichte
Bei den ersten Sprachanwendungen gab es keine Trennung von Applikation und Plattform. Dialogverläufe wurden genauso „hart verdrahtet“ programmiert und kompiliert wie beispielsweise die Schnittstellen zur Telefonanlage. Das hatte zwar den Vorteil, dass Sprachanwendungen in der Regel schnell erstellt werden konnten und zuverlässig liefen. Der Preis dafür war eine für heutige Begriffe unakzeptable Starrheit. Sollte beispielsweise ein Dialog geändert werden, musste der Anwendungsprogrammierer Eingriffe tief im Quellcode vornehmen.
In neueren Sprachanwendungen wurde deshalb die Anwendung von der Plattform getrennt, so dass Dialoge einfacher gepflegt werden konnten. Jedoch waren (und sind es in vielen Fällen auch heute häufig noch) die Skriptsprachen oder Tools zur Beschreibung dieser Anwendungen proprietär – also von Anbieter zu Anbieter unterschiedlich.
VoiceXML 2.0 ist eine Standardisierungsanstrengung mit dem Ziel, zu einer einheitlichen Beschreibung von Sprachapplikationen zu kommen. Gleichzeitig ist es eine Schnittstellensprache, die zur Kommunikation zwischen Anwendung und Plattform genutzt werden kann. Der Standard hat mittlerweile eine weite Verbreitung gefunden und wird von zahlreichen Anbietern unterstützt, ohne allerdings den Markt völlig zu beherrschen. Neben den im Markt nach wie vor sehr verbreiteten proprietären Lösungen und Anwendungsplattformen gibt es konkurrierende Standardisierungsansätze, insbesondere den von einem Konsortium um Microsoft vorangetriebenen SALT-Standard. Die Spezifikation wurde am 16. März 2004 veröffentlicht.
VoiceXML 2.1 wurde am 19. Juli 2007 veröffentlicht und erweitert die Version 2.0 um einige zusätzliche Fähigkeiten. Diese sollen die während der Arbeit mit VoiceXML 2.0 erkannten Unzulänglichkeiten ausgleichen. Version 2.1 ist dabei vollständig abwärtskompatibel zu Version 2.0.
Aktuell wird an der Spezifikation zu VoiceXML 3.0 gearbeitet. Diese Version soll ein vollständiges Redesign der Spezifikation mit sich bringen, um eine Nutzung als Domain Specific Language für die Entwicklung von Sprachschnittstellen auch abseits der Telefonie zu ermöglichen. Die Abwärtskompatibilität zu VoiceXML 2.1 soll durch ein spezielles Profil ermöglicht werden.
Analogien zum World Wide Web
Vergleicht man VoiceXML mit HTML, dann gibt es eine Reihe von Parallelen. Wie HTML ist VoiceXML sowohl Beschreibungssprache als auch Schnittstellenstandard:
- Man kann VoiceXML direkt nutzen, um Sprachanwendungen zu codieren, genauso wie man HTML direkt nutzen kann, um Benutzeroberflächen zu codieren.
- Man kann die Anwendung aber auch mit einem proprietären Tool definieren, und daraus (dynamisch oder statisch) VoiceXML-Code generieren. Das entspricht der Verwendung eines Dokumentenmanagementsystems für die Pflege einer Webseite. VoiceXML wird in diesem Fall weitgehend auf seine Eigenschaft als Schnittstellenstandard reduziert.
Die Analogie hinkt allerdings beim heutigen Stand der Technik noch an einem wichtigen Punkt: Noch sitzt der VoiceXML-Browser (als Bestandteil der Plattform) nicht direkt im Telefon des Endkunden, sondern steht häufig (aus Effizienzgründen) sogar noch im gleichen Serverraum wie der Anwendungs-Server. Die Kommunikation zwischen Anrufer und Plattform geschieht über das öffentliche Telefonnetz. Damit ist für den Anrufer und oft auch für den Betreiber die Frage ohne große Bedeutung, über welchen Standard Plattform und Applikation kommunizieren. Erst wenn aufgrund gestiegener Rechenleistung der Browser (und mit ihm zusammen insbesondere der Spracherkenner und die Sprachsynthese) auf dem Telefon Platz findet, ist die Frage der Standardisierung für den Anrufer (genauer: den Nutzer der Sprachapplikation) von wirklicher Bedeutung. Die Situation ist also heute noch in gewisser Weise vergleichbar mit der Frage, ob eine Benutzeroberfläche für eine lokal betriebene Anwendung in der Sprache HTML, oder etwa in Visual Basic oder auch mit einem (proprietären) Tool zur GUI-Erstellung realisiert werden soll – entscheidend ist vor allem die Qualität der resultierenden Benutzeroberfläche.
Grenzen
VoiceXML ist – wie jeder Standard – ein Kompromiss. Das bedeutet, dass erwünschte Features möglicherweise nicht oder erst in einer späteren Version unterstützt werden. In diesem Fall kann VoiceXML jedoch durch proprietäre Ergänzungen ausgeweitet werden. Das verwässert die oben erwähnten Vorteile zwar etwas, ist jedoch immer noch praktikabler, als das gesamte System auf ein proprietäres Skript aufzusetzen.
VoiceXML als Skriptsprache zur Anwendungsentwicklung beruht auf dem Grundkonzept, dass sich Dialoge zwischen Mensch und Maschine über explizit vordefinierte Flussdiagramme formalisieren lassen. In dieser Vorstellung „navigiert“ der Anrufer durch den vordefinierten Dialogablauf, häufig sogar unter Verwendung expliziter Navigationskommandos wie „zurück“ und „Hauptmenü“. Dieses Konzept stößt dort an die Grenzen, wo sich die Interaktion einem freien Mensch-Maschine-Dialog annähert, bei dem der Anrufer die Dialoginitiative durch das Formulieren ganzer Sätze übernehmen kann, z. B. „nein, nach Hamburg, und zwar so, dass ich so gegen 18 Uhr da bin“ (sogenannte conversational oder mixed-initiative dialogues). Zwar gibt es Konstrukte in VoiceXML, die dem Anrufer bei der Navigation durch den Dialogablauf gewisse Freiheiten eröffnen (z. B. sogenanntes form filling); der Aufwand für die Anwendungsentwicklung steigt jedoch prinzipbedingt mit zunehmender Freiheit im Dialogablauf drastisch an. Für die Realisierung solcher Dialoge erweist sich die Einführung eines sogenannten Dialogmanagers als nützlich, der die Systemreaktion dynamisch auf Basis der Dialoghistorie bestimmt. Ein solcher Dialogmanager kann genutzt werden, um VoiceXML-Dokumente – als Schnittstelle zur Sprachplattform – dynamisch zu generieren.
Multimodale Anwendungen – also die Verbindung von Sprache und grafischer Ausgabe – werden derzeit von VoiceXML nur begrenzt unterstützt. Es gibt jedoch Tendenzen, multimedial angelegte Dialogbeschreibungssprachen zu etablieren. Dabei stellt X+V (XHTML+Voice) den Versuch da, VoiceXML mit XHTML mithilfe von speziellen Synchronisierungselementen zusammenzuführen. Eine weiterer Ansatz bietet die Sprache SALT, die als Aufsatz auf HTML gedacht ist, aber für die Sprachfunktionen auf einen proprietären, von VoiceXML verschiedenen Ansatz setzt. Bisher haben diese technischen Lösungen aber noch das Hauptproblem, dass ein überzeugender Use-Case für ihren praktischen Einsatz fehlt.
Siehe auch
- Sprachdialogsystem
- Dialog Design (Gestaltung akustischer Benutzerschnittstellen)
- Text-to-Speech (TTS), siehe Sprachsynthese
- Natürliche Sprache (Natural Language Understanding, NLU, Verstehen natürlicher Sprache)
- Unified Messaging
- IP-Telefonie
Weblinks
- VoiceXML 2.1 Tutorial
- VoiceObjects Developer Edition, kostenfreie VoiceXML IDE für Eclipse
- VXIasterisk, VoiceXML interpreter for asterisk
- W3C-Spezifikation von Voice XML 2.0
- W3C-Spezifikation von Voice XML 2.1
- W3C-Spezifikation von Voice XML 3.0
- Einführung in VoiceXML 2.0 (deutsche Übersetzung)
- VOICE Community - Kompetenznetzwerk und online-Entwicklungs- und Testumgebung für Sprachportale
- Initiative VOICE Business - Brancheninitiative, veranstaltet unter anderem die VOICE Awards, den VOICE Contest, und die VOICE Days
- voice compass - Fachbuch über Sprachanwendungen und Portal für Herstellerübersichten zum Thema Voice und Sprachautomation
Standards des World Wide Web ConsortiumsEmpfehlungen (Recommendations): ATAG | Canonical XML | CSS | CharMod | CC/PP | DDR Simple API | DOM | EXI | Element Traversal | EMMA | GRDDL | HTML | ITS | MathML | OWL | P3P | PICS | PLS | PNG | POWDER | RDF | RDF-Schema | Ruby | SISR | SKOS | SML | SMIL | SOAP | SOAP MTOM | SPARQL | SRGS | SSML | SVG | SSML | UAAG | VoiceXML | WCAG | Webarch | WebCGM | WSDL | WS-Adressing | WS-Policy | XHTML | XML | XInclude | XKMS | XLink | XML Base | XMLEnc-Decrypt | XML Events | XML Information Set | XML Namespace | XML Schema | XML Signature | XOP | XForms | XPath | XPointer | XProc | XQuery | XSL | XSLT
Arbeitsentwürfe (Working Drafts) und Kandidaten (Candidate Recommendations): Capture API | CCXML | CDF | Clipboard API | Contacts API | Cross-Origin Resource Sharing | CURIE | EARL | File API | HTML5 | HTML Canvas | HTML Microdata | Indexed Database API | InkML | LTLI | RIF | Selectors API | System Information API | WAI-ARIA | Web IDL | Web Sockets API | Web SQL Database | WICD | Widgets | XFrames | XBL
Wikimedia Foundation.
Schlagen Sie auch in anderen Wörterbüchern nach:
VoiceXML — (VXML) is the W3C s standard XML format for specifying interactive voice dialogues between a human and a computer. It allows voice applications to be developed and deployed in an analogous way to HTML for visual applications. Just as HTML… … Wikipedia
VoiceXML — (Voice eXtensible Markup Language, VXML) один из открытых стандартов W3C на основе XML языка[1], протокол[2], диалоговый язык разметки. Содержание 1 История 2 Использование … Википедия
VoiceXML — VoiceXML, XML … Universal-Lexikon
VoiceXML — Le VoiceXML (Voice eXtensible Markup Language ou langage de balisage extensible vocal) est un langage normalisé de programmation d une application vocale. Sommaire 1 Application vocale 2 Langage VoiceXML 2.1 Définition … Wikipédia en Français
VoiceXML — ● np. f. ►XML spécification XML validée en version 1.0 par le W3C en mai 2000. Il s agit d une API de communication avec les périphériques de synthèse vocale et de téléphonie. http://www.voicexml.org … Dictionnaire d'informatique francophone
Форум VoiceXML — по выработке требований к языку разметки речевой информации. См. www.voicexml.org. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М. Горностаева. Москва, 2002] Тематики электросвязь,… … Справочник технического переводчика
VXML — VoiceXML (Voice Extensible Markup Language) ist eine XML Applikation, die der Beschreibung von Dialog Abläufen in einem Sprachdialogsystem dient. Sie ist besonders für Telefonanwendungen entwickelt worden. Seit März 2004 ist VoiceXML eine… … Deutsch Wikipedia
Speech Application Language Tags — (SALT) is an XML based markup language that is used in HTML and XHTML pages to add voice recognition capabilities to web based applications.DescriptionSpeech Application Language Tags enables multimodal and telephony enabled access to information … Wikipedia
Voice browser — A voice browser is a web browser that presents an interactive voice user interface to the user. In addition, it typically provides an interface to the PSTN or a PBX. Just as a visual web browser works with HTML pages, a voice browser operates on… … Wikipedia
SRGS — Die Speech Recognition Grammar Specification (SRGS) ist ein W3C Standard, der beschreibt, wie Spracherkennungs Grammatiken (engl. speech recognition grammars) spezifiziert werden. Eine Spracherkennungs Grammatik ist ein Reihe von Wortschemen, die … Deutsch Wikipedia