VXML

VXML

VoiceXML (Voice Extensible Markup Language) ist eine XML-Applikation, die der Beschreibung von Dialog-Abläufen in einem Sprachdialogsystem dient. Sie ist besonders für Telefonanwendungen entwickelt worden. Seit März 2004 ist VoiceXML eine Empfehlung des World Wide Web Consortiums (W3C) und hat damit denselben Status als Web-Standard wie HTML. Anwendungen, die in VoiceXML entwickelt wurden, laufen somit auf jeder VoiceXML-kompatiblen Sprachplattform.

Um die grafischen Benutzerschnittstellen im World Wide Web um die Ein- und Ausgabemöglichkeit der natürlichen Sprache zu erweitern und somit zu multimodalen Benutzerschnittstellen auszubauen, haben sich zwei weitere Dialogbeschreibungssprachen als Ergänzung oder Alternative zu VoiceXML entwickelt:

  • SALT (Speech Application Language Tags)
  • X+V (XHTML+Voice)

SALT wurde von Microsoft initiiert und dient der stärkeren Verknüpfung von Sprachanwendungen mit den Inhalten und Verfahrensweisen des World Wide Web. X+V verbindet XHTML und VoiceXML-Elemente, um Internet und Telefonie zu verschmelzen.

Inhaltsverzeichnis

Entwicklungsgeschichte

Bei den ersten Sprachanwendungen gab es keine Trennung von Applikation und Plattform. Dialogverläufe wurden genauso „hart verdrahtet“ programmiert und kompiliert wie beispielsweise die Schnittstellen zur Telefonanlage. Das hatte zwar den Vorteil, dass Sprachanwendungen in der Regel schnell erstellt werden konnten und zuverlässig liefen. Der Preis dafür war eine für heutige Begriffe unakzeptable Starrheit. Sollte beispielsweise ein Dialog geändert werden, musste der Anwendungsprogrammierer Eingriffe tief im Quellcode vornehmen.

In neueren Sprachanwendungen wurde deshalb die Anwendung von der Plattform getrennt, so dass Dialoge einfacher gepflegt werden konnten. Jedoch waren (und sind es in vielen Fällen auch heute häufig noch) die Skriptsprachen oder Tools zur Beschreibung dieser Anwendungen proprietär – also von Anbieter zu Anbieter unterschiedlich.

VoiceXML 2.0 ist eine Standisierungsanstrengung mit dem Ziel, zu einer einheitlichen Beschreibung von Sprachapplikationen zu kommen. Gleichzeitig ist es eine Schnittstellensprache, die zur Kommunikation zwischen Anwendung und Plattform genutzt werden kann. Der Standard hat mittlerweile eine weite Verbreitung gefunden und wird von zahlreichen Anbietern unterstützt, ohne allerdings den Markt völlig zu beherrschen. Neben den im Markt nach wie vor sehr verbreiteten proprietären Lösungen und Anwendungsplattformen gibt es konkurrierende Standardisierungsansätze, insbesondere den von einem Konsortium um Microsoft vorangetriebenen SALT-Standard. Die Spezifikation wurde am 16. März 2004 veröffentlicht.

VoiceXML 2.1 erweitert VoiceXML 2.0 um einige zusätzliche Features. Diese sollen die während der Arbeit mit VoiceXML 2.0 erkannten Unzulänglichkeiten ausgleichen; Version 2.1 ist dabei vollständig abwärtskompatibel zu Version 2.0. VoiceXML 2.1 wurde am 19. Juli 2007 veröffentlicht.

Analogien zum World Wide Web

Vergleicht man VoiceXML mit HTML, dann gibt es eine Reihe von Parallelen. Wie HTML ist VoiceXML sowohl Beschreibungssprache als auch Schnittstellenstandard:

  • Man kann VoiceXML direkt nutzen, um Sprachanwendungen zu codieren, genauso wie man HTML direkt nutzen kann, um Benutzeroberflächen zu codieren.
  • Man kann die Anwendung aber auch mit einem proprietären Tool definieren, und daraus (dynamisch oder statisch) VoiceXML-Code generieren. Das entspricht der Verwendung eines Dokumentenmanagementsystems für die Pflege einer Webseite. VoiceXML wird in diesem Fall weitgehend auf seine Eigenschaft als Schnittstellenstandard reduziert.

Die Analogie hinkt allerdings beim heutigen Stand der Technik noch an einem wichtigen Punkt: Noch sitzt der VoiceXML-Browser (als Bestandteil der Plattform) nicht direkt im Telefon des Endkunden, sondern steht häufig (aus Effizienzgründen) sogar noch im gleichen Serverraum wie der Anwendungs-Server. Die Kommunikation zwischen Anrufer und Plattform geschieht über das öffentliche Telefonnetz. Damit ist für den Anrufer und oft auch für den Betreiber die Frage ohne große Bedeutung, über welchen Standard Plattform und Applikation kommunizieren. Erst wenn aufgrund gestiegener Rechenleistung der Browser (und mit ihm zusammen insbesondere der Spracherkenner und die Sprachsynthese) auf dem Telefon Platz findet, ist die Frage der Standardisierung für den Anrufer (genauer: den Nutzer der Sprachapplikation) von wirklicher Bedeutung. Die Situation ist also heute noch in gewisser Weise vergleichbar mit der Frage, ob eine Benutzeroberfläche für eine lokal betriebene Anwendung in der Sprache HTML, oder etwa in Visual Basic oder auch mit einem (proprietären) Tool zur GUI-Erstellung realisiert werden soll – entscheidend ist vor allem die Qualität der resultierenden Benutzeroberfläche.

Grenzen

VoiceXML ist – wie jeder Standard – ein Kompromiss. Das bedeutet, dass erwünschte Features möglicherweise nicht oder erst in einer späteren Version unterstützt werden. In diesem Fall kann VoiceXML jedoch durch proprietäre Ergänzungen ausgeweitet werden. Das verwässert die oben erwähnten Vorteile zwar etwas, ist jedoch immer noch praktikabler, als das gesamte System auf ein proprietäres Skript aufzusetzen.

VoiceXML als Skriptsprache zur Anwendungsentwicklung beruht auf dem Grundkonzept, dass sich Dialoge zwischen Mensch und Maschine über explizit vordefinierte Flussdiagramme formalisieren lassen. In dieser Vorstellung „navigiert“ der Anrufer durch den vordefinierten Dialogablauf, häufig sogar unter Verwendung expliziter Navigationskommandos wie „zurück“ und „Hauptmenü“. Dieses Konzept stößt dort an die Grenzen, wo sich die Interaktion einem freien Mensch-Maschine-Dialog annähert, bei dem der Anrufer die Dialoginitiative durch das Formulieren ganzer Sätze übernehmen kann, z. B. „nein, nach Hamburg, und zwar so, dass ich so gegen 18 Uhr da bin“ (sogenannte conversational oder mixed-initiative dialogues). Zwar gibt es Konstrukte in VoiceXML, die dem Anrufer bei der Navigation durch den Dialogablauf gewisse Freiheiten eröffnen (z. B. sogenanntes form filling); der Aufwand für die Anwendungsentwicklung steigt jedoch prinzipbedingt mit zunehmender Freiheit im Dialogablauf drastisch an. Für die Realisierung solcher Dialoge erweist sich die Einführung eines sogenannten Dialogmanagers als nützlich, der die Systemreaktion dynamisch auf Basis der Dialoghistorie bestimmt. Ein solcher Dialogmanager kann genutzt werden, um VoiceXML-Dokumente – als Schnittstelle zur Sprachplattform – dynamisch zu generieren.

Multimodale Anwendungen – also die Verbindung von Sprache und grafischer Ausgabe – werden derzeit von VoiceXML nur begrenzt unterstützt. Es gibt jedoch Tendenzen, multimedial angelegte Dialogbeschreibungssprachen zu etablieren. Dabei stellt X+V (XHTML+Voice) den Versuch da, VoiceXML mit XHTML mithilfe von speziellen Synchronisierungselementen zusammenzuführen. Eine weiterer Ansatz bietet die Sprache SALT, die als Aufsatz auf HTML gedacht ist, aber für die Sprachfunktionen auf einen proprietären, von VoiceXML verschiedenen Ansatz setzt. Bisher haben diese technischen Lösungen aber noch das Hauptproblem, dass ein überzeugender Use-Case für ihren praktischen Einsatz fehlt.

Siehe auch

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • VXML — Voice Extensible Markup Language (Computing » Telecom) * VoiceXML Source File (Computing » File Extensions) …   Abbreviations dictionary

  • VXML — Voice eXtensible Markup Language …   Acronyms

  • VXML — Voice eXtensible Markup Language …   Acronyms von A bis Z

  • VXML — abbr. Voice Extensible Markup Language …   Dictionary of abbreviations

  • VXML — comp. abbr. Voice Extensible Markup Language …   United dictionary of abbreviations and acronyms

  • SpeechWeb — A SpeechWeb is a collection of hyperlinked speech applications, accessed remotely by speech browsers running on end user devices. Links are activated through spoken commands. The idea of surfing the web by voice dates back to at least the work of …   Wikipedia

  • VoiceXML — Le VoiceXML (Voice eXtensible Markup Language ou langage de balisage extensible vocal) est un langage normalisé de programmation d une application vocale. Sommaire 1 Application vocale 2 Langage VoiceXML 2.1 Définition …   Wikipédia en Français

  • VoiceXML — (Voice eXtensible Markup Language, VXML)  один из открытых стандартов W3C на основе XML языка[1], протокол[2], диалоговый язык разметки. Содержание 1 История 2 Использование …   Википедия

  • Interactive voice response — IVR redirects here. For other uses, see IVR (disambiguation). Interactive voice response (IVR) is a technology that allows a computer to interact with humans through the use of voice and DTMF keypad inputs. In telecommunications, IVR allows… …   Wikipedia

  • VoiceXML — (VXML) is the W3C s standard XML format for specifying interactive voice dialogues between a human and a computer. It allows voice applications to be developed and deployed in an analogous way to HTML for visual applications. Just as HTML… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”