Sprachdialog-System

Sprachdialog-System

Mit einem Sprachdialogsystem (engl. Voice Portal), können Anrufer über das Telefon teil- oder vollautomatisierte natürlichsprachliche Dialoge führen.

Beispiel: Anrufer: „Wie ist das Tages-Hoch und der aktuelle Kurs der Aktie Siemens in Frankfurt?“. Antwort des Voice Portal: „Das Tages-Hoch von Siemens in Frankfurt ist xxx,yy Euro und aktuell steht Siemens bei xxx,yy Euro.“

Die rudimentäre Form des Voice Portals wird auch Interactive Voice Response (IVR), auch Einzelworterkennung, genannt. IVR ist eine simple Sprachnavigation bei Telefonanlagen. Beispiel: „Um ein Produkt bei uns zu kaufen sagen Sie jetzt bitte ‚Verkauf‘, haben Sie Probleme mit einem Produkt sagen Sie bitte jetzt ‚Service‘, …“

IVR wird in der Praxis auch als Überbegriff für jede Art der Telefonnavigation verwendet. Also auch für das DTMF (Dual-tone multifrequency dialing, „Für den Verkauf drücken Sie jetzt bitte die ‚1‘, für Service drücken Sie jetzt bitte die ‚2‘, …“).

Inhaltsverzeichnis

Kerntechnologien

Kerntechnologien, die hier eingesetzt werden, sind Spracherkennung, Sprachsynthese (Text-to-Speech) und Sprecher-Authentifizierung („Die Stimme als Passwort“). Durch die starke Weiterentwicklung der Spracherkennung in den letzten Jahren sind auch Dialoge aus ganzen Sätzen möglich. Dies ist allerdings nur in wenigen Anwendungsbereichen (Absetzen von mehreren Informationen in einem Satz) sinnvoll, da der Benutzer eher an schnellem Vorwärtskommen im Dialog interessiert ist als daran, in ganzen Sätzen zu sprechen. Natürliche Sprache (NLU) setzt Intelligenz des Dialogpartners voraus. Um NLU effektiv zu nutzen, muss die künstliche Intelligenz des Dialogsystems mit den Möglichkeiten des Spracherkenners Schritt halten. Nachdem die Kerntechnologie heute als weitgehend ausgereift gelten darf, geraten neue Disziplinen in den Blickpunkt der Entwickler von Voice Portalen, z. B. Dialog Design.

Technische Einschränkungen

NLU ist die natürlichste Form der Kommunikation, aber dennoch sind die Möglichkeiten der Darstellung von Informationen im Vergleich zu visuellen Medien sehr limitiert, z. B.:

  • Die meisten Internet-Nutzer nutzen zuerst einfache Suchbegriffe, prüfen die Ergebnisse – um dann die Suche zu verfeinern. Dies nimmt i. d. R. zwei bis drei schnelle Iterationen in Anspruch um die gewünschte Ergebnismenge zu erhalten. Dieser Ansatz wäre bei „gesprochenen Resultaten“ nicht anwendbar, da dies viel zu lange dauern würde.
  • Heutige Spracherkennungs-Technologien korrelieren die gesprochenen Wörter mit einer Liste von erwarteten Äußerungen, die in Ihrer Größe auf wenige tausend Einträge limitiert ist. Bei der Entwicklung eines Voice Portals müssen Annahmen getroffen werden, was gefragt werden könnte. Basierend hierauf müssen Frage/Antwort-Dialoge entwickelt werden, die den Anrufer zu einer bestimmten Information führen. Ein Dialog könnte dann beispielsweise wie folgt aussehen: „Suchen Sie nach Informationen über ein Unternehmen, einen Film, Verkehrsinformationen …?“ „Unternehmen“ „Welche Art von Unternehmen?“ „Restaurant!“ Welche Art von Restaurant?“ „Chinesisch!“ In welcher Straße, Stadtteil oder in der Nähe von welcher Lokation?“ Auch wenn dieses Vorgehen funktionieren kann und für den Anrufer hilfreich sein kann – es ist weit entfernt von den Möglichkeiten, die man mit einer Freitexteingabe bei einer Suchmaschine im Internet hat.

Einsatzbeispiele

  • Informationen und Auskünfte am Telefon, z. B. Fahr- und Flugpläne
  • Automatische Bestellung/ Reservierung am Telefon, z. B. Ticket-Hotline, Katalogbestellungen, Telefonbanking
  • Automatische Telefonzentrale/Vermittlung
  • Vorqualifikation/Autorisierung von Anrufern, z. B. Abfrage der Kundennummer bzw. PIN
  • Intelligente Wartefelder von Call-Centern
  • Stör-Ansage-Management
  • Televoting, Gewinnspiele am Telefon

Siehe auch


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”