Sprachdialogsystem

Sprachdialogsystem: Mit einem Sprachdialogsystem (engl. Voice Portal), auch IVR-System (Interactive Voice Response), können Anrufer über das Telefon oder andere akustische Medien teil- oder vollautomatisierte natürlichsprachliche Dialoge führen.

Beispiel:

Anrufer: „Wie ist das Tages-Hoch und der aktuelle Kurs der Aktie Siemens in Frankfurt?“.

Antwort des Sprachdialogsystems: „Das Tages-Hoch von Siemens in Frankfurt ist xxx,yy Euro und aktuell steht Siemens bei xxx,yy Euro.“

IVR wird in der Praxis auch als Überbegriff für jede Art der Telefonnavigation verwendet. Also auch für das Mehrfrequenzwahlverfahren („Für den Verkauf drücken Sie jetzt bitte die ‚1‘, für Service drücken Sie jetzt bitte die ‚2‘, …“).

Inhaltsverzeichnis

1 Grundaufbau

2 Einsatzfelder

2.1 Kommerzielle Sprachdienste

2.2 Innerbetriebliche Sprachdienste (für Mitarbeiter)

2.3 Geräteintegrierte Sprachdienste

3 Vorteile und Grenzen interaktiver Sprachdialogsysteme

4 Kriterien für den Einsatz von Sprachdialogsystemem

5 Einzelnachweise

6 Siehe auch

7 Weblinks

Grundaufbau

IVR-Systeme bestehen aus folgenden Bestandteilen ^[1]:

Spracherkennung (Automated Speech Recognition, ASR) mit Grammatiken / Semantiken zur Interpretation von Spracheingaben (Natural Language Understanding NLU),

Sprachsynthese (Text-to-Speech, TTS) zur Wandlung von Texten in computergenerierte Stimmen zur Sprachausgabe,

Dialogablauf-Interpreter (z. B. VoiceXML-Browser) als Frontend,

Geschäftslogik und Datenbanken zur Einbindung in Unternehmensprozesse als Backend.

Schnittstellen zu IP-Netzwerk, Telefonnetz, DECT-Anlagen oder Audioanschlüssen,

Abbildung 1: Architektur von IVR-Systemen^[2]

Es sind biometrische Verfahren zur Sprecherauthentifizierung („Die Stimme als Passwort“) verfügbar und durch das Bundesamt für Sicherheit in der Informationstechnik (BSI) als sicher zertifiziert.

Wegen der Weiterentwicklung der Spracherkennung in den letzten Jahren sind aus ganzen Sätzen bestehende Dialoge möglich. Natürliche Sprache (Natural Language Understanding, NLU) setzt Intelligenz des Dialogpartners voraus. Um NLU effektiv zu nutzen, muss die künstliche Intelligenz des Dialogsystems mit den Möglichkeiten des Spracherkenners Schritt halten. Nachdem die Kerntechnologie heute als weitgehend ausgereift gilt, geraten neue Disziplinen in den Blickpunkt der Entwickler von Sprachdialogsystemen, z. B. Dialog Design.

Einsatzfelder

IVR-Systeme ermöglichen es, Sprache als weiteres Ein-/Ausgabemedium neben Tastatur, Maus und Monitor zu nutzen.

Die Anwendungsarten lassen sich technisch einteilen in

reine Sprachdienste: bieten nur Interaktion über Sprache und

multimodale Anwendungen: kombinieren Sprachinteraktion mit anderen Ein-/Ausgabemedien (z.B. grafischen Oberflächen).

Im Folgenden werden die Anwendungsarten weiter nach Nutzergruppen eingeteilt in kommerzielle Sprachdienste (Business2Consumer, Business2Business), innerbetriebliche Sprachdienste und geräteintegrierte Sprachdienste (Hardware- und Software-Steuerung, Computerspiele).

Kommerzielle Sprachdienste

Reine Sprachdienste kommerzieller Natur stoßen bei deutschen Konsumenten Stand 2009 meist noch auf Ablehnung. Da der Anwender nicht persönlich eingewiesen werden kann, die Funktionsweise der Systeme nicht kennt und sich durch eventuell über den Sprachdienst eingespielte Werbung belästigt fühlt, nehmen Endkunden häufig eine negative Haltung gegenüber Sprachdiensten ein. Folgende Einsatzfelder sind exemplarisch für den kommerziellen Bereich:

Dienste für Endkunden (Business2Consumer)^[3]:

Informationen und Auskünfte am Telefon, z. B. Fahr- und Flugpläne

Automatische Bestellung/Reservierung am Telefon, z. B. Ticket-Hotline, Katalogbestellungen, Telefonbanking

Automatische Telefonzentrale/Vermittlung

Vorqualifikation/Autorisierung von Anrufern, z. B. Abfrage der Kundennummer bzw. PIN

Intelligente Wartefelder von Call-Centern

Stör-Ansage-Management

Televoting, Gewinnspiele am Telefon

Dienste für zwischenbetriebliche Abläufe (Business2Business):

(Keine umgesetzte Lösung bekannt.)

Innerbetriebliche Sprachdienste (für Mitarbeiter)

Innerbetrieblich wird Sprachverarbeitung aktuell kaum genutzt, obwohl hier große Potenziale liegen: Der innerbetriebliche Anwender kann in die Bedienung eingewiesen werden und er arbeitet regelmäßig mit dem Sprachdienst. Dies führt zu effizienter Nutzung bei hoher Akzeptanz durch den Anwender. Die Prozesszeiten innerbetrieblicher Abläufe lassen sich stark beschleunigen bei gleichzeitiger Senkung der Fehlerraten bei der Dateneingabe durch reduzierte Medienbrüche.

Warenannahme

Qualitätsprüfung, Laufprüfung, Produktendabnahme

Inventur

Inspektion von Anlagen

prozessorientierte Ereignismeldung

Fern- und Vorortdiagnose

Geräteintegrierte Sprachdienste

Nur wenig besser angenommen werden Stand 2009 geräteintegrierte Dialogsysteme. Allerdings erfordert eine qualitative Spracherkennung hohe Rechenleistung bei entsprechendem Energiebedarf, so dass zufriedenstellend funktionierende Lösungen zunächst nur in Bordsystemen einzelner Oberklassewagen, Computerspielen oder spezieller Anwendungssoftware anzutreffen sind. Beispiele für geräteintegrierte Spracherkennung sind:

Freisprecheinrichtungen in Kraftfahrzeugen

Navigationssysteme in Kraftfahrzeugen

Rufnummernwahl in Mobiltelefonen über den Personennamen

Computerspiele

Stand 2009 existieren erste Computerspiele, die Spracheingabe und -ausgabe in ihr User Interface und das Spielekonzept aufnehmen. Da Computerspiele bereits im Grafikbereich ein wesentlicher Technologietreiber sind, könnte ihnen in der Sprachtechnologie zukünftig vielleicht eine ähnliche Rolle zukommen.

Anwendungs-Software für körperlich Behinderte

kooperative Maschinensteuerung

Engere Kooperation zwischen Mensch und Maschine, z.B. für den Einsatz von Industrierobotern in Handwerksbetrieben, ist ein aktueller Forschungsgegenstand^[4].

Vorteile und Grenzen interaktiver Sprachdialogsysteme

Mittels Sprache kann gegenüber herkömmlichen grafischen Benutzeroberflächen direkt und natürlich kommuniziert werden:

Vorteile der Sprachinteraktion

Die Hände und der Blick bleiben frei (verbessert Ergonomie und Prozesszeit).

Sprache ist dem Menschen unmittelbar zugänglich (größere Qualifikationsmaßnahmen und längere Einlernzeiten zur Oberflächenbedienung entfallen).

Die Anforderungen an das Endgerät sind gering (es genügt ein Telefon oder Headset mit gutem Mikrofon).

Die allgemeine Verfügbarkeit von (Mobil-) Telefonen erlaubt neue Freiheitsgrade während der Interaktion mit Software-Anwendungen.

Moderne sprecherunabhängige Erkennung versteht Äußerungen verschiedener Personen ohne Training (mehrsprachige Applikationen möglich; bis zu einem gewissen Grad auch Dialekte toleriert).

Alle Informationselemente sind direkt erreichbar (kein mühsames Durchlaufen hierarchischer Menüs und langer Listen).

Innerhalb eines spezifischen Kontexts können komplexe Sätze verstanden und automatisch verarbeitet werden (zum Beispiel für die Reservierung eines Dienstwagens über einen Telefonanschluss: "Hallo. Ich hätte gerne einen Wagen für die Strecke Stuttgart - Darmstadt am Donnerstag von 6 bis 22 Uhr").

Visuelle Aufgaben erfordern hohe Aufmerksamkeit. Dialoge können praktisch "nebenbei" geführt werden.

Diese enorme Flexibilität von Sprachtechnologie schafft neues Innovationspotenzial z. B. für integrierte Unternehmensprozesse und deren Koordination.

NLU ist die natürlichste Form der Computerinteraktion, dennoch sind die Möglichkeiten der Darstellung von Informationen im Vergleich zu visuellen Medien eingeschränkt:

Grenzen der Sprachinteraktion

Keine 100-prozentige Erkennung

Problematisch sind sehr umfangreiche Vokabulare (vermehrt Ähnlichkeiten in der Aussprache verschiedener Begriffe).

Auch in absehbarer Zukunft keine perfekte Erkennung (Variabilität der menschlichen Stimme).

Raue Umweltbedingungen

Wiederholt auftretende Umweltgeräusche können signaltechnisch und softwaretechnisch heutzutage gut herausgefiltert werden.

Das Filtern menschlicher Stimmen im Hintergrund bleibt dagegen weiterhin problematisch.

Navigation und Menüstrukturen

Der Benutzer muss sich mit den Navigationsmöglichkeiten und Funktionen einer Sprachapplikation erst vertraut machen. Lösung: Abgestufte Anwendungs-Modi für Einsteiger und Fortgeschrittene zur effizienten Nutzung.

Bei regelmäßiger Nutzung sind überzeugende Prozesszeiten möglich.

Die menschliche Wahrnehmung kann lange Listen visuell gut überblicken; akustisch ist das Auflisten vieler Informationen an einem Stück jedoch schwer verständlich.

Beispiel: Die meisten Internet-Nutzer verwenden zuerst einfache Suchbegriffe und prüfen die Ergebnisse, um dann die Suche zu verfeinern. Dies nimmt i. d. R. zwei bis drei schnelle Iterationen in Anspruch, um die gewünschte Ergebnismenge zu erhalten. Dieser Ansatz wäre bei „gesprochenen Resultaten“ zeitintensiv und damit nicht praxistauglich.

Unrealistische Erwartungen

Man muss "die Regeln" kennen. Computer "verstehen" nicht - es ist lediglich eine Sprach-"Erkennung".

Heutige Spracherkennungstechniken korrelieren die gesprochenen Wörter mit einer Liste von erwarteten Äußerungen, die in ihrer Größe auf wenige tausend Einträge limitiert ist. Bei der Entwicklung eines Sprachdialogsystems müssen Annahmen getroffen werden, was gefragt werden könnte. Basierend hierauf müssen Frage/Antwort-Dialoge entwickelt werden, die den Anrufer zu einer bestimmten Information führen. Ein Dialog könnte dann beispielsweise wie folgt aussehen: „Suchen Sie nach Informationen über ein Unternehmen, einen Film, Verkehrsinformationen …?“ „Unternehmen“ „Welche Art von Unternehmen?“ „Restaurant!“ Welche Art von Restaurant?“ „Chinesisch!“ In welcher Straße, Stadtteil oder in der Nähe von welchem Lokal?“ Auch wenn dieses Vorgehen funktionieren kann und für den Anrufer hilfreich sein kann, ist es doch weit entfernt von den Möglichkeiten, die man mit einer Freitexteingabe bei einer Suchmaschine im Internet hat.

Neue Kulturtechnik

Sprachliche Interaktion mit Computern ist eine neue Kulturtechnik. Sowohl Benutzer als auch Entwickler werden sich erst im Laufe der Zeit auf gemeinsame und allgemein bekannte Dialogkonzepte (Bausteine) einigen.

Man sollte sich folglich nicht durch schlecht gestaltete Anwendungen irritieren lassen, sondern wirtschaftliche Lösungen einrichten und nutzen.

"Sprache ist das Fahrrad unter den Benutzungsschnittstellen. Es macht großen Spaß [...], aber es trägt nur eine geringe Zuladung. Nüchterne Fürsprecher wissen, dass es schwierig sein wird, das Automobil zu ersetzen: die grafische Benutzeroberfläche." ("Speech is the bicycle of user-interface design, it is great fun to use [...], but it can carry only a light load. Sober advocates know that it will be tough to replace the automobile: graphic user-interfaces", Ben Shneiderman, 1998^[5]).

Kriterien für den Einsatz von Sprachdialogsystemem

Für den Einsatz von Sprachtechnologien in betrieblichen Anwendungen sprechen folgende Kriterien ^[6]:

Der Mitarbeiter ...

hat wenig Computererfahrung

hat eine Schreib-/Leseschwäche

spricht nur Fremdsprachen

Die Aktivität fordert ...

freie Hände und freier Blick

Input leicht in Worte zu fassen

Mobilität

häufig wiederholte Aufgaben

Das Arbeitsumfeld ergibt

visuelle Wahrnehmung erschwert

Platzmangel, kein Bildschirm/Tastatur

Wechsel zwischen Tätigkeit und Computerarbeitsplatz unergonomisch oder zeitintensiv

Einzelnachweise

↑ nach: Jürgen Hoffmeister, Christel Müller, Engelbert Westkämper: Sprachtechnologie in der Anwendung - Sprachportale, S. 85, Springer Berlin Heidelberg, 2008, ISBN 978-3-540-72435-3

↑ nach: Jürgen Henke, Ronny Egeler: Spracherfassung in industriellen EDV-Systemen, Folie 7, Vortrag Fraunhofer IPA, Stuttgart, 2008, PDF-Dokument

↑ vergleiche: Susanne Feldt, Kai-Werner Fajga, Christoph Pause: Voice Business Jahrbuch 2009, S. 30-68, telepublic Verlag, Hannover, 2008, ISBN 978-3-939752-01-1

↑ Christopher Parlitz, PowerMate - Schrankenlose Mensch-Roboter-Kooperation, Fraunhofer IPA, 2005, PDF-Dokument

↑ Ben Shneiderman, Designing the User Interface: Strategies for Effective Human-Computer Interaction, 3rd edition, Addison-Wesley, 1998

↑ Matthias Peissner: Präsentation - Erfolgsfaktoren für den Einsatz von Sprachinteraktion, Folie 9, Stuttgart, 2008, PDF-Dokument

Siehe auch

Unified Messaging

VoIP

Telekommunikation

Asterisk (Telefonanlage)

Weblinks

Fraunhofer Voice Control API: Ein Webservice zur Entwicklung interaktiver Sprachdialoge

Telephony Studio: Ein RAD Tool zur Entwicklung interaktiver Sprachdialoge - Unter 4 So kostenlos

HMI Human Machine Intelligence GmbH Heidelberg: Demo Video für sprachgesteuertes Fahrzeug mit echter NLU

Kategorien:
Branchensoftware
Telekommunikation
Angewandte Linguistik

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

VXML — VoiceXML (Voice Extensible Markup Language) ist eine XML Applikation, die der Beschreibung von Dialog Abläufen in einem Sprachdialogsystem dient. Sie ist besonders für Telefonanwendungen entwickelt worden. Seit März 2004 ist VoiceXML eine… … Deutsch Wikipedia
Dialog Design — bezeichnet die Gestaltung von Dialogen zwischen Anrufer und einem Sprachdialogsystem. Dialog Design hat die Aufgabe, die Nutzung solcher Systeme einfach, schnell und angenehm zu machen. Dabei sind die Unterschiede zwischen graphischen und… … Deutsch Wikipedia
Einzelworterkennung — IVR (Interactive Voice Response oder auch Einzelworterkennung) ist die einfachste Form der Sprach Interaktion. Mitunter wird IVR aber auch als Überbegriff für Einzelworterkennung und DTMF benutzt und in manchen Systemen parallel genutzt. Systeme … Deutsch Wikipedia
Interactive Voice Response — IVR (Interactive Voice Response oder auch Einzelworterkennung) ist die einfachste Form der Sprach Interaktion. Mitunter wird IVR aber auch als Überbegriff für Einzelworterkennung und DTMF benutzt und in manchen Systemen parallel genutzt. Systeme … Deutsch Wikipedia
PSOLA — Dieser Artikel als Sprachausgabe. Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text to Speech System (TTS) verwendet) … Deutsch Wikipedia
Reiseinformationen — Ein Display des Fahrgastinformationssystems im ICE 3 Ein Fahrgastinformationssystem ist ein elektronisches Informationssystem für Fahrgäste des Öffentlichen Personennah (ÖPNV) und Fernverkehrs (SPFV). Es geht über die reine Fahrplaninformation… … Deutsch Wikipedia
Reisenden-Informationssystem — Ein Display des Fahrgastinformationssystems im ICE 3 Ein Fahrgastinformationssystem ist ein elektronisches Informationssystem für Fahrgäste des Öffentlichen Personennah (ÖPNV) und Fernverkehrs (SPFV). Es geht über die reine Fahrplaninformation… … Deutsch Wikipedia
Reisendeninformationssystem — Ein Display des Fahrgastinformationssystems im ICE 3 Ein Fahrgastinformationssystem ist ein elektronisches Informationssystem für Fahrgäste des Öffentlichen Personennah (ÖPNV) und Fernverkehrs (SPFV). Es geht über die reine Fahrplaninformation… … Deutsch Wikipedia
Sprachausgabe — Dieser Artikel als Sprachausgabe. Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme (fälschlicherweise wird es oft auch als Synonym für Vorleseautomat oder Text to Speech System (TTS) verwendet) … Deutsch Wikipedia
Spracheingabe — Die Spracherkennung oder auch automatische Spracherkennung ist ein Teilgebiet der angewandten Informatik und der Ingenieurwissenschaften. Sie beschäftigt sich mit der Untersuchung und Entwicklung von Verfahren, die Automaten, insbesondere… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Sprachdialogsystem

Inhaltsverzeichnis

Grundaufbau

Einsatzfelder

Kommerzielle Sprachdienste

Innerbetriebliche Sprachdienste (für Mitarbeiter)

Geräteintegrierte Sprachdienste

Vorteile und Grenzen interaktiver Sprachdialogsysteme

Kriterien für den Einsatz von Sprachdialogsystemem

Einzelnachweise

Siehe auch

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Sprachdialogsystem

Inhaltsverzeichnis

Grundaufbau

Einsatzfelder

Kommerzielle Sprachdienste

Innerbetriebliche Sprachdienste (für Mitarbeiter)

Geräteintegrierte Sprachdienste

Vorteile und Grenzen interaktiver Sprachdialogsysteme

Kriterien für den Einsatz von Sprachdialogsystemem

Einzelnachweise

Siehe auch

Weblinks

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link