Semantic Interpretation for Speech Recognition

Semantic Interpretation for Speech Recognition

Semantic Interpretation for Speech Recognition (SISR) definiert die Syntax und Semantik von Anmerkungen für Grammatikregeln in der Speech Recognition Grammar Specification (SRGS). Seit 5. April 2007 ist SISR eine Empfehlung des World Wide Web Consortiums.[1]

Auf SRGS-Grammatiken aufbauend, erlaubt es Voicebrowsern über ECMAScript, komplexe Grammatik zu interpretieren und die Information zurück zum Programm zu liefern. Zum Beispiel erlaubt es, dass Äußerungen, wie "Ich hätte gerne eine Coca Cola und drei große Pizzen mit Peperoni und Pilzen." in ein Objekt interpretiert werden, dass von anderen Programmen verstanden werden kann. Zum Beispiel könnte die Äußerung das folgende Objekt, genannt Bestellung produzieren:

{
  getränk: {
    flüssigkeit:"coke",
    größe:"mittel"},
  pizza: {
    anzahl: "3",
    pizzagröße: "groß",
    belag: [ "Peperoni", "Pilze" ]
  }
}

Angewandt auf die Grammatik, die zusätzlich zu SRGS-Grammatik noch SISR-Markup enthält:

<?xml version="1.0" encoding="UTF-8"?> 
<!DOCTYPE grammar PUBLIC "-//W3C//DTD GRAMMAR 1.0//EN"
                  "http://www.w3.org/TR/speech-grammar/grammar.dtd">
<grammar xmlns="http://www.w3.org/2001/06/grammar" xml:lang="en"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.w3.org/2001/06/grammar
                             http://www.w3.org/TR/speech-grammar/grammar.xsd"
         version="1.0" mode="voice" tag-format="semantics/1.0" root="order">
   <rule id="order">
      Ich hätte gerne eine
      <ruleref uri="#drink"/>
      <tag>out.drink = new Object(); out.drink.liquid=rules.drink.type;
           out.drink.drinksize=rules.drink.drinksize;</tag>
      und
      <ruleref uri="#pizza"/>
      <tag>out.pizza=rules.pizza;</tag>
   </rule>
   <rule id="kindofdrink">
      <one-of>
         <item>coke</item>
         <item>pepsi</item>
         <item>coca cola<tag>out="coke";</tag></item>
      </one-of>
   </rule>
   <rule id="foodsize">
      <tag>out="medium";</tag> <!-- "medium" is default if nothing said -->
      <item repeat="0-1">
         <one-of>
            <item>small<tag>out="small";</tag></item>
            <item>medium</item>
            <item>large<tag>out="large";</tag></item>
            <item>regular<tag>out="medium";</tag></item>
         </one-of>
      </item>
   </rule>
   <!-- Construct Array of toppings, return Array -->
   <rule id="tops">
      <tag>out=new Array;</tag>
      <ruleref uri="#top"/>
      <tag>out.push(rules.top);</tag>
      <item repeat="1-">
         and
         <ruleref uri="#top"/>
         <tag>out.push(rules.top);</tag>
      </item>
   </rule>
   <rule id="top">
      <one-of>
         <item>anchovies</item>
         <item>peperoni</item>
         <item>mushroom<tag>out="mushrooms";</tag></item>
         <item>mushrooms</item>
      </one-of>
   </rule>
   <!-- Two properties (drinksize, type) on left hand side Rule Variable -->
   <rule id="drink">
      <ruleref uri="#foodsize"/>
      <ruleref uri="#kindofdrink"/>
      <tag>out.drinksize=rules.foodsize; out.type=rules.kindofdrink;</tag>
   </rule>
   <!-- Three properties on rules.pizza -->
   <rule id="pizza">
      <ruleref uri="#number"/>
      <ruleref uri="#foodsize"/>
      <tag>out.pizzasize=rules.foodsize; out.number=rules.number;</tag>
      pizzas with
      <ruleref uri="#tops"/>
      <tag>out.topping=rules.tops;</tag>
   </rule>
   <rule id="number">
      <one-of>
         <item>
            <tag>out=1;</tag>
            <one-of>
               <item>a</item>
               <item>one</item>
            </one-of>
         </item>
         <item>two<tag>out=2;</tag></item>
         <item>three<tag>out=3;</tag></item>
      </one-of>
   </rule>
</grammar>

Siehe auch

Quellen

  1. Semantic Interpretation for Speech Recognition (SISR) Version 1.0

Weblinks


Wikimedia Foundation.

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Semantic Interpretation for Speech Recognition — (SISR) defines the syntax and semantics of annotations to grammar rules in the Speech Recognition Grammar Specification (SRGS). Since 5 April 2007 it is currently a World Wide Web Consortium Recommendation. [ [http://www.w3.org/TR/semantic… …   Wikipedia

  • Speech Recognition Grammar Specification — (SRGS) is a W3C standard for how speech recognition grammars are specified. A speech recognition grammar is a set of word patterns, and tells a speech recognition system what to expect a human to say. For instance, if you call a voice directory… …   Wikipedia

  • Speech Recognition Grammar Specification — Die Speech Recognition Grammar Specification (SRGS) ist ein W3C Standard, der beschreibt, wie Spracherkennungs Grammatiken (engl. speech recognition grammars) spezifiziert werden. Eine Spracherkennungs Grammatik ist ein Reihe von Wortschemen, die …   Deutsch Wikipedia

  • Speech perception — is the process by which the sounds of language are heard, interpreted and understood. The study of speech perception is closely linked to the fields of phonetics and phonology in linguistics and cognitive psychology and perception in psychology.… …   Wikipedia

  • Speech Application Programming Interface — The Speech Application Programming Interface or SAPI is an API developed by Microsoft to allow the use of speech recognition and speech synthesis within Windows applications. To date a number of versions of the API have been released, which have… …   Wikipedia

  • SISR — Semantic Interpretation for Speech Recognition (SISR) definiert die Syntax und Semantik von Anmerkungen für Grammatikregeln in der Speech Recognition Grammar Specification (SRGS). Seit 5. April 2007 ist SISR eine Empfehlung des World Wide Web… …   Deutsch Wikipedia

  • VoiceXML — (VXML) is the W3C s standard XML format for specifying interactive voice dialogues between a human and a computer. It allows voice applications to be developed and deployed in an analogous way to HTML for visual applications. Just as HTML… …   Wikipedia

  • SRGS — Die Speech Recognition Grammar Specification (SRGS) ist ein W3C Standard, der beschreibt, wie Spracherkennungs Grammatiken (engl. speech recognition grammars) spezifiziert werden. Eine Spracherkennungs Grammatik ist ein Reihe von Wortschemen, die …   Deutsch Wikipedia

  • Microsoft Speech API — This article is about the Speech API. For other uses, see SAPI (disambiguation). The Speech Application Programming Interface or SAPI is an API developed by Microsoft to allow the use of speech recognition and speech synthesis within Windows… …   Wikipedia

  • Meta Content Framework — Das Resource Description Framework (RDF, engl. (sinngemäß) „System zur Beschreibung von Ressourcen“) bezeichnet eine Familie von Standards des World Wide Web Consortiums (W3C) zur formalen Beschreibung von Informationen über Objekte, sogenannte… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”