VoiceXML (VXML) – aplikacja języka XML służąca do opisu interaktywnych dialogów pomiędzy człowiekiem i komputerem. Jest ona w pełni analogiczna do HTML i przynosi podobne korzyści w pisaniu aplikacji głosowych, jakie HTML niesie dla aplikacji wizualnych. Dokumenty VoiceXML są interpretowane przez przeglądarki głosowe, analogicznie jak dokumenty HTML, które interpretowane są przez przeglądarki internetowe. Najczęstszym rozwiązaniem jest podłączenie szeregu przeglądarek głosowych do sieci telefonicznej (PSTN), dzięki czemu użytkownicy mogą po prostu zadzwonić i rozpocząć interakcję z aplikacją głosową.

Na chwilę obecną funkcjonuje już tysiące komercyjnych aplikacji VoiceXML, obsługując kilka milionów połączeń dziennie. Aplikacje te obsługują szereg różnych usług, m.in. obsługę zamówień, zawiadomienia o wypadkach, budzenie, śledzenie lotów, głosowy dostęp do poczty elektronicznej, wybieranie głosowe czy gazety audio. Mają one szerokie zastosowanie w bardzo wielu gałęziach przemysłu.

VoiceXML posiada znaczniki informujące przeglądarkę głosową, jakie działania podjąć: dokonać syntezy dźwięku, automatycznego rozpoznawania mowy, obsłużyć dialog czy odegrać plik dźwiękowy.

Zazwyczaj stosowanym protokołem transportowym do pobierania stron VoiceXML jest HTTP. O ile prostsze aplikacje mogą używać statycznych stron VoiceXML, to jednak prawie wszystkie wykorzystują dynamiczne generowanie stron VoiceXML za pomocą serwera aplikacji takich jak Tomcat, Weblogic, serwer .NET albo WebSphere.

Jeszcze do niedawna firmy tworzące platformę VoiceXML implementowały standard w różny sposób, implementując swoje własnościowe rozszerzenia. Na szczęście nowy standard W3C VoiceXML 2.0 uściśla większość dotychczasowych różnic, a sami producenci przechodzą rygorystyczny test zgodności przygotowany przez Forum VoiceXML - grupę przemysłową promującą wykorzystanie standardu.

Dwa blisko spokrewnione standardy W3C wykorzystywane wraz z VoiceXML stanowią Język Znaczników Syntezy Mowy (SSML) i Specyfikacja Gramatyczna Rozpoznawania Mowy (SRGS). SSML stosowany jest do "ubarwiania" tekstowych dialogów, charakteryzując w jaki sposób wypowiadana ma być stosowna kwestia (np. który syntezator mowy wykorzystać lub kiedy należy mówić głośniej). SGRS podpowiada programowi rozpoznającemu mowę, jakich wzorców słów powinien oczekiwać.

Uzupełniającym standardem W3C jest Call Control eXtensible Markup Language (CCXML). Interpreter CCXML stosuje się na niektórych platformach VoiceXML do obsługi wstępnej kofiguracji połączenia pomiędzy dzwoniącym a przeglądarką głosową. CCXML jest użyteczny także w zadaniach niezwiązanych z VoiceXML.

Przykład

edytuj

Poniżej przykład dokumentu VoiceXML:

<?xml version="1.0"?>
<vxml version="2.0" xmlns>
  <form>
    <block>
      <prompt>
        Witaj świecie!
      </prompt>
    </block>
  </form>
</vxml> 

Zinterpretowany przez interpreter VoiceXML, pozwoli usłyszeć syntetyzowaną mową słowa "Witaj świecie".

Linki zewnętrzne

edytuj