W3C:s ramverk för talinteraktion

Dave Raggett

W3C, ledare för aktiviteten "Voice Browser"

Sammanfattning:
Att kunna styra sin interaktion med webben och dess resurser genom att använda sina sina öron och sin tal, det är ett område av växande intresse och betydelse.
I denna artikel ges en kort översikt över hur olika teknologiarbeten inom W3C bidrar till att göra visionen till en realitet. Behovet karaktäriseras inte bara i termer av de användare som har funktionshinder, t.ex. synproblem, utan även i termer av de miljöer som kräver eller får ovärderligt mervärde av att tal används för att styra arbete med webbresurser och -tillämpningar. Artikeln beskriver vilka nyckelteknologier som tas fram, och hur de tillsammans bygger upp det som kallas W3C:s ramverk för talinteraktion.

Inledning

W3C arbetar med att skapa fler möjligheter att komma åt innehåll på webben, genom att människor ska kunna interagera med hjälp av tangentbord, talade kommandon, lyssna på förinspelat tal, syntetiskt tal och musik. Detta öppnar upp för världens två miljarder telefoner att kunna användas för att komma åt lämpligt konstruerade webbtjänster, och det kommer att vara en klar fördel för användare som har synhinder eller behöver använda sina händer och ögon för andra saker. Det blir då också möjligt att effektivt interagera med skärmorienterat webbinnehåll i de fall att mus eller tangentbord saknas eller inte är lämpliga att använda.

För att uppnå detta mål så definierar W3C:s arbetsgrupp för talstyrd webbläsare ("Voice Browser Working Group") en uppsättning uppmärkningsspråk för dialog, talsyntes, taligenkänning, styrning av uppringning och andra områden för talstyrda tillämpningar. Specifikationer såsom "Speech Synthesis Markup Language" (http://www.w3.org/TR/speech-synthesis/), "Speech Recognition Grammar Specification" (http://www.w3.org/TR/speech-grammar/), och "Call Control XML" (http://www.w3.org/TR/ccxml/) är nyckelteknologier för att beskriva talsyntes, igenkänningsgrammatiker respektive uppringningsfunktionalitet. VoiceXML är ett språk för att märka upp dialoger, ett språk som bygger på de andra specifikationerna för att skapa dialoger som innehåller syntetiserat tal, digitaliserat ljud, igenkänning av talad inmatning och DTMF knappinmatning, inspelning av talad inmatning, telefoni och dialog med blandat initiativ.

Dessa specifikationer ger interaktiva talstyrda tillämpningar alla de fördelar som webbaserad utveckling och innehållsleverans har. Senare arbeten kommer att göra det möjligt att använda dessa språk tillsammans med andra uppmärkningsspråk från W3C, såsom XHTML, XForms (ett språk för att beskriva webbformulär vilka kan användas på en bred uppsättning plattformar, http://www.w3.org/MarkUp/Forms/) och SMIL ("Synchronized Multimedia Integration Language", ett språk för synkroniserad multimedia, http://www.w3.org/AudioVideo/). Detta arbete kommer att genomföras i samverkan med andra arbetsgrupper inom W3C, bl.a. grupper inom aktiviteten för multimodal interaktion ("Multimodal Interaction Activity").

Tillämpningsområden

Några möjliga tillämpningar:

Teknologier

VoiceXML 2.0 har specificerats utgående från praktisk industriell erfarenhet av att bygga talstyrda dialoger. Det finns ett läropaket tillgänglig på http://www.w3.org/Voice/Guide/. Annat material och andra resurser kan hittas på webbplatsen för VoiceXML Forum. W3C och VoiceXML Forum har ingått ett samarbete för att tillsammans arbeta mot gemensamma mål.

Vi arbetar med en interimistisk version, VoiceXML 2.1, av dialoguppmärkningsspråket VoiceXML 2.0, utgående från en liten uppsättning utvidgningar av 2.0-språket, utvidgningar som har implementerats i ett större antal tillämpningar. Dessa utvidgningar ger stöd åt utvecklare att bygga ännu mer kraftfulla, portabla och förvaltningsbara talstyrda tjänster, med full bakåtkompatibilitet med VoiceXML 2.0. Vi kommer att publicera VoiceXML 2.1 som en liten specifikation som beskriver utvidgningarna av 2.0. Kommande arbete med dialoguppmärkning, en komponent i W3C:s ramverk för talstyrning ("Speech Interface Framework"), beskrivs nedan.

Specifikationen för taligenkänning ("Speech Recognition Grammar specification", SRGS) täcker både tal och DTMF-inmatning (knappinmatning). DTMF är mycket användbar i miljöer som är bullriga, eller där det sociala sammanhanget gör det mindre lämpligt att använda tal. Grammatiker kan uttryckas antingen som XML eller som en likvärdig utvidgad BNF-grammatik ("augmented BNF", ABNFF), där valet mellan dessa kan bero på vad författaren är van att använda. Taligenkänning är en fundamentalt vag process. Några taligenkännande maskiner kan vara skickliga nog att ignorera sådant som "öhhh", och "ahhh", och kan genomföra igenkänning baserat på partiell matchning. Igenkännare kan rapportera grad av säkerhet i igenkänningen. Om ett talat uttryck kan analyseras på flera olika sätt, så kan igenkännaren kanske ge information om vilket alternativ som är det mest sannolika ("n-bästa resultat")

Specifikationen för talsyntes ("Speech Synthesis Markup Language", SSML) definierar ett uppmärkningsspråk för att beskriva hur en användare kan informeras med någon kombination av förinspelat tal, syntetiskt tal och musik. Författaren kan välja röstegenskaper (namn, kön, ålder) och talhastighet, volym, klang och betoning. Det finns även medel för att specialisera grundinställningar för talsyntetiserarens uttal.

Arbetsgruppen för talstyrda webbläsare ("Voice Browser Working Group") samarbetar med arbetsgruppen för formatmallar ("Cascading Style Sheets Working Group") för att utveckla en CSS3-modul för talsyntes baserad på SSML, för användning då XML-dokument representeras som tal. Avsikten är att denna skall ersätta de ljudattribut som definieras i CSS2. Ett forslag ("Working Draft") publicerades i maj 2003.

Specifikationen "Semantic Interpretation for Speech Recognition" (http://www.w3.org/TR/semantic-interpretation/ ) beskriver annoteringar för grammatikregler som stöder extraktion av semantiska resultat från igenkänning. Annoteringarna uttrycks i en syntax som baseras på ECMAScript, och när de exekveras så genereras ett resultat antingen som XML eller som ett värde för en ECMAScript-variabel. Mottagaren för den genererade XML:n är "Extensible Multimodal Annotation Markup Language" (EMMA, http://www.w3.org/TR/emma/ ) som utvecklas inom aktiviteten för multimodal interaktion ("Multimodal Interaction Activity").

W3C arbetar med ett uppmärkningsspråk som kallas "Call Control XML" (CCXML, http://www.w3.org/TR/ccxml/ ) för att på ett finkorning sätt kunna styra talresurser och telefoniresurser inom en VoiceXML-plattform. Dessa funktionaliteter skall styra resursanvändning i en plattform i nätverkets utkant, inte styra uppkoppling i telefonswitchar eller styra telenätverket. Dessa komponenter har konstruerats för att smidigt kunna integreras i de existerande språkelement som definierar tillämpningar vilka körs inom en talstyrd webbläsare. Därför kan applikationsutvecklare använda uppmärkning för att göra uppringningskontroll, vidarekoppling m.m. Användare kan erbjudas möjligheten att ringa upp, villkorsstyrt ta emot samtal, och initiera eller ta emot samtal.

Arbetet med W3C:s ramverk för talstyrning ("W3C Speech Interface Framework") pågår och arbetsgruppen för talstyrda webbläsare ("W3C Voice Browser Working Group") tar gärna emot hjälp i det direkta utvecklingsarbetet, men även med granskning och utvärdering. En öppen epostlista för allmän diskussion finns på http://lists.w3.org/Archives/Public/www-multimodal/.

Länkar till mer information

[Översättning av artikeln W3C's Speech Interface Framework, ursprungligen publicerad i ERCIM News No. 55, October 2003.]