技术 - 企业通信 - voiceXML技术频道
  首页 > 技术 > 企业通信 > 技术 > voiceXML > 技术文摘 > 基于VoiceXML 的应用系统规范提纲(征求意见稿

基于VoiceXML 的应用系统规范提纲(征求意见稿

2012-06-06 20:55:57   作者:   来源:   评论:0  点击:4835


 

中国移动互联应用协议特别组---中文&汉语专家组 2001年7月

一 互联网络与语音应用技术

以互联网为代表的信息产业为中国带来了巨大的机会和挑战,中国社会开始进入一个以信息为核心的时代。如何快速准确地获取所关心的信息,对人们的日常工作和生活已经具有越来越重要的影响。

至今为止,Internet 的访问模式逐渐从单一的PC/HTML访问方式向多种用户终端发展 ,如:移动电话、PDA、机顶盒等。而我们知道,人类习惯于轻松简单的说话,以语音的方式,通过友好的、人性的交互直接获取信息和服务,而并不愿依靠键盘和鼠标。近年来语音技术的飞速发展和不断成熟,以及中文语音应用技术的突破,为信息网络带来了一种极具诱惑的信息终端-----电话。

语音,是人类最为熟悉的交流方式。人有70%的信息获取是通过听,而90%的信息表达是通过说。语音是人们询问问题,交换观念、分享经验和建立关系的最主要方式,人类通过语音传达着大量的信息。

语音应用技术(Voice Application Technology ),是指人们可以使用有线电话或移动电话,以及PC、PDA和其它智能设备通过语音识别、语音合成的交互技术,语音浏览、智能信息处理等技术实现人们访问互联网络,以及实现个人服务和商业服务的应用技术。

语音应用技术,是语音技术(ASR和TTS )、语音浏览技术、智能文字信息处理技术等技术的集合,其形成一个完整的技术应用规范体系,建立于已有的相关技术协议标准上,着重于应用开发。

语音应用技术是跨接在以语音为核心的电话网络和以数据为核心的互联网络两者之间的一座桥梁,有线电话和移动电话成为了互联网络的信息终端,为人们以自然语言交互的方式来遨游信息世界打开了一扇自由的大门。语音应用技术覆盖语音识别、语音合成、语音浏览、语音集成、语音交互、Web服务等技术领域,可以轻松介入现有的网络信息系统,集成现有的各类信息处理技术,如Web 、WAP、GPRS等等。

语音应用技术,使人们可以自由的以对话(Dialog)的方式与机器和远端语音服务器交谈,以语音(Speech)的方式命令机器为自己服务。这是人类长久以来的梦想,而这个梦想正是通过语音浏览技术而得以实现。

语音浏览技术,类似于Web浏览技术,它以一种XML标记语言为数据载体,通过各种网络数据传输协议,而以Client/Server 的方式为语音浏览器所解析,通过语音的方式呈现给用户。这类似于Web 与 IE浏览器的概念,只不过IE 以图象的方式在显示器上将信息呈现出来,而语音浏览器以语音的方式在电话、手机或其它语音通道中呈现。IE 接受用户的鼠标和键盘指令,而语音浏览器接受用户的说话为指令。

二 VoiceXML

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家国际巨型公司于2000年提出的一种应用于语音浏览的标记语言,它建立于XML 标记语言规范的基础之上,是语音浏览技术的核心,其与数据库、HTML、WML以及其它文档处理和发布系统的资料交换几乎没有障碍。

通过VoiceXML ,可以很容易的建立新的语音应用,如语音门户、语音Call Center ,语音信息服务、语音电子商务等等应用。而这些应用可以很容易的和原有的数据系统结合起来,甚至可以轻易的从原有的各类应用中发展出来。而VoiceXML 的语音应用,可以以XML的数据表达形式,与其它的应用系统、数据系统轻易的交互。

通过VoiceXML 建立的语音应用系统,可以为基于VoiceXML 的语音浏览器所广泛支持。语音浏览器通过解析VoiceXML ,与语音识别和语音合成等方式进行人机交互,从而实现说话就可以上网的梦想。而语音浏览器不仅仅可以建立于电话服务器端,其同样可以建立于PC 平台、电视、PDA 等等其他终端上。

正是VoiceXML 将语音交互引入了数据浏览的世界,使电话等以语音为主要形式的设备成为新型的网络终端,并以自然、对话、简单的特点,使之具备了更为广泛的普及性和友好性。这种浏览机制为语音应用领域展现了一个广阔的未来。

Voicexml是基于XML(eXtensible Markup Language)标准的,其思想采用了现在流行的HTML的模式,Vxml解释器的设计原理也采用了Html浏览器的设计思路,而且在现在阶段,Vxml的服务器实际上就是一个WWW服务器。
自动电话业务是现在电话业务中的增长迅速的领域,由于Internet的出现,使得用户有了新的获取信息的手段,但是由于电话的易用性,和长期的客户群使得访问自动业务的更多的是电话用户,应用提供者会发现,利用现在Web中的技术来生成业务,将是一种高效、快捷的方式。Vxml做到了将Web和电话的结合,而且使得内容提供商的开发工作得到有效的保护,它可以应用于不同的系统,不会因为系统的扩容和系统切换导致业务的描述失效,真正做到了业务与平台无关。

VoiceXML系统结构如下图所示:

闂備礁鎲″缁樻叏閹灐褰掑炊閵娧€鏋栭梺璺ㄥ櫐閹凤拷...

其工作过程如下:

1.由解析器等待电话用户的接入,如果有电话连接到Vxml文档服务中,电话平台将通知解析器,并将相关信息通知解析器;

2.解析器启动解析器核心,解吸器核心向文档服务器获取Vxml文档;

3.解析器核心解析文档语义,根据语义和用户发生交互,其中包括通过平台向用户播放语音文件或者播放文本合成语音,获得用户的按键输入或者语音输入;

4.文档结束,解析器核心结束工作。

三 应用体系结构

基于VoiceXML的语音浏览技术,应用语音应用技术,我们可以建立丰富的语音应用。诸如语音门户、语音声讯查询、电话交易、V-commerce以及统一消息平台(UMS) 应用等等。

一个基于VoiceXML语音浏览技术的语音应用的体系结构如下图所示:

闂備礁鎲″缁樻叏閹灐褰掑炊閵娧€鏋栭梺璺ㄥ櫐閹凤拷...

在这样的体系结构中,各种终端通过PSTN网络联接到语音网关,而通过语音网关来访问后台的数据服务、应用服务,或者通过互联网络访问各个语音ICP。

从逻辑层次上,一个完整的语音应用体系包括以下几个层次:

闂備礁鎲″缁樻叏閹灐褰掑炊閵娧€鏋栭梺璺ㄥ櫐閹凤拷...

其逻辑层次结构中包括以下组成部分:

  • 应用层,其中包括
    • 语音标记语言 (Voice XML) ,一个类似于HTML的描述标记语言,基于XML技术。Voice XML 为现在国际上广泛认可的行业标准,其1.0版已被W3C组织确定为行业规范。
    • 对话标记语言 ( Dialog Markup Language),用于与VoiceXML一起描述和建立对话式的语音交互应用的标记语言。
    • 内容格式(Content Format),是一套定义好的数据格式,针对语音应用技术的特点而制定,如数字、日期的识别语法;模型化的识别对象(Objects);语音通讯录;流式语音邮件格式等。
    • 数据交换应用,语音应用与其它信息应用的数据交换协议

  • 会话层,其中包括
    • 语音交互协议,其为语音网关中的一个重要组成部分,规范了语音交互系统(如CTI、IVR)的体系规范和协议。例如语音应用开发接口(SAPI)、电话应用开发接口(TAPI),语音交互接口(SIP),会话管理等。
    • 数据传输协议,基于http的传输协议,和rtp (Real-time Transport protocol )的实时媒体数据传输协议。

     

  • 事务层,其中包括

    • 语音浏览器规范,为语音浏览技术的重要组成部分。
    • 语音识别接口规范,为语音识别引擎与语音浏览器的交互接口协议规范。
    • 语音合成接口规范,为语音合成引擎与语音浏览器的交互接口协议规范。
    • 语音广播协议,为提供语音广播机制的协议
    • 数据转换协议,将所处理的数据转换为其它应用或协议(如WAP等)的数据内容和格式,或从其它应用系统、协议中获取数据用于语音浏览或处理的协议。

     

  • 安全层,其中包括
    • 语音认证协议,以语音方式认证身份的协议。
    • 数据完整检查,确保用户提交的数据在传输和处理中保持完整一致。
    • 独立保密,确保用户唯一终端和应用服务器处理线程的对应。
    • 拒绝服务保护,对于没有认证或重复请求的数据,安全层予以拒绝服务。
    • 安全层也可以用于身份认证,语音数字签名以及电子商务交易安全保证。

     

  • 控制层,其中包括
    • 语音控制协议,指在内嵌语音识别或合成引擎,或装有微型语音浏览器的智能终端设备、PC、IP设备等终端中语音控制的协议。
    • 语音控制信号协议,以非识别性的语音信号传送于语音终端和语音网关中的控制信号协议。

     

  • 信号层,其中包括
    • 语音压缩协议,在语音应用系统中所确定的规范压缩和编码协议。

     

根据该体系,建设语音应用系统需要实现三个部分:

1.语音网关
2.语音ICP
3.终端设备

四 VoiceXML 语音网关规范

语音网关是整个体系结构中的核心部分,其跨接在PSTN网络和互联网络之间,使电话用户可以通过之访问建立于互联网络或其他数据网络之上的各种语音应用和服务。

通过分析国际上各种语音网关系统极其技术规范,特别是参照 W3C组织的"Voice Browser" Activity的框架,我们认为作为一个比较完整的语音网关标准体系,应该包含以下具体标准规范的制定,通常称之为标准需求。下图显示所需的规范类型及其相互关联。

闂備礁鎲″缁樻叏閹灐褰掑炊閵娧€鏋栭梺璺ㄥ櫐閹凤拷...

以下是关于各个规范的简介:

1.网关架构规范

该规范定义建立一个总体架构的参照模型,使之能满足基于VoiceXML浏览机制的语音平台的需要。该规范具体规定:

1)定义一个描述系统结构的框架;
2)定义一个描述系统结构、功能与应用的词汇表和符号集;
3)定义一个在系统构件之间进行信息交换的格式、协议和方法;
4)为系统构件定义必需的和可选的外界硬件接口和软件程序接口;
5)为系统构件的行为定义规则、规范与约定;
6)指出系统构件应该使用的外部服务和设备以建立和支持信息交换。

总之,本规范将为系统构建提供文件和配置指南。

2.术语词汇规范

本规范将定义所有的在本标准体系中其他规范中需使用的术语和词汇。

3.信路与路由相关规范

该规范定义在语音网关系统中,所支持的信路标准,以及各种信路之间的路由控制、各种信路的接口和信令转换规范。

4.用户管理与计费规范

本规范定义在语音网关系统中,对用户的管理机制和针对不同用户需求和其自定义的相关信息的管理机制。其中还包括按时计费或按项目计费的规范。

5.语音浏览器相关规范

该规范中定义语音网关所使用的语音浏览器的具体规范,其中包括浏览器中的解析器规范、识别引擎、合成引擎、语音通道等以及各模块之间的沟通和互动机制。

6.Media与控制规范

该规范定义在语音网关中,所支持的Media 格式、编码和各media 文件的存储、组织和管理规范,以及Media 的控制机制。

7.本地化标准

该规范定义在语音网关中,对本地化文字、语言的支持和实现规范,包括多语种支持和未来可能实现的语种转换。

8.数据与元数据规范

在语音网关中,我们将对各类数据对象的描述信息称为元数据,而本规范应当定义对这些数据对象的查找、管理和使用。通过定义一个统一的结构,对数据对象进行描述,从而增强各数据对象的互操作性。

五 语音ICP建设规范

本规范为语音应用体系的服务方提供通用的HTTP绑定内容,这样开发者在服务器端和客户端(主要是服务器端)进行系统开发时能够遵循一致的内容传送和查询的要求。

在这些规范中,我们将定义:

1.语音应用描述规范

该规范定义如何描述一个语音应用,主要是针对voiceXML规范的理解和支持规范,以及基于VoiceXML描述的语音应用的体系规范和数据定义。

2.语音应用语法描述规范

该规范主要描述在对语音网关的支持中,如何根据语音网关的识别引擎和合成引擎的特性,描述和定义识别语法和合成语法,并制定和管理可重用的语法模块。以及一些通用性的语法模块的规范定义和接口定义。

3.数据应用开发规范

该规范将定义在语音应用中,针对不同的数据内容,应该建立相应的开发规范,使之符合语音应用服务的特征和语音网关的需求,为用户提供优质的良好交互性的服务。在数据应用开发规范中,定义对不同数据服务系统和开发语音的支持(如对各种Web Application Server 的支持以及对java Bean 和Java Script 等语言和对象描述的支持)。以及各种数据应用中的交互接口规范。

4.发布和管理规范

在该规范中,定义语音应用在语音网关上的发布和链接规范,并定义对已发布或测试状态中的语音应用的管理规范。使语音网关能够清晰的实现对各个语音ICP发布的语音服务应用的执行和管理,建立在线动态内容更新机制以及针对服务项目性的计费管理、日志管理或远程维护、控制。

五 终端产品规范

针对语音应用体系,在用户端的终端产品可以大有所为。而终端产品规范则定义在终端产品中语音应用服务所带来的技术改变和实现规范。

该规范包括:

1.语音信号处理规范

该规范定义在各种终端设备中,针对语音应用服务系统的特性需求,需要对语音信号进行的编码处理、抗噪处理和噪声过滤等技术规范。

2.热键定义规范

该规范试图建立一种将电话按键与特色语音应用项目之间的对应规范,定义诸如 1 键 对于语音邮件 ,* 键对应帮助、#键对应按键输入结束等等的热键定义规范,建立用户对语音应用系统和服务项目的使用习惯。

3.内嵌式数据服务规范

该规范定义在语音应用体系中,可以针对语音应用的特色而在终端设备中可以嵌入的一些数据服务的具体技术规范,如基于智能卡的身份认证、数据银行、电子卡货币等,以及未来可能实现的内嵌语音识别或合成引擎、数据交换规范等等。

我们可以预见,在不久的将来电话作为信息访问的终端将远远超过电脑的数量。语音应用技术将成为统一信息、统一网络的移动互联中的重要技术成分。作为高科技的网络信息对广大的中国百姓将不在神秘,中国百姓将随时随地在对电话机或手机说话,享受语音应用技术为他们带来的美好服务。

相关阅读:

  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

分享到:   收藏

推荐阅读

专题