GB T 21023-2007 中文语音识别系统通用技术规范.pdf
《GB T 21023-2007 中文语音识别系统通用技术规范.pdf》由会员分享,可在线阅读,更多相关《GB T 21023-2007 中文语音识别系统通用技术规范.pdf(15页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35040L 71 园亘中华人民共和国国家标准GBT 2 1 0232007中文语音识别系统通用技术规范General specification for Chinese speech recognition system200706-29发布 200711-01实施宰瞀粥鬻瓣警糌瞥星发布中国国家标准化管理委员会“”。目 次前言1 范围2规范性引用文件3术语和定义4语音识别系统分类及表述41基于用途的分类42基于词汇量的分类43基于所能识别的说话人群的分类44基于系统工作模式的分类45语音识别系统的应用环境46语音识别系统使用背景环境47语音识别系统表述规范5语音识别系统性能指标51
2、概述52识别性能分类指标53响应时间指标-54系统分类指标要求6语音输入和识别输出61语音识别输入准则62语音识别输出准则7语音识别系统性能测试方法一71概述72测试语料设计73测试语音录制一74基于语音识别标准库的测试方法75基于现场口呼的测试方法76测试报告内容8语音识别标准库及规范81概述82语音识别标准库语音特性的描述83语音识别标准库的标注一84语音识别标准库的来源85语音识别标准库的数据转换附录A(资料性附录) 听写系统有关符号读法附录B(资料性附录) 语音识别用无调汉语拼音表参考文献GBT 2 1 023-2007l11233334445556666666677777778889
3、12刖 吾GBT 21023-2007请注意本标准的某些内容有可能涉及专利。本标准的发布机构不承担识别这些专利的责任。本标准的附录A、附录B是资料性附录。本标准由中华人民共和国信息产业部提出。本标准由全国信息技术标准化技术委员会归口。本标准由中国电子技术标准化研究所、中国科学院自动化研究所、清华大学、中国社会科学院语言研究所起草。本标准主要起草人:徐波、孙甲松、李爱军、徐明星、黄泰翼、鲍怀翘、尹波、吴志刚。中文语音识别系统通用技术规范GBT 21023-20071范围本标准规定了中文语音识别系统的基本术语、分类、技术指标、测试方法、输入输出以及中文语音识别标准库等。本标准适用于各种计算机、网络
4、和终端设备配置的中文语音识别系统。本标准的制定和实施主要用于指导中文语音识别系统的研制、应用和测试。2规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB 18030-2005信息技术 中文编码字符集3术语和定义下列术语和定义适用于本标准。31语音识别speech recognition将人类的声音信号转化为文字或者指令的过程。32语音识别系统speech recognitio
5、n system具有语音识别功能的开发工具、软件、装置或应用。33词汇表vocabulary list语音识别系统所包含和处理的所有词汇。34激活词汇 active word语音识别系统在某个时间点能同时识别的所有词汇。35发音utterance用户输入的一个语音单位,可以是词、短语或句子。发音单元之问需有有意、明显停顿。36孤立字语音isolated word speech以字为发音单元,字与字之间需有有意、明显停顿的语音。37连接词语音connected word speech以词为发音单元,词与词之间需有有意、明显停顿的语音。38连续语音continuous speech词与词之间无需刻
6、意停顿的自然发音语音。注:包括朗读语音和自然语音。GBT 21023200739汉语通用语Mandarin and its dialect variation普通话以及普通话的地方变体。注:为中国人跨地区交流时最常见之普通话。310同构语音数据isomorphic speech data除说话人不同外,其他语音属性相同或基本相同的语音数据集合。311语音识别工作模式working mode for speech recognition语音识别系统对说话方式、内容以及句型等的限制。312标准配置standard configuration正常运行语音识别所需要的基本计算机配置。注:如CPU、内存
7、、网络、麦克风、AD精度要求等,由生产厂家给出。313系统自适应speaker adaption语音识别系统通过用户发音完成对识别模型参数修改的自适应过程。314用户自适应user adaption用户熟悉应用系统、了解自动语音识别系统特性的学习过程。315删除错误deletion error用户所发语音在语音识别结果中投有出现的错误。316插入错误 insertion error用户没有发的语音在识别结果中出现的错误。317替换错误substitution error用户所发语音被识别成其他语音的语音识别错误。318被测系统system for testing参加评估的语音识别系统。319测
8、试系统testing system对被测系统进行评估的系统和体系。3 20副语言学paralinguistic feature言语中非音段的语音特征以及种种非语音信号。注:这些行为被充分用来对总的交际效应作出贡献。4语音识别系统分类及表述语音识别系统可以基于不同的用途、不同的词汇量、所能适应的不同人群、不同的工作模式、不同的应用平台进行分类。基本分类可以融合,例如某个系统可以是“基于PC平台的超大词汇量特定人群书06BT 21023-2007面语音识别系统”。41基于用途的分类语音识别系统从用途上可以分为:文字输入类、声音检测识别类和对话类三类系统。411文字输入类以文字录入为主要目的,要求把
9、语音转化成文字的系统。注:如昕写机系统。412声音检测识别类主要以检测连续或者孤立语流中的特定命令或者关键词为主要目的的系统。注:如命令控制、声控玩具、关键词识别系统等。413口语对话类主要采用语音方式进行信息获取为目的的系统。注:如股票查询系统、电话订票系统、地理信息查询等。42基于词汇量的分类语音识别系统的词汇量按照最大激活词汇量标定。语音识别系统从所能处理的词汇量来分类,可以分为小词汇量、中小词汇量、中词汇量、中大词汇量、大词汇量、超大词汇量六种。421小词汇量系统所能识别的词汇量小于127的系统。422中小词汇量系统所能识别的词汇量在1281023之问的系统。423中词汇量系统所能识别
10、的词汇量介于10244095的系统。424中大词汇量系统所能识别的词汇量介于409616383之间的系统。425大词汇量系统所能识别的词汇量介于1638465535的系统。426超大词汇量系统所能识别的词汇量大于65536的系统。43基于所能识别的说话人群的分类语音识别从所能识别的说话人群来区分,可以分为特定人识别、特定人群识别和非特定人识别。431特定人识别需要经过专门学习(训练)并建立该发音人专用模型的系统。432特定人群识别系统只能识别具有某种发音特性的人群的识别系统。注:如标准普通话、成年人的标准普通话、儿童口音的标准普通话、上海口音的普通话等。433非特定人识别面向一般用户通用语的识
11、别系统,对说话人语音或口音没有专门限制,不需要使用者进行训练的系统。44基于系统工作模式的分类语音识别系统从其工作模式来分,可以分为孤立字语音识别、连接词语音识别、有限书面语语音识别、有限口语语音识别、无限书面语语音识别、无限口语语音识别以及关键词检测七种。441孤立字语音识别语音识别系统能识别单个字,系统所需要识别的发音的每个音节前后都应有明显的发音停顿。442连接词语音识别语音识别系统能识别单个词或短语发音,系统所需要识别的发音单位(词或短语)前后都应有明显3GBT 2 1 023-2007的发音停顿。443有限书面语语音识90语音识别系统能识别在词汇、语法、语义以及语用等受到限制的书面语
12、连续语音。444有限口语语音识别语音识别系统能识别在词汇、语法、语义以及语用等受到限制的口语化语音。445无限书面语语音识别语音识别系统能识别以朗读方式进行的没有特别语言限制的连续语音。注:如听写机系统。446无限口语语音识别语音识别系统能识别V1语化的没有特别语言限制的连续语音。447关键词检测语音识别系统能从I=I语连续语流中找到系统所定义的词汇或短语。45语音识别系统的应用环境应用环境包括语音识别系统的具体平台以及所需要的标准配置。语音识别从应用平台来看,有PC平台、电话平台、嵌入式平台以及分布式平台等。451 PC平台语音通过麦克风、PC上的声卡等输入设备完成语音采样并在PC上完成识别
13、的系统。452电话平台语音通过电话通道、声卡和传输并在相应的服务端完成识别的系统。453嵌入式平台识别系统是嵌入在某个信息终端产品上(如HPC、PDA、手机和信息家电等),通过特定设备输入语音并完成识别的系统。454分布式平台语音识别特征提取在前端嵌入式设备上完成,语音识别其他计算在后台系统和计算机上完成的系统。46语音识别系统使用背景环境使用背景环境以信噪比来衡量,信噪比定义为:SNR一1019(P。P。)式中:P,信号的功率;P。噪声的功率。47语音识别系统表述规范各类语音识别系统应按4146所述的用途分类、词汇量规模、所适用的说话人群、工作模式、应用环境以及使用背景环境,在系统说明书以及
14、提供测试时分别加以详细说明:a)该系统的用途分类,不同类型的系统在性能和指标上有不同的分类要求。b)应提供系统所能处理的词汇量和词汇清单;在词汇和词汇量不能精确给定的条件下(如有些系统完全由用户定义词汇),系统应按42给出系统所能处理的词汇量等级。c)应按43给出其所能识别的说话人人群的具体限制及适用范围。对发音人普通话的标准程度的要求可参照汉语普通话水平等级进行定义。d) 应按44给出系统的工作模式;对于有限语音识别,系统应给出有限语音的详细说明。e)每种平台具有独特的语音识别器所要处理的语音特性:不同平台上麦克风与话者的距离限制,麦克风性能要求,支持的AD转换精度和采样率等。语音识别系统应
15、按照45所涉及的内容描述其具体的应用环境。4GBT 2 1 023-2007f)应按46给出能正常工作的信噪比范围及在此范围内每隔5dB的性能变化曲线。5语音识别系统性能指标51概述语音识别系统的性能评价按照系统的用途分类建立测试标准,多种用途的需求分别满足多种指标的要求。这些要求只同系统的用途有关,而同系统的其他限制(如词汇量、工作模式、应用条件等)无关,但系统给出的具体指标应明确在何种条件下成立。52识别性能分类指标语音识别系统采用分类测试的原则,定义相应的分类指标。521 文宇输入类语音识别系统性能指标定义该类应用用户主要关心最后输入的效率,因而应同时考虑系统插入、删除和替换等错误。设正
16、确文本字数为N,识别结果文本字数为M,按照识别结果文本与正确文本根据“最小代价匹配”原则运用动态规划算法,得到正确识别字数Mc、删除错误字数D、插入错误字数,和替换错误字数S,则有:NMc+S+D:MMc+S+J;定义以下性能指标:字匹配率:Mcr-(McN)100替代错误率:Set=(sN)100插入错误率:Ier-(IN)100删除错误率:Der-(DN)100字错误率:WER一(S+J+D)N)100字准确率:WCR一(Mc一,)N)100一100一WER以WER或WCR度量系统性能指标。522声音检测识别类语音识别系统性能指标定义该类型系统应兼顾动作的可靠性问题,指标定义如下:假设关键
17、词表的词汇量为KW(个),检测语音长度为HR(小时),出现关键词N(次),C为每小时每个关键词最大容忍的误报个数(一般取10),系统报出关键词M(个),其中,正确FD(个),错误FA(个),FD+FAM。则:漏报个数:FRNID误报率:Far=(FA(KWXHRC)100漏报率:Frr一(FRN)100检出率:Fdr一(FDN)100DET曲线:以Far为横轴,Frr为纵轴画出的曲线。ROC曲线:以Far为横轴,Fdr为纵轴画出的曲线。等错率EER:DET曲线上Far-Frr时,Far或Frr的值质量因数FOM:ROC曲线上Far=0,10,20,100时,Fdr的算术平均值一般以EER或FO
18、M值度量系统性能指标。523对话类语音识别系统性能指标定义该类系统性能定义为:N一系统完成一个信息查询并获取到正确信息所需的平均语轮数;对话效率=(1N)100;对话正确响应率一系统对信息咨询过程每次语音输入的平均正确响应率。GBT 21023-200753响应时间指标系统的响应时间统一采用实时系数概念。在系统的标准配置条件下,假设发音从_,开始,发音结束时间为Te,识别结束时问为T。,则实时系数定义为:实时系数一(T,一T。)(LT5)54 系统分类指标要求按照47表述要求给出语音识别系统的技术指标,具体测试条件选项如第7章所述。在15 dB使用背景环境下,不同用途的系统的技术指标应达到如下
19、要求:a)文字输入类系统:字准确率应大于或等于85。b) 声音检测识别类系统:等错误率小于或等于30。c) 日语对话类系统:对话效率大于或等于40;对话正确响应率应大于或等于75。所有系统的实时系数应小于或等于15。6语音输入和识别输出61语音识别输入准则语音识别输入准则应为:a) 发音单元之间的间隔不超过2 s;发音单元的持续时间不应小于02 s;停顿时间超过2 s,认为一次语音输入结束。b)汉语语音识别系统应支持汉语通用语,从信息社会发展角度支持推广普通话。c)语音识别系统对于大于02 s的语音在SNR大于15 dB的背景环境条件下能做出灵敏的反应。d)对于文本中的非汉字字符包括数字、电话
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 21023 2007 中文 语音 识别 系统 通用 技术规范
