GB T 21024-2007 中文语音合成系统通用技术规范.pdf
《GB T 21024-2007 中文语音合成系统通用技术规范.pdf》由会员分享,可在线阅读,更多相关《GB T 21024-2007 中文语音合成系统通用技术规范.pdf(35页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35040L 71 a目中华人民共和国国家标准GBT 2 1 024-2007中文 语音合 成系统通用技术规范General specification for Chinese speech synthesis system2007-06-29发布 2007-1 101实施丰瞀髅鬻瓣警糌瞥星发布中国国家标准化管理委员会况1”GBT 2 1 024-2007目 次前言”引言1范围2规范性引用文件3术语和定义4中文语音合成系统的功能分类41概述42从语言处理能力上分类43从所处区域或方言上分类44从合成的应用范围上分类45从韵律和音色调节能力上分类46从合成方法上分类47从应用平台上分类5
2、 中文语音合成系统数据交换格式51概述52元素与属性53输入要求54输出要求55音频数据格式要求56一致性附录A(规范性附录)CSSMI。V10 Schema定义参考文献Il,144444445556鹕M姐前 言GBT 2 1 024-2007本标准的附录A是规范性附录。本标准由中华人民共和国信息产业部提出。本标准由全国信息技术标准化技术委员会归口。本标准由安徽中科大讯飞信息科技有限公司、中国科学院自动化研究所、中国电子技术标准化研究所起草。本标准主要起草人:尹波、严峻、吴晓如、陶建华、吴志刚。GBT 2 1 0242007引 言本标准的发布机构提请注意如下事实,声明符合本标准时。可能涉及第5
3、章中有关中文语音合成系统数据交换方法的相关专利。本标准的发布机构对于专利的范围、有效性和验证资料不提出任何看法。专利持有人已向本标准的发布机构保证,他愿意同任何申请人在合理和非歧视的条款和条件下,就使用授权许可证进行谈判。在这方面,该专利持有人的声明已在本标准的发布机构备案。有关资料可从以下地址获得:安徽中科大讯飞信息科技有限公司安徽省合肥市国家级高新技术产业开发区信息产业基地讯飞语音大厦230088请注意除上述已经识别出的专利外,本标准的某些内容有可能涉及专利。本标准的发布机构不承担识别这些专利的责任。中文语音合成系统通用技术规范GBT 2 1 02420071范围本标准规定了中文语音合成系
4、统的术语定义、分类标准、数据交换格式标准和应用规范。本标准适用于各种计算机、网络和智能设备配置的中文语音合成系统。2规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注目期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而鼓励根据本标准达成协议的各方,经过研究决定是否使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB 2312 1980信息交换用汉字编码字符集基本集GB 130001 1993信息技术通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面(idt ISOIEC 10646 1:1 993)G
5、B 18030 2005信息技术 中文编码字符集RFCl766语言识别标签SSML 10(W3C)语音合成标记语言3术语和定义下列术语和定义适用于本标准。31语音合成speech synthesis通过机械的、电子的方法合成人类语言的过程。注:该过程所产生的语音称为合成语音,和人的发音器官产生自然语音相区别,有时也叫人工语音(artificialspeech)。32语音合成系统speech synthesis system由特定算法、模块和数据资源等构成、用来产生合成语音的软硬件系统。注:由于目前语音合成最常用的实例是将智能设备中的文字信息转换为语音信号,以作为智能设备的语音输出形式,语音合成
6、系统也常常称为文语转换系统(texttOspeech system),但作为语音合成系统的输入,实质上不限于文字,可以是概念、意图、思想等。在目前的技术水平下,文语转换是实现语音合成的主要方式本技术规范中不另作特别说明时,文语转换将等同于语音合成的概念。33单语种语音合成系统mono-lingual speech synthesis system针对某一语种设计的,功能限于单一、特定语种的语音合成系统。34多语种语音合成系统multi-lingual speech synthesis system可以实现两种及两种以上语言语音合成功能的语音合成系统。35有限词汇语音合成系统limited vo
7、cabulary speech synthesis system为某一特定任务设计的、只能完成有限词汇量语音合成功能的语音合成系统。】GBT 2 1 024-200736无限词汇语音合成系统unlimited vocabulary speech synthesis system可以完成任意词汇语音合成功能的语音合成系统。37中文语音合成系统Chinese speech synthesis system可以完成中文普通话或者汉语方言语音合成功能的语音合成系统。注:如果系统的功能只是将汉字转换为粤语、吴语、湘语、闽语等汉语方言的系统,分别称其为粤语语音合成系统(Yue-Dialect Speech
8、 Synthesis System)、吴语语音合成系统(Wu-Dialect Speech Synthesis System)、湘语语音合成系统(Xiang-Dialect Speech Synthesis System)、闺语语音合成统(Min-Dialect Speech Synthesis System)等。38韵律标记符号prosodic label以可读形式插入到文本中的特殊字符序列,它可以被语音合成系统检出并解释,从而控制语音合成系统输出语音的韵律特征;也可以用来描述文本所对应自然语音中的韵律特征。39口语spoken language语言的口头变体。GBT 1220021994,
9、4113注:语音有不同的风格,常见的有朗读风格(reading style speech)和即席发言风格(spontaneous speech),后者是无发言脚本的,也称为自然口语。310口音标注accent label标出发音人的口音特征。311音段segment发音器官被处于相对稳定不变的状态下发出的单个语音。在语音或是音系层次上,将话语当作线性串列时,音段是串列中的最小单位。广义上说,音段被看作语音中发音器官或多或少地保持不运动的一个时段。312音段特征segmental feature现代语音学中跟音色相关的语音特征,在声学层面表现为频谱。313音段标注segmental labeli
10、ng把话语中的每个语音单元(包括音节、声韵或其他更小的语音单元)逐一进行切分,然后对它们的音色特征分别给予细致如实的描写。314语流音变sandhi连续音变连续发音中的语音变化。GBT 122002199441314注:如同化、异化等。3。15辅音consonant发音时气流受阻,发音器官肌肉紧张程度不均衡的类音素。2GBT 21024-2007GBT 1220021994,41311316元音vowel发音时气流不受阻,声带振动、发音器官肌肉均衡紧张的一类音素。EGBT 122002一1994,413103317国际音标International Phonetic AlphabetIPA由国
11、际语音协会制定的、国际统一的语音的标记方式。注:IPA国际音标是由国际音标语音协会提出的发音规范。318韵律prosody一般也称为超音段特征(suprasegmental feature),是将各种语言学单位组织成话语或话语中关联组块的系统组织。从物理角度,指基频、时长和强度等声学参数;从语言学的角度,指音段层次以上的音系组织。注:韵律的实现涉及语音的音段和超音段特征,它不但能够传递语言学信息,而且能够传递副语音学和非语言学信息。319音高范围pitch range个人说话时音高变化范围。320音区register通过声带张力的调节,人能够说话或唱歌的不同音高范围。注:如高音区与低音区,正常
12、声音区与假声音区等。321汉语 Chinese汉民族使用的语言。属于汉藏语系,是一种孤立语,有声调。汉语的书写基础汉字是一种表意文字,又称中文。注;至于统称中国境内的所有语言(包括汉语和少数民族语言)为“中国的语言(Chinese Languages)”。322汉语方言Chinese dialects特定地理区域中汉语的变体。323声母 initial汉语音节起始的辅音性成分,根据辅音的清浊不同可以将声母分为清声母和浊声母。3231清声母unvoiced initial由清辅音作的声母。3232浊声母voiced initial由浊辅音作的声母。3233零声母zero initial音节起始没
13、有辅音性成分,而直接以元音开始。3GBT 210242007注:普通话声母参见GF 3006 2001的定义4,2,其他汉语方言声母可参见IPA组织1999年编著的国际语音学会关于使用国际音标的指导手册。324韵母final汉语音节中除了声母以外的音段部分。韵母可以从组成结构上进一步分析为韵头、韵腹和韵尾,单元音组成单韵母,复元音或带鼻音韵尾的鼻韵母组成复韵母,带有鼻音韵尾组成鼻韵母。注:普通话韵母参见GF 30062001的定义43,其他汉语方言韵母可参见IPA组织1999年编著的国际语音学会关于使用国际音标的指导手册。325声调tone作用于音节或词语层面上具有区别词汇意义功能的音高模式。
14、由于声调具有区别词汇意义的功能,因此一些学者把声调也看成是一种音位,并称之为“调位(toneme)”。注:普通话声调参见GF 30062001的定义44,其他汉语方言声调可参见IPA组织1999年编著的国际语音学会关于使用国际音标的指导手册。4 中文语音合成系统的功能分类41概述符合本标准的中文语音合成系统应在规格中明确注明其系统分类,并满足相应系统分类的技术要求。42从语言处理能力上分类语音合成系统从处理语言能力上可以分为:单语种语音合成系统和多语种语音合成系统。语音合成系统应注明其处理语言种类,及同时处理不同语言的能力。43从所处区域或方言上分类普通话语音合成系统是指可以完成中文普通话语音
15、合成功能的语音合成系统。方言语音合成系统是指可以完成特定中文方言语音合成功能的语音合成系统。一般来说,方言语音合成可以按照区域划分为:广东话语音合成系统、吴语语音合成系统等。中文方言语音合成系统应注明其应用区域和方言类型。44从合成的应用范围上分类语音合成系统从合成的应用范围上可以分为:有限词汇语音合成系统和无限词汇语音合成系统。语音合成系统应注明应用的范围。45从韵律和音色调节能力上分类语音合成系统从韵律和音色调节能力上可以分为:基于参数的语音合成系统和基于波形的语音合成系统。基于参数的语音合成系统是指采用矢量参数运算作为声学模型的语音合成系统。例如:基于LPC(线性预测编码)语音合成系统、
16、基于共振峰语音合成系统、基于LSP(线谱对)语音合成系统等。基于波形的语音合成系统是指采用波形拼接算法作为声学模型的语音合成系统。46从合成方法上分类语音合成系统从实现方法上可以分为:基于规则的语音合成系统和基于数据驱动的语音合成系统。基于规则的语音合成系统通常是指语音合成系统中各模块使用的算法是通过专家规则的形式实现的语音合成系统。基于数据驱动的语音合成系统是指系统所需的模型,是通过数据驱动的方法建立的,其最大的特征就是可训练性。基于这两种方法的语音合成系统,在适应不同数据集和不同发音人的性能上有着一定区别。这两4GBT 2 1 024-2007种方法可以混合应用以提高系统的效果及减小对训练
17、数据容量的要求。47从应用平台上分类语音合成系统从应用平台上可以分为:用于芯片的语音合成系统、用于嵌入式操作系统的语音合成系统、用于独立主机的语音合成系统、用于分布式计算的语音合成系统等。语音合成系统应注明该系统适用的应用平台,如果是工作于特定的操作系统之上,也需同时注明支持的操作系统和语音合成系统的资源需求。5 中文语音合成系统数据交换格式51概述“中文语音合成标记语言(CSSML)”定义了一套基于XML文档结构的标记语言体系。它可被用于资源共享、模块互换,以及在分布式应用中的中间数据格式,或者独立系统的输入控制。CSSMI基于W3C制定的SSML(Speeeh Synthesis Mark
18、up Language)标准,在SSML的基础上针对汉语语音合成的情况进行了扩展和修改。本标准规定了在语音合成系统中的数据交换应使用基于“中文语音合成标记语言规范”所定义文档结构的数据内容。511文档结构基于XML的文档格式,各类型标记以XMI,元素的形式给出。附录A给出了CSSML定义。512特性中文语音合成标记语言应具有以下特性:a)支持多种格式文档的输入,即能指明当前文档格式b)与现有各标记体系保持一致,尽量兼容或易于被自动转化;c) 能对合成文本的结构加以描述;d) 支持不同语言和方言的定义;e)支持特殊发音指定(宏发音),包括强制改变发音以及引用外部声音元素;f)支持对诸如速度、音高
19、、音强等参数的控制;g)支持对音色的指定,如发音人姓名、性别、年龄等;h)对特定格式文字发音的支持,如地址、电话、网址等;i) 支持重读强调控制;j) 支持某段文字语调控制。513 CSSML元素表CSSML元素见表1。表CSSML元素表序号 元素 功能 定义集1 audio 指明插入一个已有声音样本 基本集2 break 指明一个停顿 基本集3 enlphasis 指明轻重读强调程度 扩展集4 指明发音的音场环境 扩展集5 指明作用域内附加使用的用户词典 扩展集6 mark 指明事件响应 扩展集7 paragraphp 语音层次结构的单位 扩展集8 phoneme 指明发音音素序列方案 基本
20、集GBT 21024-2007裹1(续)序号 元素 功能 定义集9 ptlrase 语音层次结构的单位 扩展集10 prosody 指明发音的韵律 基本集11 punctuation 指明标点的处理方式 基本集12 sayassay-as 指明文本性质 基本集13 语音层次结构的单位 基本集14 CSSML文档的根元素 基本集15 sub 替换文本内容 基本集16 value 指明插人一个系统变量 基本集17 指明发音人的音质特征 扩展集18 word 语音层次结构的最小单位 基本集19 rdm 保留未来使用 保留注:凡是以AB形式出现的元素表示A与B的写法等价。52元素与属性521文档结构类
21、元素5211 speak元素名:speak属于:基本集描述:由于此标注体系采用XML文档格式给出,因此根元素即为“speak”。允许的父元素:无。允许的子元素:paragraph,sentence,phrase,word,sayas,phoneme,sub,lexicon,punctuation,prosody,emphasisvoice,environment,audio,value,break,mark,rdm属性表:“version”:属性描述:指定使用的规范的版本。属性值:应为“10”。“xmi:lang”:属性描述:指定作用域内文档内容使用语言。属性值:可用值请参照Internet公
22、文RFCl766。“xml:base”:属性描述:指定文档的根URI位置。示例:5212 paragraphp、sentences、phrase、word描述:指定语音层次结构,以使合成语音更加符合使用要求。示例:GBT 21024-2007dphrase我们的dword最高目标dworddphrase是得到高自然的语音dparagraph52121 paragraphp元素名:paragraph别名:P属于:基本集描述:指定作用域内文字为一段落。允许的父元素:speak,lexicon,punctuation,voice,environment允许的子元素:sentence,phrase,w
23、ord,say-as,phoneme,sub,lexicon,punctuation,prosody,emphasis,voice,environment,audio,value,break,mark,rdm属性表:“xmi:lang”:属性描述:指明作用域内的发音语种。属性值:可用值请参照Internet公文RFCl766。52122 sentences元素名:sentence别名:s属于:基本集描述:指明作用域内文字为一句子。允许的父元素:speak,paragraph,lexicon,punctuation,voice,environment允许的子元素:phrase,word,say-
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 21024 2007 中文 语音 合成 系统 通用 技术规范
