DB35 T 1979-2021 智慧家庭人工智能语音服务通用技术规范.pdf
《DB35 T 1979-2021 智慧家庭人工智能语音服务通用技术规范.pdf》由会员分享,可在线阅读,更多相关《DB35 T 1979-2021 智慧家庭人工智能语音服务通用技术规范.pdf(19页珍藏版)》请在麦多课文档分享上搜索。
1、 ICS 35.240.01 CCS L 77 35 福建省地方标准 DB35/T 1979 2021 智慧家庭人工智能语音服务通用技术规范 General technical specification for artificial intelligence voice service of smart home 2021 - 06 - 21 发布 2021 - 09 - 21 实施 福建省市场监督管理局 发布 DB35/T 1979 2021 I 目次 前言 . . II 1 范围 . . 1 2 规范性引 用文件 . . 1 3 术语和定 义 . . 1 4 缩略语 . . 2 5 语音
2、服务 的组成及能力等级划分 . 3 6 环境要求 . . 3 7 基本要求 . . 4 8 测试方法 . . 10 附录 A(规范性) 语音测试集录音质量要求 . 15 附录 B(规范性) 测试用设备要求 . 16 DB35/T 19792021 II 前言 本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定 起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。 本文件由福建省工业和信息化厅提出并归口。 本文件起草单位:中国移动通信集团福建有限公司、科大讯飞股份有限公司、中移(杭州)信息技 术有限公司、福建福诺移动通信技术
3、有限公司、中国电信股份有限公司福建分公司、中国联合网络通信 有限公司福建省分公司、福建广电网络集团、华为技术有限公司、福建星网锐捷通讯股份有限公司、 新大陆通信科技股份有限公司、福建福日电子股份有限公司。 本文件主要起草人:章金水、黄海辉、林海、俞晓梅、罗新喜、孙凯廷、马培培、罗红、程宝平、 李栋、黄晓明、韦观明、屈彤、吴振文、沈绍昌、王献飞、杨韬。 DB35/T 1979 2021 1 智慧家庭人工智能语音服务通用技术规范 1 范围 本文件规定了智慧家庭人工智能语音服务的组成及能力等级划分、 环境要求、 基本要求和测试方法。 本文件适用于智慧家庭人工智能语音服务的建设、测试和评价。 2 规范
4、性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本 文件。 GB 30962008 声环境质量标准 GB/T 210232007 中文语音识别系统通用技术规范 GB/T 210242007 中文语音合成系统通用技术规范 GB/T 22239201 9 信息安全技术 网络安全等级保护基本要求 GB/T 36464.1202 0 信息技术 智能语音交互系统 第1部分:通用规范 GB/T 36464.2201 8 信息技术 智能语音交互系统 第2部分:智能
5、家居 3 术语和定义 GB/T 210232007、GB/T 210242007、GB/T 36464.12020、GB/T 36464.2 2018界定的以及下 列术语和定义适用于本文件。 语音服务 voice service 人机之间通过自然语言对话来获取信息的服务。 语音采集 voice ac quisition 通过传声器或麦克风阵列等拾音设备对语音进行采集。 语音识别 speech r ecognition 将人类的声音信号转化为文字或指令的过程。 来源:GB/T 210 232007,3.1 语义理解 semantic u nderstanding 使功能单元理解人说话的意图。 来
6、源:GB/T 36464.12020,3.11 DB35/T 1979 2021 2 语音合成 speech s ynthesis 通过机械的、电子的方法合成人类语言的过程。 来源:GB/T 210 242007,3.1 端点检测 voice acti vity detection 一种用于分析、判断连续音频流中有效起始点和结束点的语音处理技术。 来源:GB/T 36464.12020,3.22 智能语音终端 artificial i ntelligence voice terminal 可接收用户的语音,使得用户可以获取在线音视频等内容,或可通过语音进行控制的设备。 噪声 noise 语音采
7、集过程中,采集到的由非有效语音信源发出的,能干扰、影响对有效语音信号的理解或处理 的声音信号。 来源:GB/T 36464.12020,3.27 等效声级 equivalent co ntinuous A-weighted sound pressure level 在声场中的某个位置上,用某一段时间内能量平均的方法,将间歇暴露的几个不同噪声,用这样一 个声级来表示该段时间的噪声大小。 平均意见得分 mean opi nion score 语音质量的一种主观度量。 来源:GB/T 36464.22018,3.26 语音唤醒 speech w akeup;voic e trigger 处于音频流监
8、听状态的语音交互系统,在检测到特定的特征或事件出现后,切换到命令词识别、连 续语音识别等其他处理状态的过程。 来源:GB/T 36464.22018,3.13 媒资 media assets 媒体单位生产的文字、图片、音视频等数据。 媒资库 media pool 存储媒资的数据库。 4 缩略语 下列缩略语适用于本文件。 PCM:脉冲编码调制(Pulse Co de Modulation) MOS:平均意见得分(Mean Opi nion Score) DB35/T 1979 2021 3 5 语音服务的组成及能力等级划分 语音服务的组成 由语音采集与识别、语义理解、语音合成与播放、语音技能四个
9、部分组成。 语音服务能力等级划分 语音服务能力根据成熟度划分为五个等级,见表1。 表1 语音服务能力等级 语音服务能力等级 定义 主体 语音采集与识别 语义理解 语音合成与播放 语音技能 Level 5 语义深度理解与智 能互动 端点检测 上下文及多场景语 义理解与智能终端 控制 智能翻译 多级互动 Level 4 语义理解与语音互 动 语义理解 自然合成(多语种、 多发音人) 应用唤醒、栏目唤 起、内容搜索 Level 3 语音深度识别与自 然合成 Level 2 语音识别与机器合 成 语音识别 机器合成 Level 1 语音采集与播放 语音采集 语音播放 6 环境要求 自然环境 智能语音终
10、端主要在家庭环境下使用,在表2所示自然环境条件下应正常工作。 表2 自然环境要求 温度 相对湿度 大气压力 KPa 040 10%90%无凝结 86106 网络环境 智能语音终端或与之相连的智能设备应支持无线或有线网络接入互联网,网络接入速度应不低于 128 kbit/s。 噪声环境 智能语音终端主要在家庭环境下使用,家庭噪声环境具体要求按照GB 30962008第4章中0、1、2 类声环境功能区的规定执行。 DB35/T 1979 2021 4 7 基本要求 语音采集与识别 7.1.1 语音采集 人工智能语音服务使用智能语音终端进行语音采集, 应能通过传声器或麦克风阵列等具备语音采集 能力的
11、拾音设备对语音、连续语音进行单声道或多声道的采集。语音采集应满足以下要求: a) 支持 8 kHz 或 16 kHz 采样率,16 bit 及以上的采样精度; b) 音频文件编码支持 PCM 或 Opus 或 Speex 格式; c) 对于连续性音频,支持 30 s 或 60 s 为时间单位进行切片分割。 注: Opus是有损音频的一种编码格式;Speex是一套针对语音音频的压缩格式。 7.1.2 端点检测 人工智能语音服务在进行语音采集时,应对采集的音频进行端点检测,以区分用户说话的自然停顿 和主观停止。 7.1.3 语音识别 应满足以下要求: a) 支持家庭场景下关键词语音识别能力,如影视
12、、音乐、医疗、教育等; b) 支持简单中英文混合识别; c) 支持数字、电话号码; d) 支持普通话、带有福建口音的普通话; e) 宜支持福建省内主流方言,如闽南语、客家语; f) 语音识别句识别率应满足表 3 要求。 表3 语音识别句识别率要求 声环境功能区类别 环境噪声等效声级 dB(A) 句识别率 % 0类 昼间50,夜间40 90 1类 昼间55,夜间45 85 2类 昼间60,夜间50 80 句识别率计算方法按公式(1)。 null nullnull null null nullnull null nullnull null100% (1) 式中: Psr 句识别率,单位为百分数(%
13、); Nsr 智能语音终端语音交互系统正确识别的句数; Nsi 标注总句数。 DB35/T 1979 2021 5 语义理解 应满足以下要求: a) 支持简称、别名、代码、数字的理解; b) 具有用户表达存在错字、缺字、模糊时的容错理解能力; c) 支持多轮、全双工对话的人机交互方式; d) 语义理解正确率应满足表 4 要求。 表4 语义理解等级表 语义理解等级 场景 语义理解正确率 % 0类 影视,电视直播,节目回看 90 1类 音乐,医疗,购物,教育 85 语义理解正确率计算方法按公式(2)。 null nullnull null null nullnull null null 100%
14、(2) 式中: Rss 语义理解正确率,单位为百分数(%); Nss 操作意图及语义要素均被正确判断的次数; N 用户输入被正确识别出文本信息的总次数。 语音播放与合成 7.3.1 语音播放 具备声音外放功能的智能语音终端, 昼间播放的语音提醒以及其它音频, 外放声音应不低于60 dB。 7.3.2 语音合成 应满足以下要求: a) 支持在线或离线方式合成近似人类的语音; b) 支持普通话和英语,宜支持福建省内主流方言,如闽南语、客家语; c) 支持中英文数字等各种混合音,宜支持多音色合成和个性化合成; d) MOS 应大于或等于 4,MOS 量化分值见表 5。 表5 MOS 量化分值 分值
15、主观测听效果 5 非常接近播音员真人发声,达到以假乱真的程度,总体听感很好,清晰、流畅。 4 发音清晰、可懂,总体听感好、流畅,听测人愿意接受(半小时左右不觉疲劳),没有明 显韵律错误。 3 基本可以听懂,但在语气节奏处理上问题较多,音节之间拼接不流畅感较重,听测人不太 愿意接受,有明显的疲劳感。 2 语音吐字不清晰,字词之间有较为严重的顿挫感,体验性不好,但不影响正常理解。 DB35/T 1979 2021 6 表 5 MOS 量化分值 (续) 分值 主观测听效果 1 发音不清晰,机器音质,听不懂,只能表达断续、个别的语音信息,猜测语意都很困难, 不能接受。 注: 参考GB/T 36464.
16、12020中A.8.3的表A.1,结合家庭环境要求,对主观测听效果作更详细描述。 语音唤醒 7.4.1 夜间唤醒 具备语音唤醒功能的智能语音终端在夜间的唤醒率应满足表6要求。 表6 夜间不同噪声环境下的唤醒率要求 声环境功能区类别 夜间环境噪声等效声级 dB(A) 发声大小 dB 唤醒率要求 0类 40 55 不作要求 55 3 m优于95% 1类 45 60 不作要求 60 1 m优于95% 3 m优于90% 5 m优于85% 2类 50 65 不作要求 65 3 m优于85% 夜间唤醒率计算方法按公式(3)。 null nullnull null null nullnull null nu
17、ll null 100% (3) 式中: Rnw 夜间唤醒率,单位为百分数(%); Nsw 成功唤醒次数; Nw 语音唤醒操作次数。 7.4.2 昼间唤醒 具备语音唤醒功能的智能语音终端在昼间的唤醒率应满足表7要求。 表7 昼间不同噪声环境下的唤醒率要求 声环境功能区类别 昼间环境噪声等效声级 dB(A) 发声大小 dB 唤醒率要求 0类 50 65 不作要求 65 3 m优于90% DB35/T 1979 2021 7 表 7 昼间不同噪声环境下的唤醒率要求 (续) 声环境功能区类别 昼间环境噪声等效声级 dB(A) 发声大小 dB 唤醒率要求 1类 55 70 不作要求 70 1 m优于9
18、0% 3 m优于85% 5 m优于80% 2类 60 75 不作要求 75 3 m优于80% 昼间唤醒率计算方法按公式(4)。 null nullnull null null nullnull null null null 100% (4) 式中: Rdw 昼间唤醒率,单位为百分数(%); Nsw 成功唤醒次数; Nw 语音唤醒操作次数。 7.4.3 误唤醒次数 具备语音唤醒功能的智能语音终端误唤醒次数应满足表8要求。 表8 误唤醒次数要求 环境噪音(S) dB(A) 12 h内误唤醒次数 S45 0次 45S55 不作要求 55S65 低于2次 S65 不作要求 语音技能 7.5.1 通用技
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB35 1979-2021 智慧家庭人工智能语音服务通用技术规范 1979 2021 智慧 家庭 人工智能 语音 服务 通用 技术规范
