欢迎来到麦多课文档分享! | 帮助中心 海量文档,免费浏览,给你所需,享你所想!
麦多课文档分享
全部分类
  • 标准规范>
  • 教学课件>
  • 考试资料>
  • 办公文档>
  • 学术论文>
  • 行业资料>
  • 易语言源码>
  • ImageVerifierCode 换一换
    首页 麦多课文档分享 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    DB34 T 4554-2023 儿童智能语音识别技术规范.pdf

    • 资源ID:1544521       资源大小:342.64KB        全文页数:7页
    • 资源格式: PDF        下载积分:5000积分
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    二维码
    微信扫一扫登录
    下载资源需要5000积分(如需开发票,请勿充值!)
    邮箱/手机:
    温馨提示:
    如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如需开发票,请勿充值!如填写123,账号就是123,密码也是123。
    支付方式: 支付宝扫码支付    微信扫码支付   
    验证码:   换一换

    加入VIP,交流精品资源
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    DB34 T 4554-2023 儿童智能语音识别技术规范.pdf

    1、 ICS 35.240 CCS L 77 34 安徽省地方标准 DB34/T 45542023 儿童智能语音识别技术规范 Specification for intelligent speech recognition technology of children 2023-10-07 发布 2023-11-07 实施安徽省市场监督管理局 发 布DB34/T 45542023 I 前言 本文件按照 GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由安徽淘云科技股份有限公司提出

    2、。本文件由安徽省经济和信息化厅归口。本文件起草单位:安徽淘云科技股份有限公司、科大讯飞股份有限公司、安徽工程大学计算机与信息学院、合肥巴灵瑞教育科技有限公司、合肥赑歌数据科技有限公司、安徽长三角数据感知与治理研究院、江苏理工学院、合肥师范学院、合肥智能语音创新发展有限公司。本文件主要起草人:王晓斐、刘庆升、朱翠玲、叶娟、方明、叶剑鸣、陶皖、陈慧珺、毛四方、吕雪、胡连峰、宋若淼、高群、谢秀琴、姜志文、孙艳、张泽之、武方芳。DB34/T 45542023 1 儿童智能语音识别技术规范 1 范围 本文件规定了儿童智能语音识别技术的术语和定义、技术路线和要求。本文件适用于儿童智能语音识别技术的应用。2

    3、 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 21023-2007 中文语音识别系统通用技术规范 3 术语和定义 下列术语和定义适用于本文件。语音智能识别技术 Speech intelligent recognition technology 通过人工智能技术识别声音,并将声音信号转化为文字或指令的过程。声学模型 Acoustic model 输入音频经特征提取和标注后,进行深度学习获得的模型参数即为声学模型;其中,特征提取是将音

    4、频数据转换为特征向量;标注是将音频数据上的文本与其对应的特征帧对齐。注1:声学模型的训练过程包括:数据录制、数据标注、特征提取和模型训练。注2:声学模型训练过程中提取特征通常使用 Mel频率倒谱系数(MFCC)等特征提取方法。注3:深度学习也指模型训练,是使用已对齐数据训练声学模型,通常使用深度学习模型包括卷积神经网络(CNN)、长短时记忆网络(LSTM)等模型。语言模型 Language model 利用自然语言处理技术,在词级别上对文本进行建模,输出概率最大的词序列,以解决声学模型无法解决的同音词、近义词等因素干扰的歧义性问题;其中,建模的过程是根据语言学规则、语料库语言统计等多种因素,以

    5、概率形式估计一个给定文本的出现概率,并根据这个概率来确定识别结果。4 技术路线 儿童语音智能识别的技术路线见图1。DB34/T 45542023 2 图1 儿童语音智能识别技术路线 5 要求 语音信号采集 5.1.1 采样率应为 16 KHz,采样位深应为 16 bit。5.1.2 音频采集应保证完整,避免截断或缺失情况的发生。5.1.3 人声和环境噪音的信噪比应不低于 10 dB。5.1.4 人声应是汉语通用语发声,应满足 GB/T 21023-2007 中 6.1(b)的要求。5.1.5 应支持对 314 岁年龄段人群语音信号的采集。信号处理和特征提取 5.2.1 语音信号中有回声存在,应

    6、对语音信号进行回声消除处理。5.2.2 语音信号中有较大混响存在,应对语音信号进行去混响处理。5.2.3 语音信号中存在较大周围噪声,应对语音信号进行降噪处理。5.2.4 语音信号中存在特定波段频率的干扰,应对其进行滤波处理。5.2.5 在采集特定方向的语音信号时,应对语音信号进行增强处理,从而起到加强特定方向的语音信号,并抑制其他方向的语音信号。5.2.6 在进行批量语音信号处理时,应根据指定的语音信号长度(时间段或者采样数)进行分段处理。5.2.7 将语音信号从时域转换到频域,提取语音信号中的特征向量。识别 5.3.1 概述 对输入的语音信号,在由语句或者单词序列构成的空间当中,按照一定的

    7、优化准则,并且根据声学模型、语言模型,生成一个用于搜索的状态空间,在该状态空间中搜索到最优的状态序列,即寻找能够以最大概率输出该信号的词序列。5.3.2 声学模型 DB34/T 45542023 3 5.3.2.1 训练声学模型的训练数据集中儿童数据占比不能低于 40,其中,36 岁儿童的数据不低于20,612 岁儿童数据不低于 20。5.3.2.2 训练声学模型的覆盖各种场景的数据不低于 1 万小时。5.3.3 语言模型 5.3.3.1 识别解码过程中的语言模型的训练数据文本应包含儿童说话的习惯。5.3.3.2 训练语料数据量应达到千万级以上的句子、亿级以上的词级别语料。文本输出 5.4.1 声纹识别的输出结果是本次语音的注册人身份信息,并且含有可信度衡量。5.4.2 语音唤醒的输出结果是对关键词的检测状态判断数据,并且含有可信度衡量。5.4.3 语音听写输出结果为语音对应的文本信息和附属信息(如时间戳、置信度、词属性、拼音等)。5.4.4 语音转写输出结果为语音对应的文本和附属信息(如时间戳、置信度、词属性等)。


    注意事项

    本文(DB34 T 4554-2023 儿童智能语音识别技术规范.pdf)为本站会员(explodesoak291)主动上传,麦多课文档分享仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文档分享(点击联系客服),我们立即给予删除!




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
    备案/许可证编号:苏ICP备17064731号-1 

    收起
    展开