GA T 1591-2019 警务智能语音服务平台接口规范.pdf
《GA T 1591-2019 警务智能语音服务平台接口规范.pdf》由会员分享,可在线阅读,更多相关《GA T 1591-2019 警务智能语音服务平台接口规范.pdf(31页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.240.99 A 90 GA 中 华 人 民 共 和 国 公 共 安 全 行 业 标 准 GA/T XXXXX XXXX 警务智能语音服务平台接口 规范 Specifications for interface of intelligent voice service platform for the police 点击此处添加与国际标准一致性程度的标识 ( 报批稿 ) XXXX - XX - XX 发布 XXXX - XX - XX 实施 中华人民共和国公安部 发布 I 目 次 目次 . I 前言 . II 警务智能语音服务平台接口规范 . 1 1 范围 . 1 2 规范性引用
2、文件 . 1 3 术语和定义 . 1 4 数据对象 . 1 5 语音识别服务接口 . 2 6 语音合成服务接口 . 11 7 文本处理服务接口 . 15 附录 A(资料性附录)语音消息结果示例 . 20 参考文献 . 27 GA/T XXXXX XXXX II 前 言 本标准 按照 GB/T 1.1-2009给出的规则起草。 本标准由 安徽省公安厅提出。 本标准由 公安部计算机与信息处理标准化技术委员会 归口。 本标准起草单位: 智能语音技术公安部重点实验室 、安徽省公安厅、 讯飞智元信息科技有限公司 、 合肥市公 安局、 公安部第三研究所 、公安部第一研究所 、 苏州思必驰信息科技有限公司
3、。 本标准主要起草人: 祝占魁、冯祥 、 刘琼、胡先锋、刘磊、查飞、戎玲、孔耀晖、 周伟达 、李伟、 李磊、 吴波 、王伟 、 储明丽、吴鹏、程彪、刘韫韬、余洪祥、游寒旭 。 GA/T XXXXX XXXX 1 警务智能语音服务平台接口 规范 1 范围 本标准规定了警务智能语音服务平台 提供 服务 的 数据对象 、 语音识别服务接口 、 语音合成服务接口 、 文本处理服务接口 等 。 本标准适用于警务智能语音服务平台接口设计 、 开发 和应用 。 2 规范性引用文件 下列文件对于本 要求 的应用是必不可少的。凡是注日期的引用文件,仅注日期 的版本适用于本文件。 凡是不注日期的引用文件,其最新版
4、本(包括所有的修改单)适用于本文件。 GB/T 21023-2007 中文语音识别系统通用技术规范 GB/T 34083-2017 中文语音识别互联网服务接口规范 GB/T 34145-2017 中文语音合成互联网服务接口规范 GA/T XXXXX-XXXX 警务智能语音服务平台技术 要求 3 术语 和定义 GB/T 34083-2017、 GB/T 34145-2017和 GA/T XXXXX-XXXX界定 的 术语和定义适用于本文件。 4 数据 对象 4.1 基本数据类型 平台 数据对象采用的基本数据类型 见表 1。 表 1 基本数据类型 类型名称 说明 范围 Byte 字节 -128 1
5、27 Int 整型 -2147483648 2147483647 Long 长整型 -9223372036854774808 9223372036854774807 String 字符串 任意可变长度 Float 浮点数 3.402823e+38 1.401298e-45( e+38 表示是乘以 10的 38 次方,同样, e-45 表示乘以 10 的负 45 次方) Bool 布尔型 true 或 false 4.2 JSON 数据交换格式 平台采用 JSON数据交换格式来存储和表示数据对象 。 GA/T XXXXX XXXX 2 5 语音识别服务接口 5.1 接口请求调用关系 接口请求调用
6、关系 见 图 1。 注 1: 虚线框内定义的热词流程,为非必要流程。 注 2: “ For 0,N,1”表示起始值为 0、上 限 值为 N、步长为 1的循环。 图 1 语音识别服务接口请求调用关系 5.2 连续 语音识别 接口 5.2.1 初始化 连续 语音识别服务 行为描述: 初始化 连续 语 音识别服务客户端组件 。 本接口应和 逆 初始化 连续语音识别服务 ( 见 5.2.6) 配对使用 。 如果连续语音识别服务 系统不是通过客户端组件提供服务 ,则本接口可省略 。 输入参数 : 不做定义 。 输出 参数: 返回值等 。 5.2.2 创建 连续 语音 识别 会话 行为描述: 创建一路 连
7、续 语音识别会话 , 可 设置会话参数 ,参数有效范围应为设置成功时起 至本路 会话结束 。 输入参数: 参数 见表 2。 GA/T XXXXX XXXX 3 输出参数: 返回值等 。 5.2.3 设置 连续 语音识别会话 参数 行为描述: 设置 一路 连续 语音识别会话 参数 ,参数有效范围应为设置成功时起至本路会话结束。 输入参数 : 参数 见表 2。 输出参数: 返回值 等。 表 2 设置连续语音识别会话输入参数 序 号 参数 取值 默认值 功能 1 session-type/sst 字符串,取值包括 continuous和 command, continuous表示连续语音识别, co
8、mmand表示命 令字识别 continuous 指明会话类型 2 net-timeout/ntt 整数,单位毫秒( ms) 取值范围为 -1和 1 30 000的整数, -1表示无超 时限制 10000 指明网络交互超时间隔 3 speek-timeout/stt 整数,单位毫秒( ms) 取值范围为 -1和 1 30 000的整数, -1表示 无超 时限制 10000 指明语音写入超时间隔 4 confidence-threshold/cfd 浮点数,取值范围为 0.0 100.0 90.0 指明置信度阈值 5 result-format 字符串,取值包括 plain和 json, 应支持
9、 plain和 json json 指明识别结果格式 6 result-encode/rse 字符串,取值包括 GB18030、 GB13000等。 应支持 GB18030,宜支持 GB13000 GB18030 指明识别结果字符编码格式 7 vad-enable 布尔值,取 值包括 true和 false true表示开启, false表示关闭 true 开启音频端点检测 8 audio-format/auf 字符串,取值包括 audio/L16;rate=8000、 audio/L16;rate=16000等。 应支持 audio/L16;rate=8000和 audio/L16;rate
10、=16000 audio/L16;ra te=16000 指明识别音频数 据格式 9 audio-encode/aue 字符串,取值格式规范同 RFC 2045的 Content-Type参数,其中的 type取值为 audio, subtype取值包括 raw、 pcma、 pcmu、 amr、 amr-wb、 speex、 speex-wb、 mp3等 , 其中 raw表示不压缩。 对于支持可变码率编码的压缩算法,使用子参 数 level(或简写为 lvl)指定压缩等级。如取 值为“ audio/amr-wb;lvl=7”时,语音识别服 务系统在网络传输中使用 amr-wb算法的等级 7
11、压缩识别音频。 subtype的取值除 raw外,宜支 持以上音频压缩算法中的一种或多种 audio/raw 指明识别音频压缩算法 10 language/lang 字符 串 ,取值规范符合 RFC 5646,应支持中文zh-CN、 宜支持 en-US,缺省值为 zh-CN zh-CN 指明识别音频所属语种 GA/T XXXXX XXXX 4 表 2(续) 序号 参数 取值 默认值 功能 11 dialect 字符串, 取值规则满足 RFC 5646规范,应支持zh_cmn,宜支持 zh_yue等方言 zh_cmn 指明识别音频所属方言 12 vad-timeout 整数,单位毫秒( ms)。
12、取值范围为 -1和 1 60000的整数, -1表示无超时限制 10000 指明语音等待超时时长 13 vad-incomplete-timeout 整数,单位毫秒( ms)。取值范围为 -1和 1 60000的整数, -1表示无超时限制 10000 指明语音尾部静音长度 14 denoise-enable 布尔值,取值包括 true 和 false, true 表示开启, false 表示关闭 true 启用噪声抑制 15 result-type/rst 字符串,取值包括 word(字或词)、 sentence (整句)和 paragraph(段落) 应支持 word和 sentence w
13、ord 指明识别结果类型 16 progressive-mode 布尔值,取值 包括 true 和 false, true 表示进阶模式, false 表示非进阶模式 false 指明会话是否为进阶模式 17 punctuation 布尔值,取值包括 true 和 false, true 表示自动添加标点符号, false 表示不添加 true 指明是否自动添加标点符号 18 result-info 字符串,取值为表 3中所列参数或其组合,参数之间用 “ |”表示 分割 ,参数取值见表 3 获取完整的识 别结果 指明识别结果中的信息种类 19 vendor-x 字符串, json格式 无 自定
14、义参数 表 3 result-info 参数集合 序号 参数 参数 描述 1 confidence-threshold/cfd 置信度阈值 2 language/lang 语种 3 dialect 方言 4 gender 性别 5 age 年龄 6 role 角色 7 SNR 信噪比 8 error-reason 错误原因 9 pinyin 拼音 10 score 得分 11 user-word 热词 5.2.4 写入 连续语音 识别音频 数据 行为描述: 写入一路 连续 语音识别会话所用识别音频。 本接口可以被反复调用 , 待识别音频 流为空 时表示音频写入结束。 输入参数 :语音数据 。
15、输出参数 : 见表 4。 GA/T XXXXX XXXX 5 表 4 连续语音识别 输出 参数 序号 参数 取值 默认值 功能 1 version/ver 字符串,当前值为 0.1 0.1 协议版本号 2 sentence-number/sn 整数,从 1开始,递增加 1 1 句子序号 3 last-sentence/ls 布尔值,取值为 true或 false fale 是否为最后一句 4 begin 正整数,单位毫秒( ms) 0 开始识别时间 5 end 正整数,单位毫秒( ms) 0 结束识别时间 6 result-type/rst 字符串,取值包括 word(字或词)、sentenc
16、e(整句)和 paragraph(段落) word 结果类型 7 error-code 整数 ,0表示成功,非 0表示失败,不同非0值对应不同的错误原因 0 错误码 8 word 字符串 无 一段音频 识别结果 的文字 内容 9 score 浮点数,取值范围为 0.0 100.0 0.0 识别结果内容对应的匹配得分,得分越高越可信 10 instance 字符串 无 匹配到的语法中的词条 ,用于命令字识别中 11 user-input 字符串 无 用户说话内容,用于命令字识别中 12 error-reason 字符串 无 在 error-code为非 0值 时, error-reason描述发
17、 生错误的原因 13 confidence-threshold /cfd 浮点数,取值范围为 0.0 100.0 无 识别的置信度阈值,用于命令字识别中 14 language/lang 字符串 ,取值规则满足 RFC 5646规范,应支持 zh_CN,宜支持 en_US等 zh_CN 识别音频所属语种 15 dialect 字符串,取值规则满足 RFC 5646规范,应支持 zh_cmn,宜支持 zh_yue等方言 zh_cmn 识别音频所属方言 16 gender 字符串,取值包括 male(男)或 female(女) 无 说话者性别 17 age 字符串,取值包括 child(少年)、
18、youth (青年)、 adult(成年)、 elder(老 人) youth 说话者年龄 18 role 整数,取值范围大于等于 1,序数含义 1 指明在多人说话的场景 中,当前识别结果是哪个 人说的内容 19 progressive-type 字符串,取值包括 append(附加)、 overwrite(盖写)、 insert(插入)和 delete(删除) append 进阶类型 GA/T XXXXX XXXX 6 表 4(续) 序号 参数 取值 默认值 功能 20 progressive-range 对象,两个整数组成的范围,单位均为字 节( B)。第一个整数表示起点,第二个 整数表示
19、从起点算起的长度,例如: 0,6 无 进阶范围 21 SNR 浮点数,单位分贝( dB)取值规则符合 GB/T 21023 2007中 4.6的规范 无 信噪比 22 pinyin 字符串,描述的文本为中文字符时,取值 为每一个字符对应的汉语拼音按字符先 后顺序拼接起来的字符串,中间不加分隔 符。每一个字符对应的汉语拼音声韵组合 规律符合汉语拼音方案,声调中的阴 平、阳平、上声、去声和轻声分别用 1、 2、 3、 4和 0表示,如“北京”的普通话汉语 拼音表示为“ bei3jing1” 无 识别结果拼音 23 user-word 布尔值,取值包括 true或 false fale 是否为用户自
20、定义热词 24 vendor-x 字符串, json格式 无 厂商自定义参数 5.2.4 结束 连续 语音识别会话 行为描述: 结束一路 连续 语音识别会话 。 输入参数:会话句柄。 输出参数:返回值等 。 5.2.5 逆 初始化连续语音识别服务 行为描述: 释放资源。 如果 连续 语音识别服务 系统不是通过客户端组件提供 服务 ,则本接口可省略 。 输入参数:不做定义。 输出参数:返回值等。 5.3 语音识别 服务 接口 5.3.1 初始化语音识别服务 行为描述:初始化语音识别服务客户端组件 , 本接口应和 逆初始化 语音 识别 服务(见 5.3.6)配对 使用。 如果语音识别服务 系统不是
21、通过客户端组件提供服务 ,则本接口可 省 略 。 输入参数:不做定义 。 输出参数:返回值等 。 5.3.2 创建语音 识别 会话 行为描述: 创建一路语音识别会话,可以同时设置会话参数,参数有效范围应为设置成功时起至本 路会 话结束。 输入参数 : 可一次设置多个会话参数。 输出参数:返回值等 。 GA/T XXXXX XXXX 7 5.3.3 设置语音识别会话参数 行为描述: 设置一路语音识别会话参数,参数有效范围应为设置成功时起至本路会话结束。 输入参数: 参数 见表 5,示例 参见 附录 A.1。 输出 参数:返回值等。 表 5 设置语音识别会话输入参数 序号 参数 取值 默认值 功能
22、 1 session-id/ssid 字符串 ,必填 , 建议取值 uuid 无 会话 id应唯一 2 business-id/bizid 字符串,必填 ,如未设置 ,将默认与session_id相同 无 业务 id 3 business-name/biznm 字符串 无 业务名称 4 audio-format/auf 字符串,取值包括 audio/L16;rate=8000、 audio/L16;rate=16000等。 应支持 audio/L16;rate=8000和 audio/L16;rate=16000 audio/L16;rate=1600 0 指明识别音频数据 格式 5 resu
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GA 1591-2019 警务智能语音服务平台接口规范 1591 2019 警务 智能 语音 服务 平台 接口 规范
