1、 ICS 13.310 A 92 中 华 人 民 共 和 国 公 共 安 全 行 业 标 准 GA GA/T XXXX XXXX 声纹自动识别系统 测试规范 Test specifications for automatic speaker recognition system - -发布 - -实施 中华人民共和国公安部 发 布 GA/T XXXX XXXX I 前 言 本标准按照 GB/T 1.1 2009 给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国刑事技术标准化技术委员会( SAC/TC 179)归口。 本标准起草单位:
2、 公安部物证鉴定中心、公安部第三研究所、 安全部 专家鉴定 委 、 广东省公安厅、 上海市公安局、安徽省公安厅、合肥市公安局、江苏省公安厅、福建省公安厅、深圳市公安局、北京市 国家安全局司法鉴定中心、广西壮族自治区国家安全厅司法鉴定中心、 北京 警察 学院 、清华大学、科大 讯飞股份 有限公司。 本标准主要起草人: 李敬阳、金波、王莉、康锦涛、 刘 明东、 王英利、崔刘虎、王年松、靳业、金 恬、陈泉金、刘云、邵健、甘晓春、 庄京 伟 、何亮、吴亚辉。 GA/T XXXX XXXX 1 声纹自动识别系统测试规范 1 范围 本标准规定了 声纹自动识别系统 的 测试 要求、指标 和报告 。 本标准适
3、用于 公共安全领域的声纹自动识别系统测试,其他 领域可 参照 使用。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件 , 仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其 最新版本(包括所有的修改单)适用于本文件。 GB/T 35048 2018 法庭 科学语音 及 音频检验 术语 3 术语和定义 GB/T 35048-2018界定的以及 下列 术语和定义适用于本文件。 3.1 声纹检索 speaker retrieval 将一个说话人的语音放入声纹库中进行 检索比对 ,得出与库内 说话人 匹配 度排序 的过程。 3.2 声纹 识别 speaker re
4、cognition 将一个说话人的语音放入声纹库中进行 检索比对 , 推断该语音对应说话人身份的过程 。 3.3 声纹自动识别系统 automatic speaker recognition system 能自动 完成声纹检索比对 或声纹识别 任务的计算机系统。 3.4 语音有效时长 valid speech duration 符合 有关规范要求的 语音片段的时长总和,一般按秒计算 。 3.5 注册说话人 enrollment speaker 系统 中,已知 (或假定已知) 身份 的 说话 人 。 3.6 注册语音 enrollment speech 系统中 , 用于提取 注册说话人 声纹信息
5、的语音。 GA/T XXXX XXXX 2 3.7 测试说话人 test speaker 系统测试过程中 , 测试语音对应的说话人 。 3.8 测试语音 test speech 系统测试过程中 ,说话人身份 未知 的 语音。 3.9 语种 language 注册或测试 语音所对应的 语言种类。 3.10 测试任务 trial 判断测试语音 中,是否存在 目标说话人的 任务 。 3.11 目标测试 任务 target trial 测试语音 中,存在 目标说话人的测试任务。 3.12 冒充 测试任务 imposter trial 测试语音中, 不 存在目标说话人的测试任务。 3.13 查全率 re
6、call ratio 系统判决的 ,经验证正确的 目标测试任务数,与对应答案文件中目标测试任务数的比例。 3.14 查准率 precision ratio 系统判决的,经验证正确的目标测试任务数,与系统判决的目标测试任务数的比例。 3.15 F1分数 F1 score 统计学中用来衡量二分类模型精确度的一种指标 。 F1 = 2查全率查准率 /(查全率查准率 ) 3.16 虚警率 false alarm probability 系统判决的,经验证 错误 的 冒充 测试任务数,与对应答案文件中 冒充测试任务数 的比例。 3.17 漏警率 missing probability 系统判决的,经验证
7、错误的 目标 测试任务数,与对应答案文件中 目标 测试任务数的比例。 GA/T XXXX XXXX 3 3.18 等 错误 率 equal error rate 通过调整判决门限,使得 虚警率和漏警率相等时 的值 。 3.19 最小检测代价函数 minimum detection cost function 根据虚警 率 权重和漏警 率 权重, 通过调整判决门限, 计算 最小 相关检测损失代价。 最小检测代价函数 = 虚警率权重虚警率 + 漏报率权重漏报率 3.20 注册实时率 real-time factor for enrollment 在测试用机上 , 系统完成注册任务所需要时间与注册语
8、音的总时长的比例。 3.21 测试实时率 real-time factor for test 在测试用机上 , 系统完成识别任务所需要时间与测试语音的总时长的比例 。 3.22 注册数据库 enrollment database 包含注册说话人及其语音的集合。 3.23 测试数据库 test database 包含测试语音的集合。 4 测试规范 4.1 注册说话人语音 4.1.1 注册说话人 语音规模不少于 100 000人。 4.1.2 语音格式: windows pcm wav格式,单声道 ,采样率 可为 8KHz48KHz,采样位数 16bit。 4.1.3 每个 注册语音文件包含 1条
9、注册语音。 4.1.3 每条 注册语音 仅对应一位说话人 。 4.1.4 每位注册说话人的有效语音累计时长不少于 20s。 4.2 测试 说话人语音 4.2.1 测试说话人 数量不少于 500人。 4.2.2 测试 说话人 语音 的语种、方言 与注册说话人语音的语种、方言等属性分为 大致相同或不同 。 4.2.3 每位测试 说话 人的语音文件数不超过 5个。 4.2.4 每个测试 语 音文件包含 1条 测试 语音。 4.2.5 每条测试语音有效时长不少于 8s。 4.2.6 测试语音 与注册语音文件格式相同 。 4.2.7 每条测试语音仅对应一位说话人 。 4.3 测试要求 GA/T XXXX
10、 XXXX 4 4.3.1 集中测试 时 , 各 测试方应采用相同配置的硬件设备。 4.3.2 被测系统每条语音的注册 用时 不超过 1s。 4.3.3 被测系统在 100 000条 测试语音库中 ,每条语音的检索 用时 不 超过 1s。 4.3.4 语种、方言等属性 大致相同 和 不同 的 , 作为 两个 测试任务 分别 进行测试 。 4.3.4 被测方不 应 对测试语音进行听辨 。 4.3.5 每个测试任务被测试方只 准 许提供一次检索结果。 4.4 测试指标 4.4.1 性能指标可采用 查全率、查准率、 F1分 数、虚警率、漏 警 率、等错误率、最小检测代价函数、 检测代价曲线等 表示 。 4.4.2 速度指标应采用注册实时率 和测试实时率 表示 。 4.4.3 其他指标 包括 系统运行时占用内存大小,声纹 模型的大小等 。 4.5 测试报告 测试方根据结果形成测试报告,报告内容应包含: a) 测试方 、 被测试方 、测试时间、测试内容 ; b) 4.4规定 的测试 结果 ; c) 注册数据库 和 测试数据库 的基本情况 , 注 册人个数、注册语音文件大小 、测试 语音 条 数 、 测 试语音文件大小 、数据 格式 、 信道、 语种 、 方言 、 时长 等信息 ; d) 硬 件 系统 配置 。 _