1、 ICS 35.240.01 CCS L 77 34 安徽省地方标准 DB34/T 45552023 儿童智能指读技术规范 Specification for intelligent finger-pointing technical of children 2023-10-07 发布 2023-11-07 实施安徽省市场监督管理局 发 布DB34/T 45552023 I 前言 本文件按照 GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由安徽淘云科技股份有限公司提出。本文
2、件由安徽省经济和信息化厅归口。本文件起草单位:安徽淘云科技股份有限公司、科大讯飞股份有限公司、安徽工程大学计算机与信息学院、合肥巴灵瑞教育科技有限公司、合肥赑歌数据科技有限公司、安徽长三角数据感知与治理研究院、江苏理工学院、合肥师范学院、合肥智能语音创新发展有限公司。本文件主要起草人:朱翠玲、刘庆升、王晓斐、叶娟、方明、叶剑鸣、陶皖、陈慧珺、毛四方、吕雪、胡连峰、宋若淼、王忍宝、姜志文、孙艳、张泽之、武方芳。DB34/T 45552023 1 儿童智能指读技术规范 1 范围 本文件规定了儿童智能指读技术的术语和定义、技术路线和要求。本文件适用于儿童智能指读技术的应用。2 规范性引用文件 下列文
3、件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 34053.3 纸质印刷产品印制质量检验规范 第3部分:图书期刊 GB/T 34053.4 纸质印刷产品印制质量检验规范 第4部分:中小学教科书 GB/T 34053.5 纸质印刷产品印制质量检验规范 第5部分:报纸 GB/T 36480-2018 信息技术 紧缩嵌入式摄像头通用规范 3 术语和定义 下列术语和定义适用于本文件。智能指读技术 Intelligent finger-pointing 基于手指检测
4、、图像检索、图文识别、热区匹配等技术,通过TTS或其他信息映射技术,将读物内容输出为语音或文本的一种人机交互技术。指向词技术 Directional word technology 基于指尖检测模型对摄像头获取的图像进行处理,提取指尖位置信息,获取指尖处文字区域,经图文识别输出数据的一种人机交互技术。点读技术 Click reading technology 基于指尖检测模型对摄像头获取的图像进行处理,提取指尖位置信息,利用检索模型检索当前读物信息,结合指尖位置信息做热区匹配相关交互处理,输出数据的一种人机交互技术。4 技术路线 儿童智能指读技术路线见图1。DB34/T 45552023 2
5、图1 儿童智能指读技术路线 5 要求 图像采集 5.1.1 概述 采集设备上的摄像头对放置在设备拍摄工作范围内放置的读物进行拍摄采像。5.1.2 采集读物要求 读物具体要求见表1。表1 读物要求 序号 项目 指向词技术 点读技术 1 读物范围 适用于满足 GB/T 34053.3、GB/T 34053.4和GB/T 34053.5 中规定的质量要求的印刷材料 适用于 GB/T 34053.4 中规定的教材、教辅、绘本等印刷材料 2 字号要求 最大可以支持 2号字体 最小可以支持 6号字体 3 字体要求 适用字体中文包括但不限于宋体、楷体及隶书等,英文应包括但不限于Times New Roman
6、、Arial及Calibri等。4 读物位置 读物应置于设备的拍摄工作范围内 5.1.3 采集设备要求 5.1.3.1 摄像头几何失真要求 摄像头的几何失真应满足 GB/T 36480-2018 中 6.4.7 几何失真的要求。DB34/T 45552023 3 5.1.3.2 装配尺寸要求 摄像头与产品手板装配时,确保摄像头安装配合尺寸的一致性。5.1.3.3 图像质量要求 图像应满足色彩质量、清晰度和分辨率的要求,详细内容见表2。表2 色彩质量、清晰度和分辨率的要求 序号 项目 具体要求 1 色彩质量 RGB三通道数据能还原出所拍摄的拍摄对象真实色彩信息。2 清晰度 在 6号字,A3 纸中
7、字体轮廓清晰可见。3 分辨率 在 6号字,中文字符所占像素不少于 5050。5.1.4 手指要求 5.1.4.1 手势要求 单手指指向读物内容。5.1.4.2 手指位置 在指向词应用场景中,手指指着读物上的内容下方;在点读应用场景中,手指指着读物上的内容。5.1.4.3 指读精度 手指检测定位精度不超过 5号字一个字符的宽度。5.1.5 环境光要求 环境光亮度应满足以下要求:不应在拍摄对象的表面形成反光;环境光亮度不能太暗,导致拍摄图像不清晰。区域判定 5.2.1 概述 把摄像头拍摄的图像送入指尖检测模型进行图像处理,并在处理后的图像中提取用户手指指尖在读物上的位置信息,并根据位置信息判定是指
8、向词还是点读。5.2.2 图像处理 5.2.2.1 对采集图像的外围区域进行切除处理,去除无效边界区域,但不能去除含有读物的图像。5.2.2.2 对采集图像进行缩放处理,以提升检测效率和指尖定位精度。5.2.2.3 对采集图像进行转码处理,以满足手指检测模型的检测需要。5.2.3 提取位置信息 5.2.3.1 应包含对手指图像的稳定性检测判断,以保证手指指尖位置信息提取的准确性。5.2.3.2 通过指尖位置信息判断用户意图是使用指向词功能还是使用点读功能。DB34/T 45552023 4 5.2.3.3 指尖检测模型的训练数据应包含儿童应用的各种场景,场景包括但不限于不同年级学生、不同肤色手
9、指及不同指甲颜色等。5.2.3.4 指尖检测模型的总训练数据不少于 100 万条,并按照均等化的比例分配在各种场景中。识别和搜索 5.3.1 概述 5.3.1.1 根据位置信息判定是指向词功能,则执行识别应用功能。5.3.1.2 根据位置信息判定是点读功能,则实行搜索应用功能。5.3.2 识别 5.3.2.1 识别过程 根据指尖位置信息,裁剪指尖处文字区域图片,文字区域图片要覆盖指尖处的字或词;然后使用预训练好的识别模型对指尖处文字区域图片进行文字信息识别,获得可读文字信息。5.3.2.2 识别模型 识别模型的训练数据应含有不同背景信息、不同文字大小及不同字体类型等;且总数据不少于100万条,
10、并且按照均等化的比例进行分配。5.3.2.3 文字背景 文字所在读物的背景信息应多样化,包括彩色和非彩色背景等。5.3.3 搜索 5.3.3.1 搜索过程 利用检索模型通过采集图像检索当前的读物信息,然后结合指尖信息和读物信息做热区匹配,确定用户指读的区域在读物中的位置信息。5.3.3.2 搜索模型 模型训练应支持各种场景的书籍,包括纯文字书页(包括文字占比不到一半)、文字与图画混合书页以及全图画书页等;其模型训练的总数据不少于 100 万张,并且按照均等化的比例进行分配。输出数据 5.4.1 指向词技术输出的数据是对字或词的查询关联内容。5.4.2 点读技术输出的数据是对句子、段落、图形或其他感兴趣内容的查询关联内容。5.4.3 数据输出方式包括但不限于文字、图片、音频或视频等输出方式。