GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf
《GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf》由会员分享,可在线阅读,更多相关《GB T 17961-2010 印刷体汉字识别系统要求与测试方法.pdf(12页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.240.20 L 67 中华人民=:u工./、量2和国国家标准GB/T 17961-2010 代替GB/T17961- 2000 印刷体汉字识别系统要求与测试方法Requirements and test methods for printed Chinese character recognition system 2011-01-14发布苦i马防伪中华人民共和国国家质量监督检验检茂总局中国国家标准化管理委员会2011-05-01实施发布目U吕本标准代替GB/T17961-2000(印刷体汉字识别系统要求与测试方法。本标准与GB/T17961-2000的主要差别如下:一一增加了
2、识别字符集、字体范围及输出文档格式等功能要求;二-提高了识别正确率和识别速度的要求;一-细化了测试方法;增加了资料性附录B和资料性附录C。本标准的附录A是规范性附录,附录B和附录C是资料性附录。本标准由全国信息技术标准化技术委员会提出并归口。本标准主要起草单位:汉王科技股份有限公司、中国电子技术标准化研究所。本标准主要起草人:刘迎建、王欣、刘昌平、刘正珍、陈静、江世盛、李鑫梅。本标准所代替标准的历次版本发布情况为zGB/T 17961-2000。GB/T 17961-2010 I G/T 17961-2010 印刷体汉字识别系统要求与测试方法1 范围本标准规定了印刷体汉字识别系统的功能、技术要
3、求、测试方法等。本标准适用于运行在微型计算机的印刷体汉字识别系统。2 规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。GB 2312-1980 信息交换用汉字编码字符集基本集GB 18030-2005信息技术中文编码字符集3 术语和定义下列术语和定义适用于本标准。3. 1 印刷体汉字识别系统printed Chinese character recognition system
4、 运行于微型计算机中,可以将通过光学输入设备转换而成的具有汉字符号的印刷品的图像数据,转化为计算机系统中相应字符的软件系统。3.2 二值图像binary image 用黑白两个灰度级表示的图像。3.3 灰度图像gray scale image 用从黑色到白色之间亮度值表示的图像。3.4 彩色图像color image 表示色彩信息的图像。本标准指用红、绿、蓝三个基色分量表示的图像。3.5 光学输入设备optical input device 利用光电工作原理,把纸介质上的影像信息转换成像素数据输入到计算机中的设备。4 缩暗语BMP HTML JPEG PDF RTF TIFF 位图图片超文本置
5、标语言联合图像专家组格式便携式文档格式富文档格式已标记图像文件格式(Bitmap) (Hyper Text Makeup Language) Ooint Picture Experts Group) (Portable Document Format) (Rich Text Format) (Tagged Image File Format) 1 GB/T 17961-2010 TXT UOF 5 要求5. 1 系统功能要求5. 1. 1 图像输入文本格式(Text) 中文办公软件文档格式(Uniform Office-document Format) 应支持普通纸媒体文本经过光学输入设备采集
6、得到的二值图像、灰度图像和彩色图像的识别。支持打开BMP、TIFF,PEG和PDF格式图像文件的输入方式,并可由光学输入设备直接输人图像。5. 1. 2 版面分析应将版面自动分成块,并正确表明每个块的属性,对文字块还需表明块之间连接关系的逻辑序号。块的属性宜有横排文本、竖排文本、表格和图像4种。应可以人工调整修正版面块、逻辑序号及其属性。5. 1. 3 表格识别应能正确识别表格线,并可将表格和文字建立对应关系。5.1.4 文本识别应能将图像中所包括的印刷符号转换成可编辑的编码文本,并且提供若于识别候选字符。5.1.5 结果输出应能输出UOF、TXT、RTF、PDF和HTML格式。输出为UOF、
7、RTF、PDF和BTML时,能保留文档的版式信息,包括分栏、段落、字号、字体和表格结构信息。5.1.6 校对界面应支持编码文本和图像对应的校对方式。文本显示时,对于可信度较低的宇符,应以差异颜色显示。应能显示当前校对字符的候选字,以便于修改。5.2 性能要求5.2.1 字符集应至少支持GB18030-2005字符集中强制性部分的汉字及附录A中的常用非汉字符号的识别。5.2.2 字体应至少支持宋体、仿宋体、楷体和黑体等常用字体。5.2.3 识别正确率正式出版物及打印质量与其相当的打印文件,GB18030-2005双字节2区(GB2312)中的汉字识别率应不小于98%;其他字符识别率应不小于90%
8、。5.2.4 识别速度在识别系统推荐的应用环境下,识别速度应大于150字/s。6 测试方法6. 1 样本库的建立6. 1. 1 测试样本库测试样本库包含打印样本和实际样本。6. 1.2 打印样本打印样本是由打印样张扫描而成:选用包含5.2.1所述字符集所有字符,分别采用5.2.2中列出的字体,版面排列参考附录C,每页不少于1000个字符,利用激光打印机输出打印样张;通过扫描仪以300 dpi的分辨率以256级灰度扫描上述样张,储存为PEG格式文件,即形成打印样本。6.1.3 实际样本实际样本是由实际样张扫描而成:选用当年正式出版的书籍、报纸和杂志作为实际样张,文字部分为白底黑字,应尽量包含GB
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GB 17961 2010 印刷体 汉字 识别 系统 要求 测试 方法
