欢迎来到麦多课文档分享! | 帮助中心 海量文档,免费浏览,给你所需,享你所想!
麦多课文档分享
全部分类
  • 标准规范>
  • 教学课件>
  • 考试资料>
  • 办公文档>
  • 学术论文>
  • 行业资料>
  • 易语言源码>
  • ImageVerifierCode 换一换
    首页 麦多课文档分享 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    DA T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

    • 资源ID:1498152       资源大小:805.38KB        全文页数:10页
    • 资源格式: PDF        下载积分:5000积分
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    二维码
    微信扫一扫登录
    下载资源需要5000积分(如需开发票,请勿充值!)
    邮箱/手机:
    温馨提示:
    如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如需开发票,请勿充值!如填写123,账号就是123,密码也是123。
    支付方式: 支付宝扫码支付    微信扫码支付   
    验证码:   换一换

    加入VIP,交流精品资源
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    DA T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf

    1、ICS01.140.20 A14 中华人民共和国档案行业标准 DA/T772019 纸质档案数字复制件光学字符 识别(OCR)工作规范 Specificationforopticalcharacterrecognition(OCR)ofdigital copiesofpaper-basedrecords 2019-12-16发布2020-05-01实施 国家档案局发布1 DA/T772019 前 言 本标准按照G B / T 1 . 1 2 0 0 9给出的规则起草。 本标准由国家档案局提出并归口。 本标准起草单位:国家档案局馆室司、青岛市档案馆。 本标准主要起草人:刘芸、丁德胜、杨来青、邹杰

    2、。 2 DA/T772019 纸质档案数字复制件光学字符 识别(OCR)工作规范 1 范围 本标准规定了纸质档案数字复制件光学字符识别( O C R )工作的组织、实施和管理。 本标准适用于字迹清晰、文本规范的纸质档案数字复制件的光学字符识别( O C R )工作。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 D A / T 1 3 档号编制规则 D A / T 2 2 归档文件整理规则 D A / T 3 1 纸质档案数字化规范 3 术语和定义 下列术语和定

    3、义适用于本文件。 3.1 字符 character 供组织、控制或表示数据用的元素集合中的一个元素。 G B 1 8 0 3 0 2 0 0 5 ,定义4 . 1 3.2 字符集 characterset 多个字符的集合。 注:常见字符集有A S C I I字符集、 G B 2 3 1 2字符集、 B I G 5字符集、 G B 1 8 0 3 0字符集、 U n i c o d e字符集等。 3.3 光学字符识别 opticalcharacterrecognition;OCR 通过信息技术对图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程。 3.4 纸质档案数字复制件 digit

    4、alcopyofpaper-basedrecord 纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设 备识别的数字图像。 3.5 档案OCR成果 OCRoutcomeofrecord 记录通过O C R技术获取的纸质档案数字复制件文字内容的文件。 3 DA/T772019 3.6 识别准确率 recognitionaccuracy 通过O C R技术识别正确字符的比率。 注:识别准确率= (识别正确字符数/应识别字符总数) 1 0 0 % 3.7 识别速度 recognitionspeed 单位时间内通过O C R技术识别字符的数量。 4 总则 4.1 档

    5、案O C R应纳入数字档案馆(室)资源建设范畴,统筹规划、有序实施,逐步实现常态化。 4.2 档案O C R应科学开展,有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘。 4.3 档案O C R应基于档案数字化工作,档案O C R成果与纸质档案数字复制件之间应建立准确、可靠 的关联关系。 4.4 应当釆取有效的管理和技术手段,加强档案O C R的过程管理和质量控制,确保档案O C R过程规 范、成果可靠、数据安全。 4.5 涉密纸质档案数字复制件的O C R工作,应符合涉密档案相关的管理和技术要求。 5 工作组织 5.1 机构及人员 5.1.1 应建立档案O C R工作机构,配备相应

    6、素质和技术水平的工作人员,组织开展档案O C R工作的 统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。档案O C R可 与纸质档案数字化工作统筹配置工作机构和人员。 5.1.2 档案O C R工作实行服务外包的,应从企业性质、股东组成、安全保密、企业规模、注册资金情况 等方面严格审查档案O C R服务供方的相关资质;从规章制度的建立健全程度等方面考查服务供方的 管理能力,建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的 工作人员,应进行安全审查,按规定进行保密教育。 5.2 流程控制 5.2.1 档案O C R流程包括图像导入

    7、、图像预处理、比对识别、修改校正、成果整理输出五个业务环节。 应依据相关技术标准,对档案O C R全过程进行有效控制。 5.2.2 应加强对档案O C R工作全流程的质量管理和安全管理,建立完善的质量、安全问题发现、修正 机制,确保O C R成果质量和档案信息安全。 5.3 工作文件与元数据 5.3.1 应建立档案O C R工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收 报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知 书、项目合同、保密协议、操作规程、监管记录等,以加强对档案O C R工作的管理。 5.3.2 应参照相关标准,

    8、提出档案O C R工作流程中相关元数据设计、捕获、著录和管理的基本要求, 与对应的纸质档案数字复制件管理过程元数据实施融合管理,并纳入数字档案馆(室)应用系统数据库。 4 DA/T772019 6 方案制定 6.1 确定工作策略 6.1.1 O C R工作开展前,应当依据纸质档案数字复制件O C R项目的计划、合同、招投标书等有关项目 文件,对O C R工作的识别处理系统、网络系统、基础设施、保障能力等方面进行业务评价。 6.1.2 评价通过后,应根据以下因素,制定档案O C R的工作策略: 图像资源:符合导入标准的可识别的彩色( 2 4 b i t s ) 、灰度( 2 5 6阶)和黑白二值

    9、图像。一般应为 T I F F 、 B M P 、 J P G 、 P D F (图像) 、 O F D (图像)格式文件。 O C R引擎:对图像包含文字进行高速度和高准确率识别的O C R软件开发包。 O C R软件:装备O C R引擎的软件,可高速、准确输出识别成果,支持人工比对和校正。应根据 需要识别的目标,按照项目资源的成本风险平衡原则确定O C R的范围、质量、效率、技术等 要求。 基础设施:支持系统运行的场所、设施和设备,包括O C R设备及工作间、介质的场外存放场 所、备用的机房及辅助设施等。 专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的预期目标。包括

    10、硬件、系统软件和应用软件的问题分析和处理能力,网络系统安全运行管理能力,沟通协调能 力等。 运行维护管理能力:保障系统相关的设备和软件正常运行,提供长期、及时、全面的技术支持的 能力。包括运行环境管理、系统管理、安全管理和变更管理等。 灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建 及重续运行,通信、后勤、技术等相关保障机制建设。 6.2 制定技术方案 6.2.1 应当根据确定的档案O C R工作策略制定O C R各工作系统技术方案,包含O C R的数据管理系 统、 O C R识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件: 与档案管理系统相当

    11、的安全保护级别; 具有可扩展性; 对档案管理系统无明显可用性和性能影响。 6.2.2 为确保技术方案满足档案O C R工作策略的要求,应对技术方案进行确认和验证,并记录和保 存验证及确认的成果。按照确认的O C R软件技术方案进行开发,实现所要求的数据管理系统、 O C R识 别处理系统和网络系统。 6.2.3 应按照经过确认的技术方案,制定O C R软件各阶段的系统安装及测试计划,以及支持不同关 键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现: 对识别图像进行预处理; 数据识别及校验; 输出档案O C R成果; 数据安全管理。 7 档案OCR的实施 7

    12、.1 图像导入 7.1.1 档案O C R实施前,应先评估纸质档案数字复制件质量是否符合O C R的基本要求。评估内容 5 DA/T772019 一般应包括图像分辨率、偏斜度、清晰度、失真度、亮度、对比度、灰度等。 7.1.2 纸质档案数字复制件的图像分辨率应不低于2 0 0 d p i 。特殊情况下,如文字偏小、密集、清晰度 较差等,可以适当提高分辨率。文件命名应符合D A / T 1 3 、 D A / T 2 2 、 D A / T 3 1的规定。 7.1.3 对质量不能达到档案O C R工作基本要求的纸质档案数字复制件,应按照D A / T 3 1的要求重新 数字化后导入。 7.2 图

    13、像预处理 7.2.1 二值化 7.2.1.1 在识别处理前,应对彩色图像进行灰度化和二值化处理,对灰度图像进行二值化处理。应采 取局部自适应二值化等算法,并支持自动或手动调节。 7.2.1.2 应具备亮度和对比度值自动、手动调节功能。亮度和对比度值的设定以调整后的图像中文字 的笔画连贯清晰为准。 7.2.2 图像降噪 7.2.2.1 对图像中印刷体字符进行识别处理前,需要根据噪声的特征对待识别图像进行降噪处理,提 升识别处理的精确度。 7.2.2.2 降噪处理应去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,去除档案页面 原有的纸张褪变斑点、水渍、污点、装订孔等影响识别的地方。 7

    14、.2.3 倾斜校正 7.2.3.1 对图像进行识别前,应进行图像方向检测并进行自动水平或垂直倾斜校正。 7.2.3.2 应支持由用户指定图像倾斜的角度,采用相应的图像旋转算法进行手工倾斜校正。 7.2.4 图像监测 图像质量控制程序应自动检测图像处理质量。对无法达到质量要求的图像进行标注。 7.3 比对识别 7.3.1 版式分析 7.3.1.1 比对识别前应对图像中的字符块结构进行版式分析,把图像中相似的版块信息划分到一起。 如横排文本、竖排文本、表格、图形等。 7.3.1.2 版式分析可采取多种分析方法,自动检测各版块类型,对图像内部区域进行逻辑归类,记录各 版块的位置,存储版面信息。 7.

    15、3.2 档案特征分析 7.3.2.1 归档章分析。建立归档章式样库,自动识别图像中的归档章,并根据归档章样式,识别出字段 位置,如全宗号、年度、机构、保管期限、件号、页数等。 7.3.2.2 公文要素分析。建立公文格式库,可准确识别公文的版头、主体、版记三部分,识别公章、签章 等区域,比照公文样式,识别密级和保密期限、紧急程度、发文字号、签发人、标题、主送机关、正文、附件 说明、发文机关署名、成文日期、附注、附件、抄送机关等公文要素。公文要素O C R识别要求见附录A 。 7.3.2.3 表格分析。建立单独表格处理模块,建立专用表格模板定义工具,自定义文件处理单、发文稿 纸、备考表等表格模板,

    16、识别表格中的字段位置。 7.3.2.4 印章分析。识别印章图像位置,存储印章图像,建立印章名称与印章图像的关系库,用于版式 6 DA/T772019 恢复。 7.3.3 识别和匹配 7.3.3.1 识别时应抽取字体、字号、粗体、斜体、首行缩进等字符特征,通过相似度计算方法,与特征数 据库比对,识别为计算机文字内码。 7.3.3.2 特征数据库应存储多种印刷体字符、常用签名和批注手写体字符,具备可更新和可扩充性。 对使用频率高的汉字、英文、数字以及常用的符号、常用签名和批注手写体字符应建立高频库。应将无 法识别的手写体筛选出来,通过人工识别,并将识别成果存入字符库。 7.3.3.3 应通过将比对

    17、后的识别文字根据上下文在可能的相似候选字群中找出最合乎逻辑的字词对 识别文字进行除错或更正,以提高O C R识别准确率。 7.4 修改校正 7.4.1 应对识别的文本进行自动语义识别和校正,通过词汇库和语义库对识别后文本中的字符、词汇、 语句自动进行逐层分析更正。词汇库和语义库应具备更新和自动学习功能。 7.4.2 应对候选字、拒认字和可能有问题的字词、语句进行标记。 7.4.3 应支持以人工方式对O C R成果进行图像与识别文字对照、修正等校正的功能,以满足更高识 别准确率的特殊要求。 7.5 成果整理输出 7.5.1 成果整理 7.5.1.1 支持按照纸质档案数字复制件的版式对O C R成

    18、果的段落和表格进行版面理解与重建。重 建后O C R成果的段落编排、表格样式应与纸质档案数字复制件图像一致。 7.5.1.2 应自动分析、提取党政机关公文的各公文要素,包括密级和保密期限、紧急程度、发文字号、签 发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、附注、附件、抄送机关等。档案O C R 成果中各公文要素位置应与纸质档案数字复制件图像一致。 7.5.1.3 应支持调用、编辑、备份、导出O C R成果,支持对文字、符号的搜索等功能。 7.5.2 成果输出 7.5.2.1 档案O C R成果应同时保存为纯文本形式和双层P D F / O F D文件形式。 7.5.2.2 应

    19、以纸质档案的件或页为单位输出、保存纯文本形式档案O C R成果。纯文本形式O C R成 果保存规则参见表1 : 表1 OCR成果保存规则 纸质档案数字复制件保存形式档案O C R成果保存形式用途 一件档案保存为一个文件 一个t x t文件 一件档案分组件(收发文处理单、 正文、定稿等)保存为多个文件 一个纸质档案数字复制件文件保 存一个t x t文件 便于纸质档案数字复制件和O C R 成果管理 一件档案按页保存为多个文件 一页保存一个t x t文件 便于全文检索后原件页面的准确 定位和呈现 7.5.2.3 应以档号为基础对纯文本形式档案O C R成果命名,命名方式的选择应确保档案O C R成

    20、果 7 DA/T772019 命名唯一性。一件档案保存为多个档案O C R成果文件时,应按档号结合O C R成果顺序流水号为档案 O C R成果命名。 示例1:档号为A 0 0 1 - 0 0 1 - 0 0 0 1 - 0 0 0 1的纸质档案数字复制件,对应的O C R成果文件名为A 0 0 1 0 0 1 0 0 0 1 0 0 0 1 . t x t 。 示例2:档号为A 0 0 1 - 0 0 1 - 0 0 0 1 - 0 0 0 2的纸质档案数字复制件包含收文处理单、文件正本两个文件,对应的O C R成果 文件名分别为A 0 0 1 0 0 1 0 0 0 1 0 0 0 2 _

    21、0 1 . t x t和A 0 0 1 0 0 1 0 0 0 1 0 0 0 2 _0 2 . t x t 。 7.5.2.4 应根据纸质档案数字复制件版式文件格式,自动形成支持全文检索的双层P D F或O F D文 件,方便全文检索后对文件的阅读。 7.5.2.5 应支持按照档案著录规则和电子档案元数据规范,自动保存档案O C R成果中的党政机关公 文要素。相关公文要素应保存到数字档案馆(室)应用系统数据库。 7.5.2.6 应支持档案O C R成果中文简繁体的自动转换功能。 7.5.3 成果验收 7.5.3.1 应采用计算机自动检验与人工检验相结合的方式对纸质档案O C R成果进行验收检

    22、验。 7.5.3.2 验收检验内容包括O C R成果、提取的党政机关公文要素、数据挂接情况、 O C R工作文件和存 储载体等。 7.5.3.3 能够采用计算机自动检验的项目应采用计算机自动检验的方式进行1 0 0 %检验,对于无法用 计算机自动检验的项目,可根据情况以件或卷为单位采用抽检的方式进行人工检验。抽检比率不得低 于5 % 。 8 档案OCR质量要求 8.1 识别准确率 8.1.1 档案O C R对档案中文、数字、英文印刷体的识别准确率在9 5 %以上。 8.1.2 档案O C R对常用签名识别准确率达到9 0 %以上,手写体识别准确率达到8 0 %以上。 8.2 强抗噪能力 8.2

    23、.1 档案O C R应当具备对噪点的强抵抗能力,识别过程中能够有效屏蔽较大程度的噪点干扰。 8.2.2 档案O C R应能准确判别纸质档案数字复制件上的污点、污线、黑边、纸张褪变斑点、水渍、污 点、装订孔等,提高识别准确率。 8.3 识别速度 8.3.1 识别速度指标与识别准确率指标应同时适用。 8.3.2 在主流计算机软硬件平台下, A 4纸幅面中文识别速度不低于1 0 0 0字/ s ,英文识别速度不低于 2 0 0 0字/ s 。 8.4 版面还原度 8.4.1 应实现复杂版面的精确还原,采用分栏技术,智能分析中文(简体、繁体) 、英文字体,文、表、图混 排文本,识别后无需人工干预,自动

    24、还原排版。 8.4.2 识别后的文档与原导入图像版面还原度应达到9 0 %以上。 8 DA/T772019 9 档案OCR成果的管理与应用 9.1 成果管理 9.1.1 应保持档案O C R成果各组成要素对应的纸质档案数字复制件、档案目录、元数据之间的逻辑 层次和关联关系。 9.1.2 以纯文本形式保存的档案O C R成果应使用档号作为文件名,可在存储载体中以档号为基础逐 级建立层次文件夹单独保存,也可与纸质档案数字复制件统一保存。 9.1.3 支持全文检索的双层P D F或O F D文件可与对应的纸质档案数字复制件统一存储。数字档案 馆(室)应用系统应记录并维护不同文件版本之间的联系。 9.

    25、1.4 档案O C R成果文件管理权限应与纸质档案数字复制件相同。 9.1.5 O C R成果应与纸质档案数字复制件同步开展数据备份工作。 9.2 成果应用 9.2.1 档案O C R成果应通过数字档案馆(室)应用系统实现全文检索,提高档案信息检索效率。 9.2.2 可发挥档案O C R成果提取的归档信息和党政机关公文要素的作用,辅助开展档案自动著录、 目录质量核查,以及纸质档案数字复制件挂接准确性核查等业务工作。 9.2.3 可利用档案O C R成果,结合数据挖掘技术开展数据分析、知识管理、词库建设等工作。 9 DA/T772019 附 录 A (规范性附录) 公文要素OCR识别要求 公文要

    26、素O C R识别要求见表A . 1 。 表A.1 公文要素OCR识别要求 公文要素是否识别识别要求 1 正本 1 . 1 份号否 1 . 2 密级和保密期限是正常识别,识别成果辅助档案著录 1 . 3 紧急程度是正常识别,识别成果辅助档案著录 1 . 4 发文机关标志否 1 . 5 发文字号是正常识别,识别成果辅助档案著录 1 . 6 签发人是正常识别 1 . 7 标题是正常识别,去除软回车,识别成果辅助档案著录 1 . 8 主送机关是正常识别,去除软回车 1 . 9 正文是正常识别,去除软回车,表格基本符合原貌,单元格内文字内容完整 1 . 1 0 附件说明是正常识别,去除软回车 1 . 1

    27、 1 发文机关署名是正常识别,自动拆分联合发文机关,识别成果辅助档案著录 1 . 1 2 成文日期是正常识别,识别成果辅助档案著录 1 . 1 3 印章否 1 . 1 4 签发人签名章否 1 . 1 5 附注是正常识别,去除软回车 1 . 1 6 附件是正常识别,去除软回车,表格基本符合原貌,单元格内文字内容完整 1 . 1 7 抄送机关是正常识别,去除软回车 1 . 1 8 印发机关和印发日期否 1 . 1 9 页码否 2 文件处理单/发文稿纸 2 . 1 起草人是正常识别,手写体自动学习提高识别效率,识别成果辅助档案元数据记录 2 . 2 签发人是正常识别,手写体自动学习提高识别效率,识别成果辅助档案元数据记录 2 . 3 起草时间是正常识别,识别成果辅助档案元数据记录 2 . 4 签发时间是正常识别,识别成果辅助档案元数据记录 2 . 5 阅办意见是正常识别,手写体自动学习提高识别效率,识别成果辅助档案元数据记录 2 . 6 批办意见是正常识别,手写体自动学习提高识别效率,识别成果辅助档案元数据记录 2 . 7 办理结果是正常识别,手写体自动学习提高识别效率,识别成果辅助档案元数据记录 01


    注意事项

    本文(DA T 77—2019 纸质档案数字复制件光学字符识别(OCR)工作规范.pdf)为本站会员(李朗)主动上传,麦多课文档分享仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文档分享(点击联系客服),我们立即给予删除!




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
    备案/许可证编号:苏ICP备17064731号-1 

    收起
    展开