DB15 T 2021.1-2020 草原大数据 第1部分ː基础数据.pdf
《DB15 T 2021.1-2020 草原大数据 第1部分ː基础数据.pdf》由会员分享,可在线阅读,更多相关《DB15 T 2021.1-2020 草原大数据 第1部分ː基础数据.pdf(27页珍藏版)》请在麦多课文档分享上搜索。
1、ICS 35.240 CCS L70 DB15 内 蒙 古 自 治 区 地 方 标 准 DB15/T 2021.1 2020 草原大数据 第 1 部分 :基础数据 Grassland big data-Part 1:Basic data 2020-10-20 发布 2020-11-20 实施 内蒙古自治区市场监督管理局 发布 DB15/T 2021.1 2020 I 目 次 前言 . II 1 范围 . 1 2 规范性引用文件 . 1 3 术语和定义 . 1 4 总则 . 6 5 草原大数据标准体系基本框架 . 7 6 草原大数据元数据属性的描述方法 . 9 7 草原大数据标识类属性 . 9
2、8 草原大数据技术 . 14 9 数据质量评估流程与评价方法 . 18 10 草原大数据安全 . 19 11 平台及工具类标准 . 19 参考文献 . 22 DB15/T 2021.1 2020 II 前 言 本部分按照 GB/T 1.1-2020标准化工作导则 第 1部分:标准化文件的结构和起草规则的规定 起草。 DB15/T 2021草原大数据的结构分为 4个部分: 第 1部分:基础数据; 第 2部分:数据分类与编码; 第 3部分:数据元; 第 4部分:代码集。 本部分为 DB15/T 2021的第 1部分。 本 部分 由内蒙古 自治区农牧厅提出并归口。 本 部分 起草单位:内蒙古自治区农
3、牧业信息中心、内蒙古云利科技有限公司、内蒙古草原工作 站、内蒙古草原监督管理局、内蒙古草原勘察规划院、内蒙古饲料草种监督检验站、内蒙古农业大 学、鄂托克前旗数字林草信息中心。 本 部分 主要起草人:刘永志、马超、付学良、王晓峰、张巧燕、朝格敖其尔、王伊拉图、赵于 东、李雪东、朱玉成、李慧旻、李宏慧、董改芳、王云利、刘爱军、高文渊、常炳文、巩韶飞。 DB15/T 2021.1 2020 1 草原大数据 第 1 部分 :基础数据 1 范围 本 部分 规定了草原大数据的数据采集、处理技术、平台及工具和信息安全等技术及管理 要求。 本 部分 适用于内蒙古草原信息的共享、交换、评价与服务。 2 规范性引
4、用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用 文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单) 适用于本文件。 GB/T 19710-2005 地理信息 元数据 GB/T 20157 信息技术 软件维护 GB/T 20531-2006 移动数据库应用编程接口规范 GB/T 22080 信息技术 安全技术 信息安全管理体系 要求 GB/T 24450 社会经济目标分类与代码 GB/Z 28828 信息安全技术 公共及商用服务信息系统个人信息保护指南 GB/T 29262 信息技术 面向服务的体系结构( SOA)
5、术语 GB/T 29263 信息技术 面向服务的体系结构( SOA)应用的总体技术要求 GB/T 31495.1-2015 信息安全技术 信息安全保障指标体系及评价方法 第 1部分 概念和模型 GB/T 31495.2-2015 信息安全技术 信息安全保障指标体系及评价方法 第 2部分 指标体系范 围 GB/T 31495.3-2015 信息 安全技术 信息安全保障指标体系及评价方法 第 3部分 实施指南 GB/T 32908 非结构化数据访问接口规范 GB/T 34949 实时数据库 C语言接口规范 GB/T 34960.5 信息技术服务 治理 第 5部分:数据治理规范 GB/T 36073
6、 数据管理能力成熟度评估模型 GB/T 34978 信息安全技术 移动智能终端个人信息保护技术要求 GB/T 37721 信息技术 大数据分析系统功能要求 GB/T 37722 信息技术 大数据存储与处理系统功能要求标准 LY/T 2930-2017 林业数据采集规范 LY/T 2181 湿地信息分类与代码 LY/T 2182 荒漠化信息分类与编码 LY/T 1814 自然保护区生物多样性调查规范 LY/T 2179 野生动植物保护信息分类与编码 QX/T 102 气象资料分类与编码 DL/T 1456 电力系统数据库通用访问接口规范 DB15/T 2021.1 2020 2 3 术语和定义
7、GB/T 19710界定的以及下列术语和定义适用于本文件。为了便于使用,以下重复列出 GB/T 19710 中的一些术语和定义 。 3.1 大数据 big data 具有体量巨大、来源多样、生成极快、且多 变等特征并且难以用传统数据体系结构有效处理的 包含大量数据集的数据。 注: 国际上,大数据的 4个特征普遍不加修饰地直接用 volume、 variety、 velocity和 variability予以表述,并 分别赋予了它们在大数据语境下的定义。体量( volume)指构成大数据的数据集的规模; 多样性( variety) 指数据可能来自多个数据仓库、数据领域或多种数据类型;速度( ve
8、locity)指单位时间的数据流量; 多 变性( variability)指大数据其他特征,即体量、速度和多样性等特征都处于多变状态。 3.2 草原大 数据 grassland big data 通过大数据技术将草原相关的数据整合起来应用在草原管理相关的业务领域,赋能政府机构, 提升政务实施效能的数据。这些数据包含了政府开展工作产生、采集以及因服务需求而采集的外部 大数据,以及为政府自有和面向政府的大数据。 注: 从数据属性来看,草原大数据分为自然信息类、建设类、管理统计监察类和服务与民生消费类。自然信息 类包含地理、资源、气象、环境、水利等;建设类包含交通设施、旅游景点、住宅建设等 ; 管理
9、统计监察 类包含工商、税收、人口、机构、企业、商品等 ; 服务与民生消费类包含水、 电、燃气、通信、医疗、出 行等。 3.3 元数据 metadata 关于数据的数据。 来源: GB/T 19710-2005,定义 4.5 3.4 元数据元素 metadata element 元数据的基本单元。 来源: GB/T 19710-2005,定义 4.6 3.5 元数据实体 metadata entity 一组说明数据相同特性的元数据元素。 DB15/T 2021.1 2020 3 注: 可以包括一个或一个以上的元数据实体。 来源: GB/T 19710-2005, 定义 4.7 3.6 核心元数据
10、 core metadata 描述草原大数据最基本信息的元数据最小集 合。 3.7 数据源 data source 数据的来源是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接 的信息。 草原大数据的数据源必需可靠且具备更新能力,常用的数据源有: a) 观测数据:现场获取的实测数据,它们包括野外实地勘测量算数据、台站的观测记录数据、 遥测数据等; b) 分析测定数据:利用物理和化学方法分析测定的数据; c) 图形数据:各种地形图和专题地图等; d) 统计调查数据:各 种类型 的统计报表、社会调查数据等; e) 遥感数据:由地面、航空或航天遥感获得的数据。 3.8 结构化数
11、据 structured data 可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正 确标记过的数据中的某一个字段,并且可以被精确地定位。 3.9 半结构化数据 semi-structured data 半结构化数据不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以 保证数据的层次结构 。 3.10 非结构化数据 un-structured data 非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。 3.11 复杂结构的数据 complex structured data 由两个 或多个相互关联部分组成的数据,这类数
12、据不能简单地由结构化查询语言 (SQL)或工具解 析。 DB15/T 2021.1 2020 4 3.12 云计算 cloud computing 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端)。 3.13 聚类分析 clustering analysis 将相似的对象聚合在一起,每类相似的对象组合成一个聚类 (或簇 )的过程。这种分析方法的目 的在于分析数据间的差异和相似性。 3.14 数据聚合工具 data aggregation tools 将分散于众多数据源的数据转化成一个全新数据源的过程。 3.15 数据虚拟化 data virtualization 数据整合的过程,以
13、此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库、应 用程序、文件系统、网页技术、大数据技术等等。 3.16 去身份识别 de-identification 也称为匿名化 (anonymization),确保个人信息不会通过数据被识别。 3.17 文件存贮数据库 document store databases 也称为文档数据库 (document-oriented database), 为存储、管理、恢复文档数据而专门设计 的数据库,这类文档数据也称为半结构化数据。 3.18 数据 抽取、转换及装载 Extract, Transform and Load, ETL 是一种用于数据
14、库或者数据仓库的处理过程。即从各种不同的数据源提取 (E)数据,并转换 (T) 成能满足业务需要的数据,最后将其加载 (L)到数据库。 3.19 Hadoop 数据库 (HBase) 一个开源的、非关系型、分布式数据库,与 Hadoop框架共同使用。 DB15/T 2021.1 2020 5 3.20 Hadoop 分布式文件系统 Hadoop distributed file system 是一个被设计成适合运行在通用硬件 (commodity hardware)上的分布式文件系 统。 3.21 内存数据库 in-memory database 一种数据库管理系统,与普通数据库管理系统不同之
15、处在于,它用主存来存储数据,而非硬盘。 其特点在于能高速地进行数据的处理和存取。 3.22 物联网 Internet of Things 在普通的设备中装上传感器,使这些设备能够在任何时间任何地点与网络相连。 3.23 法律上的数据一致性 juridical data compliance 存储在云上的数据要符合当地的法律。例如,当用云存储数据涉及到的有关数据开放共享原则、 个人隐私信息等在不同国家有不同的法律定义, 该数据应该符合当地数据存放的法律。 3.24 M2M 数据 machine to machine data 两台或多台机器间交流与传输的内容。 3.25 机器数据 machine
16、 data 由传感器或算法在机器上产生的数据。 3.26 机器学习 machine learning 机器学习是人工智能的一部分,指的是机器能够从它们所完成的任务中进行自我学习,通过长 期的累积实现自我改进。 3.27 多维数据库 multi-dimensional database 用于优化数据联机分析处理 (OLAP)程序,优化数据仓库的一种数据库。 3.28 多值数据 库 multiValue database 一种特殊的多维数据库:能处理 3个维度的数据。主要针对非常长的字符串,能够完美地处理 HTML DB15/T 2021.1 2020 6 和 XML中的字串。 3.29 NoSQ
17、L 数据库 NoSQL database 不使用 SQL的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库 有更强的一致性,能处理超大规模和高并发的数据。 3.30 再识别 re-identification 将多个数据集合并在一起,从匿名化的数据中识别出个人信息 。 3.31 无线射频识别 radio Frequency Identification 自动识别技术的一种,通过无线射频方式进行非接触双向数据通信,利用无线射频方式对记录 媒体(电子标签或射频卡)进行读写,从而达到识别目标和数据交换的目的。 这种识别技术使用一 种无线非接触式射频电磁场传感器来传输数据。 射
18、频识别技术依据其标签的供电方式可分为三类, 即无源 RFID,有源 RFID,与半有源 RFID。 3.32 实时数据 real-time data 在几毫秒内被创建、处理、存储、分析并显示的数据。 3.33 主数据 master data 满足跨部门业务协同需要的、反映业务实体状态属性的主体对象核心信息。 3.34 主数据管理 master data management 一整套用于生成和维护主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。 3.35 交换 switching 部门间通过信息资源交换体系技术支撑环境实现草原大数据信息资源在线传送的过程。 3.36 交换节点 S
19、witching node 在跨政务部门业务系统中,实现信息资源传送和处理的系统单元。 示例: 前置机。 DB15/T 2021.1 2020 7 4 总则 4.1 数据类型格式 4.1.1 本标准中数据元值的类型长度的表示格式 : a) a =字母字符; b) n =数字字符; c) an=字母数字字符; d) m( m为自然数) =定长 m个字符(字符集默认为 GB /T 2312); e) .ul =长度不确定的文本; .p,q( p,q均为自然数) =最长 p个数字字符,小数点后 q位; f) YYYYMMDDhhmmss =“ YYYY”表示年份,“ MM”表示月份,“ DD”表示日
20、期,“ hh”表示小 时,“ mm” 表示分钟,“ ss”表示秒,可以根据具体情况组合使用。 4.1.2 本标准中的其它数据类型 : a) n.7(aaannnn) 表示最长 7 个字符,前 3 个字符为字母字符,后 4 个字符为数字字 符; b) .15,3 表示最长 15个 数字字符,小数点后 3位; c) n2.6 表示最大长度为 6,最小长度为 2的不定长的字母数字字符。 4.2 内部标识符编码规则 草原大数据内部标识符编码规则采用四段式编码规则,编码结构见图 1 所示: a) 第一段: 1 2 位,数据元英文名称 Data Element 的缩写,用大写字母“ DE”表示; b) 第
21、二段: 3 4 位,数据元的大类编码,用两位阿拉伯数字表示,数据元大类及编码“大类”、 “大类编码”; c) 第三段: 5 6 位,数据元的小类编码,用两位阿拉伯数字表示,数据元大类及编码“小类”、 “小类编码”;第二段 与第三段间用“ .”分隔; d) 第四段: 7 9 位,数据元的顺序码,用三位阿拉伯数字表示,第三段与第四段间用“ .”分 隔。 D E X X . X X . X X X 第 四 段 : 7 - 9 位 , 数 据 元 顺 序 码 第 三 段 : 5 - 6 位 , 数 据 元 小 类 编 码 第 二 段 : 3 - 4 位 , 数 据 元 大 类 编 码 第 一 段 :
22、1 - 2 位 , 数 据 元 英 文 名 称 图 1 内部标示符编码结构图 5 草原大数据标准体系基本框架 DB15/T 2021.1 2020 8 5.1 体系基本框架 包含草原大数据基础、草原大数据技术、草原大数据安全、草原大数据平台及工具以及草原大 数据管理等 5个模块,见图 2 所示。 图 2 草原大数据标准体系基本框架 5.2 草原大数据基础数据 基础标准为整个标准体系提供包括总则、参考架构、草原大数据元数据等通用的基础性标准 。 5.3 草原大数据技术 包括:数据质量标准、数据处理与 分析关键技术标准、数据质量评估与监测技术标准等。其中 数据质量标准分类参考 ISO8000系列标
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB15 2021.1-2020 草原大数据 第1部分基础数据 2021.1 2020 草原 数据 部分 基础
