第五章 信息组织.ppt
《第五章 信息组织.ppt》由会员分享,可在线阅读,更多相关《第五章 信息组织.ppt(80页珍藏版)》请在麦多课文档分享上搜索。
1、第五章 信息组织,一、教学目的,理解信息组织的基本原则与理论基础,掌握信息组织的基本内容,掌握著录、标引等基本概念,了解通用标记语言,掌握文献信息的分类组织法和主题组织法,掌握网络信息的主要组织方式。,二、教学内容,1信息组织的基本原理和理论基础 2信息的描述与揭示 3信息组织的技术和方法 4信息组织的发展方向知识组织,三、本章重点,1信息组织的内容 2信息组织的理论基础 3元数据 4分类组织法、主题组织法 5网络信息的组织方式,5.1信息组织的基本原理,5.1.1信息组织的概念与内容 信息组织,亦称信息整序,是利用一定的规则、方法和技术对信息的外部特征和内容特征进行揭示和描述,并按给定的参数
2、和序列公式排列,使信息从无序集合转换为有序集合的过程。,信息特征,信息的外部特征 信息的外部特征是指信息的物理载体直接反映的信息对象,构成信息的外在的、形式的特征, 信息载体的物理形态 题名、作者、出版或发表日期 流通或传播的标记等方面的特征;信息的内容特征 信息的内容特征就是信息包含的内容,它可以由关键词、主题词或者其他知识单元表达。信息组织的基本对象就是信息的外部特征和内容特征。,信息组织的基本内容,(1)信息选择 信息选择的目的就是从采集到的、处于无序状态的信息流中甄别出有用的信息,剔除无用的信息。(2)信息分析 按照一定的逻辑关系从语义、语用和语法上对选择过的信息内、外表特征进行细化、
3、挖掘、加工整理并归类的信息活动。,(3)信息描述与揭示 指根据信息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。 著录,主要描述文献信息的形式特征; 标引,主要揭示文献信息的内容特征。(4)信息存储 经过加工整理序化后的信息按照一定的格式与顺序存储在特定的载体,5.1.2 信息组织的类型与特征,1.按信息表现形式划分文字信息组织 图像信息组织 声音信息组织 视频信息组织,2.按信息加工的程度划分,一次信息组织 一般指公开出版的图书、期刊论文、研究报告、会议文献、学位论文、专利说明书、网上未经过再加工的电子化信息等二次信息组织 目录、题录、简介、文摘、索
4、引、书目数据库等。三次信息组织 综述、述评、学科年度总结、进度报告、文献指南、期刊书目、百科全书、年鉴等。,3.按信息传播载体对信息组织的划分,文献信息源 各种类型的文献,其特点是传播信息完整系统,便于积累,便于保管,便于利用。非文献信息源 通常指非记录性信息,这里特指在网络环境下没有以传统文献载体形式出现的信息源, 程序执行代码、单机或局域网或互联网上的网页, 超文本、超媒体、数字图书馆、虚拟图书馆等等。 这类信息源统称为网络信息源,将对这类信息的组织称为网络信息组织。,网络信息资源的特点 类型众多。 信息发布自由,信息来源广泛,内容庞杂,质量不一。 信息数量急剧上涨,信息资源分布极不均衡,
5、信息处理与利用能力相对下降。 网络信息资源具有多媒体和超级链接性以及交互性。 网络信息资源存在安全隐患。有知识产权保护问题,也有网络信息资源本身的安全问题。 网络信息的使用与提供信息站点的软硬件和服务有关。 ,4.信息组织的特性,信息组织的渗透性。 信息组织的渗透性指信息组织存在于各种信息揭示、存贮和检索活动之中。信息组织的依附性。 信息组织的依附性指信息组织无法独立存在,它要以信息的识别、揭示等活动为前提。信息组织的增效性。 信息组织的增效性是指信息组织可以增加信息传播、检索、利用的效率。,5.1.3信息组织的原则,1.客观性原则 客观性原则确定信息描述和揭示的数据来源必须是客观存在的信息本
6、身,信息组织过程中也不能改变信息本身。2.系统性原则 必须把握四个关系: 宏观信息组织和微观信息组织的关系。 信息组织部门与其他部门的关系。 信息组织工作各个环节之间的关系 。 不同信息处理方法之间的关系。,3.目的性原则必须围绕用户的信息需求开展工作,注意信息机构的目标市场的需求状态及其变化特征,满足成本收益对称的原则。 4.现代化原则信息组织现代化原则包括思想观念现代化和技术手段现代化两个方面。信息组织的思想观念现代化集中体现在信息组织的标准化上。,信息组织标准化,信息组织的标准化主要体现在信息组织工作的统一性、信息组织方法的规范性、信息组织系统的兼容性和信息组织成果的通用性方面。主要包括
7、: 基本术语标准; 有关信息技术标准; 信息组织技术标准; 其他相关标准。,5.1.4信息组织的理论基础,信息组织最基础的理论是语言学、逻辑学和知识分类。语言是人类最重要的交流符号系统,是信息的载体,包括语词、词汇和语法。逻辑学是关于思维规律的科学。进行信息组织工作必然用到形式逻辑的一些方法。知识分类是一门研究知识体系结构的学问。信息组织活动必须建立在人们对知识体系认识的基础之上。系统论、耗散结构理论、协同学理论和自组织理论等也被广泛地应用于信息组织。,5.2信息的描述与揭示,5.2.1元数据元数据(metadata)是关于数据的数据(data about data),关于信息的信息(info
8、rmation about information),或描述数据的数据(data that describes data)。 元数据的类型包括: 元素名称(Element names) 元素描述(Element description) 元素表示(Element representation) 元素代码(Element coding) 元素语义(Element semantics) 元素分类(Element classification)。,元数据的作用,识别 确认并对要进行组织的信息资源进行个别化描述,使用户能识别被组织的资源对象。 定位 提供信息资源位置的信息,以便用户访问时使用。 检索
9、传统检索系统一般需要确定检索点,组织相应的检索工具,提供各种基本的检索途径:在电子检索系统中,一般利用各种特征进行检索。 选择 通过记录信息资源的特征,供用户对信息资源的使用价值进行判断,决定是否使用该资源。,5.2.2信息著录与标引,1. 著录 著录的基本概念 著录是指在编制文献目录时,对文献内容和形式特征进行分析、选择和记录的过程著录的结果是款目,它是反映文献内容和形式特征的著录项目的组合。标目是从文献内容和形式的某一特征指引排检线索的著录项目。,著录的标准化文献著录标准化是指在国家或国际范围内,对文献著录的原则、内容、格式等作出具有一定约束力的规范。1971年,国际图书馆协会联合会(IF
10、LA)编目委员会,单行著作国际标准书目著录(ISBD (M) 。 1976年,国际标准书目著录总则(ISBD-(G) 1978年,AACR2。,我国的著录标准化,文献著录总则(GB37921-83)(1983,7月)普通图书著录规则连续出版物著录规则非书资料著录规则地图资料著录规则档案著录规则古籍著录规则检索期刊条目著录规则文后参考文献著录规则,2.标引 标引的基本概念信息标引(文献标引):分析文献的内容属性(特征)及相关外表属性,并用特定语言表达分析出的属性或特征,从而赋予文献检索标识的过程。标引语言是表达文献主题概念和检索需求主题概念的简明性、单义性和关联性的概念标识系统,是根据标引和检索
11、需要而编制的人工语言。 文献标引过程一般包括两个环节:主题分析转换标识,标引的类型,依据构成原理可将标引语言分为分类语言、主题语言、代码语言。分类语言可细分为体系分类语言、组配分类语言、体系组配分类语言。主题语言可进一步划分为标题语言、单元词语言、叙词语言、关键词语言。,依标识组合时间的分类,先组式语言 先组式语言是指标识在编表时(标引前)就已组合好,标引和检索时不必或较少进行组配的标引语言。后组式语言 后组式语言是指标识主要供组配使用,而且标引时不将标识组配在一起,到检索时才将标识组配起来的标引语言。散组式语言 散组式语言是指标识主要供组配使用,而且标引时就要将表达主题概念的若干个标识组配在
12、一起的标引语言。,标引的种类,标引的种类最主要的是分类标引和主题标引。分类标引是指对文献进行主题分析,用分类语言表达分析出的主题,赋予文献分类检索标识(分类号)的过程。 文献分类是指根据文献内容及其他相关属性,以分类语言(分类法)为工具,分门别类地系统揭示和组织文献的过程和方法。 主题标引是指对文献进行主题分析,用主题语言(主题法)表达分析出的主题,赋予文献主题检索标识(标题词、叙词等)的过程。,5.2.3网络信息资源描述的相关标准,文本编码倡议(Text Encoded Initiative,简称TEI)都柏林核心集(Dublin Core,简称DC)政府信息定位服务(Government
13、Information Locator Service,简称GILS)联合地理数据委员会的数字地球空间元数据(Content Standard Digital Geospatial Metadata,简称CSDGM)可视资源核心范畴(Core Categories for Visual Resources,简称CCVR)编码档案描述(Encoded Archival Description,简称EDA)博物馆信息的计算机交换(Computer Interchange of Museum Information,简称CIMI),其他标准,MARC(美国的USMARC、国际标准UNIMARC、中国
14、的CNMARC、日本的JMARC、英国的UKMARC、加拿大的CANMARC、东南亚的SEAMARC)都柏林核心数据(Dublin Core)VRA核心类目(VRA Core Category) 艺术作品著录类目(Categories for the Description of Works of Arts) CDWA REACH著录单元集合(REACH element set) PICS、Web Collections、CDF、MCF、RDF等。,MARC标准,MARC(MAchine Readable Catalogue)机器可读目录起源于美国国会图书馆于1965年1月提出的“标准机器可读
15、目录记录款式的建议”(即MARC)。1967年MARC格式问世。MARC格式的主要特点: 共包括001999个字段,其中999字段为用户自定义的字段; 字段内容著录详尽,字段下又设子字段以及重复字段; 字段作用强化,可检索的字段多; 每条MARC记录可分为头标区、目次区、数据区。,USMARC(美国国会图书馆机读目录通信格式),USMARC的前身为MARC 格式,它完全与ISO-2709规定一致,只在其字段标识和内容项目上不同。每条USNARC记录由头标区、目录区、数据区三部分组成。USMARC格式的主要字段有:目录控制区、主要款目(如个人作者、团体机关、会议或者集会、通用书名标目)、书名出版
16、项、稽核项、丛书项、附注项、主题附加款目、其他附加款目(如个人姓名附加款目)、丛书附加等。,USMARC的改进,“电子资源地址与存取”字段(856字段) 主要记录被著录的数字对象或与之相关的其他电子资源的存储地址和存取方式,为可重复字段,包含27个子字段。 增加部分“本馆用”字段以弥补不足。 题名字段(245字段)、电子资源地址与存取字段(856字段)为必备字段。 尽可能使用责任者字段(1)、主题字段(6)、注释字段(5)。 ,UNIMARC(国际机读目录通信格式),该标准是IFLA于1976年在USMARC基础上主持制订的。UNIMARC主要特点:UNIMARC将内容标识符标准化,克服以往各
17、国使用本国MARC系统中标识符的专指性。 编排字段不是按卡片目录的著录顺序,而是按字段的内在联系组织数据,并把相同性质的字段编排在一起,组成字段的功能块。重视书目文献库中相关文献之间的关系如平行关系、层次关系、从属关系。,CNMARC(中国机读目录格式),CNMARC是我国国家书目机构依据UNIMARC制订的中国机读目录格式(China MARC Format),作为中华人民共和国文化行业标准WHT050396推出,它与ISO2709的规定相一致,以UNIMARC为依据,并补充了中国出版物特有的字段定义。它增加了以下字段和子字段:091统一书刊号;092订购号;093专利号;094标准号;69
18、0中国图书馆分类法;692中国科学院图书分类法;905馆藏信息。 ,一条CNMARC记录的记录头标由24个字符构成地址目次区由三位数字表示的字段号、四位数字表示的字段长度和五位数字表示的字段起始字符位置构成。数据字段的长度可变,每个字段之间由字段分隔符隔开。数据字段的结构根据字段号的不同有不同的结构。,记录结构和地址目次区的结构,2. Dublin Core(都柏林核心集),都柏林核心集(Dublin Core Element Set,简称为Dublin Core) 是描述网络信息资源的一种简单元数据,是文献链接的客体,它包括15个数据单元。Dublin Core的主要优点有: 简单易懂:15
19、个标记元素通俗易懂。 运用灵活:它既可以用于规范的资源描述领域,也可以用于非专业领域。 国际通用:已有德语、日语、葡语、西语等10余种不同语种的版本。 可扩展性:不仅15个标记元素和子元素可扩展,Dublin Core还可以与其他元数据元素连接使用。,都柏林核心元数据探索项目及设置的限定词 (Dublin Core Metadata Initiative,简称DCMI),3. VRA核心类目格式,VRA (VRA Core Categories for Visual Resources)” 格式的著录类目可以分为两类: 视觉文献所记载的原始作品著录的类目 为三维作品 19个数据单元;记载某一种
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 信息 组织 PPT
