信息检索原理.ppt
《信息检索原理.ppt》由会员分享,可在线阅读,更多相关《信息检索原理.ppt(71页珍藏版)》请在麦多课文档分享上搜索。
1、第三章 信息检索原理及检索步骤,本章要点: 文献信息检索基本概念 文献信息一般检索步骤 检索概念的分析、提取和扩展 检索策略的构成,1. 信息检索基本概念,信息检索的定义 文献信息的内外部特征 文献信息检索的一般原理 文献信息检索的类型 检索效果评价,1.1信息检索定义,狭义:从任何信息集合中查找所需信息的活动、过程和方法。 广义:信息的检索包括信息存储。合并称为信息存储与检索.,信息检索(information retrieval),信息检索广义上是指将杂乱无序的信息按一定的方式组织和存储起来,并根据信息用户的需求找出相关信息的过程和技术,全称是”信息存储与检索”(Information S
2、torage and Retrieval).,狭义的信息检索指的是后一过程.,1.2 检索语言(Retrieval Language)是用来描述信息源特征和进行检索的人工语言。,作用:它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成信息标识;在检索过程中,用它来描述检索提问,从而形成检索标识;当检索标识与信息标识完全匹配或部分匹配时,结果即为命中文献。,检索语言的类型:按照表达文献的特征划分,文献信息的内外部特征,内容特征 表达文献信息主题内容的检索标识 内容特征 文献模糊对应 外表特征 与文献主题内容没有关系或关系不大的信息 外表特征 文献
3、一一对应,1.3 文献信息检索一般原理,存储选择和收集文献提取文献信息的内外部特征标引,整理,形成检索系统(工具) 检索分析信息需求确定检索课题构建检索提问式从检索系统中查获所需信息,文 献 源,文献 选择 收集,文献 特征,标识语言,检索系统,数据库,检索 提问式,匹配,检 索 结 果,用 户,信 息 需 求,检索 课题,分 析,标 引,反 馈,1.4文献信息检索的类型:按检索内容,文献检索 (相关性检索)检索结果为文献原文或线索全文检索 书目检索 数据检索 (确定性检索)检索结果为数值、数据 事实检索 (确定性检索)检索结果为事实、概念,,是以文献线索为检索内容的文献检索。即检索系统中存贮
4、的是书目、索引、文摘等二次文献,检索结果获得的是与检索课题有关的一系列文献线索。,书目检索(directory),,是以文献所含的全部信息作为检索内容的文献检索。即检索系统存贮的是整篇文章或整部图书的全部内容。,全文检索(full article),,又称数值检索,是以具有数量性质,并以数值形式表示的数据为检索内容的信息检索。即检索系统中存储的是大量的数据,包括物质的参数、电话号码、观测数据、统计数据等,也包括图表、化学分子式、物质的各种特性等非数字数据。,数据检索(data),,是以具体事项为检索内容的信息检索,要求从检索系统存储的各种原始信息资源中查出专门的事实材料。如,某一人物的查找,某
5、一事件的查找等,事实检索(fact),1.4 文献信息检索的类型:按检索手段,手工检索与检索工具直接“对话”,依靠检索者手翻、眼看、脑子判断而进行的检索。特点:方便灵活,判别直观,查准率高、检索效率低,漏检现象比较严重计算机检索利用计算机和一定通信设备查找文献信息的检索特点:速度快,效率高,查全率较高、成本高,回溯年份有限,查准率不尽如人意,1.4 按检索手段划分,手工检索与计算机检索的比较,1.5 检索效果的评价,检索效果(Retrieval Effectiveness)是指检索系统检索的有效程度,它反映了检索系统的能力。包括技术效果和经济效果。,克兰弗登(Cranfield)评价系统性能的
6、指标: 收录范围 查全率 查准率 响应时间 用户负担 输出形式,查全率是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。可用下式表示:,查准率它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。可用下式表示:,查全率和查准率在一定程度上成反比关系。应根据具体课题的要求,合理调节查全率和查准率,保证检索效果。,A,C,D,B,90,90,50,40,20,60,40,70,P,R,查全率(R)和查准率(P)关系曲线图,理论上,C和D之间即检索的最佳效果,2 信息检索系统,印刷型信息检索系统:目录、题录、文摘、索引 计算机
7、信息检索系统:文献信息数据的处理和维护子系统词表和标引子系统检索子系统,3. 文献信息的一般检索步骤,分析研究课题,明确检索要求 选择检索工具或检索系统 确定检索途径 实施检索,记录和阅读文献线索 索取原始文献,3.1 研究课题的分析,分清课题性质前沿探索性 调查研究性 面象应用性 课题背景知识的获取利用网络搜索引擎查阅图书馆相关馆藏,专著、工具书询问专业人员 概念(检索词)提取主要检索词、辅助检索词、禁用词例如:关于中国唐诗的韵律研究Study on the market management in China,3.1 课题分析,明确文献检索的目的;明确课题要解决的实质问题;明确有哪些主题概
8、念;各主题概念之间的关系;明确课题涉及的学科范围;明确课题所需文献信息的语种、时间范围等具体要求。,4 检索工具(系统)选择原则,根椐检索目的 根据信息需求的内容、专业范围 根据数据库记录的文献来源,4.选择检索系统,选择检索工具时要考虑:专业性,即选择与学科专业相关的工具,特别注意跨学科领域内容。权威性,尽量选择该学科的权威性检索工具。了解检索工具收录的范围,包括时间跨度、地理范围、文献语种、类型、揭示深度等。了解检索工具的检索方法和系统功能,中文检索系统可考虑CNKI、万方、维普数据库,外文数据库可考虑使用Science Direct、Springer、John Wiley、WOS等。,5
9、. 确定检索途径,开始查找信息的入口点 题名途径 著者途径 序号途径 主题(分类)途径,选择合适的检索途径:题名途径(Title)责任者途径(Author)机构途径(Affiliation)序号途径(Code)分类途径(Classification)主题途径关键词途径其它途径,文献检索及检索式的调整,根据课题的已知条件和课题范围和检索效率要求,选择合适的检索途径。题名/关键词/摘要/主题/全文,主题途径,分类检索语言(分类法、分类表)分类表,依据学科之间的逻辑归属关系,采用树型层次结构,列举出人类全部知识类别,并对每一知识分别标以相对固定的类号代码形成的一种类表。通常是一种从总到分、从一般到具
10、体,层层划分、逐级展开并具有某种符号代码体系的知识体系表。特点:常落后于当前研究现状,分类表相对呆板的学科关系使得确定前沿概念、跨学科概念或非常具体的概念分类困难。 主题检索语言关键词自然语言性质的主题语言,自由词,指从标题、文摘或正文中抽出的能表达文献主题内容的实意词。自然性,随意性。主题词(叙词)以正式、规范的词或词组形式固定各种事物概念。从自然语言中优选出并经规范化处理的名词术语。,分类法就是按照文献信息的内容,根据学科之间的逻辑归属关系,将各种概念按学科性质进行分类和系统排列的语言,反映事物的从属、派生关系,从总体到局部层层划分展开,构成一个完整的分类类目表。因此,分类法通常是指一种从
11、总到分,从一般到具体、层层划分、逐级展开并配以某种符号代码体系的知识体系表,是一种等级体系。具体体现为用分类号和类名来表达信息的主题概念。,5.1 分类检索语言(1),分类语言检索的优点:可以检索到某学科或专业的所有文献,具有较高的查全率。分类语言检索的缺点:分类语言落后于现状,分类表学科关系呆板使得跨学科概念等都比较困难。需要注意的是:不同的分类法的设类原则和分类代码的形式是不同的。中国图书馆图书分类法美国国会图书馆分类法杜威十进位分类法 IPC国际专利分类法,5.1 分类检索语言(2),中图法分 5个基本部类,将知识门类分为“哲学”、“社会科学”、“自然科学”三大部类。马克思主义、列宁主义
12、、毛泽东思想是指导我们思想的理论基础,作为一个基本部类,列于首位。此外,考虑到图书本身的特点,对于一些内容庞杂,类无专属,无法按某一学科内容性质分类的图书,概括为“综合性图书”,作为一个基本部类,置于最后。在此基础上扩展为 22个大类。标记符号采用汉语拼音字母与阿拉伯数字相结合的混合号码制。,中图分类法(1),在中图法以及任何类似的分类表中,被区分的类称为上位类, 被区分的类称为上位类,区分出来的就是下位类,上下位类之间的关系反映了概念外延的包含与从属关系。处于同一上位类下的同一层次的下位类称为同位类。处于同位类关系的类目在概念上是排斥的。为了,反映学科之间的属分关系,分类表的类号每增加一位字
13、母和数字就代表增加一级分类在理解类目代表的含义时,下位类所包含的类目含义应该和它的上位类号所包含的含义结合起来。,中图分类法(2),D9 法律90 法的理论(法学)91 法学各部门92 中国法律920.0 理论 (类名含义:中国法律理论)921 国家法、宪法923 民法.,涉及二个或二个以上概念的课题属于多概念课题,对多概念课题缺点分类关系时,应注意以下几点: .并列概念课题:对于涉及同一研究对象的几个方面或者涉及几个并列研究对象的课题,凡是有主次关系的,应取其重点或主要研究对象归类。设计统一研究对象几个方面的都需要检索时,应在所涉及的几个类目中同时查找。比如:“新闻宣传研究”,如果侧重于“新
14、闻”就取“G212 新闻财富和报道”,如果侧重宣传,则取“G223 广播电视宣传和群众工作”。如果设计二个方面时,“新闻”和“宣传”都要查找。,中图分类法 (3),涉及二个或二个以上概念的课题属于多概念课题,对多概念课题缺点分类关系时,应注意以下几点: .应用性课题:研究一种理论、方法等在某方面应用或对某方面的影响的课题,应在所应用或受影响的类目查找。例如:“计算机在人口预测方面的应用”就归入“人口预测” .上位类分类法:这种归类法是一种特殊的分类方法。它是指欲查课题在分类表中无符合要求的专指类目时,可以归入它的紧邻上位类。,中图分类法 (4),主题语言:自然语言和人工语言,自然语言:自然表达
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 原理 PPT
