企业内部文档智能语义搜索方案.doc
《企业内部文档智能语义搜索方案.doc》由会员分享,可在线阅读,更多相关《企业内部文档智能语义搜索方案.doc(11页珍藏版)》请在麦多课文档分享上搜索。
1、 1 企业 内 部 文档 智能语义搜索方案 1. 背景和意义 近年来, 企业 文档 管理和检索方式 经历了 分门别类管理,数字信息化管理和全文搜索引擎三大阶段,使得企业利用 文档 信息的效率不断提高。但是随着信息化程度的不断提高,尤其是大数据数字浪潮的思维深入发展的背景下,目前信息化企业 文档 管理以及基于关键词的全文检索技术仍旧存在诸多的短板和问题,影响了企业自身知识利用价值的实际落地应用, 目前基于关键词检索的搜索技术存在信息丢失、返回信息太多、信息无关等局限性, 主要症结体现在如下方面: 1. 基于关键词的检索,对于绝大部分人来说存在一定的应用门槛,如何选取适当的关键词来找到需要的信息,
2、需要具备一定的搜索技巧和对业务问题的清晰认识。更多的时候,简单的关键词搜索返回的命中信息太多,还是需要人工阅读筛选真正有价值的内容。 2. 普通全文检索缺少真实世界的关联性 , 联想和类比是人类智慧过程的两种重要方法 。 在普通全文检索中 , 用户获得的还是碎片化的信息 , 最终依然需要进行大量的细致阅读和人工整理过程 , 从而 形成对 查询问题 的认识 。需要更智能的信息化方法 ,帮助人工建立关联分析体系,提高知识服务效能。 3. 在 海量的企业 文档 信息中,存在大量的隐性信息,这些隐性信息作为信息单元本身可能价值较低,也不好加以利用,或者虽然有价值,但是挖掘代价高,理解难度大。因此长期以
3、来,在企业 文档 管理中,得到大量应用的都是那些显性信息。如何利用好隐性信息,让企业的知识得到最大化的再利用,产生新的源源不断的价值,是大数据的核心体现。 面向企业 文档 管理现有信息化方案的不足和需求 , 本方案拟以自然语言理解与人工智能技术为基础 , 基于 SaCa DeepConig知识服务平台产品 实现 文档 管理中的智能语义搜索 , 对搜索结果进行更精确的知识挖掘 , 建立碎片信息间的分类体系与语义关联 , 发现利用隐性信息 。 为企业提供更加有效的知识管理服务系统 。 2 2. 企业文档 搜索方案功能特性 2.1 语义搜索 普通基于关键词匹配的全文搜索并不具备语义理解的功能。 比如
4、在全文搜索引擎中输入“计算机”为关键词,在返回结果中不会包含只有“电脑”这种表述的文档资料。在实际应用中,存在大量的同义词和近义词。通过 DeepCogni的语义扩展 算法可以 搜索 到被搜索词扩展之后的 相关 内容 。 例如 搜索“ java 读文件 ”时 ,通过语义扩展可以搜索 到“ java读取 文件 ” 、“ java读写 文件 ”“ java文件 读写操作” 等 内容。 图 1 相关词分析 基于语义的搜索引擎 使 搜索引擎的工作不再拘泥于用户输入的关键词 , 而是能够对这些关键词进行语义 计算 。通过在语义的层面上把文档中关键词和其映射的概念进行关联 ,对 文档 信息所蕴含的语义信息
5、进行充分挖掘 , 同时把用户的检索要求转换成相应的语义表示 。 借助语义搜索功能 , 企业人员在检索 文档 文件时 , 不再会精挑细选关键词组合 , 只需要准确表达自己的含义 , 相关的信息词汇 , 系统进行智能扩充 , 查询所有符合用户语义期待的命中结果 。 3 图 2 基于 内容的搜索 关键词扩展和智能提示 2.2 关联发现 通过 对 文档 资料进行语义标注 , 形成语义相似度 聚类特征、业务概念和业务事件三类对文档的语义标注,以语义标注为线索,可以组织 文档 间的多种关联关系。在用户检索查阅 文档 文件时,提供语义相关,概念相关和事件相关的 文档 检索相关列表,供用户比对查阅,帮助用户形
6、成网络化的综合分析环境,协助对隐性知识的发现和整理,有助于形成新的发现。 4 图 3 文件的复杂关联 如某业务员在查阅本部门之前的项目 文档 , 进行经验总结 , 检索系统通过事件关联 , 发现与项目事件互有影响的其他项目 文档 ; 通过概念关联 , 发现与本项目共享资源的其他技术文档 ; 通过语义相似性 分类标签,发现其他部门实施的类似项目。从而帮助业务员更加全面的获取了相关的经验知识,有助于从归档知识中产生新的价值。 2.3 智能推荐 文档 语义搜索引擎,通过用户搜索记录和业务资料的语义特征,计算用户行为画像,形成用户的兴趣图谱,将用户关心的分类、概念和事件关联的 文档 相关度提升,使得用
7、 户更容易获得自己感兴趣的 文档 检索内容。 用户使用 文档 智能搜索 的频次越多,历史越丰富,系统能够越好的理解用户的查询意图,熟悉用户的使用习惯。从而非用户提供更加准确的检索服务。 5 2.4 自然语言交互 图 4 自然语言交互取代高级搜索 用户 检索 文档 不仅仅可以通过关键词或分类进行检索 , 也可以通过普通的自然对话形式进行 文档 检索 , 语义引擎根据用户输入内容 , 通过语义计算 , 给出匹配度最高的知识答案 , 和 文档 资料搜索结果 。实现更高效的知识管理服务结果。自然语言查询使得检索和搜索更加人性化,信息查询变得更加方便、快速。 如 图 4用户查询 , 2017年上半年本部
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业内部 文档 智能 语义 搜索 方案 DOC
