第6章现代数据挖掘技术与发展.ppt
《第6章现代数据挖掘技术与发展.ppt》由会员分享,可在线阅读,更多相关《第6章现代数据挖掘技术与发展.ppt(41页珍藏版)》请在麦多课文档分享上搜索。
1、第6章现代数据挖掘技术与发展,本章学习目标: (1) 通过知识挖掘系统的体系结构的学习掌握知识发现的定义和知识发现系统的结构 。 (2) 通过现代挖掘技术及应用的学习掌握规则型、神经网络型、遗传算法型、粗糙集型和决策树型现代挖掘技术。 (3) 通过知识发现工具与应用的学习掌握知识挖掘工具的系统结构、运用中的问题和知识挖掘的价值。 (4) 经过数据挖掘技术的发展的学习了解文本挖掘、Web挖掘、可视化数据挖掘、空间数据挖掘和分布式数据挖掘。,现代数据挖掘技术与发展,6.1知识挖掘系统的体系结构 6.2现代挖掘技术及应用 6.3知识发现工具与应用 6.4数据挖掘技术的发展 练 习,6.1知识挖掘系统
2、的体系结构,6.1.1知识发现的定义 知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在应用价值。 知识发现可看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。 知识发现意味着在数据仓库或数据集市的几千兆、几万兆字节数据中寻找预先未知的商业模式与事实。 6.1.2 知识发现系统的结构 知识发现系统的结构由知识发现系统管理器、知识库、商业分析员、数据仓库的数据库接口、数据选择、知识发现引擎、知识发现评价
3、和知识发现描述等部分组成(图6.1)。,1.知识发现系统管理器 控制并管理整个知识发现过程 2.知识库和商业分析员 知识库包含了源于各方面的知识。商业分析员要按一种有效的方式指导关注信息的发现。 3.数据仓库的数据库接口 知识发现系统的数据库接口可以直接与数据仓库通信。 4.数据选择 确定从数据仓库中需要抽取的数据及数据结构 5.知识发现引擎 将知识库中的抽取算法提供给数据选择构件抽取的数据 6.发现评价 有助于商业分析员筛选模式,选出那些关注性的信息 7.发现描述 发现、评价并辅助商业分析员在知识库中保存关注性发现结果以备将来引用,并保持知识发现与管理人员的通信。,6.2现代挖掘技术及应用,
4、6.2.1 规则型现代挖掘技术及应用 1.关联规则的基本概念,buys(x,“computer”)=buys(x,“finacial_management_software”) age(“3040”)income(“4200050000”)=buys(x,“high_resolution_TV”) 布尔关联规则 量化关联规则 单维规则 多维关联 多层关联规则 单层关联规则 age(“3040”)=buys(x,“IBM computer”) (6.3) age(“3040”)=buys(x,“computer”) (6.4),2.关联规则的应用目标 置信度或正确率可以定义为:(6.5)覆盖率可
5、以定义为 “兴趣度”为目标的关联规则,3.关联规则的算法 Apriori算法 1找出所有支持度大于最小支持度的项集,这些项集称为频集,包含k个项的频集称为k-项集。 2使用第1步找到的频集产生所期望的规则。 Apriori算法的第1步采用了递归方法,算法表示为 L1=large 1-itemsets;/产生频繁1项集L1 for (k=2;Lk-1;k+) do /循环产生频繁2项集L2直到某个r使Lr为空 beginCk=apriori-gen(Lk-1);/产生k-项集的候选集for all transactions tD dobegin Ct=subset(Ck,t);/事务t中包含的候
6、选集 for all candidates cCt doc.count+;end Lk=cCk|c.countminsup end Answer=UkLk,第2步算法较为简单。如果只考虑规则的右边只有一项的情况,给定一个频集Y=I1,I2,I3,Ik,k2,IjI,那么只有包含集合 I1,I2,I3,Ik中的项的规则最多有k条。这种规则形如I1,I2,I3,Ii-1,Ii+1,IkIi,。这些规则置信度必须大于用户给定的最小置信度。,由L2产生C3 L3,4.关联规则的应用,前件和后件规则中的正确率和覆盖率 规划覆盖率和正确率的平衡,6.2.2 神经网络型现代挖掘技术,1.神经网络及其学习方法
7、神经网络的工作过程主要分两个阶段:学习阶段和工作阶段。 学习方式则有三种:有教师(监督)学习、无教师(监督)学习和强化学习。,6.2.2 神经网络型现代挖掘技术,2.基于神经网络的数据挖掘 (1)基于自组织神经网络的数据挖掘技术 一种无教师学习过程 、可以提取一组数据中的重要特征或某种内在知识 (2)模糊神经网络类型数据挖掘技术 模糊BP网络、模糊Kohonen聚类网络、模糊推理网络、模糊ART模型等 模糊BP网络中,样本的希望输出值改为样本相对各类的希望隶属度 输出表达方面实现了模糊化,而且将样本的隶属度引入了权系数的修正规则中,使权系数的修正规则也实现了模糊化。,6.2.2 神经网络型现代
8、挖掘技术,3.后向传播模型(BP,Back Propagation)及其算法 具体过程如下: 选定p个样本; 权值初始化(随机生成); 依次输入样本; 依次计算各层的输出; 求各层的反传误差; 按权值调整公式修正各权值和阀值; 按新权值计算各层的输出,直到误差小于事先设定阀值; 变换函数可以采用这样几种: 阶跃函数、S型函数、比例函数、符号函数、饱和函数 、双曲函数,6.2.2 神经网络型现代挖掘技术,4.神经网络的应用,6.2.3 遗传算法型现代挖掘技术,1.遗传算法的基本原理 达尔文的“适者生存”理论、继承的信息由基因携带 、多个基因组成了染色体 、基因座、等位基因 、基因型和表现型 染色
9、体对应的是一系列符号序列,通常用0、1的位串表示 进行生物的遗传进化。在这一过程中包括三种演化操作:在父代基因群中的双亲选择操作、两个父代双亲产生子代基因的交叉操作和在子代基因群体中的变异操作。 两种数据转换:从表现型到基因型的转换,另一种是从基因型到表现型的转换 遗传算法实质上是一种繁衍、检测和评价的迭代算法 最大优点是问题的最优解与初始条件无关,而且搜索最优解的能力极强,6.2.3 遗传算法型现代挖掘技术,2.遗传算法的处理过程 (1)编码并生成祖先群体 要用遗传算法解决问题,首先要定义有待解决的问题: F=f(a,b,c),FR ,(a,b,c) F=f(a,b,c)是属于实数域R的一个
10、实数,也是每一组解(ai,bi,ci)的适应度的度量,算法的目标是找一个(ao ,bo ,co),使F=f(ao ,bo ,co)取最大值。 (2)计算当前基因群体中所有个体的环境适合度 (3)用适应函数评价每一个体对环境的适应度 (4)选择适应度好的生物个体进行复制 (5)选择适应度好的生物个体进行复制交叉配对繁殖 (6)新生代的变异操作,6.2.3 遗传算法型现代挖掘技术,6.2.3 遗传算法型现代挖掘技术,3.遗传算法的应用用四个染色体来定义客户类型: 基因1:客户的年龄下限 基因2:客户的年龄上限 基因3:客户的收入水平 基因4:客户的人口状况(人口状况可以分成:少(1至2人)、一般(
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 数据 挖掘 技术 发展 PPT
