第三章 信息分布.ppt
《第三章 信息分布.ppt》由会员分享,可在线阅读,更多相关《第三章 信息分布.ppt(45页珍藏版)》请在麦多课文档分享上搜索。
1、第三章 信息分布,3.1 信息产生与分布中的马太效应,3.1.1马太效应的表现和作用形式核心趋势 高产作者群体的形成 期刊信息密度增大 高频词汇的确立集中取向 一篇论文多次被引 一个网站被众多用户点击,3.1.2 马太效应的负面影响,信息分布的富集现象 突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。 核心信息源 忽略分布在其他信息源中有价值的信息。 马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播。,3.1.3*马太效应的数学模拟,1普利亚(Polya)分布普利亚(Polya)分布亦称单缸模型,它基于下述实验:设某
2、一缸中装有若干红色球和黑色球,按一定的规则从缸中取球,取到红球表示成功,取到黑球表示失败。假定缸中现有a个红球、b个黑球,取出某个球后(例如红球),则将取出球与c个红球一起放回缸中,取到黑球亦同样处理。如果实验重复n次并且假定X表示取出红球的总次数,则X的分布可表示为:P(x)=P(X=x) =,(1)若c=0 P(x)=P(x)为带有参数n,a/(a+b)的二项分布 (2)若c=1P(x)=P(x)为带有参数n,a+b,a的超几何分布 (3)若a=b=cP(x)=P(x)为带有参数n,x的均匀分布,(4)若n ,a(a+b)-1 0以及c(a+b)-1 0,P(x)为负二项分布,n a(a+
3、b)-1 和nc(a+b)-1 分别趋向于非零值 和 P(X=x)=令 p,P(X=x)=,2.塔格(Tague)分布,塔格(Tague)分布又称多缸模型,是对单缸模型的补充和修正。实验程序如下: 设有一系列的缸,每个缸中装有a个红球和b个黑球; 如果一个红球被取出,则在该缸中另外加进c个红球; 如果黑球被取出,则不另外加进黑球; 依次从第一个缸开始取球,一直持续到取出k个球为止 接着再从第二个缸取球,重复的程序; 程序无限地延续。,在单缸模型中,x次成功的概率是在第k只黑球取出之前取出x个红球的概率。P(X=x)=式中,ai0, k-1令 = , = ,有P(x)=简化得,P(x)=,(1
4、)如果k=1;满足弗林分布,其平均数为 P(x)=(2)如果 1,弗林分布对应于瑞利分布或累积优势分布: P(X=x)=式中,B(, )为贝塔函数。 (3)在累积优势分布中,如果 =1 P(x)=,拉维昌德拉劳在1987年提出累积优势分布的替代形式: 设u和v为两个随机变量(u=1,2,3,0v1) P(u/v)=(1-v)u-1;P(v)=(+1)(1-v)P(v)= P(u/v)v P(v)= (+1)(u,+2)u=1,2,3,3.威布尔(Weibull)分布,日本的中川和大崎在1975年讨论了威布尔(Weibull)分布。由于在对失败的研究中,失败的次数常用失败的周期数来测量,所以一般
5、用连续分布作失败分析。而随机变量具有离散性,故又称为离散的威布尔分布。中川和大崎提出了如下描述失败的概率函数:P(x)=qx -q(x+1) x=0,1,2,3,0,00 平均数为,3.2 信息生产者分布规律,3.2.1洛特卡定律 1926年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物华盛顿科学院学报上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。,洛特卡选择美国化学文摘和德国奥尔巴赫物理学史一览表为数据源研究科技工作的论著数量分布。他统计分析了化学文摘19071916年10年累积索引中的部分作者
6、,即姓氏以字母A和B开头的6 891位作者。分别列出发表过1篇、2篇,一直到346篇论文的人数。物理学史一览表包括了1900年前物理学领域内出现的1 325位物理学家及其论著,取其全部数据进行统计。,洛特卡定律的图形描述,洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即logx和log yx)作图,两组数据都是直线(如图所示)。图中虚线表示化学文摘数据,实线代表物理学史一览表的数据。用最小二乘法计算拟合直线的斜率,近似为-2。,Log yx,Log x,10,5,3,2,1,5,1,25,30,100,20,洛特卡定律的数学描述,根据洛特卡分析,在论文数x和作者数yx之间存在下列
7、关系: xnyxc式中,yx 是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。 通过变换可以得到下面的公式:,令f(yx)= ,实际表示写x篇论文的作者出现的频率,C= ,表示作者取样总数的比例,这样可以写成:f(yx)两边积分得:1 ,于是,C0.6079,3.2.2普赖斯定律,在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写的。该定律可表示为: (3-6) 式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数。m可由下式确定: (3-7),如果规定发表了n篇
8、论文的作者人数为a(n) ,则发表nNn篇论文的作者人数为: A(n-n) =a(n)+a(n+1)+a(n)=a(n)名作者一共发表的论文为P(n)=na(n) 同理,发表了nNn篇论文的作者总共发表的论文数为: P(N) =P(n-n)=na(n)+(n+1)a(n+1)+na(n) ,若 1/2P(1nmax) = P(mnmax) = P(1m) ,则有:= (3-10)其中,a(n)= ,a(n)是频数。P(1n)= 调和级数和公式变为 P(1n)=c(lnn+0.577+n),化简得,M=0.749(nmax)1/2 式子表明,高产作者中一位最低产的作者发表的论文数量,等于最高产作
9、者所发表论文数的平方根的0.749倍。 另一方面,K= = =这个式子表明了高产作者人数同全体作者人数的比例关系。,3.3信息离散分布规律,3.3.1布拉德福定律英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradfords Law of Scattering),简称为布拉德福定律或布氏定律:“如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的核心部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后
10、继各区中所含的期刊数成1aa2的关系(a1)。”这就是布拉德福定律的区域表述形式。,应用地球物理学论文的布氏分布,布拉德福定律图形描述,如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。 布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线。B.C.布鲁克斯用下述模式来表示布拉德福定律:R(n)=n (1nC)(3-15)R(n)=klog (n/s) (CnN) (3-16),曲线上BD部分只是近似地满足(3-16)式。式中: R(n)相关论文累积数。 n杂志等级排列的序号(
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
2000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 信息 分布 PPT
