欢迎来到麦多课文档分享! | 帮助中心 海量文档,免费浏览,给你所需,享你所想!
麦多课文档分享
全部分类
  • 标准规范>
  • 教学课件>
  • 考试资料>
  • 办公文档>
  • 学术论文>
  • 行业资料>
  • 易语言源码>
  • ImageVerifierCode 换一换
    首页 麦多课文档分享 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    DB4401 T 12-2023 网络舆情分级与判定.pdf

    • 资源ID:1554470       资源大小:934.05KB        全文页数:19页
    • 资源格式: PDF        下载积分:5000积分
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    二维码
    微信扫一扫登录
    下载资源需要5000积分(如需开发票,请勿充值!)
    邮箱/手机:
    温馨提示:
    如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如需开发票,请勿充值!如填写123,账号就是123,密码也是123。
    支付方式: 支付宝扫码支付    微信扫码支付   
    验证码:   换一换

    加入VIP,交流精品资源
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    DB4401 T 12-2023 网络舆情分级与判定.pdf

    1、ICS35.240.01CCS M 114401广州市地方标准DB4401/T 122023代替 DB4401/T 122018网络舆情分级与判定Classification and judgment for network public opinion2023-05-3 1 发布2023-07-0 1 实施广州市市场监督管理局发 布DB4401/T 122023I目次前言.1 范围.12 规范性引用文件.13 术语和定义.14 总体原则.14.1 科学性原则.14.2 充分性原则.24.3 可度量原则.24.4 可预测原则.24.5 稳健性原则.25 网络舆情分级与判定的一般流程.26 网络

    2、舆情评价指标.37 指标量化.37.1 媒体传播评价(Em).37.2 舆论强度评价(Es).57.3 民意态度评价(Ea).77.4 舆情演变评价(Ed).88 综合评价.98.1 综合评价要求.98.2 自动化系统评价.98.3 专家辅助评价.109 等级划分与程度评估.109.1 等级划分.109.2 程度评估.11附录 A(资料性)词频-逆文档频率指数(TF-IDF)统计学方法.12附录 B(资料性)专家辅助评分表.13DB4401/T 122023前言本文件按照GB/T 1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件代替DB4401/T 12-2

    3、018网络舆情分级与判定。本文件与DB4401/T 12-2018相比,主要变化如下:更改了术语和定义(见第3章,2018年版第2章);增加了总体原则(见第4章);更改了网络舆情分级与判定的一般流程(见第5章,2018年版第3章);更改了网络舆情评价指标(见第6章,2018年版第4章);更改指标公式,增加分析方法和大数据数学模型算法(见第7章,2018年版第5章);更改了综合评价,增加专家评价系统定性分析模块(见第8章,2018年版第6章);更改了等级划分的表述(见9.1,2018年版的7.1);更改了程度评估的表述(见9.2,2018年版的7.2);更改了风险程度评估尺度表(见表1,2018

    4、年版的表2);更改了资料性附录中文档主题生成模型(见附录A);更改了资料性附录中基于层次分析法(AHP)的权重计算方法(见附录B)。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中共广州市委网络安全和信息化委员会办公室提出并归口。本文件起草单位:广州市网络舆情信息中心、广州市标准化研究院、广州市广播电视台、暨南大学计算传播研究中心、华南理工大学数据分析与信息可视化研究中心、云润大数据服务有限公司。本文件主要起草人:陆志强、陈小文、赵甜芳、支庭荣、吴小坤、陈伟能、申智平、肖娟、漆巍、徐湛、黄楚恒、王祥麟、高淡绚、李宜轩、曾庆贤、梁市、吴钰、林毅、李永康。本文件

    5、及其所代替文件的历次版本发布情况为:2018年首次发布为DB4401/T 12-2018,本次为第一次修订。DB4401/T 1220231网络舆情分级与判定1范围本文件规定了网络舆情分级与判定的一般流程、网络舆情评价指标、指标量化、综合评价、等级划分与程度评估等内容。本文件适用于广州市网络舆情的监测、评估、预警及相关软件开发等。2规范性引用文件本文件没有规范性引用文件。3术语和定义下列术语和定义适用于本文件。3.1媒体传播评价evaluation of communication media特定舆情事件中媒体的介入程度,以及范围和信息在媒体上的传播程度,包含但不仅限于以下四个指标:媒体集中度

    6、、媒体权威度、媒体稿件差异度、媒体地域范围。3.2舆论强度评价evaluation of public opinion strength特定舆情事件在时间和空间上的舆论强烈程度,包含但不仅限于以下四个指标:话题敏感程度、单位时间波动程度、平均持续时长、舆论强度专家评价。3.3民意态度评价evaluation of public attitude orientation特定舆情事件中的主体意愿表达强度和态度倾向,包含但不仅限于以下四个指标:活跃网民占比、网民互动质量、网民情感极性、民意态度专家评价。3.4舆情演变评价evaluation of public opinion development

    7、特定舆情事件的后续演化趋势,包含但不仅限于以下两个指标:舆情热度演化趋势、网民情感演化趋势。4总体原则4.1科学性原则所选指标具有良好的科学性和合理性,准确描述指标适用场景,合理运用科学计算方法,客观评价网络舆情影响要素,实现网络舆情的科学评价。DB4401DB4401/T 12202324.2充分性原则所选指标具有良好的完备性和简约性,综合考虑单项指标覆盖面及多项指标重叠度,建立简约且完整的指标集,刻画网络舆情整体画像。4.3可度量原则所选指标具有良好的可量化性和可操作性,量化网络舆情相关的不确定性因素,适配多样化的舆情监测环境,保证舆情评价的有效性和可行性。4.4可预测原则所选指标具有良好

    8、的推演和预测性,剖析网络舆情核心要素特征,预测网络舆情发展趋势,满足网络舆情的风险评估和预警需求,服务于相关职能部门的风险评估和决策响应。4.5稳健性原则所选指标具有良好的稳定性和鲁棒性,适应复杂多变的网络舆情传播过程,适应动态开放的网络舆情环境,反映网络舆情本质特征。5网络舆情分级与判定的一般流程网络舆情评价应遵循一定的工作流程,主要包括舆情监测、舆情评价、舆情研判三个环节,如图1所示。图 1网络舆情评价的一般流程DB4401/T 12202336网络舆情评价指标网络舆情评价指标包括媒体传播评价、舆论强度评价、民意态度评价、舆情演变评价4个二级指标。各二级指标又包含各自的子参数,即三级指标,

    9、构成了网络舆情评价指标。网络舆情评价指标的三级指标应包含但不限于图2所列的14个三级评价指标。网络舆情评价指标媒体传播评价(Em)舆论强度评价(Es)民意态度评价(Ea)舆情演变评价(Ed)媒体集中度(M1)媒体权威度(M2)媒体稿件差异度(M3)媒体地域关联度(M4)话题敏感程度(S1)单位时间波动程度(S2)平均持续时长(S3)舆论强度专家评价(S4)活跃网民占比(A1)网民互动质量(A2)网民情感极性(A3)民意态度专家评价(A4)舆情热度演化趋势(D1)网民情感演化趋势(D2)图 2网络舆情评价指标7指标量化7.1媒体传播评价(mE)7.1.1媒体集中度(1M)媒体集中度反映参与媒体的

    10、集中程度,采用赫尔芬达尔-赫希曼指数的公式进行计算,可按公式(1)计算。媒体集中度越高,意味着媒体的垄断力量越大、竞争程度越低、差异化程度越低、越容易形成舆论控制行为。DB4401DB4401/T 1220234211mNiicRMR(1)式中:1M 媒体集中度,数值范围在0,1区间内;mN 媒体总数;iR 第i家媒体发布的新闻报道数;cR 所有媒体发布的新闻报道总数。7.1.2媒体权威度(2M)媒体权威度反映了网络媒体的可信度和影响力,可按照公式(2)进行计算。媒体权威度越高,表明舆情事件的受重视程度越高。211mNiimMwN(2)式中:2M 媒体权威度,数值范围在0,1区间内;mN 媒体

    11、总数;iw 媒体权重,由舆情监测主体根据预定义的媒体分类表,经过归一化处理后赋值,数值范围在0,1区间内。7.1.3媒体稿件差异度(3M)媒体稿件差异度反映了媒体稿件信息的多样化程度。媒体稿件差异度越低,表明舆情信息具有较高的相似程度和同质化程度,如果没有新的事件信息,该舆情事件较容易衰退;反之则表明媒体进行二次创作的空间很大,该舆情事件仍具有持续演化发展的潜力。基于词频-逆文档频率指数统计学方法(Term FrequencyInverse Document Frequency,TF-IDF)的双词向量余弦相似度方法已被证明可用于文本相似度的计算,可按照公式(3)和公式(4)进行计算。首先通过

    12、TF-IDF方法统计所有稿件的关键词,得到统一的词向量;随后将不同稿件的词向量两两组合,得到(1)2N N 个组合的双词向量余弦相似度。TF-IDF统计学方法见附录A。按照公式(3)计算任意两个媒体稿件的词向量的余弦相似度。由于媒体稿件的差异度与相似度是互补关系,最后可按照公式(4)计算所有媒体稿件之间的差异度。12211()()njjiijinnjjiijjA BSAB(3)式中:iS 第 i 个组合中的两个词向量的余弦相似度;n 统一的词向量的长度;jiA 第 i 个组合中,稿件 A 对应词向量的第 j 个位置的取值;jiB 第 i 个组合中,稿件 B 对应词向量的第 j 个位置的取值。(

    13、1)/23121(1)N NiiMSN N (4)DB4401/T 1220235式中:3M 媒体稿件差异度,数值范围在0,1区间内;N 媒体发布稿件的总数;iS 第i个稿件组合中两个词向量的余弦相似度。其它计算方法经验证后可用于媒体稿件差异度的计算。7.1.4媒体地域关联度(4M)媒体地域范围反映了媒体归属地与舆情事件发生地之间的关联程度,同时也反映事件的社会整体关注程度和范围,按照公式(5)进行计算。112233411()mNiiiiiiimMw Dw Dw DN(5)式中:4M 媒体地域范围,数值范围在0,1区间内;mN 媒体总数;1iw,2iw,3iw 分别对应不同地域的媒体权重,由舆

    14、情监测主体设定,123,0,1iiiw ww;123,iiiiDD DD单位向量,只有一个位置为 1,其他位置为 0;其中,1iD 为舆情事件所在市(本地)的媒体数;2iD 为舆情事件所在省份的其他市(周边)的媒体数;3iD 为舆情事件所在省份之外的其他地方媒体、全国性媒体、国际性媒体等媒体数。7.2舆论强度评价(SE)7.2.1话题敏感程度(1S)话题敏感程度指标反映舆情事件的敏感程度,话题敏感度越高,其风险等级越高。机器学习模型预测方法已被证明可用于话题敏感程度的计算,可按照公式(6)进行计算。其它符合准确率要求的方法可用于话题敏感程度的计算。1_()Ssensitivitypredict

    15、or X(6)式中:1S 话题敏感程度,数值范围在0,1区间内;X 预测文本集合;_()sensitivitypredictor X 用于敏感程度预测的机器学习模型,通过人工打标签的敏感话题数据集训练得到。7.2.2单位时间波动程度(2S)单位时间波动程度反映了过去一段时间内舆情热度的波动情况。单位时间内的波动程度越高,表示事件越不稳定。计算平均波动程度应先对采用数据归一化,将历史数据转化为 0,1区间内的数值,可按照公式(7)计算。完成数据归一化后,采用离散系数计算公示计算出单位时间波动程度,可按照公式(8)计算。DB4401DB4401/T 1220236,min()max()min()k

    16、tt tktt ttt txXxXX(7)式中:kx 描述第k时刻经过归一化的舆情热度,取值范围在0,1区间内;kx 描述第k时刻的舆情热度,取值范围在0,)区间内;,tt tX 描述从第 tt 时刻到 t 时刻的舆情热度,其中 tt 。注:公式(7)为经典的最大最小归一化方法,已被证明可用于单位时间波动程度的数据归一化处理,其它数据归一化方法可由舆情检测主体确认其有效性后使用。2(,)(,)tt tStt t (8)式中:2S 单位时间波动程度,限定数值范围在0,1区间内,超出后赋值为其最近的区间边界值;(,)tt t 从 tt 到 t 时刻的历史数据的方差;(,)tt t 从 tt 到 t

    17、 时刻的历史数据的均值。注:单位时间周期由舆情监测主体确定,可用“一周”、“三天”、“一天”、“小时”等作为时间单位。7.2.3平均持续时长(3S)平均持续时长反映了舆情事件的持久度,按照公式(9)进行计算。311()()KsekSSigT kT kK(9)式中:3S 平均持续时长,数值范围在0,1区间内;K 已观测到的波动数,且1K ;()sT k 第 k 次波动的起始时间,且1kK;()eT k 第k次波动的终止时间,且1kK;()Sig x 归一化函数。注1:表达式为 =21+0.5 1的S型归一化函数已被证明可用平均持续时长的计算,其中 0。其他归一化函数经验证后同样可用于平均持续时长

    18、的计算。注2:舆情监测主体设定每一次舆情波动的起始触发条件,被触发的时刻记作,为一次波动起始点。起始触发条件,包括但不限于网络发帖数超过指定阈值、有粉丝数超过指定阈值的影响力用户参与。舆情监测主体设定舆情检测的终止触发条件,被触发的时刻记作,为一次波动终点。终止触发条件,包括但不限于网络发帖数少于指定阈值。其中阈值的设定由舆情监测主体确定。7.2.4舆论强度专家评价(4S)在遇到特殊网络舆情事件时,可通过邀请专家评分的方式,修正自动化评价系统给出的媒体传播评价值。特殊情况包括但不限于重大突发事件、敏感事件、紧急事件等。专家评分的取值范围在 0,1区间内,分值越低,表示专家估计的舆论强度越低。D

    19、B4401/T 12202377.3民意态度评价(aE)7.3.1活跃网民占比(1A)活跃网民占比反映了舆情事件中的活跃参与群体的占比情况,活跃网民占比越高,表示舆情事件中的参与群体中的积极分子的比例越高,需针对性地了解这部分人群的特点及核心诉求,以更高效地疏导负面舆论、引导正向传播。活跃网民占比按照公式(10)进行计算。111()uNiiuAnN(10)式中:1A 活跃网民占比,数值范围在0,1区间内;uN 被舆情数据记录到的参与者的总数;()x单位阶跃函数,1,0()0,0 xxx;in 第 i 个参与者的互动次数;划分活跃者与非活跃者的阈值,下限为 3。7.3.2网民互动质量(2A)网民

    20、互动质量反映了舆情事件中网民参与行为的深度,按照公式(11)进行计算。2121222223232212223ln()ln()ln()ln()ln()ln()wAwAwAAAAA(11)式中:2A 网民互动质量,数值范围在0,1区间内;212223,www 互动层级的自定义权重,取值由舆情监测主体设定,默认21222301www;21A 被动接收,通过浏览量、阅读数、推送数等统计指标来计算接收到信息的参与者人次;22A 单向互动,体现在点赞、反对、收藏等单向互动行为的参与者人次;23A 双向互动,体现在评论、留言等发布观点态度行为的参与者人次。7.3.3网民情感极性(3A)网民情感极性反映了舆情

    21、事件中网民的情感极性和观点立场。网民情感极性的分数越高,表示情感越趋于负面,越值得警惕。网民情感极性按照公式(12)进行计算。3(|)Asentiment_classifier X train_set(12)式中:3A 网民情感极性,数值范围在0,1区间内;()sentiment_classifier x 预测情感极性的概率函数;该函数由舆情监测主体根据分析对象的复杂程度进行选择,准确率高于 70%三元态度(0正面,0.5中立,1负面)预测方法已被证明是有效的。其它预测情感极性的概率函数可由舆情检测主体确认其有效性后使用;X 待分类的数据;train_set 已经带标签的分类样本数据。注:模型

    22、的准确率根据舆情监测主体给定的标准训练集和测试集测量所得。用训练集训练模型后,用测试集进行预测,所得结果与人工标注的话题敏感度做对比,准确率高于70%判定模型有效。DB4401DB4401/T 12202387.3.4民意态度专家评价(4A)在遇到特殊网络舆情事件时,可通过邀请专家评分的方式,修正自动化评价系统给出的民意态度评价值。特殊情况包括但不限于重大突发事件、敏感事件、紧急事件等。专家评分的取值范围在 0,1区间内,分值越低,表示专家估计的民意强度越弱、情绪趋于稳定;反之则表示民意旺盛、情绪不稳定。7.4舆情演变评价(dE)7.4.1舆情热度演化趋势(1D)舆情热度演化趋势反映了舆情事件

    23、中的发帖量随时间变化的趋势,预测准确率达70%以上的模型被认为是有效的。按照公式(13)进行计算。注:准确率的具体测量方法如下,舆情监测主体给定带标签的时间序列集合,集合包含时间(按天、小时、或分钟为单位,具体根据舆情监测主体需求设定)、发帖数量、和标签(上升、持续、下降)。将前N天的数据提取出来,作为训练集,用于模型训练。训练好的模型在测试集上做测试,得到预测标签。将舆情热度演化趋势的预测标签与人工标注的真实标签做对比,准确率高于70%判定模型有效。111_(,.,|,.,)ttttDtimeseriespredictor nnnn(13)式中:1D 舆情热度演化趋势,数值范围在0,1区间内

    24、;()time_series_predictor x 用于发帖量趋势预测的时间序列模型;1,.,tttnn 未来共t 天的发帖量;1,.,tnn 当前时刻及其之前的所有时刻的发帖量。7.4.2网民情感演化趋势(2D)网民情感演化趋势反映了舆情事件中的网民情感立场的变化趋势。分数越高,表明后续发展趋于负面,越值得警惕。预测准确率达70%以上的模型被认为有效。按照公式(14)进行计算。注:准确率的具体测量方法如下,舆情监测主体给定带标签的网民发帖数据集合,集合包含发帖内容(原始数据)、特征(根据舆情监测主体需求设定)和标签(0表示正面情绪占主导位置、0.5表示中立客观情绪占主导位置、1表示负面情绪

    25、占主导位置)。将前N天的数据提取出来,作为训练集,用于模型训练。训练好的模型在测试集上做测试,得到预测标签。将舆情热度演化趋势的预测标签与人工标注的真实标签做对比,准确率高于70%判定模型有效。211_(,.,|,.,)ttttDsentimentpredictor SSSS(14)式中:2D 网民情感演化趋势,数值范围在0,1区间内;_()sentimentpredictor x 用于情感极性预测的模型;1,.,tttSS 预测未来共t 天的情感预测值;1,.,tSS 当前时刻及其之前所有时刻的网民情感状态。注:其他预测模型经舆情监测主体检验后,准确率达到70%以上,同样可用于网民情感演化趋

    26、势预测,数据类型包括但不限于基于文本、图像、符号表情、语音、视频等,模型类别包括但不限于机器学习预测模型、时间序列预测模型、仿真预测模型等。DB4401/T 12202398综合评价8.1综合评价要求根据第7章中得出的各单项评分结果,通过数据汇总分析,得出自动化系统评价结果。当自动化系统评价结果低于或等于舆情监测主体设定的阈值时,自动化系统评价结果为最终综合评价结果;当自动化系统评价结果高于舆情监测主体设定的阈值时引入专家辅助评价,最终综合评价结果应由舆情监测主体根据自动化评价系统结果和专家辅助评价结果研判后确定。8.2自动化系统评价8.2.1评价结果构成由媒体传播评价结果、舆论强度评价结果、

    27、民意态度评价结果、舆情演变评价结果综合构成。8.2.2媒体传播评价结果媒体传播评价结果按照公式(15)计算。112233441234mmmmmmmmmWMWMWMWMEWWWW(15)式中:mE 媒体传播评价结果;1mW,2mW,3mW,4mW分别表示1M,2M,3M,4M 四个指标的权重,1234,0,1mmmmWWWW,具体权重值由舆情监测主体设定。8.2.3舆论强度评价结果舆论强度评价结果按照公式(16)计算。112233444123(1)sssssssssWSWSWSEWWSWWW(16)式中:sE 舆论强度评价结果;1sW,2sW,3sW,4sW 分别表示1S,2S,3S,4S 四个

    28、指标的权重。123,0,1sssWWW,具体权重值由舆情监测主体设定。若舆论强度指标无需专家进行评价,则40sW;若舆论强度指标需专家进行评价,原则上以专家意见为准,即41sW。8.2.4民意态度评价结果民意态度评价结果按照公式(17)计算。112233444123(1)aaaaaaaaaWAWAWAEWWAWWW(17)式中:aE 民意态度评价结果;1aW,2aW,3aW,4aW 分别表示1A,2A,3A,4A 四个指标的权重。123,0,1aaaWWW,具体权重值由舆情监测主体设定。若民意态度指标无需专家进行评价,则40aW;若民意态度指标需专家进行评价,原则上以专家意见为准,即41aW。

    29、DB4401DB4401/T 122023108.2.5舆情演变评价结果舆情演变评价结果按照公式(18)计算。112212dddddWDWDEWW(18)式中:dE 舆情演变评价结果;1dW,2dW分别表示1D 和2D 两个指标的权重,12,0,1ddWW,具体权重值由舆情监测主体设定。8.2.6自动化系统评价结果自动化系统评价结果按照公式(19)计算。mmssaaddmsadWEWEWEWERWWWW(19)式中:R 自动化系统评价结果,保留2位小数;mW,sW,aW,dW 分别表示mE,sE,aE,dE 四个指标的权重,,0,1msadW W W W,具体权重值由舆情监测主体设定。8.3专

    30、家辅助评价8.3.1专家要求当自动化系统评价结果高于舆情监测主体设定的阈值时启动专家辅助评价,专家要求如下:a)专家应从舆情评价专家库中选用;舆情评价专家库由舆情监测主体负责组织与维护,更新及维护时间间隔宜不超过 12 个月;b)专家所在专业领域应具有舆情研究或智库决策经历;c)专家应在遵循国家颁布的法律法规前提下,遵守地方和舆情监测主体自主确定的保密条款。8.3.2评价流程评价流程如下:a)专家根据舆情监测主体提供的舆情事件基本材料和自动化系统评价结果,结合专家本人的专业知识和见解,对舆情时间的媒体传播、舆论强度、民意态度、舆情演变等维度进行评分,最终给出数值范围在0,1区间内的结果,并提出

    31、决策建议;专家评价流程由舆情监测主体确定,专家辅助评分表可参考附录B;b)每个需专家辅助评价的舆情事件宜征集两名以上专家评价结果,每位专家独立决策,相关评价结果提交至舆情监测主体。9等级划分与程度评估9.1等级划分舆情风险等级划分为四个等级,按风险程度从低到高分别为蓝色等级(级)、黄色等级(级)、橙色等级(级)和红色等级(级),具体如下:DB4401/T 12202311a)蓝色等级():无风险;b)黄色等级():低风险,若无更大的因素触发,会慢慢地冷却;但由于舆情风险项的存在,有一定几率转化为高风险舆情;c)橙色等级():较高风险,较容易转化为高危风险舆情;d)红色等级():高危风险,表示舆

    32、论热度很高、已经形成负面影响的热点事件,或者是话题敏感、涨势迅速的早中期风险事件。9.2程度评估综合评价得分取值区间为0,1,根据综合得分及其对应的事件等级、风险程度规律,确定四个等级的风险程度评估尺度表,见表1,判定如下:a)综合得分在 0.3 以下的,判定为无风险舆情;b)综合得分在 0.3 到 0.5 之间的,判定为低风险舆情;c)综合得分在 0.5 到 0.7 之间的,判定为较高风险舆情;d)综合得分在 0.7 到 1.0 之间的,判定为高危风险舆情。表 1风险程度评估尺度表计算结果评语安全等级警示0,0.3)无风险蓝色0.3,0.5)低风险黄色0.5,0.7)较高风险橙色0.7,1.

    33、0高危风险红色DB4401DB4401/T 12202312附录A(资料性)词频-逆文档频率指数(TF-IDF)统计学方法词频-逆文档频率(Term FrequencyInverse Document Frequency,TF-IDF)是一种统计度量,用于评估单词与文档集合中的文档的相关程度。通过将两个指标相乘来完成的:一个单词在文档中出现的次数,称为词频(TF),以及该单词在一组文档中的逆文档频率(IDF)。计算得出TF和IDF后,将这两个词相乘,就能得到一个词的TF-IDF的值。某个词在文档中的TF-IDF值越大,这个词在这篇文档的重要性会越高。因此可以通过计算文档中各个词的TF-IDF,

    34、由大到小排序,排在最前面的几个词,作为该文档的关键词。TF-IDF算法按以下步骤进行:a)计算词频,按公式(A.1)进行:TFN 某个词在文章中的出现次数文章的总词数(A.1)式中:TFN词频。b)计算逆文档频率,按公式(A.2)进行:设存在一个语料库(corpus),用来模拟语言的使用环境。lnIDFN语料库的文档总数包含该词的文档数+1(A.2)式中:IDFN逆文档频率指数。如果一个词越常见,那么分母就越大,逆文档频率指数就越小越接近0。分母之所以要加1,是为了避免分母为0。c)计算 TF-IDF 统计值,按公式(A.3)进行:TFIDFTFIDFNNN(A.3)式中:TFIDFNTF-I

    35、DF 统计值。TF-IDF的取值与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。通过计算出文档的每个词的TF-IDF值,然后按降序排列,取排名靠前的词汇,即为关键词。DB4401/T 12202313附录B(资料性)专家辅助评分表专家辅助评分表见表B.1。表 B.1专家辅助评分表舆情事件专家签字评价时间评价指标指标含义评分说明专家评分备注媒体传播媒体的介入程度和范围(从介入媒体的权威程度、多样化程度、稿件多样化程度等方面评估)满分 10 分(分值越高,表示媒体介入程度越强、范围越广)舆论强度舆情事件在时间和空间上的强烈程度(从敏感程度、波动程度、持续时长等方面评估)满分

    36、10 分(分值越高,表示舆情事件的时空强度较高,即敏感度较高、或波动较大、或持续较久)民意态度舆情事件中民间主体意愿表达程度(从网民活跃程度、互动质量、情感极性等方面评估)满分 10 分(分值越高,表示网民关注度和积极性越高)舆情演变舆情事件的后续演化趋势(从舆情热度演化趋势、网民情感演化趋势等方面评估)满分 10 分(分值越高,表示舆情热度呈增长趋势、或网民情感持续朝负面发展,越值得追踪)综合评价根据舆情事件的传播媒介、舆论强度、民意态度等计算出的归一化评价结果。计算规则为:综合评价=(媒体传播+舆论强度+民意态度+舆情演变)/40满分 1 分(分值越高,风险越大;分值小于 0.5 对应中低风险;分值高于 0.5 对应中高风险)处置建议DB4401


    注意事项

    本文(DB4401 T 12-2023 网络舆情分级与判定.pdf)为本站会员(lawfemale396)主动上传,麦多课文档分享仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文档分享(点击联系客服),我们立即给予删除!




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
    备案/许可证编号:苏ICP备17064731号-1 

    收起
    展开