DB4401 T 12-2023 网络舆情分级与判定.pdf
《DB4401 T 12-2023 网络舆情分级与判定.pdf》由会员分享,可在线阅读,更多相关《DB4401 T 12-2023 网络舆情分级与判定.pdf(19页珍藏版)》请在麦多课文档分享上搜索。
1、ICS35.240.01CCS M 114401广州市地方标准DB4401/T 122023代替 DB4401/T 122018网络舆情分级与判定Classification and judgment for network public opinion2023-05-3 1 发布2023-07-0 1 实施广州市市场监督管理局发 布DB4401/T 122023I目次前言.1 范围.12 规范性引用文件.13 术语和定义.14 总体原则.14.1 科学性原则.14.2 充分性原则.24.3 可度量原则.24.4 可预测原则.24.5 稳健性原则.25 网络舆情分级与判定的一般流程.26 网络
2、舆情评价指标.37 指标量化.37.1 媒体传播评价(Em).37.2 舆论强度评价(Es).57.3 民意态度评价(Ea).77.4 舆情演变评价(Ed).88 综合评价.98.1 综合评价要求.98.2 自动化系统评价.98.3 专家辅助评价.109 等级划分与程度评估.109.1 等级划分.109.2 程度评估.11附录 A(资料性)词频-逆文档频率指数(TF-IDF)统计学方法.12附录 B(资料性)专家辅助评分表.13DB4401/T 122023前言本文件按照GB/T 1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件代替DB4401/T 12-2
3、018网络舆情分级与判定。本文件与DB4401/T 12-2018相比,主要变化如下:更改了术语和定义(见第3章,2018年版第2章);增加了总体原则(见第4章);更改了网络舆情分级与判定的一般流程(见第5章,2018年版第3章);更改了网络舆情评价指标(见第6章,2018年版第4章);更改指标公式,增加分析方法和大数据数学模型算法(见第7章,2018年版第5章);更改了综合评价,增加专家评价系统定性分析模块(见第8章,2018年版第6章);更改了等级划分的表述(见9.1,2018年版的7.1);更改了程度评估的表述(见9.2,2018年版的7.2);更改了风险程度评估尺度表(见表1,2018
4、年版的表2);更改了资料性附录中文档主题生成模型(见附录A);更改了资料性附录中基于层次分析法(AHP)的权重计算方法(见附录B)。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中共广州市委网络安全和信息化委员会办公室提出并归口。本文件起草单位:广州市网络舆情信息中心、广州市标准化研究院、广州市广播电视台、暨南大学计算传播研究中心、华南理工大学数据分析与信息可视化研究中心、云润大数据服务有限公司。本文件主要起草人:陆志强、陈小文、赵甜芳、支庭荣、吴小坤、陈伟能、申智平、肖娟、漆巍、徐湛、黄楚恒、王祥麟、高淡绚、李宜轩、曾庆贤、梁市、吴钰、林毅、李永康。本文件
5、及其所代替文件的历次版本发布情况为:2018年首次发布为DB4401/T 12-2018,本次为第一次修订。DB4401/T 1220231网络舆情分级与判定1范围本文件规定了网络舆情分级与判定的一般流程、网络舆情评价指标、指标量化、综合评价、等级划分与程度评估等内容。本文件适用于广州市网络舆情的监测、评估、预警及相关软件开发等。2规范性引用文件本文件没有规范性引用文件。3术语和定义下列术语和定义适用于本文件。3.1媒体传播评价evaluation of communication media特定舆情事件中媒体的介入程度,以及范围和信息在媒体上的传播程度,包含但不仅限于以下四个指标:媒体集中度
6、、媒体权威度、媒体稿件差异度、媒体地域范围。3.2舆论强度评价evaluation of public opinion strength特定舆情事件在时间和空间上的舆论强烈程度,包含但不仅限于以下四个指标:话题敏感程度、单位时间波动程度、平均持续时长、舆论强度专家评价。3.3民意态度评价evaluation of public attitude orientation特定舆情事件中的主体意愿表达强度和态度倾向,包含但不仅限于以下四个指标:活跃网民占比、网民互动质量、网民情感极性、民意态度专家评价。3.4舆情演变评价evaluation of public opinion development
7、特定舆情事件的后续演化趋势,包含但不仅限于以下两个指标:舆情热度演化趋势、网民情感演化趋势。4总体原则4.1科学性原则所选指标具有良好的科学性和合理性,准确描述指标适用场景,合理运用科学计算方法,客观评价网络舆情影响要素,实现网络舆情的科学评价。DB4401DB4401/T 12202324.2充分性原则所选指标具有良好的完备性和简约性,综合考虑单项指标覆盖面及多项指标重叠度,建立简约且完整的指标集,刻画网络舆情整体画像。4.3可度量原则所选指标具有良好的可量化性和可操作性,量化网络舆情相关的不确定性因素,适配多样化的舆情监测环境,保证舆情评价的有效性和可行性。4.4可预测原则所选指标具有良好
8、的推演和预测性,剖析网络舆情核心要素特征,预测网络舆情发展趋势,满足网络舆情的风险评估和预警需求,服务于相关职能部门的风险评估和决策响应。4.5稳健性原则所选指标具有良好的稳定性和鲁棒性,适应复杂多变的网络舆情传播过程,适应动态开放的网络舆情环境,反映网络舆情本质特征。5网络舆情分级与判定的一般流程网络舆情评价应遵循一定的工作流程,主要包括舆情监测、舆情评价、舆情研判三个环节,如图1所示。图 1网络舆情评价的一般流程DB4401/T 12202336网络舆情评价指标网络舆情评价指标包括媒体传播评价、舆论强度评价、民意态度评价、舆情演变评价4个二级指标。各二级指标又包含各自的子参数,即三级指标,
9、构成了网络舆情评价指标。网络舆情评价指标的三级指标应包含但不限于图2所列的14个三级评价指标。网络舆情评价指标媒体传播评价(Em)舆论强度评价(Es)民意态度评价(Ea)舆情演变评价(Ed)媒体集中度(M1)媒体权威度(M2)媒体稿件差异度(M3)媒体地域关联度(M4)话题敏感程度(S1)单位时间波动程度(S2)平均持续时长(S3)舆论强度专家评价(S4)活跃网民占比(A1)网民互动质量(A2)网民情感极性(A3)民意态度专家评价(A4)舆情热度演化趋势(D1)网民情感演化趋势(D2)图 2网络舆情评价指标7指标量化7.1媒体传播评价(mE)7.1.1媒体集中度(1M)媒体集中度反映参与媒体的
10、集中程度,采用赫尔芬达尔-赫希曼指数的公式进行计算,可按公式(1)计算。媒体集中度越高,意味着媒体的垄断力量越大、竞争程度越低、差异化程度越低、越容易形成舆论控制行为。DB4401DB4401/T 1220234211mNiicRMR(1)式中:1M 媒体集中度,数值范围在0,1区间内;mN 媒体总数;iR 第i家媒体发布的新闻报道数;cR 所有媒体发布的新闻报道总数。7.1.2媒体权威度(2M)媒体权威度反映了网络媒体的可信度和影响力,可按照公式(2)进行计算。媒体权威度越高,表明舆情事件的受重视程度越高。211mNiimMwN(2)式中:2M 媒体权威度,数值范围在0,1区间内;mN 媒体
11、总数;iw 媒体权重,由舆情监测主体根据预定义的媒体分类表,经过归一化处理后赋值,数值范围在0,1区间内。7.1.3媒体稿件差异度(3M)媒体稿件差异度反映了媒体稿件信息的多样化程度。媒体稿件差异度越低,表明舆情信息具有较高的相似程度和同质化程度,如果没有新的事件信息,该舆情事件较容易衰退;反之则表明媒体进行二次创作的空间很大,该舆情事件仍具有持续演化发展的潜力。基于词频-逆文档频率指数统计学方法(Term FrequencyInverse Document Frequency,TF-IDF)的双词向量余弦相似度方法已被证明可用于文本相似度的计算,可按照公式(3)和公式(4)进行计算。首先通过
12、TF-IDF方法统计所有稿件的关键词,得到统一的词向量;随后将不同稿件的词向量两两组合,得到(1)2N N 个组合的双词向量余弦相似度。TF-IDF统计学方法见附录A。按照公式(3)计算任意两个媒体稿件的词向量的余弦相似度。由于媒体稿件的差异度与相似度是互补关系,最后可按照公式(4)计算所有媒体稿件之间的差异度。12211()()njjiijinnjjiijjA BSAB(3)式中:iS 第 i 个组合中的两个词向量的余弦相似度;n 统一的词向量的长度;jiA 第 i 个组合中,稿件 A 对应词向量的第 j 个位置的取值;jiB 第 i 个组合中,稿件 B 对应词向量的第 j 个位置的取值。(
13、1)/23121(1)N NiiMSN N (4)DB4401/T 1220235式中:3M 媒体稿件差异度,数值范围在0,1区间内;N 媒体发布稿件的总数;iS 第i个稿件组合中两个词向量的余弦相似度。其它计算方法经验证后可用于媒体稿件差异度的计算。7.1.4媒体地域关联度(4M)媒体地域范围反映了媒体归属地与舆情事件发生地之间的关联程度,同时也反映事件的社会整体关注程度和范围,按照公式(5)进行计算。112233411()mNiiiiiiimMw Dw Dw DN(5)式中:4M 媒体地域范围,数值范围在0,1区间内;mN 媒体总数;1iw,2iw,3iw 分别对应不同地域的媒体权重,由舆
14、情监测主体设定,123,0,1iiiw ww;123,iiiiDD DD单位向量,只有一个位置为 1,其他位置为 0;其中,1iD 为舆情事件所在市(本地)的媒体数;2iD 为舆情事件所在省份的其他市(周边)的媒体数;3iD 为舆情事件所在省份之外的其他地方媒体、全国性媒体、国际性媒体等媒体数。7.2舆论强度评价(SE)7.2.1话题敏感程度(1S)话题敏感程度指标反映舆情事件的敏感程度,话题敏感度越高,其风险等级越高。机器学习模型预测方法已被证明可用于话题敏感程度的计算,可按照公式(6)进行计算。其它符合准确率要求的方法可用于话题敏感程度的计算。1_()Ssensitivitypredict
15、or X(6)式中:1S 话题敏感程度,数值范围在0,1区间内;X 预测文本集合;_()sensitivitypredictor X 用于敏感程度预测的机器学习模型,通过人工打标签的敏感话题数据集训练得到。7.2.2单位时间波动程度(2S)单位时间波动程度反映了过去一段时间内舆情热度的波动情况。单位时间内的波动程度越高,表示事件越不稳定。计算平均波动程度应先对采用数据归一化,将历史数据转化为 0,1区间内的数值,可按照公式(7)计算。完成数据归一化后,采用离散系数计算公示计算出单位时间波动程度,可按照公式(8)计算。DB4401DB4401/T 1220236,min()max()min()k
16、tt tktt ttt txXxXX(7)式中:kx 描述第k时刻经过归一化的舆情热度,取值范围在0,1区间内;kx 描述第k时刻的舆情热度,取值范围在0,)区间内;,tt tX 描述从第 tt 时刻到 t 时刻的舆情热度,其中 tt 。注:公式(7)为经典的最大最小归一化方法,已被证明可用于单位时间波动程度的数据归一化处理,其它数据归一化方法可由舆情检测主体确认其有效性后使用。2(,)(,)tt tStt t (8)式中:2S 单位时间波动程度,限定数值范围在0,1区间内,超出后赋值为其最近的区间边界值;(,)tt t 从 tt 到 t 时刻的历史数据的方差;(,)tt t 从 tt 到 t
17、 时刻的历史数据的均值。注:单位时间周期由舆情监测主体确定,可用“一周”、“三天”、“一天”、“小时”等作为时间单位。7.2.3平均持续时长(3S)平均持续时长反映了舆情事件的持久度,按照公式(9)进行计算。311()()KsekSSigT kT kK(9)式中:3S 平均持续时长,数值范围在0,1区间内;K 已观测到的波动数,且1K ;()sT k 第 k 次波动的起始时间,且1kK;()eT k 第k次波动的终止时间,且1kK;()Sig x 归一化函数。注1:表达式为 =21+0.5 1的S型归一化函数已被证明可用平均持续时长的计算,其中 0。其他归一化函数经验证后同样可用于平均持续时长
18、的计算。注2:舆情监测主体设定每一次舆情波动的起始触发条件,被触发的时刻记作,为一次波动起始点。起始触发条件,包括但不限于网络发帖数超过指定阈值、有粉丝数超过指定阈值的影响力用户参与。舆情监测主体设定舆情检测的终止触发条件,被触发的时刻记作,为一次波动终点。终止触发条件,包括但不限于网络发帖数少于指定阈值。其中阈值的设定由舆情监测主体确定。7.2.4舆论强度专家评价(4S)在遇到特殊网络舆情事件时,可通过邀请专家评分的方式,修正自动化评价系统给出的媒体传播评价值。特殊情况包括但不限于重大突发事件、敏感事件、紧急事件等。专家评分的取值范围在 0,1区间内,分值越低,表示专家估计的舆论强度越低。D
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB4401 12-2023 网络舆情分级与判定 12 2023 网络 舆情 分级 判定
