推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python-Snownlp的新闻评论数据分析

更新时间:2019-12-24 09:36:10 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

网上热点新闻的评论不仅反映了民众对社会热点事件的关注程度,也反映了公众所表现出的各类情感价值和思想动态。基于Python-Snownlp经过数据采集,数据预处理,建立向量模型,数据挖掘与分析对新闻评论中用户观点与情绪进行研究,有效实现舆情分析和监控。


部分文件列表

文件名 大小
基于Python-Snownlp的新闻评论数据分析.pdf 1M

部分页面预览

(完整内容请下载后查看)
信息科技探索  
基于Python-Snownlp的  
新闻评论数据分析  
赵志俊花  
河北北方学院信息科学与工程学北张家口 075000  
网上热点新闻的评论不仅反映了民众对社会热点事件的关注程反映了公众所表现出的各类情感价值和  
思想动态。基Python-Snownlp过数据采据预处立向量模据挖掘与分析对新闻评论中用户观  
点与情绪进行研效实现舆情分析和监控。  
关 键 词 Python Snownlp络爬类分感分析  
中图分类号 G2  
文献标识码 A  
文章编号 1674-6708(2018)219-0104-02  
步入“互联网 +”与大数据时代 络媒体已  
经成为舆论新格局的重要组成部分 们更倾向于  
通过互联网关注社会中的热点问题 通过网络媒  
体来发表个人意见和看法。  
网络通讯 构清晰 且包含了各种中间件接  
口。 引 擎 (Scrapyꢀ Engine),用 来 处 理 整 个 系 统  
的数据流处理 发事然后存储到 Mysql 数  
据库。  
文章从凤凰新闻浪新闻球网网页入手 ,  
使用 Python 的 Scrapy 框架来访问网页 URL析  
页面评论信息 抓取的评论信息存储到 Mysql 数  
据库中。抽取数据并进行预处理清洗 用 Python  
开源的分词模块 jieba 分词对文本进行分词 除  
停用词、敏感词 立相应的语料库。使用 TF-IDF  
算法将语料库中的词语转化成词矩阵模型 使用  
K-Means 算法对评论数据进行聚类分析挖掘 用  
Python 专为中文文本设计的 Snownlp 模块对数据进  
行情感分析。  
2 数据预处理  
从网页采集下来的文本数据 在较多的脏数  
要进行一系列的数据预处理 要工作有数  
据清洗、中文分词、去除停用词等。从腾讯新闻网  
抓取的新闻评论数据存在较多的干扰信息 如重  
复冗余评论 在 HTML 标签的评论 有表情的  
评论等Web 采集下来的新闻评论数据并不干净 ,  
使用 Python 正则表达式的方法 re.sub() 匹配去除 ,  
通过正则表达式查找匹配 HTML 标签 将 HTML 标  
签替换成空字符串。  
1 数据采集  
中文分词是中文文本挖掘和信息处理的基础环  
结巴”分词是 Python 社区开源的分词项目。  
经过它分词后的数据还有很多干扰项 中文文本  
存在着这样一些词汇 使用频率虽然极高 ,  
但是本身却没有意义如 “在万一”等以  
一些中文标点符号和键盘符号如 等 ,  
这些词汇本身没有什么实际意义 使文本的相似度  
增加 增加了文本挖掘的难度。本文从网络上搜  
集了 2630 个常用的停用词 其加载到“结巴”  
分词的停用词库中 分词时过滤掉评论数据中的  
停用词 除语料库中的干扰项 时也能够提高  
中文分词的准确性。  
采用网络爬虫技术进行数据获取 取了影  
响比较大的“造谣伊利董事长失联事件”这一热点  
事件的新闻评论作为数据集 使用网络爬虫技术从  
Web 端抓取新闻评论数据集。首先 过访问 URL  
地址获取 Web 服务器端返回得数据 解析数据抓  
取资源。请求模块是向网页 URL 发送请求 获取  
网页源代码。解析模块是对网页源代码的解析 去  
除源代码中的 JS 脚本标签 ,CSS 代码、HTML 标签  
等内容 将解析后的数据下载下来。资源库则是  
用来存放从网络上抓取下来的数据资源。并进行 JS  
拼接 使用 Scrapy 模块进行解析 ,Scrapy 模块是  
Python 开发的一个快速、高层次的屏幕抓取和 Web  
抓取框架 于抓取 Web 站点并从页面中提取结构  
化的数据。  
3 评论数据挖掘分析  
将评论数据转化为向量模型 后从聚类分析 ,  
情感分析和可视化分析 3 个方面对评论数据进行分  
Scrapy 使 用 了 Twisted 异 步 网 络 库 来 处 理  
基金项2017河北省“大学生创新创业训练计划”项目《基Web垃圾短信文本挖掘研究北省高等学校科学技术  
重点项目(ZD2018241北省高等学校科学技术青年基金项目(QN2018155北省高等学校科学技术青年基  
金项(QN2016192)。  
作者简北北方学院信息科学与工程学院。  
2018•9(下)  
《科技传播》  
104  
信息科技探索  
析和挖掘。  
文章使用向量空间模型来描述文本的特征。过  
众要能辨别真假信息 要被牵鼻子带着走 时  
还有约 14% 的网民希望能出台网络管理政策 大  
家良好的网络环境。  
滤了停用词后的中文分词词汇作为新闻评论的特  
征项词汇 使用 TF-IDF 算法对特征词进行权重计  
算 ,TF 为“词频IDF 为“逆文档频率个  
值相乘 得到了一个词的 TF-IDF 值。TF-IDF 值  
反映了一个词在文本中的重要性。评论数据经过  
数据清洗 文分词 滤停用词、处理后 使  
用 Python 中 sklearn 模 块 的 TfidfTransformer、  
CountVectorizer 方 法 计 算 TF-IDF 权 重 , 转  
化为向量空间模之后就对数据进行分析与  
挖掘。  
为了更好地显示分析结果 用百度 API 和  
Python 的 Wordcould 模 块 来 采 用 分 析 词 云 可 视  
化图与热力图可视化方法去侧面分析评论。关键  
词统计、词云可视化可以反映出网民们最关心的  
是哪些方面 云可视化得知 这一事件 网  
民们提到更多的谣言网络法治媒  
体”等这类词汇 明网民们对造谣者和部分媒  
体人的谴责 谣言的抵制 良好网络环境的  
期盼。  
评论数据属于非结构化数据 据本身是不带  
有属性和标签的 此选择采用 K-Means 聚类算法  
进行聚类分析 ,K-means 算法属于无监督学习 初  
始 k 的选取至关重要。  
而热力图来展现网民们对新闻关注的地域性分  
布。能反映出哪些地点的网民对这一新闻事件比较  
关心。热力图分析得知 注这一热点新闻的网民  
主要聚集中东部尤其是华北平原地区 为网络的  
普及 络热点事件的传播也越来越迅速 们对  
热点事件的参与度也越来越高 时内蒙古地区也  
有一部分网友 明对网民对本地的产业的关注度  
也在逐步提高。  
使用肘部法则解决此问题 部法则会将不  
同 k 的成本函数画出来 当 k 增大时 均  
畸变程度的改善效果会不断降。k 增大过程  
存在一个点 这个点之前畸变程度的改  
善效果下降幅度最大 这个点之后 变程度  
的改善效果下降趋于平稳 个点对应的 k 值就  
是肘对有造谣伊利董事失联的  
53982 条新闻评论做了聚类分析 过分析以及观  
察数据 后得出了 7 种网民的观点 7 观点  
如下 :  
4 结论  
文章使用数据挖掘技术造谣伊利董事  
长失联”这一热点新闻评论做了分析。首先使用  
Python 网络爬虫技术从新闻评论页面抓取网民们  
的评论数据 数据进行清洗和中文分词 除  
数据中停用词 使TF-IDF 法对预处理后的  
数据建立向量模型 使用聚类算法来对数据进行  
聚类。  
1) 聚 类 类 别 1,评 论 条 数 6774,百 分 比  
12.55%望造谣者得到严惩。  
2)聚类类别 2论条数 4159分比 7.70%,  
说明 吁不信谣 传谣。  
通过聚类分析后知大多数网民认为该事件对  
伊利、网络环境和社会造成了很大影响 望诽  
谤者得到严惩。采用 Python 专为中文文本设计的  
Snownlp 模块对数据进行情感分析网民情绪 以  
看出大多数网民这一事件持积极态度。词云图分析  
可知 民对网络环境的美好期盼。热力图分析可  
东部地区和产源地的人们更关注新闻事件的  
发展。  
3) 聚 类 类 别 3,评 论 条 数 7524,百 分 比  
13.94%持出台网络监管政策 造良好  
的网络环境。  
4)聚类类别 4论条数 4817分比 8.92%,  
说明 分媒体为了吸引眼球 计后果。  
5)聚类类别 5论条数 5276分比 9.77%,  
说明 家对信息要有辨别真假的能力 要被  
利用。  
6) 聚 类 类 别 6,评 论 条 数 22731,百 分 比  
42.11%成昆之流通过小说映射诽谤伊利 ,  
造成社会影响。  
参考文献  
[1]耿大伟.基于Python技术的校园网搜索引擎的设计与实现  
[D].秦皇岛:燕山大学,2015.  
7)聚类类别 7论条数 2701分比 5.00%,  
说明 事件对伊利经营造成损失 价受到波动 ;  
总评论条数 53982。通过聚类分析 多数网民对  
“造谣伊利董事长‘失联事件的持积极态度 其  
中约 56% 的网民认为该造谣者和部分媒体为了流,  
不计后果 受害者和社会都产生了很大影响 约  
13% 的网民希望造谣者能够得到法律严惩 ,7.7% 的  
网友呼吁大家不信谣不传谣 ,9.7% 的网民认为民  
[2]栾文娟.BBS准实时舆情监测技术研究与实现[D].武汉:华中  
科技大学,2012.  
[3]张立.基于新闻评论数据的Kmeans聚类算法的研究[D].太  
原:太原理工大学,2010.  
[4]李朋.面向网络评论性短文本的中文情感分析方法研究[D].  
重庆:重庆理工大学,2016.  
[5]张莹.在线新闻评论的情感分析研究[D].天津:南开大学,  
2013.  
2018•9(下)  
《科技传播》  
105  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载