您现在的位置是：首页 > 技术资料 > 基于Python爬虫的电影评论情感倾向性分析

推荐星级：

基于Python爬虫的电影评论情感倾向性分析

更新时间：2019-12-26 11:15:35 大小：2M 上传用户：songhuahua 查看TA发布的资源 标签：python 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

通过对豆瓣网站评分高(9.1分)的与评分(5.2分)两部电影进行电影评论的搜集,利用Python网络爬虫获取这些评论数据并清理.利用PMI算法,对TF-IDF算法进行改进,并对评论进行分类,得出PMI最高的15个分词,最后对分词进行分析统计,得出分析结果.

部分文件列表

文件名	大小
基于Python爬虫的电影评论情感倾向性分析.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

研究与开发

文章编号：1007-1423（2017）35-0055-04

DOI：10.3969/j.issn.1007-1423.2017.35.011

基于 Python 爬虫的电影评论情感倾向性分析

涂小琴

（云南师范大学文理学院，昆明 650222）

摘要：

通过对豆瓣网站评分高（9.1 分）的与评分（5.2 分）两部电影进行电影评论的搜集，利用 Python 网络爬虫获取这些评

论数据并清理。利用 PMI 算法，对 TF-IDF 算法进行改进，并对评论进行分类，得出 PMI 最高的 15 个分词，最后对分

词进行分析统计，得出分析结果。

关键词：

Python；爬虫；情感分析；影评

通过豆瓣网站中最近热点的两部电影《摔跤吧！

引言

爸爸》，以及电影《悟空传》的影评进行数据处理，通过

随着现代生活水平的提高，更多的愿意将时间和

PLN 机器学习进行情感分析，分析观众情感倾向。

精力投入至精神生活，越来越多的人去到电影院，作为

国内电影最有影响的莫过于豆瓣（），

豆瓣给电影爱好者提供了一个很好的分享及评论平

台。每一部电影，在豆瓣上都可以看到很多的评论，可

见人们对电影的喜爱。那什么样的电影是大众所喜欢

的呢？什么样的电影又是不被大众所喜爱呢，通过 Py⁃

thon 爬虫，我们可以获取大量的影评来进行分析，从而

得出观众的喜好。

数据获取

豆瓣上有很多关于每一部电影的评论，对于一些

评分比较高的电影而言，有的评论在几十万条，所以采

用 Python 网络爬虫来进行处理，由于豆瓣是一个反爬

虫的网站，所以在做网络爬虫时，还需要进行浏览器访

问模拟，通过对网页源代码的分析，用正则表达式来获

取所需数据。为了能够更好地分析观众的情感，在获

取数据时，分别获取了豆瓣网站上得分高于 9.0 的两部

电影，以及得分低于 4.0 的两部电影的影评数据进行分

析。通过高分的两部电影与低分的两部电影进行对比

分析，更能反映观众的喜好。

情感分析是一种常见的自然语言处理（NLP）方法

的应用，NLP 情感分析中一般有两种方法，第一种是根

据语义和依存关系来量化文本的情感色彩。但这种方

法首先需要很完善的情感词库，另外需要很好的语言

学基础，也就是说需要知道一个句子通常在什么情况

为表现为 Positive 和 Negative。个人认为，我们永远无

法穷尽所有的语法规则和感情词汇，这也就无形之中

增加了构造分类规则的难度。第二种方法，就是基于

机器学习的方法。基于机器学习，本质上就是要转化

为机器学习能解决的问题。情感分析实际上就是认为

是机器学习中的二分类问题。但是机器是无法理解文

本的，所以我们必须能够实现让文本转化为向量，从而

让机器能够理解。

要获取相应的数据，不同的网站对应着不同的正

则表达式，最近在豆瓣网站中得分比较高的其中一部

电影为《摔跤吧，爸爸！》，评分在 9.1 分，首先通过进入

豆瓣网站进入该电影影评，获取影评首页的 URL，再与

影评的下一页进行 URL 比较，找到这部电影所有影评

的 URL 规则，利用循环来进行读取每页影评的数据。

借助库文件 Beautifulsoup、Requests 以及 Re 来进行数

据的爬取，爬取的数据有：评论人、评论的时间、评论等

级、评论具体内容等，因为评论量比较大，所以将获取

ꢀ

现代计算机 2017.12 中

研究与开发

到的数据存放到 Excel 中。获取影评的关键代码如下：

数据。通过 Python 中的正则表达式模块 RE 来进行清

理工作，关键代码如下：

get_url = url #url 即需要获取数据的网页地址

data=requests.get(get_url, timeout =20, headers = header,cook⁃

ies=cookies).text

pattern = re.compile(r′[\u4e00-\u9fa5]+′)

filterdata = re.findall(pattern, lnfolist)

cleaned_comments = ′′.join(filterdata)

soup = BeautifulSoup(data,′lxml′)

comments=soup.find_all("div", class_=′comment-item′)

for i in comments:

并对数据进行停用词去除：

stopwords=filterdata.read_csv("stopwords.txt",index_col=False,

quoting=3,sep="\t",names=[′stopword′], encoding=′utf-8′)

words_df=words_df[～words_df.segment.isin(stopwords.stopword)]

words_stat=words_stat.reset_index().sort_values(by=["计数"],as⁃

cending=False)

listinfo=[]

com=i.find(′span′,class_=′comment-info′)

listinfo.append(com.contents[1].text.strip()) #用户名

#rating

以及对词频进行统计。

rating=i.find(′span′,class_="rating")

if rating!=None:

情感分析

rating=rating.get(′title′)

3.1 分类算法改进

else:

词频（Term Frequency，TF）指的是某一个给定的词

语在该文件中出现的频率。这个数字是对词数(term

count)的归一化，以防止它偏向长的文件。（同一个词语

在长文件里可能会比短文件有更高的词数，而不管该

词语重要与否。）对于在某一特定文件里的词语来说，

它的重要性可表示为：

rating=′无评分′

#print(rating)

listinfo.append(rating)

listinfo.append(i.find(′span′,class_ ="comment- time").text.

strip()) #评论时间

#listinfo.append(i.find(′span′,class_ ="votes pr5").text.strip

()) #点赞人数

n_i,j

tf_i,j=

（1）

listinfo.append(i.find(′p′).text.strip()) # 相应的评论

#print(i.find(′p′).text)

∑

k,j

在以上式子中，是该词在文件中的出现次

i,j

Infolist.append(listinfo)

数，而分母则是在文件中所有字词的出现次数之和。

数据获取结果如图 1 所示。

idf_i= log

（2）

j:t ∈ d

{

}

j:t ∈ d

其中， :语料库中的文件总数，

{

}

:包含

n ≠ 0

词语的文件数目（即

的文件数目），如果该词

语不在语料库中，就会导致被除数为 0，因此一般情况

tf idf = tf × idf

i,j

1 + j:t ∈ d

下使用

{

}

，然后，

。

i,j

某一特定文件内的高词语频率，以及该词语在整

个文件集合中的低文件频率，可以产生出高权重的

TF-IDF。因此，TF-IDF 倾向于过滤掉常见的词语，保

留重要的词语。为了能够分类出最有效的情感词，引

用 PMI（Pointwise Mutual Information），PMI 用来衡量两

个事物之间的相关性（例如两个词）。所以对公式（2）

进行修改。

图1 获取数据结果

数据处理

通过图 1 可以看出，获取到的数据中有很多的语

气词，如“啊”，“哦”“的”等等，还有不少的标点符号，这

些都不利于我们对关键词出现次数的统计，所以需对

相应的数据进行清理工作，借助“WordStop.txt”停用词

来进行处理，将停用词进行对比过滤。得到清理后的

P word,pos

(

)

PMI word,pos = log

(

)

（3）

P pos *P word

)

(

)

(

其中，pos 表示文档的情感，word 表示某一个词。

ꢁ

现代计算机 2017.12 中

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

SYFSSYYFF 打赏3.00元 3天前

资料：诺蒂菲尔4合一编程软件N-VFT V4
我是蒙帆打赏1.00元 3天前

资料：TS-14PFX-4 TS-16PFX-4 调音台说明书
21ic小能手打赏10.00元 3天前

资料：大疆M3508 无刷电机完整驱动程序
21ic小能手打赏10.00元 3天前

资料：智慧景区AI大模型智能安防应用方案
21ic小能手打赏5.00元 3天前

资料：数字政府AI大模型场景应用可行性研究报告
21ic小能手打赏5.00元 3天前

资料：数字县域智慧城市工程总承包（EPC）可行性研究报告Word(
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏210.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏210.00元 3天前

用户：xzxbybd
21ic下载打赏70.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：kk1957135547

21ic下载打赏15.00元 3天前

用户：w993263495
21ic下载打赏30.00元 3天前

用户：SkyEagle88
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏5.00元 3天前

用户：dong2223333
21ic下载打赏10.00元 3天前

用户：dxb3320
21ic下载打赏10.00元 3天前

用户：DXB193394
21ic下载打赏10.00元 3天前

用户：westup
21ic小能手打赏15.00元 3天前

资料：stm32的单片机带云台智能小车有图像识别
21ic小能手打赏20.00元 3天前

资料：科创大赛“料理人生”厨房智能机器人项目资料包
21ic小能手打赏8.00元 3天前

资料：久坐智能提醒坐垫项目申报书资料
21ic小能手打赏5.00元 3天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 3天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 3天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 3天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 3天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 3天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路

基于Python爬虫的电影评论情感倾向性分析

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页