推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python聚焦型网络爬虫的影评获取技术

更新时间:2019-12-22 20:50:57 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python网络爬虫 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

在大数据的环境下,网络资源越加丰富,传统的搜索引擎已经不能够满足大众获取信息的需求,随着计算机逐步的发展,网络爬虫的出现进入了人们的视野。本文主要讲述了网络爬虫的概念、模块以及操作流程,并通过给定的网址快速爬取影评信息,进行分词做成词云图形式展示出来。


部分文件列表

文件名 大小
基于Python聚焦型网络爬虫的影评获取技术.pdf 2M

部分页面预览

(完整内容请下载后查看)
基于 Python 聚焦型网络爬虫的影评获取技术  
摘要:在大数据的环境下,网络资源越加丰富,传统的搜索引擎已经不能够满足大众获取信息  
的需求,随着计算机逐步的发展,网络爬虫的出现进入了人们的视野。本文主要讲述了网络爬虫的  
概念块以及操作流程通过给定的网址快速爬取影评信息行分词做成词云图形式展示出来。  
关键词:Python 爬虫 影评 正则表达式 词云  
● 郭向向ꢀ郑嘉慧ꢀ苗学芹  
当今互联网技术迅速发展,出现了包括大数据和云计  
算等等新型的技术,在如此庞大的数据量中获取自己想要  
的需要耗费大量的时间,搜索的结果准确率也不是很高。  
本文通过利用 Python 爬虫分类中的聚焦型爬虫网络系统,  
在指定的网页下抓取相关的信息。在本文的实验中通过在  
电脑网页中以手机用户的身份抓取猫眼网中最新电影《悲  
伤逆流成河》的影评信息,成功的爬取后保存到本地,接  
着利用 jieba 分词对下载好的影评信息进行过滤筛选,将高  
频率出现的词语通过影评词云图的形式展现在面前。这样  
的爬取信息大大的提高了爬取信息的准确性,提高了资源  
的利用率,节约了查找信息的时间,真正的实现了有目的  
性的抓取信息。ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
(二)页面处理  
进行页面处理时,首先需要对 HTML 相关的源代码进行  
过滤和处理,分析出需要的信息,然后再对分析出的结果进  
行整合。对应网页的 HTML 结构文档。  
(三)数据可视化分析  
数据可视化是数据分析很重要的一部分,它能够从繁杂  
的数据中更直观更有效的获取信息 . 当获取到影评信息之后,  
需要对数据进行可视化先需要做的是数据的清洗一,  
将所有的评论转化为字符串格式。第二,利用正则表达式匹  
配中文,去掉所有的标点符号。第三,对数据进行中文分词  
操作,并去掉数据中没有参考价值的虚词,实验中使用的是  
Jieba 分词。第四,最后调用 WordCloud 词云包,将数据用  
词云进行显示:plt.showꢀ()  
一、基于 Python 的聚焦型网络爬虫架构  
三、爬虫实现  
(一)网络爬虫的定义及分类  
网络爬虫,又称网页蜘蛛,是一个功能强大的能够自动  
提取网页信息的程序。它模仿浏览器访问网络资源,从而获  
取用户需要的信息。网络爬虫主要分为四类:通用型爬虫、  
聚焦型爬虫、增量型爬虫、深层爬虫。  
本文以爬取猫眼电影《悲伤逆流成河》影评为例,详细  
讲解 Python 爬虫的实现原理 .  
(一)抓取网页数据  
步骤一:要想爬取网页,我们首先将其下载下来。我们  
选择最基础的方式使用 Python 的 urllih 模块进行下根据 url  
获取数据。  
(二)工作流程  
聚焦型网络爬虫的工作流程如下:第一:找出初始种子  
URL 的集合 . 第二:在该集合中将相应的 url 从确定的网站  
下载到本地,将相同的 url 队列放在一起。第三:对已经下  
载好的数据进行分析处理。第四:重复第二第三步骤,直到  
将所有的 url 进行完全抓取。  
步骤二:需要对得到的 html 代码进行解析,提取我们需  
要的数据。  
步骤三:存储下载好的影评到指定文件夹。  
下载数据的起始时间为 2018 年 11 月 3 日零点,截止时  
间为 2018 年 11 月 3 日中午 12 点。共 60 条评论数据。  
(二)用词云进行展示  
二、数据获取  
本文采用 Python 网络爬虫来进行处理,由于猫眼是一个  
反爬虫的网站,所以在做网络爬虫时,还需要进行浏览器访  
问模拟,通过对网页源代码的分析,用正则表达式来获取所  
需数据。所以本实验以爬取猫眼最新电影影评为例,详细讲  
解 Python 聚焦型爬虫的实现原理。  
步骤一:导入 jieba 等模块,并获取所有评论,获取已  
经下载好的影评。  
步骤二:设置分词,设置屏蔽词。对数据进行中文分词  
操作,并去掉数据中没有参考价值的词包括:电影、一部、  
一个、没有等等。  
(一)页面抓取  
步骤三:导入背景图。导入的背景图片只用于获取图片  
内形状,非在背景图片上加影评。本次作业导入的是葫芦娃  
背景。  
根据指定的 url取猫眼网电悲伤逆流成河面。  
通过建立连接,发送 HTTP 请求 . 利用 Re-quests 建立与服  
务器的连接,当服务器接收到请求后,返回相应的 HTTP  
应答。  
步 骤 四: 将 分 词 后 数 据 传 入 云 图, 并 保 存。 调 用  
WordCloud 词云包,将数据用词云进行显示。以下是《悲伤  
时代金融  
71  
时 代 金 融  
逆流成河》词云图。  
的干扰 . 不过,若爬取的内容过多,Python 执行会花费很多  
时间,所以本文只获取 60 条影评数据。如果结合 Python 的  
多线程技术,再将一些诸如下载缓存优化和并发性等因素考  
虑在内的话,它的性能将会得到很大的改善。  
参考文献:  
[1]高宇,杨小兵 . 基于聚焦型网络爬虫的影评获取技  
术[J]. 中国计量大学学报,2018,29(03):299-303.  
[2]田晓玲,方园,贾民政,赵熙雅 . 基于数据分析的  
关键词类网络爬虫设计[J]. 北京工业职业技术学院学报,  
2018,17(04):36-43.  
[3]沈漪,华敏敏 . 基于 Python 正则表达式的彩票信  
息爬J. 徽电子信息职业技术学院学报201817(05:  
19-21.  
束语  
[4]罗咪 . 基于 Python 的新浪微博用户数据获取技术  
[J]. 电子世界,2018(05):138-139.  
网络爬虫作为新型获取目标信息的工具,其价值和使用  
前景都非常的大。本文中,针对性地爬取《悲伤逆流成河》  
影评数据,确保了数据的真实性与最新性,避免了无关数据  
(作者单位:云南师范大学泛亚商学院)  
(上接第 57 页)  
参考文献:  
四、金融企业并购其他风险与应对  
[1]巨潮资讯网,中国平安 2008-2017 年度报告 .  
[2]巨潮资讯网,深发展 Aꢀ2008-2011 年度报告 .  
[3]巨潮资讯网,平安银行 2012-2017 年度报告 .  
[4]《上市公司收购管理办法》(2014 年 10 月 23 日  
中国证券监督管理委员会令第 108 号).  
本文主要从财务风险的角度,简要分析了金融企业并购  
过程中的并购价值评估、并购资金融资与支付,以及税务处  
理等主要财务风险的控制和管理。  
一般来说,按风险内容进行分类,企业风险可以分为战  
略风险、财务风险、市场风险、运营风险和法律风险等,金  
融企业并购作为企业一项重要的经济活动,自然会涉及上述  
各类风险时还具有并购业务的特殊风险如并购战略、  
管理、财务、人力以及文化整合风险,而且整合成功与否对  
企业并购成败的影响甚至是至关重要的。  
[5]《上市公司重大资产重组管理办法》(2016 年 9  
月 8 日中国证券监督管理委员会令第 127 号).  
[6企业会计准则—企业合并20063 .  
[7]《 企 业 风 险 管 理 —— 整 体 框 2004 年 美 国  
COSO 委员会发布 .  
金融企业在并购过程中,必须充分考虑各类风险,并将  
各类风险细化、分解,经过充分的讨论和论证,制订科学可  
行的并购方案,完善并购管理流程和内部控制措施,规避或  
者降低企业并购过程中存在的危险性风险因素产生的不利影  
响,提高金融企业并购工作效率和经济效益。  
[8]《财政部、国家税务总局关于促进企业重组有关  
企业所得税处理问题的通知》(财税〔2014〕109 号).  
(作者单位: 东亚银行(中国)有限公司广州分行)  
72  
时代金融  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载