您现在的位置是：首页 > 技术资料 > 基于Python聚焦型网络爬虫的影评获取技术

推荐星级：

基于Python聚焦型网络爬虫的影评获取技术

更新时间：2019-12-22 20:50:57 大小：2M 上传用户：songhuahua 查看TA发布的资源 标签：python 网络爬虫 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

在大数据的环境下,网络资源越加丰富,传统的搜索引擎已经不能够满足大众获取信息的需求,随着计算机逐步的发展,网络爬虫的出现进入了人们的视野。本文主要讲述了网络爬虫的概念、模块以及操作流程,并通过给定的网址快速爬取影评信息,进行分词做成词云图形式展示出来。

部分文件列表

文件名	大小
基于Python聚焦型网络爬虫的影评获取技术.pdf	2M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

基于 Python 聚焦型网络爬虫的影评获取技术

摘要：在大数据的环境下，网络资源越加丰富，传统的搜索引擎已经不能够满足大众获取信息

的需求，随着计算机逐步的发展，网络爬虫的出现进入了人们的视野。本文主要讲述了网络爬虫的

概念、模块以及操作流程，并通过给定的网址快速爬取影评信息，进行分词做成词云图形式展示出来。

关键词：Python 爬虫影评正则表达式词云

● 郭向向ꢀ郑嘉慧ꢀ苗学芹

当今互联网技术迅速发展，出现了包括大数据和云计

算等等新型的技术，在如此庞大的数据量中获取自己想要

的需要耗费大量的时间，搜索的结果准确率也不是很高。

本文通过利用 Python 爬虫分类中的聚焦型爬虫网络系统，

在指定的网页下抓取相关的信息。在本文的实验中通过在

电脑网页中以手机用户的身份抓取猫眼网中最新电影《悲

伤逆流成河》的影评信息，成功的爬取后保存到本地，接

着利用 jieba 分词对下载好的影评信息进行过滤筛选，将高

频率出现的词语通过影评词云图的形式展现在面前。这样

的爬取信息大大的提高了爬取信息的准确性，提高了资源

的利用率，节约了查找信息的时间，真正的实现了有目的

性的抓取信息。ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ

（二）页面处理

进行页面处理时，首先需要对 HTML 相关的源代码进行

过滤和处理，分析出需要的信息，然后再对分析出的结果进

行整合。对应网页的 HTML 结构文档。

（三）数据可视化分析

数据可视化是数据分析很重要的一部分，它能够从繁杂

的数据中更直观更有效的获取信息 . 当获取到影评信息之后，

需要对数据进行可视化，首先需要做的是数据的清洗。第一，

将所有的评论转化为字符串格式。第二，利用正则表达式匹

配中文，去掉所有的标点符号。第三，对数据进行中文分词

操作，并去掉数据中没有参考价值的虚词，实验中使用的是

Jieba 分词。第四，最后调用 WordCloud 词云包，将数据用

词云进行显示：plt.showꢀ（）

一、基于 Python 的聚焦型网络爬虫架构

三、爬虫实现

（一）网络爬虫的定义及分类

网络爬虫，又称网页蜘蛛，是一个功能强大的能够自动

提取网页信息的程序。它模仿浏览器访问网络资源，从而获

取用户需要的信息。网络爬虫主要分为四类：通用型爬虫、

聚焦型爬虫、增量型爬虫、深层爬虫。

本文以爬取猫眼电影《悲伤逆流成河》影评为例，详细

讲解 Python 爬虫的实现原理 .

（一）抓取网页数据

步骤一：要想爬取网页，我们首先将其下载下来。我们

选择最基础的方式使用 Python 的 urllih 模块进行下根据 url

获取数据。

（二）工作流程

聚焦型网络爬虫的工作流程如下：第一：找出初始种子

URL 的集合 . 第二：在该集合中将相应的 url 从确定的网站

下载到本地，将相同的 url 队列放在一起。第三：对已经下

载好的数据进行分析处理。第四：重复第二第三步骤，直到

将所有的 url 进行完全抓取。

步骤二：需要对得到的 html 代码进行解析，提取我们需

要的数据。

步骤三：存储下载好的影评到指定文件夹。

下载数据的起始时间为 2018 年 11 月 3 日零点，截止时

间为 2018 年 11 月 3 日中午 12 点。共 60 条评论数据。

（二）用词云进行展示

二、数据获取

本文采用 Python 网络爬虫来进行处理，由于猫眼是一个

反爬虫的网站，所以在做网络爬虫时，还需要进行浏览器访

问模拟，通过对网页源代码的分析，用正则表达式来获取所

需数据。所以本实验以爬取猫眼最新电影影评为例，详细讲

解 Python 聚焦型爬虫的实现原理。

步骤一：导入 jieba 等模块，并获取所有评论，获取已

经下载好的影评。

步骤二：设置分词，设置屏蔽词。对数据进行中文分词

操作，并去掉数据中没有参考价值的词包括：电影、一部、

一个、没有等等。

（一）页面抓取

步骤三：导入背景图。导入的背景图片只用于获取图片

内形状，非在背景图片上加影评。本次作业导入的是葫芦娃

背景。

根据指定的 url，抓取猫眼网电影《悲伤逆流成河》页面。

通过建立连接，发送 HTTP 请求 . 利用 Re-quests 建立与服

务器的连接，当服务器接收到请求后，返回相应的 HTTP

应答。

步骤四：将分词后数据传入云图，并保存。调用

WordCloud 词云包，将数据用词云进行显示。以下是《悲伤

时代金融

逆流成河》词云图。

的干扰 . 不过，若爬取的内容过多，Python 执行会花费很多

时间，所以本文只获取 60 条影评数据。如果结合 Python 的

多线程技术，再将一些诸如下载缓存优化和并发性等因素考

虑在内的话，它的性能将会得到很大的改善。

参考文献：

［1］高宇，杨小兵 . 基于聚焦型网络爬虫的影评获取技

术［J］. 中国计量大学学报，2018，29（03）：299-303.

［2］田晓玲，方园，贾民政，赵熙雅 . 基于数据分析的

关键词类网络爬虫设计［J］. 北京工业职业技术学院学报，

2018，17（04）：36-43.

［3］沈漪，华敏敏 . 基于 Python 正则表达式的彩票信

息爬取［J］. 安徽电子信息职业技术学院学报，2018，17（05）：

19-21.

四、结束语

［4］罗咪 . 基于 Python 的新浪微博用户数据获取技术

［J］. 电子世界，2018（05）：138-139.

网络爬虫作为新型获取目标信息的工具，其价值和使用

前景都非常的大。本文中，针对性地爬取《悲伤逆流成河》

影评数据，确保了数据的真实性与最新性，避免了无关数据

（作者单位：云南师范大学泛亚商学院）

（上接第 57 页）

参考文献：

四、金融企业并购其他风险与应对

［1］巨潮资讯网，中国平安 2008-2017 年度报告 .

［2］巨潮资讯网，深发展 Aꢀ2008-2011 年度报告 .

［3］巨潮资讯网，平安银行 2012-2017 年度报告 .

［4］《上市公司收购管理办法》（2014 年 10 月 23 日

中国证券监督管理委员会令第 108 号）.

本文主要从财务风险的角度，简要分析了金融企业并购

过程中的并购价值评估、并购资金融资与支付，以及税务处

理等主要财务风险的控制和管理。

一般来说，按风险内容进行分类，企业风险可以分为战

略风险、财务风险、市场风险、运营风险和法律风险等，金

融企业并购作为企业一项重要的经济活动，自然会涉及上述

各类风险，同时还具有并购业务的特殊风险，例如并购战略、

管理、财务、人力以及文化整合风险，而且整合成功与否对

企业并购成败的影响甚至是至关重要的。

［5］《上市公司重大资产重组管理办法》（2016 年 9

月 8 日中国证券监督管理委员会令第 127 号）.

［6］《企业会计准则—企业合并》（财会［2006］3 号）.

［7］《企业风险管理 —— 整体框架》2004 年美国

COSO 委员会发布 .

金融企业在并购过程中，必须充分考虑各类风险，并将

各类风险细化、分解，经过充分的讨论和论证，制订科学可

行的并购方案，完善并购管理流程和内部控制措施，规避或

者降低企业并购过程中存在的危险性风险因素产生的不利影

响，提高金融企业并购工作效率和经济效益。

［8］《财政部、国家税务总局关于促进企业重组有关

企业所得税处理问题的通知》（财税〔2014〕109 号）.

（作者单位：东亚银行（中国）有限公司广州分行）

时代金融

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

SYFSSYYFF 打赏3.00元 2天前

资料：诺蒂菲尔4合一编程软件N-VFT V4
我是蒙帆打赏1.00元 3天前

资料：TS-14PFX-4 TS-16PFX-4 调音台说明书
21ic小能手打赏10.00元 3天前

资料：大疆M3508 无刷电机完整驱动程序
21ic小能手打赏10.00元 3天前

资料：智慧景区AI大模型智能安防应用方案
21ic小能手打赏5.00元 3天前

资料：数字政府AI大模型场景应用可行性研究报告
21ic小能手打赏5.00元 3天前

资料：数字县域智慧城市工程总承包（EPC）可行性研究报告Word(
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：gsy幸运
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏210.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏210.00元 3天前

用户：xzxbybd
21ic下载打赏70.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：kk1957135547

21ic下载打赏15.00元 3天前

用户：w993263495
21ic下载打赏30.00元 3天前

用户：SkyEagle88
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏5.00元 3天前

用户：dong2223333
21ic下载打赏10.00元 3天前

用户：dxb3320
21ic下载打赏10.00元 3天前

用户：DXB193394
21ic下载打赏10.00元 3天前

用户：westup
21ic小能手打赏15.00元 3天前

资料：stm32的单片机带云台智能小车有图像识别
21ic小能手打赏20.00元 3天前

资料：科创大赛“料理人生”厨房智能机器人项目资料包
21ic小能手打赏8.00元 3天前

资料：久坐智能提醒坐垫项目申报书资料
21ic小能手打赏5.00元 3天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 3天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 3天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 3天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 3天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 3天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路

基于Python聚焦型网络爬虫的影评获取技术

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页