您现在的位置是：首页 > 技术资料 > 大数据时代下基于Python的网络信息爬取技术

推荐星级：

大数据时代下基于Python的网络信息爬取技术

更新时间：2019-12-27 09:26:17 大小：1M 上传用户：songhuahua 查看TA发布的资源 标签：python 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

在大数据时代下,各行各业都需要大量数据的支持,如果所有数据都经过人工搜索、分析、提炼,则会大大增加工作难度。基于Python的网络信息爬取技术可以自动完成网络数据的收集、解析、格式化存储,从而提升工作效率。本文以网络信息爬取技术为研究重点,分别介绍网络爬虫的基础架构与运行流程,以及基于Python的网络爬取技术实现。

部分文件列表

文件名	大小
大数据时代下基于Python的网络信息爬取技术.pdf	1M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

数据库技术

Data Base Technique

大数据时代下基于 Python 的网络信息爬取技术

文/刘顺程岳思颖

基于以上架构的网络爬取流程，首先是

调度端询问URL 管理器，是否有待爬取的

URL，如过返回是，调度端会取得第一个待爬

取URL 地址，并将其传送给网页下载器进行

网页下载，调度端接收到网页下载内容后立即

将其传送给网页解析器，解析后返回价值数据

和新的URL 列表给调度端，一方面将价值数

据传递给应用进行收集，另一方面将新URL

列表增加到URL 管理器中。只要URL 管理器

有待爬取URL，以上过程会循环进行。最终

调度端会将应用中的价值数据进行处理并输出

为需要的格式。

HTTPCookieProcessor，将爬虫程序伪装成用

户使用浏览器正在登录该网站，随后即可顺利

获取网页内容。

在大数据时代下，各行各业

都需要大量数据的支持，如果所

有数据都经过人工搜索、分析、

提炼，则会大大增加工作难度。

基于Python的网络信息爬取技术

可以自动完成网络数据的收集、

解析、格式化存储，从而提升工

作效率。本文以网络信息爬取技

术为研究重点，分别介绍网络爬

虫的基础架构与运行流程，以及

基于Python的网络爬取技术实现。

摘

要

网页解析器是一个能从网页字符串文件

中解析出价值数据的处理器，对于的专业爬虫

来说就是提取出待爬取URL 列表和提取出价

值数据。Python 中有许多网页解析器，其中使

用最为广泛的是BeautifulSoup 这个第三方插

件，它首先进行网页字符的结构化解析，利用

HTML 与DOM 的映射关系，将HTML 文档

转化为DOM 树，对其进行基于结构的过滤和

基于语义的剪枝操作，使用树形结构能很精准

定位到某个节点、属性、文本内容；接下来即

可使用ﬁnd_all 或ﬁnd 方法查询相应节点，访

问节点名称、属性、文字；从而提取出价值信

息进行分析。

【关键词】网络爬虫 Python 大数据

2 基于Python的爬虫模块技术实现

随着“互联网+”概念不断普及，网络信

息量呈突发式暴增，导致传统搜索引擎普遍存

在搜索结果附带大量无关信息的问题，加大了

收集专用数据的难度。于是，网络信息爬取技

术（后简称网络爬虫技术）应运而生。

URL 管理器能管理待爬URL 列表和已爬

URL 列表，能够有效防止重复抓取和循环抓

取，在Python 中的实现方式有三种：通过内

存，将URL 列表存储在Python 内存中，使用

两个set() 数据结构分别存储待爬取与已爬取

列表，Python 中的set() 能自动去除集合中重

复的元素，从而有效防止重复抓取。第二种是

将URL 存储在关系数据库中，比如MySQL，

可以建立一张名为url_list 的表，字段为（url,is_

crawled）分别表示URL 地址和标识该URL

是已被否爬取，这样就使用一张表将待爬取和

已爬取都进行了存储。第三，在大型互联网公

司中常常使用缓存数据库来搭建URL管理器，

是由于其高效率处理大量数据的能力，例如

redis，同样支持set 数据结构，也就可以将待

爬取与已爬取URL 存储在两个set 集合中。

网页下载器能将指定URL 的网页下载到

3 结束语

进入大数据时代，众多行业都急需价值

数据。网络爬取技术能帮助客户有效地收集网

络上的相关价值信息，大大降低人力搜索的工

作量。同时基于Python 的网络爬取技术不仅

简单易学，而且拥有强大的爬虫框架作为优势，

使得开发者能更快地开发出拥有指定功能的爬

虫程序。

使用网络爬虫技术可以自动完成网络数

据的挖掘与分析工作。现今的大数据时代，在

许多新兴产业中，通过爬虫爬取下来的信息可

以作为数据仓库多维展现的数据源，也可作为

数据挖掘的来源。所以网络爬虫技术是目前大

数据时代下的重要基础应用。

1 网络爬虫的架构与流程

参考文献

[1]罗刚.自己动手写网络爬虫[M].北京:

1.1 网络爬虫架构

清华大学出版社,2010.

网络爬虫架构主要有以下三个基础部分：

网络爬虫调度端；网络爬虫主程序；价值数据。

爬虫调度端能监控整个爬虫程序的运行

情况；其中爬虫主程序包括：

[2]王琦, 唐世渭, 杨冬青, 王腾蛟. 基于

DOM的网页主题信息自动提取[J].计算机

研究与发展,2004(10):1786-1792.

本地存储成本地文件或字符串格式，以便进行

后续步骤的数据分析，故网页下载器是爬取

程序的核心模块。在Python 中我们可以使用

urllib2 网页下载器。这是一个Python 官方基

础模块，它提供了网页下载、提交用户数据、

登录cookie 处理、代理访问处理等强大功

能；我们还能使用功能更为强大的requests，

它是一个Python 的第三方插件，同样支持网

页下载、登录、文件上传等功能。当我们请

求的URL 网页需要用户登录或验证登录时，

便可使用网页下载器提供的特殊处理器，例

如在登录操作中，通常需要操作cookie 才

能成功登陆，于是需要使用特殊的处理器如

（1）URL 管理器，管理将要爬取的URL

以及已经爬取过的URL；

作者简介

刘顺程（1997-），男，大学本科在读。就读

于重庆邮电大学软件工程学院。主要研究方向

为网络安全与大数据。

（2）网页下载器，根据待爬URL 将指

定的网页下载下来，并存储为字符串数据；

（3）网页解析器将网页字符串数据进行

数据抽取，一方面提取出价值数据，另一方面

提取出新的关联URL 传递给URL 管理器。三

个部分循环进行，只要URL 管理器还有待爬

取的URL，就会循环进行下去，最终提取出

所有价值数据。

岳思颖（1997-），女，大学本科在读。就读

于重庆邮电大学软件工程学院。主要研究方向

为网络技术。

作者单位

重庆邮电大学软件工程学院重庆市 400065

1.2 网络爬虫流程

电子技术与软件工程ꢀꢀ

Electronic Technology & Software Engineering

160 ·

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic小能手打赏5.00元 3天前

资料：STM32F1主控720空心杯四轴飞行器源代码
21ic小能手打赏5.00元 3天前

资料：STM32F07智能家居控制
21ic小能手打赏5.00元 3天前

资料：stm32单片机自制-超声波自拍神器
21ic小能手打赏5.00元 3天前

资料：辉光管手表-核心板（自制）
21ic小能手打赏5.00元 3天前

资料：Multisim（七秒）倒计时电路设计(全套)程序仿真报告
21ic小能手打赏5.00元 3天前

资料：Multisim（四人）抢答器电路设计(全套)程序仿真报告
21ic小能手打赏5.00元 3天前

资料：Multisim（三人）抢答器电路设计（全套）
21ic小能手打赏5.00元 3天前

资料：MultisimRC桥式震荡器正弦波发生器电路设计（仿真＋报告）
21ic小能手打赏5.00元 3天前

资料：MultisimRC桥式震荡器正弦波发生器电路设计（仿真＋报告）
21ic小能手打赏3.00元 3天前

资料：Multisim555延时灯电路设计仿真报告
21ic小能手打赏5.00元 3天前

资料：Multisim波形信号发生器电路设计仿真报告
21ic小能手打赏3.00元 3天前

资料：Multisim计数器电路设计
21ic小能手打赏3.00元 3天前

资料：Multisim频率计频率测量电路设计
21ic小能手打赏3.00元 3天前

资料：Multisim汽车尾灯电路设计
21ic小能手打赏3.00元 3天前

资料：Multisim汽车尾灯电路设计
21ic小能手打赏3.00元 3天前

资料：Multisim电子秒表电路设计
21ic小能手打赏5.00元 3天前

资料：Multisim数字电子钟仿真电路模型数字电子钟采用74LS160
21ic小能手打赏5.00元 3天前

资料：模电课设-基于Multism的八位和四位密码锁(全套)仿真报告原理图原创
21ic小能手打赏5.00元 3天前

资料：模电课设-基于Multism的数字电子时钟(全套)仿真报告原理图原创
21ic小能手打赏3.00元 3天前

资料：模电课设-基于Multism的八路医院紧急呼叫系统
21ic小能手打赏3.00元 3天前

资料：模电课设-Multism的四路医院紧急呼叫系统

21ic小能手打赏5.00元 3天前

资料：模电课设-基于Multism的波形发生器(全套)程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：Multism的汽车尾灯(全套)程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：Multism的篮球24秒倒计时(全套),仿真,报告,演示视频,原创
21ic小能手打赏5.00元 3天前

资料：STM32智能电子秤设计(全套)程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32智能台灯系统程序（全套）仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32智能门禁锁系统程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32的车牌号识别系统程序仿真 PCB 原理图原创
21ic小能手打赏3.00元 3天前

资料：stm32的信号发生器(全套)程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏3.00元 3天前

资料：STM32智能蓝牙手环程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏3.00元 3天前

资料：Mulitism的拔河游戏机 (全套)仿真报告原创
21ic小能手打赏3.00元 3天前

资料：交通灯_Multisium仿真仿真＋PCB
21ic小能手打赏3.00元 3天前

资料：stm32智能分类垃圾桶程序、电路
21ic小能手打赏3.00元 3天前

资料：stm32的电子秤(代码)
21ic小能手打赏5.00元 3天前

资料：STM32的智能气象站（全套）程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32的烟雾报警器（全套）程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32单片机的温度控制系统（全套）程序仿真 PCB 报告答辩PPT 原理图
21ic小能手打赏5.00元 3天前

资料：STM32的多功能循迹小车（全套）程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32的自动量程测电阻蓝牙传输42程序仿真 PCB 报告答辩PPT 原理图原创
21ic小能手打赏5.00元 3天前

资料：STM32F429IGT6的指纹密码锁程序 PCB 报告原理图原创

大数据时代下基于Python的网络信息爬取技术

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页