推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

大数据时代下基于Python的网络信息爬取技术

更新时间:2019-12-27 09:26:17 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

在大数据时代下,各行各业都需要大量数据的支持,如果所有数据都经过人工搜索、分析、提炼,则会大大增加工作难度。基于Python的网络信息爬取技术可以自动完成网络数据的收集、解析、格式化存储,从而提升工作效率。本文以网络信息爬取技术为研究重点,分别介绍网络爬虫的基础架构与运行流程,以及基于Python的网络爬取技术实现。


部分文件列表

文件名 大小
大数据时代下基于Python的网络信息爬取技术.pdf 1M

部分页面预览

(完整内容请下载后查看)
数据库技术  
Data Base Technique  
·
大数据时代下基于 Python 的网络信息爬取技术  
文/刘顺程 岳思颖  
基于以上架构的网络爬取流程,首先是  
调度端询URL 是否有待爬取的  
URL,如过返回是,调度端会取得第一个待爬  
URL 地址,并将其传送给网页下载器进行  
网页下载,调度端接收到网页下载内容后立即  
将其传送给网页解析器,解析后返回价值数据  
和新URL 列表给调度端,一方面将价值数  
据传递给应用进行收集,另一方面将URL  
列表增加URL 管理器中。只URL 管理器  
有待爬URL,以上过程会循环进行。最终  
调度端会将应用中的价值数据进行处理并输出  
为需要的格式。  
HTTPCookieProcessor,将爬虫程序伪装成用  
户使用浏览器正在登录该网站,随后即可顺利  
获取网页内容。  
在大数据时代下,各行各业  
都需要大量数据的支持,如果所  
有数据都经过人工搜索、分析、  
提炼,则会大大增加工作难度。  
Python网络信息爬取技术  
可以自动完成网络数据的收集、  
解析、格式化存储,从而提升工  
作效率。本文以网络信息爬取技  
术为研究重点,分别介绍网络爬  
虫的基础架构与运行流程,以及  
Python网络爬取技术实现。  
网页解析器是一个能从网页字符串文件  
中解析出价值数据的处理器,对于的专业爬虫  
来说就是提取出待爬URL 列表和提取出价  
值数据。Python 中有许多网页解析器,其中使  
用最为广泛的BeautifulSoup 这个第三方插  
件,它首先进行网页字符的结构化解析,利用  
HTML DOM 映射关HTML 档  
转化DOM 树,对其进行基于结构的过滤和  
基于语义的剪枝操作,使用树形结构能很精准  
定位到某个节点、属性、文本内容;接下来即  
可使find_all find 方法查询相应节点,访  
问节点名称、属性、文字;从而提取出价值信  
息进行分析。  
【关键词】网络爬虫 Python 大数据  
2 基于Python的爬虫模块技术实现  
随着“互联+”概念不断普及,网络信  
息量呈突发式暴增,导致传统搜索引擎普遍存  
在搜索结果附带大量无关信息的问题,加大了  
收集专用数据的难度。于是,网络信息爬取技  
术(后简称网络爬虫技术)应运而生。  
URL 管理器能管理待URL 列表和已爬  
URL 列表,能够有效防止重复抓取和循环抓  
取,Python 中的实现方式有三种:通过内  
存,URL 列表存储Python 内存中,使用  
set() 数据结构分别存储待爬取与已爬取  
列表,Python set() 能自动去除集合中重  
复的元素,从而有效防止重复抓取。第二种是  
URL 存储在关系数据库中,比MySQL,  
可以建立一张名url_list 的表url,is_  
crawled分别表URL 址和标识URL  
是已被否爬取,这样就使用一张表将待爬取和  
已爬取都进行了存储。第三,在大型互联网公  
司中常常使用缓存数据库来搭URL管理器,  
是由于其高效率处理大量数据的能力,例如  
redis,同样支set 数据结构,也就可以将待  
爬取与已爬URL 存储在两set 集合中。  
网页下载器能将指URL 的网页下载到  
3 结束语  
进入大数据时代,众多行业都急需价值  
数据。网络爬取技术能帮助客户有效地收集网  
络上的相关价值信息,大大降低人力搜索的工  
作量。同时基Python 的网络爬取技术不仅  
简单易学且拥有强大的爬虫框架作为优势,  
使得开发者能更快地开发出拥有指定功能的爬  
虫程序。  
使用网络爬虫技术可以自动完成网络数  
据的挖掘与分析工作。现今的大数据时代,在  
许多新兴产业中,通过爬虫爬取下来的信息可  
以作为数据仓库多维展现的数据源,也可作为  
数据挖掘的来源。所以网络爬虫技术是目前大  
数据时代下的重要基础应用。  
1 网络爬虫的架构与流程  
参考文献  
[1].己动手写网络爬[M].:  
1.1 网络爬虫架构  
清华大学出版,2010.  
网络爬虫架构主要有以下三个基础部分:  
网络爬虫调度络爬虫主程值数据。  
爬虫调度端能监控整个爬虫程序的运行  
情况;其中爬虫主程序包括:  
[2], , , . 于  
DOM网页主题信息自动提[J].算机  
研究与发,2004(10):1786-1792.  
本地存储成本地文件或字符串格式,以便进行  
后续步骤的数据分析,故网页下载器是爬取  
程序的核心模块。Python 中我们可以使用  
urllib2 网页下载器。这是一Python 官方基  
础模块,它提供了网页下载、提交用户数据、  
cookie 代理访问处理等强大功  
能;我们还能使用功能更为强大requests,  
它是一Python 的第三方插件,同样支持网  
页下载、登录、文件上传等功能。当我们请  
URL 网页需要用户登录或验证登录时,  
便可使用网页下载器提供的特殊处理器,例  
如在登录操作通常需要操cookie 才  
能成功登陆,于是需要使用特殊的处理器如  
1URL 管理器,管理将要爬取URL  
以及已经爬取过URL;  
作者简介  
刘顺程(1997-),男,大学本科在读。就读  
于重庆邮电大学软件工程学院。主要研究方向  
为网络安全与大数据。  
2网页下载根据待URL 指  
定的网页下载下来,并存储为字符串数据;  
3)网页解析器将网页字符串数据进行  
数据抽取,一方面提取出价值数据,另一方面  
提取出新的关URL 传递URL 管理器。三  
个部分循环进行,只URL 管理器还有待爬  
URL,就会循环进行下去,最终提取出  
所有价值数据。  
岳思颖(1997-),女,大学本科在读。就读  
于重庆邮电大学软件工程学院。主要研究方向  
为网络技术。  
作者单位  
重庆邮电大学软件工程学院 重庆市 400065  
1.2 网络爬虫流程  
电子技术与软件工程ꢀꢀ  
Electronic Technology & Software Engineering  
160 ·  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载