推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的Web数据采集及实现分析

更新时间:2019-12-24 15:50:30 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:pythonweb数据采集 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

近些年,国内计算机网络技术进步显著,随着 web信息量不断增加,当今人们已经进入到了大数据时代。如何在海量的数据当中获取有效信息、挖掘信息潜在价值已经成为当今社会的研究热点。基于此,本次研究提出的 WEB的数据采集方案,使用的核心技术为Python。然后在此基础上,论述了基于HTTP协议之下的WEB数据采集机制,最后给出基于Python技术的Web数据采集方法的具体实现。


部分文件列表

文件名 大小
基于Python的Web数据采集及实现分析.pdf 2M

部分页面预览

(完整内容请下载后查看)
教育论坛  
基于PythonWeb数据采集及实现分析  
刘懿辉  
湖南省长沙市麓山南路中南大学, 湖南省长沙 410083  
摘 要:近些年,国内计算机网络技术进步显著,随着 web  
信息量不断增加今人们已经进入到了大数据时代何在海量  
的数据当中获取有效信息掘信息潜在价值已经成为当今社会的  
研究热点。基于此,本次研究提出的 WEB 的数据采集方案,使用  
的核心技术为 Python。然后在此基础上,论述了基于 HTTP 协议之  
下的 WEB 数据采集机制后给出基于 Python 技术的 Web 数据  
采集方法的具体实现。  
而实现数据的提取可以借助于Re模块来实现对采集到的数  
据信息成功加以HTML解析,则可以通过 XPath 来实现。而这种  
数据采集技术,完全可以借助于Python来实现,而且后者还能够使  
用很少的代码,就能够完成以上的诸多功能。  
2.2HTTP交互模块  
实现该交互功能的关键模块为urllib2,它可以支持HTTP的认  
转和代理以及cookie功能且该模块不仅包括于 Python  
标准库时还可以对HTTP报文请求中的头和实体整改提供支持,  
读取报文内容于urllib2 URLopen支持HTTP的应答处理以及请求  
构造功能。其中,展示资源下载路径,是通过URL参量来实现。假  
设该Data参数为Null态,那么GET请求开始被传出,而且该请求还  
没有相应的实体data参数作为非时空表示要发出具体实体。  
如果请求时间超出标准,那么就可以用 Timeout 参数来加以表  
示。在调动urllib2、URLopen过程中,通常会产生以下两种情况:  
(1)HTTP 错误果是因为 web 服务器故障或网络故障就会  
造成请求超时错误,产生错误代码。那么 urllib2 和 URLopen 模  
块,就会展现出相应的异常信息,这样,获取该异常信息,还需要  
对错误种类加以判断。  
关键词Pythonweb;数据采集;方案  
引言  
互联网的出现给人们生活作带来了巨大变化由于网络  
的多样化页文档信息的复杂化多信息数据都被嵌入到了web  
当中,数据量也在不断增加,人类正式进入到了大数据时代。而获  
取该数据的方法主要为:一是基于本体数据获取;二是基于规则、  
地理位置的数据扩区是基于网站查询的数据获取是地理位  
置获取用行之有效的对策以把有效的信息在海量的数据中  
提炼出来挖掘信息中的潜在价值分发挥相关信息的积极作  
实际实践中发现对该数据的采集果使用Python工具,  
那么采集速度变得更为快速,而且极具实用性。正是如此,本次针  
对该项采集技术展开深入分析。  
(2)如果该 HTTP 没有错误,那么上述两个模块就会给出相  
应的对象,这样,就可以基于该对象的 Read 方法,就能得到对应  
的报文内容果是反馈数据是以 gzip 压缩包传输方法次过程  
中还需要采用 gzip 解码此开发语言标准库中涵盖了  
cookielib 模块,该模块主要是管理 cookie,urllib2 通过 cookielib 即  
可自动对 cookie 进行维护。  
1web数据抓取技术介绍  
1.1web数据抓取  
提取网站上相关数据的技术,就是所谓的Web数据抓取技术,  
其英文全称为: web scraping。这项技术主要是对浏览器操作行  
为进行模拟,然后将所需的信息进行提取。所以,该技术又可以称  
作屏幕抓取技术,其英文全称为: screen scraping。该数据采集  
技术,就是基于结构化信息,对海量网页中数据进行提取,进而使  
之实现结构化存储,包括JSON、access等。该数据采集技术可以采  
集网站上诸多非结构化数据后将其进行统一处理换成统一  
格式文件加以存储,并保留到指定云端或硬盘当中。  
1.2web scraping的作用  
2.3HTML解析模块  
借助于HTML数据交互模块,便能提炼到相应的网页数据。然  
而,首次采集到的数据,还具有显著的粗造性,同时相关编码也相  
对混乱,远没有XML规范。这就需要对文档字符进行编码,采用  
<head>模块中所内置的content-type元得到相应数据后将其转换  
成Unicode数据类型应的目的是要确保所读取的编码具有一  
致性是就能显著提升数据存取的快捷性针对该高级语言的  
标准库中应的操作模块则可以用Re进行表达后借助于网页  
信息加以分析,以对象字符串为基础,找到相应的字符数据,根据  
这些字符数据即可正确表达出关系式,并通过re模块提取信息。  
对XML文档进行查询,主要是借助于Xpath语言来实现,它居  
于导航功能。利用XPath即可在HTML当中找到关键节点。另外在  
Python这个高级语言中,内置了相应的子数据库,也就是Lxml,它  
支持XPath标准范围。通过正确表达式和XPath结合,即可灵活提取  
相关信息,并进行规范化处理,除去标记、反转义、空白字符等,  
实现数据优化。  
由于该项技术可以自动利用子计算机程序实现网页信息的摘  
生成统一的格式存储到指定位置上个流程不需要人为干  
且实现效率非常高实际获取信息过程中的加载效率要比  
浏览器更高,这是因为浏览器需要下载HTML数据以及相关格式文  
件,还要渲染引擎对网络进行排布,执行相关代码等。然而在程序  
提取技术支持之下,只要对 HTML 数据进行提取便可,极大的  
减少了下载时间且自动化效率要比人工更高统人工操作方  
法多少会存在着遗漏或错误等问题错过程的难度非常大是  
程序抓取技术具有高精度优势使在获取信息时出现了错误也  
可以通过修改程序进行纠错。  
结束语  
2、基于Pythonweb数据采集的实现  
综上所述过web抓取实现在非结构数据web程序的自动化  
操作时也能够保障web资源采集效率免人为操作的限制性,  
优化整个信息采集过程中,实用性非常好,值得进一步推广。  
参考文献  
2.1机理  
Python 是一种基于面向对象,且采用直译方法的高级程序  
语言。在实际应用当中可读性强、简便清晰、维护方便,并且具备  
十分强大的数据库以为web scraping开发提供极大的便利性和  
Web 服务器进行数据交互,则可以使用urllib2来实现,而它隶属  
于HTTP模块。而对 cookie 进行管理,则可以使用cookielib模块。  
[1]潘雪婷. 基于Python的控件分析模型的实现[D]. 中国地质大  
学(北京), 2010.  
412  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载