推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python语言的互联网数据收集软件的设计

更新时间:2019-12-25 17:33:24 大小:3M 上传用户:songhuahua查看TA发布的资源 标签:python数据收集 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

随着数据的开放,互联网上公布的许多数据均可为科研所用。利用人工收集的方法获取这些数据费时费力,而采用网络爬虫技术采集这些数据可有效的提升我们的工作效率。本文利用Python语言及其丰富的第三方库,编写了对空气质量,气象等各类数据进行抓取的爬虫,并为其设计GUI,将其打包成可以在Windows下运行的软件。该软件操作简单,界面友好,对非计算机专业的人员运用网络爬虫收集科研数据提供了便利条件。


部分文件列表

文件名 大小
基于Python语言的互联网数据收集软件的设计.pdf 3M

部分页面预览

(完整内容请下载后查看)
专业管理  
Python言的互联网数据收集软件的设计  
林亦凡 刘孟长安大学西 西安 710054)  
随着数据的开放联网上公布的许多数据均可  
Phantomjs 抓取是会大量占用电脑内存与 CPU。故笔者将  
Headers 置成手机以便正常抓取。由于代码较长不在此  
放出。  
为科研所用。利用人工收集的方法获取这些数据费时费力而  
采用网络爬虫技术采集这些数据可有效的提升我们的工作效  
率。本文利Python语言及其丰富的第三方库写了对空气  
质量象等各类数据进行抓取的爬虫为其设GUI其  
打包成可以Windows下运行的软件。该软件操作简单面  
友好非计算机专业的人员运用网络爬虫收集科研数据提供  
了便利条件。  
1.3 空间热度图与点密度图绘制的设计  
可以运Python的标准matplotlib绘制空间的点密度热  
密度图将上述地图中收集的数据反应的地图中。本软件只  
是应用 hexbin 函数做了简单的绘制。由于需要将 matplotlib 嵌  
PyQt5开发的窗口内代码较长再给出。  
关键词Python络爬虫气质量数据  
2 PyQt5GUI设计  
网络爬虫是用户获取互联网数据的有效工具以用于编  
写网络爬虫的语言亦有多种中比较常用的语言pythonja-  
vaC++等。Python 是一种面向对象的解释型计算机程序设计  
语言用于诸多方面Web 前端与后端计软件的  
GUI数据分析等等。  
2.1 功能的描述  
PyQt5GUI 设计6个爬虫进行封装[2]。其  
中空气质量按钮对应空气质量数据收自动每一小时收集一  
其中标转换按钮为百度地图收集的数据的坐标转换  
(需key。  
1 Python语言的网络爬虫建立  
2.2 界面的设计与运行情况  
为了简化界面界面中的菜单栏与状态栏统统删除只  
留下 6 个爬虫的相关按钮并尽可能放大,2。为了保证界  
面的美观性再允许用户将界面最大化固定主界面的大  
小。其中空气质量数据象数据度地图德地图的二级  
界面基本一致入爬取内容与保存位置点击开始即可。  
对于地图绘制功能本软件实现的难点内容。需要将  
matplotlib 画布嵌到界面中现起来有些复杂[3]。该界面提供  
了西安市及其各个区的轮廓图密度与热密度图的绘制。  
本软件的编写环境与 Python 第三方库见表 1Requests 库  
Python编写urllib 更加方便以节约我们大量的工  
全满足 HTTP 测试需求[1]BeautifulSoup 是一个可以从  
HTML XML 文件中提取数据的 Python 库。PyQt5 QT 专门  
Python 所写的第三方库以用于软件 GUI 的编写。Pyin-  
staller可以Python.py件封装成可以Windows电脑上  
运行.exe执行文件。  
1 软件建立所需的工具及其版本  
编写环境IDE  
第三方库与版本号  
库的作用  
Python3.5.2  
Windows10  
Requests 2.12.1  
用于爬虫编写  
PyCharm 2016.3  
Sublime Text3  
BeautifulSoup 4.5.1  
PYQT5 5.8.1  
Pyinstaller  
用于爬虫编写  
用于软GUI计  
用于封python序  
2 软件主界面  
3 讨论与展望  
运用 Python 编写爬虫软件用于科研相关数据的抓取,  
可以更好的服务于科学研究。Python 语言应用广泛统计分  
析方面也正在追R语言数学建模与数据分析方面亦正在  
MATLIB其编写桌面程序的开发效率较高以较快的  
实现某些功能。  
1.1 百度地图数据的抓取  
一般我们研究区域污染状况成因时要找出污染源的坐  
宏观研究而言度地图是一个很好的选择。经过分析,  
百度地图提供一个接口http://map.baidu.com/?newmap=1&req-  
flag=pcmap&biz=1&from=webmap&da_par=direct&pcevaname=  
pc4.1&qt=con&from=webmap&c=233&wd={}&pn={}其中 wd 代  
表的是所需的查找内容pn 用于翻页。需要指出的是果访  
问过于快速出现访问不成功现象时需要放慢抓取速度  
与设置断点续传的功能[3]。抓取数据坐标是百度墨卡托坐标,  
与经纬度坐标有很大出入要进行坐标转换。  
参考文献:  
[1]狄博. 基于 Python 语言的面向对象程序设计课  
程教学[J]. 计算机工程与科学201436S1122ꢀ125.  
[2]钱程小兰福喜. 基于 Python 的网络爬虫技术[J].  
黑龙江科技信息201636:273.  
1.2 空气质量数据的抓取设计  
[3]康计良. Python 语言的可视化编程环境的设计与实现  
本软件的空气质量数据来源于网站[D].西安电子科技大学2012.  
在抓取中由于 PC端的网页采取的 Ajax 所以学采用 Selenium 与  
201712月  
130  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载