推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的信息采集系统的分析与设计

更新时间:2019-12-24 14:23:53 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:数据获取PYTHON网络爬虫 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

人类社会已进入大数据时代,数据呈指数增长趋势。尤其是当今人工智能浪潮兴起的时代,不论是工程领域还是研究领域,数据已成为必不可少的一部分。传统的数据获取方式主要是由用户通过搜索引擎搜索信息,这种方式存在一些弊端,如所获信息与所需信息契合度不高、信息未进行有效分类等。为提高信息采集效率,由网络爬虫构建的信息采集系统已成为有效、高质获取数据的重要途径之一。本文使用Python构建网络爬虫,对信息采集系统进行设计与分析,阐述如何实现数据高效获取的过程。


部分文件列表

文件名 大小
基于Python的信息采集系统的分析与设计.pdf 2M

部分页面预览

(完整内容请下载后查看)
精 品  
JINGPIN  
基于 Python 的信息采集系统的分析与设计  
■ 陈艺扬 郭子雄 何文  
南京工程学院 江苏南京 211167  
摘 要:人类社会已进入大数据时代,数据呈指数增长趋势。尤其是当今人工智能浪潮兴起的时代,不论是工程领域还是研究领域,  
数据已成为必不可少的一部分。传统的数据获取方式主要是由用户通过搜索引擎搜索信息,这种方式存在一些弊端,如所获信息  
与所需信息契合度不高、信息未进行有效分类等。为提高信息采集效率,由网络爬虫构建的信息采集系统已成为有效、高质获取  
数据的重要途径之一。本文使用Python构建网络爬虫,对信息采集系统进行设计与分析,阐述如何实现数据高效获取的过程。  
关键词:数据获取;Python;网络爬虫  
1 相关技术简介  
1.1络爬虫  
据库 redis 当中,适合存储大量数据。  
(2)网页解析器  
网络爬虫是一种按照一定匹配规则提取 Web 页面中特定  
内容的程序或脚本,通过搜索网页地址的方式实现对用户需求  
内容查找,将查找并传送结果的过程。爬虫是代替人手工完成  
网页解析器是对网页中的内容和数据进行解剖与分析。在  
Python 基础上的网页解析器主要分为两种:一种是采用正则表  
达式将整个网页文档看作字符串,使用模糊匹配的方式将有价  
爬取工作的自动化程序,能够在抓取过程中进行各种异常处理、 值的数据提取出来一种是根据 HTML 网页建立一个 DOM 树,  
错误重试等操作,确保爬取持续高效地运行,相较于传统的浏 通过树的形式对各个节点进行搜索遍历,DOM 树形结构根据上  
览器查找模式准确率更高、信息量更大且更符合用户上网需求。 下级关系,可以很容易地定位各个元素所在的位置。  
1.2 Python  
(3)网页下载器  
Python 不仅提供了功能齐全的类库来帮助完成请求,包括  
网页下载器是整个系统的核心模块,网页中展示的内容通  
最基础的 urllib、trep 等 HTTP 库,还包含丰富的第三方工具包, 常为 HTML 格式。现阶段在 Python 中支持的网页下载工具有两  
例如强大的 Scrapy、requests。Python 能够对网络协议的各个层  
次进行抽象封装,程序员仅需保证编写程序的逻辑性,而其强  
大的字节流处理功能具有很快的开发速度,同样为程序开发的  
高效性提供了重要保障。  
类 : ① Python 官方支持的基础模块中的 urllib 包;② requests 第  
三方工具包,它在功能方面具有十分显著的优势。  
2.3能设计  
设计思想:系统主要采用模块化的设计方式,各个功能具  
有自己独立的建设模块,这为后续代码的维护提供了极大的便  
利,可以使代码的作用得到充分发挥。对于整个系统来说,需  
要将各个模块进行编制以后来实现整体功能。  
2 系统分析与设计  
2.1求分析  
用户需求是根据提供的网页 URL,搜索提取指定类型的数  
据、文件链接,并下载保存至数据库;功能性需求有用户功能,  
包括输入网址、选择数据类型、查看保存的数据;系统功能有  
获取并解析原代码、提取匹配内容、下载并存储数据;非功能  
性需求有进度可视化、异常提醒。  
3 结语  
本系统利用 Python 标准库和第三方工具包构建了一个方便  
数据采集者使用的可配置自动化信息采集系统。在本文中,并  
未对系统前端和数据库表格进行具体设计,这些问题还需进一  
步分析规划。随着科学技术的不断发展,以往传统的搜索引擎  
已经难以满足当前的信息需求,而爬虫技术的应用有效地克服  
了传统引擎的弊端,具有较大的应用研究价值,能够通过数据  
抓取挖掘出更多潜在价值的信息,加上 Python 语言的功能强大,  
能为各种软件工具提供支持,应用 Python 能够更加便捷地采集  
Web 信息。  
2.2统框架  
参考文献  
[1] 龚莎 , 朱应钦 , 梁艳华 . 基于 Python 的可配置自动化爬虫系  
统的设计与实现 [J]. 电脑迷 ,2018(10):203.  
图1 统框架结构  
[2] 陈猛 . 基于 Python 的新浪新闻爬虫系统的设计与实现 [J].  
现代信息科技 ,2018,2(07):111-112.  
(1)网址管理器  
网址管理的方法主要分为三类:① Python 内存存储,适合  
存储少量数据。将网址储存到两个集合中,一个代表待爬集合,  
一个代表已爬集合,然后在 Python 中用 Set()来实现。Set()  
本身具有较强的清除功能,能够将系统中的重复值全部清除;  
②关系数据库存储,适用于对数据进行长期存储。通过建立表,  
其中用两个字段分别代表网址和爬取状态。③将网址存储到数  
[3] 刘杰 , 葛晓玢 , 闻顺杰 . 基于 Python 的网络爬虫系统的设计  
与实现 [J]. 信息与电脑 ( 理论版 ),2018(12):92-93,96.  
[4] 于韬 , 李伟 , 代丽伟 . 基于 Python 的新浪新闻爬虫系统的设  
计与实现 [J]. 电子技术与软件工程 ,2018(09):188,242.  
(上接第 162页)  
参考文献  
[1] 安志红 , 秦颖 . “营改增”对工程造价的影响及对策 [J]. 建  
筑经济 , 2017, (06):51-53.  
场氛围。随着营改增的不断发展,企业也要做好研究工作,通  
过不断积累与创新,以此来提高企业的经济效益,实现长远发  
展目标。  
2018年7月  
·
164  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载