您现在的位置是：首页 > 技术资料 > 基于Python的信息采集系统的分析与设计

推荐星级：

基于Python的信息采集系统的分析与设计

更新时间：2019-12-24 14:23:53 大小：2M 上传用户：songhuahua 查看TA发布的资源 标签：数据获取 PYTHON 网络爬虫 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

人类社会已进入大数据时代,数据呈指数增长趋势。尤其是当今人工智能浪潮兴起的时代,不论是工程领域还是研究领域,数据已成为必不可少的一部分。传统的数据获取方式主要是由用户通过搜索引擎搜索信息,这种方式存在一些弊端,如所获信息与所需信息契合度不高、信息未进行有效分类等。为提高信息采集效率,由网络爬虫构建的信息采集系统已成为有效、高质获取数据的重要途径之一。本文使用Python构建网络爬虫,对信息采集系统进行设计与分析,阐述如何实现数据高效获取的过程。

部分文件列表

文件名	大小
基于Python的信息采集系统的分析与设计.pdf	2M

立即下载

部分页面预览

（完整内容请下载后查看）

精品

JINGPIN

基于 Python 的信息采集系统的分析与设计

■ 陈艺扬郭子雄何文

南京工程学院江苏南京 211167

摘要：人类社会已进入大数据时代，数据呈指数增长趋势。尤其是当今人工智能浪潮兴起的时代，不论是工程领域还是研究领域，

数据已成为必不可少的一部分。传统的数据获取方式主要是由用户通过搜索引擎搜索信息，这种方式存在一些弊端，如所获信息

与所需信息契合度不高、信息未进行有效分类等。为提高信息采集效率，由网络爬虫构建的信息采集系统已成为有效、高质获取

数据的重要途径之一。本文使用Python构建网络爬虫，对信息采集系统进行设计与分析，阐述如何实现数据高效获取的过程。

关键词：数据获取；Python；网络爬虫

1 相关技术简介

1.1网络爬虫

据库 redis 当中，适合存储大量数据。

（2）网页解析器

网络爬虫是一种按照一定匹配规则提取 Web 页面中特定

内容的程序或脚本，通过搜索网页地址的方式实现对用户需求

内容查找，将查找并传送结果的过程。爬虫是代替人手工完成

网页解析器是对网页中的内容和数据进行解剖与分析。在

Python 基础上的网页解析器主要分为两种：一种是采用正则表

达式将整个网页文档看作字符串，使用模糊匹配的方式将有价

爬取工作的自动化程序，能够在抓取过程中进行各种异常处理、值的数据提取出来。另一种是根据 HTML 网页建立一个 DOM 树，

错误重试等操作，确保爬取持续高效地运行，相较于传统的浏通过树的形式对各个节点进行搜索遍历，DOM 树形结构根据上

览器查找模式准确率更高、信息量更大且更符合用户上网需求。下级关系，可以很容易地定位各个元素所在的位置。

1.2 Python

（3）网页下载器

Python 不仅提供了功能齐全的类库来帮助完成请求，包括

网页下载器是整个系统的核心模块，网页中展示的内容通

最基础的 urllib、trep 等 HTTP 库，还包含丰富的第三方工具包，常为 HTML 格式。现阶段在 Python 中支持的网页下载工具有两

例如强大的 Scrapy、requests。Python 能够对网络协议的各个层

次进行抽象封装，程序员仅需保证编写程序的逻辑性，而其强

大的字节流处理功能具有很快的开发速度，同样为程序开发的

高效性提供了重要保障。

类 : ① Python 官方支持的基础模块中的 urllib 包；② requests 第

三方工具包，它在功能方面具有十分显著的优势。

2.3功能设计

设计思想：系统主要采用模块化的设计方式，各个功能具

有自己独立的建设模块，这为后续代码的维护提供了极大的便

利，可以使代码的作用得到充分发挥。对于整个系统来说，需

要将各个模块进行编制以后来实现整体功能。

2 系统分析与设计

2.1需求分析

用户需求是根据提供的网页 URL，搜索提取指定类型的数

据、文件链接，并下载保存至数据库；功能性需求有用户功能，

包括输入网址、选择数据类型、查看保存的数据；系统功能有

获取并解析原代码、提取匹配内容、下载并存储数据；非功能

性需求有进度可视化、异常提醒。

3 结语

本系统利用 Python 标准库和第三方工具包构建了一个方便

数据采集者使用的可配置自动化信息采集系统。在本文中，并

未对系统前端和数据库表格进行具体设计，这些问题还需进一

步分析规划。随着科学技术的不断发展，以往传统的搜索引擎

已经难以满足当前的信息需求，而爬虫技术的应用有效地克服

了传统引擎的弊端，具有较大的应用研究价值，能够通过数据

抓取挖掘出更多潜在价值的信息，加上 Python 语言的功能强大，

能为各种软件工具提供支持，应用 Python 能够更加便捷地采集

Web 信息。

2.2系统框架

参考文献

[1] 龚莎 , 朱应钦 , 梁艳华 . 基于 Python 的可配置自动化爬虫系

统的设计与实现 [J]. 电脑迷 ,2018(10):203.

图1 系统框架结构

[2] 陈猛 . 基于 Python 的新浪新闻爬虫系统的设计与实现 [J].

现代信息科技 ,2018,2(07):111-112.

（1）网址管理器

网址管理的方法主要分为三类：① Python 内存存储，适合

存储少量数据。将网址储存到两个集合中，一个代表待爬集合，

一个代表已爬集合，然后在 Python 中用 Set（）来实现。Set（）

本身具有较强的清除功能，能够将系统中的重复值全部清除；

②关系数据库存储，适用于对数据进行长期存储。通过建立表，

其中用两个字段分别代表网址和爬取状态。③将网址存储到数

[3] 刘杰 , 葛晓玢 , 闻顺杰 . 基于 Python 的网络爬虫系统的设计

与实现 [J]. 信息与电脑 ( 理论版 ),2018(12):92-93，96.

[4] 于韬 , 李伟 , 代丽伟 . 基于 Python 的新浪新闻爬虫系统的设

计与实现 [J]. 电子技术与软件工程 ,2018(09):188，242.

（上接第 162页）

参考文献

[1] 安志红 , 秦颖 . “营改增”对工程造价的影响及对策 [J]. 建

筑经济 , 2017, (06):51-53.

场氛围。随着营改增的不断发展，企业也要做好研究工作，通

过不断积累与创新，以此来提高企业的经济效益，实现长远发

展目标。

2018年7月

164

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

x1707 打赏1.00元 3天前

资料：美的C21-WK2102超薄电磁炉主板电路图
lanmukk 打赏60.00元 3天前

资料：高质量 C++/C 编程指南
lanmukk 打赏10.00元 3天前

资料：高质量 C++/C 编程指南
21ic小能手打赏5.00元 3天前

资料：stm32单片机智能导盲拐杖（程序+仿真）
21ic下载打赏310.00元 3天前

用户：江岚
21ic下载打赏310.00元 3天前

用户：mulanhk
21ic下载打赏310.00元 3天前

用户：潇潇江南
21ic下载打赏210.00元 3天前

用户：小猫做电路
21ic下载打赏210.00元 3天前

用户：gsy幸运
21ic下载打赏210.00元 3天前

用户：zhengdai
21ic下载打赏140.00元 3天前

用户：jh0355
21ic下载打赏130.00元 3天前

用户：jh03551
21ic下载打赏60.00元 3天前

用户：lanmukk
21ic下载打赏60.00元 3天前

用户：kkkopj
21ic下载打赏70.00元 3天前

用户：cooldog123pp
21ic下载打赏20.00元 3天前

用户：烟雨
21ic下载打赏20.00元 3天前

用户：xuzhen1
21ic下载打赏20.00元 3天前

用户：sun2152
21ic下载打赏20.00元 3天前

用户：w178191520
21ic下载打赏15.00元 3天前

用户：w1966891335
21ic下载打赏15.00元 3天前

用户：w993263495

21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏15.00元 3天前

用户：liqiang9090
21ic下载打赏15.00元 3天前

用户：kk1957135547
21ic下载打赏5.00元 3天前

用户：创园船热情
21ic下载打赏5.00元 3天前

用户：ytf4210
21ic下载打赏10.00元 3天前

用户：有理想666
13806677280 打赏1.00元 3天前

资料：SONY ICF SW77 维修手册
21下载积分打赏20.00元 3天前

用户：white工
Lzhf918@ 打赏10.00元 3天前

资料：海尔LS55H310G液晶电源板电路图
21ic下载打赏310.00元 3天前

用户：mulanhk
21ic下载打赏310.00元 3天前

用户：lanmukk
21ic下载打赏310.00元 3天前

用户：zhengdai
21ic下载打赏240.00元 3天前

用户：江岚
21ic下载打赏240.00元 3天前

用户：潇潇江南
21ic下载打赏210.00元 3天前

用户：gsy幸运
21ic下载打赏70.00元 3天前

用户：小猫做电路
21ic下载打赏120.00元 3天前

用户：jh0355
21ic下载打赏110.00元 3天前

用户：jh03551
21ic下载打赏70.00元 3天前

用户：liqiang9090

基于Python的信息采集系统的分析与设计

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页