您现在的位置是：首页 > 技术资料 > 基于Python的Web信息获取方法研究

推荐星级：

基于Python的Web信息获取方法研究

更新时间：2019-12-24 06:59:00 大小：1M 上传用户：songhuahua 查看TA发布的资源 标签：python web信息获取 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增。从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略。案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取。结果表明,Python在数据采集方面具有较高的有效性和可扩展性。

部分文件列表

文件名	大小
基于Python的Web信息获取方法研究.pdf	1M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

基于

的

ＰｔｈｏｎＷｅｂ

ｙ

信息获取方法研究

，，

魏冬梅何忠秀唐建梅

（，

西华大学计算机与软件工程学院四川成都

）

６１００３９

：

要随着大数据和云计算等新一代互联网技术的迅速发展

，。

信息量逐日海量递增从海量数据中提取有效

Ｗｅｂ

摘

ꢀ

，，、。

信息挖掘有潜在价值的关系成为当前的研究热点这对揭示已知规律预测未知结果有极大的辅助作用对当前

、，

信息获取方法原理和关键技术进行研究分析重点阐述了数据采集相关技术中网络爬虫算法的分类与应用

。

Ｗｅｂ

提出一种以

，，

和相关库为主要工具结合模块化方法构建

。

文本信息获取系统框架与流程的策略案例中

Ｐｔｈｏｎ

ｙ

Ｗｅｂ

，，，

通过定义采集函数实现对给定的维基百科词条快速搜索与该词条相关信息对词条内链接和外链接进行有效爬

。

，

。

在数据采集方面具有较高的有效性和可扩展性

Ｐｔｈｏｎ

取

结果表明

ｙ

：

Ｐｔｈｏｎ

ｙ

；；；

信息获取网络爬虫正则表达式

关键词

：

／

ＤＯＩ１０．１１９０７ｒｄｋ．１７２３０２

ｊ

：

Ａ

：（）

文章编号

１６７２７８００２０１８００１００４１０３

－－－

中图分类号

文献标识码

ＴＰ３０１

ꢀꢀꢀꢀꢀ

ＲｅｓｅａｒｃｈｏｆＷｅｂＴｅｘｔＩｎｆｏｒｍａｔｉｏｎＡｃｃｅｓｓＭｅｔｈｏｄＢａｓｅｄｏｎＰｔｈｏｎ

ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ

ｙ

，，

ＷＥＩＤｏｎｍｅｉＨＥＺｈｏｎｘｉｕＴＡＮＧＪｉａｎｍｅｉ

ꢀ

ｇ

－

ｇ

－

ꢀ

－

（

，

）

ＳｃｈｏｏｌｏＣｏｍｕｔｅｒＳｃｉｅｎｃｅａｎｄＳｏｔｗａｒｅＥｎｉｎｅｅｒｉｎＸｉｈｕａＵｎｉｖｅｒｓｉｔＣｈｅｎｄｕ６１００３９Ｃｈｉｎａ

ꢀｆ ꢀ ｆ ꢀ ｇ

ｐ

ꢀ

ｇ

ꢀ

ｙ

ｇ

ꢀ

：

ＡｂｓｔｒａｃｔＡｓｔｈｅｄｅｖｅｌｏｍｅｎｔｏｆｂｉｄａｔａａｎｄｃｌｏｕｄｃｏｍｕｔｉｎａｎｉｎｃｒｅａｓｉｎｎｕｍｂｅｒｏｆｉｎｆｏｒｍａｔｉｏｎｈａｓｂｅｅｎｂｏｏｓｔｅｄｓｉｎｉｆｉｃａｎｔ

ꢀ ꢀｇ ꢀꢀ ꢀｇ－

，

ｇ

ꢀ

ｐ

ꢀ

ｐ

ｇ

ꢀ

ｌ．Ｅｘｔｒａｃｔｉｎｔｈｅｉｎｆｏｒｍａｔｉｏｎａｎｄｅｘｔｒａｃｔｕｓｅｆｕｌｉｎｆｏｒｍａｔｉｏｎｆｒｏｍｈｕｅａｍｏｕｎｔｓｏｆｄａｔａｅｆｆｅｃｔｉｖｅｌｈａｓｂｅｅｎｂｅｃｏｍｉｎｔｈｅｃｕｒ

ꢀ ꢀ ｇꢀ ꢀ ꢀ ꢀ ꢀ

ｙ

ｇ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

－

，

ｒｅｎｔｈｏｔｓｏｔ．Ｍｏｒｅｏｖｅｒｉｔｈａｓｃｏｎｔｒｉｂｕｔｅｄｔｏｒｅｖｅａｌｉｎｔｈｅｋｎｏｗｎｒｅｕｌａｔｉｏｎｓａｎｄｒｅｄｉｃｔｉｎｕｎｋｎｏｗｎｒｅｓｕｌｔｓ．Ｉｎｔｈｉｓａｅｒ

ꢀｐｐ

ꢀ

ꢀｐ

ꢀ

ꢀ ꢀ

ｇ

ꢀ

ꢀ ｇ

ꢀ

ꢀｐ

ｇ

ꢀ

，

ｔｈｅｃｕｒｒｅｎｔＷｅｂｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌｍｅｔｈｏｄｔｈｅｒｉｎｃｉｌｅａｎｄｋｅｔｅｃｈｎｏｌｏｈａｓｂｅｅｎａｎａｌｚｅｄａｎｄｔｈｅａｌｏｒｉｔｈｍｃｌａｓｓｉｆｉｃａ

ꢀｐ ꢀｇ－

ｐ ꢀ ꢀ ｙｇｙ

ꢀ

ｙ

ꢀ

ｔｉｏｎａｎｄａｌｉｃａｔｉｏｎｏｆＷｅｂｃｒａｗｌｅｒｉｎｄａｔａａｃｕｉｓｉｔｉｏｎｔｅｃｈｎｏｌｏａｒｅｅｍｈａｓｉｚｅｄ．Ｔｈｉｓａｅｒｒｅｓｅｎｔｓａｍｅｔｈｏｄｏｆｃｏｎｓｔｒｕｃｔｉｎ

ꢀ ꢀｐｐ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ｑ ꢀ ꢀｐｐ ꢀｐ ꢀꢀ ꢀ ꢀ

ｇｙ ꢀ ｐｇ

ꢀ

，

ＷｅｂｔｅｘｔｉｎｆｏｒｍａｔｉｏｎａｃｕｉｓｉｔｉｏｎｓｓｔｅｍｂａｓｅｄｏｎＰｔｈｏｎａｎｄｒｅｌａｔｅｄｌｉｂｒａｒｉｅｓ．Ｉｎｔｈｅｃａｓｅｂｄｅｆｉｎｉｎｔｈｅｒｅｕｌａｒｅｘｒｅｓｓｉｏｎｓ

ꢀ ｑ ꢀｙ ꢀ ꢀｙ ꢀ ｇ ꢀ ｐ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

，

ａｎｄｃｒａｗｌｉｎｆｕｎｃｔｉｏｎｉｔｒｅａｌｉｚｅｄｓｅａｒｃｈｉｎｆｏｒｔｈｅｒｅｌｅｖａｎｔｉｎｆｏｒｍａｔｉｏｎｏｆｔｈｅｅｎｔｒａｎｄｅｆｆｅｃｔｉｖｅｌｒｅｔｒｉｅｖａｌｉｎｔｈｅｉｎｔｅｒｎａｌ

ꢀ ꢀ

，

ｙ

ꢀ

ｇ

ꢀ

ｇ

ꢀ

ｙ

ꢀ

ｇ

ꢀ

ｌｉｎｋｓａｎｄｔｈｅｅｘｔｅｒｎａｌｌｉｎｋｓ．ＴｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔＰｔｈｏｎｈａｓｓｉｎｉｆｉｃａｎｔｅｆｆｉｃｉｅｎｃａｎｄｅｘａｎｓｉｂｉｌｉｔｉｎｄａｔａｒｅｔｒｉｅｖａｌ．

ꢀ ꢀｙ ꢀ ꢀｇ ꢀ

ꢀ

ｙ

ꢀ

ꢀ ｐ

ｙ ꢀ

ꢀ

：

；

ＫｅＷｏｒｄｓＰｔｈｏｎｉｎｆｏｒｍａｔｉｏｎａｃｃｅｓｓＷｅｂｃｒａｗｌｅｒｒｅｕｌａｒｅｘｒｅｓｓｉｏｎ

ꢀ ｐ

；

ｇ

ｙ

ꢀ

ｙ

ꢀ

。，

学领域发挥重要作用由此可见获取

信息的技术

Ｗｅｂ

。

显得尤为关键

引言

０

ꢀ

，

互联网提供了大量数据集但是由于网站本身的多样

信息获取技术

１Ｗｅｂ

ꢀ

，

化和异构性以及网页文档结构的复杂性很多数据都被嵌

。

，

入到网页结构与样式中

信息获取也称为基于

信息获取是指从网站上提取信息的一种计算机

Ｗｅｂ

数据获取技术分为基于本体的

Ｗｅｂ

。

：

，

软件技术能将任何可以在浏览器上显示的数据提取出

的知识发现

Ｗｅｂ

、、

数据获取基于自然语言的数据获取基于网站查询的数

，

来因此也称为屏幕抓取或数据采集

。

信息获取是

Ｗｅｂ

、。

据获取基于规则和地理位置的数据获取利用行之有效

，、

数据挖掘中的一项重要技术它涉及到计算机网络文本

，，

的方法将可用的信息从海量数据中抽取出来挖掘潜在

、、。，

处理决策分析人工智能等多个领域其中基本

Ｗｅｂ

，、、、

价值将在金融电信业舆情监控数据分析以及其他科

，

文本信息获取和知识发现包括

、

文本内容获取结构

Ｗｅｂ

：

收稿日期

２０１７－０８－０８

：

基金项目西华大学

（

）；

西华大学

（

年教育教学改革项目

２０１６２０１６

）

年重点实验室开放基金项目

２０１６

ｓｚ２０１６０４３

ｊｊ

－

：

作者简介魏冬梅

（

１９８１－

），，，，、；

女硕士西华大学计算机与软件工程学院讲师研究方向为智能信息处理数据挖掘何忠秀

（

１９７４－

），

，，，、；

女硕士西华大学计算机与软件工程学院副教授研究方向为计算机应用基础离散数学唐建梅

（

１９７５－

），，，

女硕士西华

，、

大学计算机与软件工程学院讲师研究方向为软件工程移动互联网开发

。

软件导刊

年

２０１８

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ

４２

［］

２

，

［］

１

、

获取拓扑获取等

。，

该策略虽然遍历结果较好但存在与完全

ＰａｅＲ

需要从网站获取所需的非结构化信

问

ｇ

－

，

息数据分析处理后存储为统一格式的本地数据文件或直

。

计算的重要性相比差异大的情况

ａｎｋ

，、、

接存入本地数据库涉及网络爬虫数据结构化正则表达

（）

４Ｏｉｃ

ｐ

：，

策略算法开始前每个页面都会被赋予相

［］

３

。

，，

同数值当下载了某个页面后将它拥有的数值平均分配

式等关键技术

网络爬虫工作原理

，，

给页面中包含的链接同时清空自己的数值根据数值大

１．１

ꢀ

，

网络爬虫是一个十分形象的名称俗称网络蜘蛛或网

，。

小优先下载数值较大的网页该策略的不足之处是可能

，

络机器人是一种按照规则对

，

信息进行遍历自动抓

。

导致内容抓取过量

Ｗｅｂ

。：

取万维网信息的程序或脚本网络爬虫通常分为两类一

数据结构化存储

１．３

ꢀ

，

类是搜索引擎提供商设计的爬虫这类爬虫会不断地在互

，

互联网具有庞大的信息资源大多数信息都以无结构

，

联网中利用链接跳转采集页面信息返回后供搜索引擎建

，。

的文本形式存在使得信息归类变得非常困难结构化数

。，

立相应索引当用户在引擎中输入文字搜索时引擎即会

据存储是指将大量网页中抽取出来的非结构化信息数据

，

根据输入对信息进行检索找到接近搜索文字的相关内容

（

，，，，

ｃｓｖｓｏｎｘｍｌＡｃｃｅｓｓＭｓｓｌ

ｑ

以结构化方式存储到本地

ｊ

；，

并返回另一类是对明确指定的网站进行数据抓取获得

），。

形成统一格式的本地数据的过程这也是

等

数据

Ｗｅｂ

。

所需信息这些信息通常是可以公共访问的数据集

。

，。

采集的主要目的整个过程基本不需要人工干预数据最

网络爬虫的主要算法思想是通过

从指定的

Ｉｎｔｅｒｎｅｔ

，，

终的应用环境决定存储如果选择数据库则结构化存储

，

页面内容以及页面包

Ｈｔｍｌ

种子集合读取

访问的

ＵＲＬ

，，

通常指行数据用二维表结构进行逻辑表达对

数

Ｈｔｍｌ

，，

含的超级链接并通过这些链接继续爬取下级子页面然

，

据进行提取和规范化处理然后将数组以结构化形式存储

［］

４

。

，

后收集用户信息进行分类和整理

，

通常有两种情况

。、

于相应的数据库系统中这种方式具有速度快准确性

，

标签表示超级链接进一步探测

ａｈｒｅｆ

＜＞

一是

使用

Ｈｔｍｌ

、，，

高效率高等优势再结合多线程技术速度更是人工所无

，；

属性实现跳转到链接目标二是链接跳转是通过触发了

。

法比拟的

，

代码如此不断爬取下去从而搜集到更

ＪａｖａＳｃｒｉｔ

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

基于Python的Web信息获取方法研究

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页