推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的Web信息获取方法研究

更新时间:2019-12-24 06:59:00 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:pythonweb信息获取 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增。从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略。案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取。结果表明,Python在数据采集方面具有较高的有效性和可扩展性。


部分文件列表

文件名 大小
基于Python的Web信息获取方法研究.pdf 1M

部分页面预览

(完整内容请下载后查看)
基于  
hon b  
信息获取方法研究  
, ,  
魏冬梅 梅  
( ,  
西大学 计算机软件工程学院 成都  
610039  
网技展  
, 。  
信息据中提取效  
b  
, , 、 。  
信息 研究前  
、 ,  
信息获取点阐述了法的用  
b  
提出一种以  
, ,  
工具 建  
文本息获取中  
hon  
b  
, , ,  
维基关信息 爬  
面具有性  
hon  
结果明  
hon  
; ; ;  
信息获取 式  
关键词  
19072302  
( )  
文章编号  
1678001043  
- - -  
中图分类号  
文献标识码  
301  
ꢀꢀꢀꢀꢀ  
ꢀꢀꢀꢀꢀ  
searcexnfoceshosehon  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
, ,  
on mhon iu ANi  
Schooom teencneerin iver en 10039 ina  
g  
tracevlo i datin ncreain nfoeeootecant  
ꢀꢀ ꢀ-  
tracin thnforacsefunfounatfeciveeecn thur  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
renreover onteeveain thland rein nknesur  
pp  
p  
ꢀ ꢀ  
g  
p  
thurrennfoetevaod the eclo eeasca  
-  
ꢀ ꢀ y  
ateclo arze.Tr resentonin  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ pp ꢀꢀ ꢀ ꢀ  
gy p g  
exnfoaseholatebraase b deinin thlaesns  
ꢀ ꢀp  
ann feazeearchin folevannfo fecivl retevain tnternal  
ꢀ ꢀ  
xterna.Tesuhahocannc ant iateteva.  
ꢀ ꢀꢀ  
p  
ꢀ  
Ke rdhon nfoccess er rlaesn  
p  
。 ,  
要作用 取  
信息的技术  
b  
键  
引言  
大量样  
信息技术  
b  
数据嵌  
入到中  
信 息 获 取 也 称 基 于  
信息息的算机  
b  
b  
数据获取 基 于 的  
b  
术 能何 可 以 显 示 数 据 出  
发现  
b  
、 、  
数据获取 据获取 数  
数 据 采 集  
信 息 获 取 是  
b  
、 。  
据获取 据获取 利效  
, 、  
数据要技术 算机本  
, ,  
的方的信息掘潜在  
、 、 。 ,  
处理 能等 中 基本  
b  
, 、 、 、  
据分科  
取和发现 包括  
取 结构  
b  
收稿日期  
2018  
基金项目 西学  
);  
西学  
年教目  
2016 2016  
点实验目  
2016  
0143  
j  
作者简介 冬梅  
198-  
), , , , 、 ;  
西学计算机程学院究方能信息处秀  
197-  
),  
, , , 、 ;  
西学计算机程学院究方计算机应用基础 梅  
197-  
), , ,  
西华  
, 、  
大学计算机程学院究方网开发  
·
·
导 刊  
2018  
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ  
42  
[]  
[]  
获取 等  
。 ,  
虽然 结 果 较 好 但 在 与 全  
R  
信  
据 分理后直  
计算的重要况  
ank  
, 、 、  
据结达  
()  
4 Oc  
: ,  
法 开 相  
[]  
, ,  
配  
术  
爬虫原理  
, ,  
中包含的大  
1  
网  
, 。  
能  
器人 是对  
信息抓  
量  
b  
。 :  
息的程为两一  
数据结构化储  
3  
计的互  
的信息构  
信息 建  
, 。  
使数  
。 ,  
立相字搜会  
据  
容  
, , , ,  
csv son l Acess l  
以结构 化 地  
; ,  
得  
), 。  
是  
数据  
b  
以公访集  
, 。  
主要最  
主要算过  
的  
Internet  
, ,  
应用化存储  
包  
Html  
取  
访的  
URL  
, ,  
进行对  
Html  
, ,  
含的然  
行提组以结储  
[]  
理  
种情 况  
。 、  
数 据 库 系 统 具 有 快 准 性  
测  
ref  
< >  
是  
使用  
Html  
、 , ,  
率高合多线技术 无  
, ;  
实现了  
法比的  
此 不 断 从 而 更  
JavaSct  
相关  
式  
4  
多数据 示  
标  
Html  
象  
对  
行  
Html  
b  
对  
配  
Html  
使使与  
数据 依称  
获 取 属  
[]  
下  
(‘  
l  
_ ” ( ) /  
2 fw d  
’, )  
ml  
_ ” ( ) / ’  
是  
2 fw d  
其中  
, 。  
进行数据获取虑  
、 ,  
产生使  
, ,  
匹配使如  
构  
aufulSou l Htmrsecra  
py  
行解析  
爬虫算法较  
2  
几种是 广先  
r  
数据系统计  
b  
略  
Rank c  
g  
()  
广爬  
, ,  
遵循每  
, ,  
放  
一个便  
, , ,  
下  
, 。  
方 面 可 以 的 重 用 助  
消  
, :  
用  
服  
hon  
ib2  
据交互 利用  
长  
行  
re aufulSou  
HTTP  
() : ,  
由低依  
析  
Html  
进行和  
, 。  
访到深目一个分  
爬虫功计  
1  
, 。  
有  
, ,  
爬虫通过系统的定任务 任务定  
, 。  
爬  
进行匹配 匹  
URL  
义的  
, ,  
进行结果 要  
URL  
重  
的  
()  
Rank  
g  
全  
。 , ,  
的信息 最的信息和数据进行对比 数据没  
略  
Rank  
程中一部分中  
, ,  
进行爬虫 示  
通过访 面 的 价  
Rank  
案例现  
2  
择  
, ,  
于  
URL P  
大 的 面 中 的 进 行 访  
定  
Rank  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载