推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Python的多线程聚焦网络爬虫设计与实现

更新时间:2019-12-24 06:15:53 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:python网络爬虫 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

在大数据时代下,人们要想从大量数据中找到自己需要的信息变得越来越困难,因此使用网络爬虫处理网络中大量的信息成为了必不可少的方法.本文利用Python语言设计并实现了一种多线程聚焦网络爬虫.首先,通过聚焦爬虫,获取目标网站数据,然后建立相应索引数据库.在爬取数据库的基础上,用户可以通过输入关键字,从多个网络地址URL中获取大量用户所需要的数据.


部分文件列表

文件名 大小
基于Python的多线程聚焦网络爬虫设计与实现.pdf 1M

部分页面预览

(完整内容请下载后查看)
2019  
№. 6  
Nov. 2019  
赣 南 师 范 大 学 学 报  
Journal of Gannan Normal University  
第六期  
·
·
算法设计与应用  
Python  
基于  
线程  
*
聚焦网络计与现  
a
b  
b
, ,  
美芝 超 刘财辉  
(
a.  
赣南师范大学 学院  
; b.  
数学与计算机科学学院 江西 赣州  
341000)  
:
数据时人们从大量数据自己需要的信息越困难 因此使网络处  
Python ,  
语言设计并实了一线程聚焦网络虫 首先  
网络中大量的信息为了的方法 本文利用  
, , ,  
通过聚焦爬获取目标数据 然后建立索引数据爬取数据的基上 用通过输入键字  
URL  
网络地址  
: Python;  
关键词  
获取量用户所需要的数据  
URL;  
线程  
;
网络虫 网络地址  
: TP393  
: A  
: 1004 - 8332( 2019) 06 - 0035 - 04  
文章编号  
中图分类号  
文献标志码  
1
引言  
.  
网络被广泛应于人据信在大数据时  
定数需求大  
, ,  
聚焦爬是一个网页的程定的访上的网页的  
.  
接 获取要的虫  
( general purpose web crawler)  
, ,  
聚焦爬并不大的覆盖 将  
1]  
键词内容网页 键词的用查询源  
, ,  
理论网络语言可以用写网络网络是用台  
语言其中  
Python  
广泛使用的一语言 其具有丰富大的标准使  
1 - 3]  
4]  
1
网络个控节点 节点结构关示  
研究现状  
是在  
1. 1  
20  
90  
搜索及  
世纪  
之产网络此时网络的  
广式 作搜索引  
网络的性将直影  
2]  
响整搜索擎索网页的数量 期  
、 、  
是出网络增量网络网络  
. 3  
聚焦网络聚焦网络主要有 个表性  
: ;  
的方基于分聚焦爬基于网  
; .  
基于网络其中主要用以下几  
1
结构关图  
: ( 1) ; ( 2)  
研究  
定义  
1. 2  
向数研究  
; ( 3)  
; ( 4) Web  
; ( 5)  
现  
洗  
空间理等  
线程的优缺  
我们在聚焦网络线程方同时个  
URL  
工作 大大了  
CPU  
, ,  
使聚焦网络的局同时线程会使  
主机的待外释放有可线程锁  
*
: 2019 - 08 - 20  
DOI: 10. 13698 /j. cnki. cn36 - 1346 /c. 2019. 06. 009  
( 61663002)  
收稿日期  
:
基金项目 国家自科学基金项目  
:
作者简介  
( 1984 - ) , , , : .  
赣南师范大学学院研究方向 中的用  
:
通讯作者 超  
( 1998 - ) , , ,  
江西赣南师范大学数学与计算机科学学院  
2015  
, :  
本科研究方向 数理  
36  
2019  
赣南师范大学学报  
2
爬虫设计与现  
2. 1  
爬取的数据和目标址  
2 : ,  
的目有 个 一个是搜狗的文章搜索 是  
http: / /weixin. sogou. com,  
一个是搜  
问题和答搜索 是  
http: / /zhihu. sogou. com.  
keyword 2  
使用这 个行  
过关字  
, ,  
检索 搜索结果内容文件中 阅读  
2. 2  
调用的块以及各介绍  
8 ,  
为  
:
( 1) re Python  
使  
( 2) urllib. request  
正则表可以正则配  
;
求模了最基本的造  
HTTP(  
FTP)  
的方法 利该  
协议如  
URL  
可以浏览的一个协议去获取  
;
息  
( 3) urllib. error  
常处块 能常  
;
( 4) time  
, ,  
程的睡眠可以使  
Python  
;
按照需求序  
( 5) threading  
( 6) queue  
Python  
线程使  
具有线程可以使多个线程同时行  
;
Python  
URL  
;
址  
可以给  
可以使我们的证明 使访站  
( 8) pymysql Python3  
用与的  
( 7) ssl  
;
中的数过  
是  
可以连语句  
使对数作  
2
工作理如示  
6
以下程中使的 条正则表式  
:
阅读搜狗网页码编获取信  
: < div class = " txt - box" > .  
的正则表为  
* ? ( http: / /. * ?) "  
阅读搜狗网页码编获取知乎  
: < div class = " result - about  
问题的正则表为  
2
作数据图  
- list" > . * ? ( https: / /. * ?) " .  
: < title > ( . * ?) /title > .  
的正则表式  
: id = " js_content" ( . * ?) id = " js_sg_bar" .  
内容的正则表式  
: < title data - react - helmet = " true" ( . * ?) /title > .  
问题的正则表式  
面问题的正则表式  
Content - inner" ( . * ?) /div > .  
: < div class = " Rich-  
2. 3  
数据设计  
3
使素  
ID、  
题  
titleURL  
. E - R  
图  
3
示  
3
E - R  
4 ,  
表中性  
:
4
性  
建 连的部下  
:
mysql_host = 127. 0. 0. 1'  
mysql_db = sys'  
mysql_user = root'  
mysql_password = zxcssg1998'  
mysql_port = 3306 db = pymysql. connect( host = mysql_hostport = mysql_portuser = mysql_userpassword  
= mysql_passworddb = mysql_dbcharset = utf8)  
sql_create = " CREATE TABLE MYURL( id CHAR( 10) title CHAR( 50) url VARCHAR( 265) ) " #  
在数据  
建表  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载