推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于Linux的python多线程爬虫程序设计

更新时间:2019-12-29 20:48:44 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:linuxpython 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。


部分文件列表

文件名 大小
基于Linux的python多线程爬虫程序设计.pdf 1M

部分页面预览

(完整内容请下载后查看)
总第  
307  
计算机与数字工程  
5  
861  
Com teeein  
ꢀ ꢀ g  
p g g  
年第  
2015  
 
线爬虫程序设计  
Linux  
thon  
py  
 
工程学院 中  
030619  
, 。  
的数  
, 。 ,  
进行据微出了一种基于  
线计方法 过  
thon  
py  
Liux  
, , ,  
和 用 以 结 化 的  
入  
CSV  
, 。  
基于放  
, ,  
考  
I  
QL  
于  
线能  
thon  
py  
Liux  
; ;  
关键词 录  
969 ssn167720126  
中图分类号  
301  
ꢀꢀ  
hothreadin seux  
ꢀ ꢀ  
ꢀ ꢀ  
uni  
, ,  
Schonfochnlo eein inzhon nzhon 030619  
g  
ꢀ ꢀ  
gy  
ꢀ  
ract lo ounst rkin founlo ata  
ꢀ ꢀ p  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
ontntectuaesourceo ehestructureata lo atnin c  
ꢀ ꢀ ꢀ ꢀ -  
cordin tharactelo in te thr rse hothreadin crased  
gg g  
ꢀ ꢀ pp p p y  
ux b in thlo btinin ontenutca heracin lo ser  
ꢀ ꢀ  
datontenattructuretoretehe atabasnd  
pgꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
theunlo atsenfore.Tro in aseI  
ꢀ  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ p  
thesuhaoneran  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
thon threadin craseavxcent  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
py  
fonc.  
Ke rds lo  in ln  
g  
g g  
Clasum301  
ꢀ ꢀ  
引言  
 
,“ ”  
互联信 息 爆 炸 大 数 到  
网络爬虫  
1  
[]  
, 。  
信息交  
),  
爬虫  
是一个大  
er  
[]  
信息表 其据  
索引擎  
取  
b  
[]  
的  
索引组  
载  
b  
, 、  
信息速  
部分 爬虫的  
URL  
[]  
信息要  
新的  
URL  
接 通过这  
b  
的  
4 6  
以得用的究  
, , ,  
寻找新的直  
据  
、 、 ,  
设计一个发 高性能 可  
和分理想的  
线爬虫 于  
情况 的  
操作系  
Liux  
7 8  
实现  
。 ,  
根据现在的数索引只  
使用  
言  
hon  
回日期  
2014 12 29  
收稿日期  
月  
2014 11 17  
, , , :  
作者简介 术  
于  
线计  
43  
862  
Liux  
thon  
py  
, ,  
参数 了  
RSA  
取整互联网  
页  
一个  
%  
录  
第一步  
’,  
2  
需要 登  
的  
10001  
统  
的  
b  
ubke  
, ,  
现在登  
需要写  
访问将计一种  
使 用  
了  
ser  
RSA  
。 ,  
爬虫获  
verme none  
行  
获  
RSA  
信 息 我 们 用  
, ,  
一个获  
解  
Sesion  
Sesion  
串  
通过  
CooRL  
户  
通过  
果  
的  
serveronce  
现  
Sesion  
那么使用  
cooe  
Cooe  
、 、 ,  
参数 参数值  
rsaks  
用了  
写  
URL  
:“ “  
eno  
:  
atwa  
线  
量 例 如  
,“ :、“ : ,  
savestate 7 usercke''1''soel  
3  
thon  
y  
使线 或  
hon  
。 :  
使用类线程对使现多线线  
: ,  
1'SNF ervce  
”:“ ”、“  
”:“  
”、  
niblo  
_ _  
start hread  
()  
个新  
:’  
ncode rsa2  
“  
码  
“  
:  
ret  
的  
f 8  
header=  
。 :  
线程 用类线程对线来  
,  
配  
115  
{“  
A  
”:“  
: :  
一个线程对象  
ent la 11 L.  
) / /  
cko 2010010refme 0.  
于  
线爬虫  
thon  
py  
Liux  
},  
最后通过  
fa1  
/  
t l.  
程序设计  
. h ensoln  
p p  
设计包括块  
) ,  
据  
4  
方法  
POST  
ꢀꢀ  
。 ,  
成  
( )  
指代的  
URL  
取  
locaace  
, ,  
和  
的  
使 用  
GET  
方 法  
L  
, ,  
面 只取信息  
的  
信息 就  
Cooe  
Cooe  
在这拟  
块  
需要录  
1  
为了的数访浪  
的  
Cooe  
时都需要用  
博数块  
2  
求  
通过线度  
。 ,  
不  
, ( :  
访如  
ID ht  
/  
.  
获得主  
的资源复杂取  
/ / ,  
以分有  
197161814 roe  
虫访通  
, , ,  
通过求参数 有  
l ht  
/ /  
ini  
g p g  
息  
息  
ID  
行证  
、 、 、  
的用论  
的源录  
ni.h  
p p  
/  
solo  
/ /  
、 。  
的数取 步 如  
件  
t  
),  
访参数和  
s  
方法 新的要重复务  
第一线主  
首先建  
ID  
以完在这行了  
一个的 数 本 系 用  
[ ]  
10  
[ ]  
11  
基本数多  
hon  
次  
密  
密  
这使模  
RSA  
BAS64  
12  
下  
, ,  
对的数的  
第一名  
, , ,  
初始值 部分使闻  
论的数初始值为  
码  
的  
的  
usernme  
, ,  
息  
参  
L  
serveronce ubke  
以  
包括的  
rsakv  
一个固  
),  
化  
页  
neetract  
ubke  
rsakv  
最大的数径  
CSV  
值  
件  
首  
), ,  
参数 段  
步  
和  
QL  
BAS64  

全部评论(0)

暂无评论