推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于PYTHON的新浪微博数据爬虫

更新时间:2019-12-21 19:34:34 大小:1M 上传用户:songhuahua查看TA发布的资源 标签:python数据爬虫 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。


部分文件列表

文件名 大小
基于PYTHON的新浪微博数据爬虫.pdf 1M

部分页面预览

(完整内容请下载后查看)
Journal of Computer Applications  
,2014,34( 11) : 3131 - 3134  
计算机应用  
ISSN 1001-9081  
CODEN JYIIDU  
2014-11-10  
http: / /www. joca. cn  
: 1001-9081( 2014) 11-3131-04  
doi: 10. 11772 /j. issn. 1001-9081. 2014. 11. 3131  
文章编号  
Python  
基于  
新浪微博数据爬虫  
*
, ,  
谢 江  
(
上海大学 计算机工程与科学学院 上海  
200444)  
( * jiangx@ shu. edu. cn)  
通信作者电子邮箱  
: ,  
前很多的研究都是采用的平新浪微博没好的便研究人员  
。  
获取微博中的数开发款支并行的微博具 该具可实时  
; , ,  
微博粉丝信息 微博正用关键字技术 规定微博 取  
; , 。  
并行信息 微博爬虫工并行行对比  
: ,  
使用具对微博于流问题实验结果并行爬虫拥好的以快  
获取并且具有实时性和准确性  
: ;  
关键词 新浪微博 爬虫  
; Python;  
;
并行 大数据  
: A  
文献标志码  
: TP391; TP311  
中图分类号  
Data crawler for Sina Weibo based on Python  
*
ZHOU Zhonghua, ZHANG Huiran, XIE Jiang  
( School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China)  
Abstract: Nowadays, most of researches about social network use data from foreign social network platforms. However  
the largest social network platform Sina Weibo in China has no data interfaces for investors. A Sina Weibo data crawler  
combined with parallelization technology was put forward. It got fans information and Weibo data content of different weibo  
users in real-time. It also supported key words matching and parallelization. The serial data crawler and its parallel version  
were compared, and an experiment about flu was conducted on some Weibo data. The results indicate that, with  
parallelization, this tool has liner speedup and all the fetching data are with timeliness and accuracy.  
Key words: Sina Weibo; crawler; Python; parallel; big data  
开的微博数据这些数据规模比  
0
引言  
。 、  
小 而技术研  
计算机技术进步使逐渐社  
获取研究数据 悉  
是一多的交  
技术研究人员的挑战 本提出了一款  
, , 。  
动 分大数据来  
Python  
语言博数据数据获取支  
于  
, ,  
研究人  
,  
研 究 针 对  
Twitter、  
、 、  
模拟访问好查看  
1 - 5]  
Facebook  
针  
,  
粉丝 查看获取数据 并且将这些数据持  
展开了一系的分析  
6 - 9]  
。  
到本上 方便数据挖掘与析  
:
相  
研究  
, ,  
同时 本用该松  
, ;  
研究刚刚步 缺研究方的  
,  
实现数据获取 虫检索  
。  
研究数据 使得一研究开展 外  
Twitter  
平  
、 、 、  
包含感 感键字  
数据研究人员获取研究数据 国  
。  
的微这些使节  
访问这些接内由博  
人员的开使得更多的数  
Twitter2013 5. 56  
3
中国的  
至  
达  
此之的一社  
数据挖掘研究大数据支  
同时也可以对数据用  
5000  
亿 超  
1
微博爬虫  
获取数据的重要工爬  
数据口 没数  
10 - 12]  
。  
研究工作也存在些  
数 然接用来  
技术研究  
: 2014-06-05;  
: 2017 - 08 - 27  
:
基金项目 国家自然科学基金资助项目  
( 91330116) ;  
博士学科项科研  
收稿日期  
基金资助项目  
修回日期  
( 20113108120022) ;  
( 11510500300) 。  
上海重点项目  
:
作者简介  
( 1989 - ) ,  
男 江苏州人 士研究生  
CCF  
, : 、  
会员 主要研究方向 生高性能计算  
;
( 1981 - ) ,  
河南新  
然  
CCF  
, ,  
师 博士  
CCF  
, : 、  
会员 主要研究方向 高性能计算  
;
( 1971 - ) , , , ,  
人 副教授 博士  
会员 主要研究方向  
:
江  
高性能计算  
3132  
34  
计算机应用  
数据 复杂的机  
。  
已完队列 未完队列 初始已  
, , ,  
同时数据有统一的格针对这种情况 虫  
, ,  
队列空 未完队列有一个种子  
发出针对博数据虫  
该用入已完成  
1. 1  
, , ,  
队列 该用程中 到一其  
微博登录  
数据都需情况下访所  
ID  
户  
已完队列未完队列该用经  
个问题 版  
, ,  
记录果该用记录 该用将进未完队列  
:
录相关代发现主要个步骤  
1) ; 2)  
条件并不是结  
求  
接收  
已完队列的一最  
; 3)  
会生相应端  
将  
值的时索  
码  
2)  
以及 结合在  
:
验证成返  
Begin  
Initialize Waiting Query  
Initialize Finished Query  
回正确态以及当前人信后  
session  
的  
便访  
Push Seed User Into Waiting Query  
While length( Finished Query) < MaxNum  
Begin  
博中的一数据资源  
:
是微码  
Begin  
Pop User From Waiting Query  
Scan User Information  
If New User Not In Waiting Query  
and New User Not In Finished Query  
Begin  
Step1:  
Send Login Request  
Step2:  
Get Response From Server  
Get Encrypt Information From Response  
Step3:  
Encrypt User Information  
Send Encrypt Information  
Step4:  
Get Login Status  
Push New User Into Waiting Query  
End  
End  
End  
1. 3  
微博容抓取  
的微博数据 研究用  
End  
, ,  
的微展开的 因此 本针对的微文  
1. 2  
微博取  
过  
:  
相应法 一法是 本将用户  
HTTP  
址访问其他  
息 如粉丝表以及博  
HTTP  
有微件的形式完全记录磁盘 这  
多的物理此之多的数据  
由于采用的是  
获取数据 因此  
:  
存下法是 本字符匹  
HTML  
获取到的是一复杂的  
的  
博数据具有同的格式 可式将这些数  
HTML  
程中会匹  
键字果发现的微将该  
来  
的  
博中 个用一  
ID  
磁盘 研究人员针对关  
ID  
对应 因  
研究和分析  
1. 4  
使用  
为用判断访关  
数据程中 使用其用户  
ID  
关键字匹配  
访关  
, ,  
由于发布的微容各针对某研究个  
数据 了一广度优策略取  
博中的内如针对博中人们  
,  
数据 首先该用点  
1
1
6
系的研究有的微博中冒  
有的来  
的是从  
个提个用人信后再该用的  
。  
的微存这些并不哪  
; ,  
个好息 以类推 直到成  
, ,  
上  
同时花费更多的时这些数据中  
的微既浪源又了时  
因此键字便根键字选  
, ,  
条件的微效率 也源  
:
是一条微键字关代码  
Begin  
For i = 0; i len( keys) ; i ++  
Begin  
1
广度优粉丝  
If match( contentkeysi)  
:
程中队列 个  
Begin  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载