推荐星级：

基于PYTHON的新浪微博数据爬虫

更新时间：2019-12-21 19:34:34 大小：1M 上传用户：songhuahua 查看TA发布的资源 标签：python 数据爬虫 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。

部分文件列表

文件名	大小
基于PYTHON的新浪微博数据爬虫.pdf	1M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

Journal of Computer Applications

，2014，34( 11) : 3131 － 3134

计算机应用

ISSN 1001-9081

CODEN JYIIDU

2014-11-10

http: / /www． joca． cn

: 1001-9081( 2014) 11-3131-04

doi: 10． 11772 /j． issn． 1001-9081． 2014． 11． 3131

文章编号

Python

基于

的新浪微博数据爬虫

，，

周中华张惠然谢江

(

，

上海大学计算机工程与科学学院上海

200444)

( * jiangx@ shu． edu． cn)

通信作者电子邮箱

: ，

要目前很多的社交网络研究都是采用国外的平台数据而国内的新浪微博没有很好的接口方便研究人员

摘

。，。

采集数据进行分析为了快速地获取到微博中的数据开发了一款支持并行的微博数据抓取工具该工具可以实时

、 ; ，，

抓取微博中指定用户的粉丝信息微博正文等内容该工具利用关键字匹配技术匹配符合规定条件的微博并抓取

; ，。

相关内容该工具支持并行抓取可以同时抓取多个用户的信息最后将串行微博爬虫工具和其并行版本进行对比

，

。 : ，

并使用该工具对部分微博数据作了一个关于流感问题的分析实验结果显示并行爬虫拥有较好的加速比可以快

，

速地获取数据并且这些数据具有实时性和准确性

。

: ;

关键词新浪微博爬虫

; Python;

;

并行大数据

: A

文献标志码

: TP391; TP311

中图分类号

Data crawler for Sina Weibo based on Python

ZHOU Zhonghua， ZHANG Huiran， XIE Jiang

( School of Computer Engineering and Science， Shanghai University， Shanghai 200444， China)

Abstract: Nowadays， most of researches about social network use data from foreign social network platforms． However

the largest social network platform Sina Weibo in China has no data interfaces for investors． A Sina Weibo data crawler

combined with parallelization technology was put forward． It got fans information and Weibo data content of different weibo

users in real-time． It also supported key words matching and parallelization． The serial data crawler and its parallel version

were compared， and an experiment about flu was conducted on some Weibo data． The results indicate that， with

parallelization， this tool has liner speedup and all the fetching data are with timeliness and accuracy．

Key words: Sina Weibo; crawler; Python; parallel; big data

，

公开的微博数据集供人们下载但是这些数据集通常规模比

引言

，。、

较小而且还缺乏实时性有些技术力量强劲资源充足的研

，

计算机技术的进步使人们的生活方式逐渐发生改变社

。

究团队通常自己开发一些爬虫来获取研究数据这对不熟悉

。

交网络就是一个非常突出的例子越来越多的人参与到社交

。

爬虫技术的研究人员而言是个极大的挑战本文提出了一款

，，。

网络平台中去与他人互动分享各种内容在大数据时代来

Python

，

语言的新浪微博数据爬虫为数据获取提供支

基于

，，

临之际社交网络就像一个巨大的宝库吸引了大量的研究人

。

持

。，

员参与到相关内容的研究在国外人们针对

Twitter、

、、

本文爬虫通过模拟客户端的操作如登录访问好友查看

［1 － 5］

Facebook

，

但是针

、，

粉丝查看微博内容等方式获取相关数据并且将这些数据持

等知名社交平台展开了一系列的分析

［6 － 9］

，。

久化保存到本地硬盘上方便后续进一步的数据挖掘与分析

还比较欠缺一方面因为相

对国内社交网络平台的研究

，，

同时本文爬虫还集成了文本匹配功能利用该功能可以轻松

， ;

关研究刚刚起步缺乏相关的研究方法另一方面缺乏相关的

。，

地实现指定内容的数据获取例如可以利用本文爬虫检索

，。

研究数据使得一些研究难以开展在国外

Twitter

等社交平

、、、

包含流感感冒发烧发热这四个词语中一个或多个关键字

，

台会提供一些数据接口供研究人员获取研究数据但是在国

，。

的微博并把这些微博保存到硬盘上使用本文爬虫能够节

。

内却无法正常访问这些接口国内由新浪网推出的新浪微博

，

省分析人员的开发时间使得他们可以将更多的精力放在数

Twitter。 2013 5． 56

，

堪称中国的

截至

年

月微博用户数已达

如此之大的一个社交平台为社

交网络分析网络数据挖掘等研究提供了强有力的大数据支

，

据分析上面同时也可以对一些无用的数据起到过滤作用

。

，

5000

。

万

亿日活跃用户数超

、

微博爬虫

。

持

。

网络爬虫是用来获取网络数据的重要工具关于网络爬

，

然而新浪微博官方并没有提供相关的数据接口没有数

［10 － 12］

，。

据一些研究分析工作也无法进行目前网络中也存在一些

，

不计其数然而普通的爬虫很难直接用来

虫技术的研究

: 2014-06-05;

: 2017 － 08 － 27。

基金项目国家自然科学基金资助项目

( 91330116) ;

高等学校博士学科点专项科研

收稿日期

基金资助项目

修回日期

( 20113108120022) ;

( 11510500300) 。

上海市科委重点项目

作者简介周中华

( 1989 － ) ，

，

男江苏常州人硕士研究生

，CCF

， : 、

会员主要研究方向生物信息高性能计算

;

( 1981 － ) ，

男河南新

张惠然

，CCF

，，

乡人讲师博士

，CCF

， : 、

会员主要研究方向生物信息高性能计算

;

( 1971 － ) ，，，，

女湖北恩施人副教授博士

，

会员主要研究方向

谢江

、

生物信息高性能计算

。

3132

卷

计算机应用

第

。

抓取新浪微博的相关数据因为新浪微博有着复杂的登录机

，。

是已完成的队列另一个是未完成的队列在初始状态下已

，，，

制同时相关数据拥有统一的格式针对这种情况利用爬虫

，，

完成的队列为空未完成的队列中只有一个种子用户对种子

，

原理可以开发出一款专门针对新浪微博数据的网络爬虫

。

，

用户的所有信息完成一遍搜索之后该用户就会进入已完成

1． 1

，，，

队列对该用户搜索过程中当遇到一个新用户时会根据其

微博登录

，

新浪微博的数据都需要在登录的情况下才能访问到所

用户

在已完成队列和未完成队列中查询该用户是否已经

。

以微博登录是爬虫需要解决的第一个问题通过分析网页版

，，

被记录过如果该用户未被记录该用户将进入到未完成队列

微博的登录相关代码可以发现微博登录主要分为三个步骤

1) ; 2)

。

末尾搜索的结束条件并不是搜索完微博的所有用户才会结

客户端向微博的用户服务器发送登录请求

服务器接收

，

束而是当已完成队列中的用户数量达到预先设置的一个最

; 3)

到登录请求后会生成相应的密钥返回给客户端

客户端将

。

大值的时候就会结束搜索

以下是整个搜索过程的伪代码

、 2)

用户的用户名密码以及中服务器发回的登录密钥结合在

，

一起再向服务器提交登录信息服务器验证成功之后将会返

Begin

Initialize Waiting Query

Initialize Finished Query

。

回正确的登录状态以及当前用户的个人信息成功登录之后

session

客户端只需要保持与服务器的

会话就可以方便地访

Push Seed User Into Waiting Query

While length( Finished Query) ＜ MaxNum

Begin

。

问微博中的一些数据资源

以下是微博登录的伪代码

Begin

Pop User From Waiting Query

Scan User Information

If New User Not In Waiting Query

and New User Not In Finished Query

Begin

Step1:

Send Login Request

Step2:

Get Response From Server

Get Encrypt Information From Response

Step3:

Encrypt User Information

Send Encrypt Information

Step4:

Get Login Status

Push New User Into Waiting Query

End

1． 3

微博内容抓取

，

微博正文是非常重要的微博数据很多研究就是基于用

End

，，

户的微博内容展开的因此本文爬虫也针对用户的微博正文

1． 2

微博关系抓取

微博爬虫成功登录之后就可以通过

。 :

提供了相应的抓取方法一种方法是本文爬虫可以将用户

HTTP

地址访问其他

用户的相关信息如其他用户的关注列表粉丝列表以及微博

HTTP

，

的所有微博内容全部以文件的形式完全记录到磁盘但是这

，

、

样做就需要很多的物理存储空间才能将如此之多的用户数据

。

，

列表由于爬虫采用的是

请求的方式获取数据因此

。 :

保存下来另一种方法是本文爬虫提供了简单的字符串匹

HTML

，

每次请求获取到的是一大堆复杂的

代码但是用户的

微博数据都具有相同的格式可以通过正则表达式将这些数

HTML

，

配功能在抓取用户微博内容的过程中会根据输入的需要匹

，

配的关键字进行匹配如果发现匹配成功的微博爬虫会将该

。

代码中提取出来

据从混乱的

在新浪微博中每个用户有自己的唯一

。

微博保存到磁盘这样研究人员就可以有针对性地进行相关

，

与之对应因

。

，

研究和分析

1． 4

此可以使用

作为用户的唯一性的判断依据在访问相关

，

用户的数据过程中也只需要使用其用户

关键字匹配

就能访问到相关

，，

由于人们发布的微博内容各异针对某种研究而言一个

。

数据本文爬虫提供了一种基于广度优先的搜索策略来抓取

。

人的全部微博中有很多无意义的内容例如针对微博中人们

。，

用户关系数据首先选取一名种子用户以该用户为起始点

，

。

逐

得感冒与时间关系的研究就需要从所有的微博中找到与感冒

先将他所有的好友信息收集起来

图

显示的是从

到

，

个提取每个用户的个人信息搜索完成后再去寻找该用户的

，。

相关的微博并保存这些内容而简单的爬虫并不能分辨哪

; ，

第一个好友的其他好友信息以此类推直到搜索完成

。

，，

些内容有用哪些内容是没有用的如果全部都保存到硬盘上

，

会耗费大量的存储同时还会花费更多的时间从这些数据中

，

再次筛选与感冒相关的微博这样既浪费了资源又浪费了时

。

间

因此爬虫中内嵌了关键字匹配模块方便根据关键字筛选

，，

符合条件的微博这样提高了效率也节省了资源

。

以下就是一条微博匹配多个关键字的相关代码

Begin

For i = 0; i ＜ len( keys) ; i ++

Begin

图

广度优先的粉丝关系搜索

If match( content，keys［i］)

整个搜索过程中微博爬虫需要维护两个搜索队列一个

Begin

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

基于PYTHON的新浪微博数据爬虫

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页