推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于PYTHON的微博用户关系挖掘研究

更新时间:2019-12-24 19:47:48 大小:2M 上传用户:songhuahua查看TA发布的资源 标签:python 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

以新浪微博平台为研究对象,利用Python语言和Web自动化工具通过平台提供的应用接口实现自动认证和微博数据的自动抓取,将其转换成需要的数据格式之后,运用深度优先搜索算法进行分析,获得用户的关系并可视化。此外,采用改进的K-means算法进行主题聚类,实验结果表明,改进后的算法更加准确有效。最后,根据用户信息生成兴趣相关性矩阵,采用改进后的K-means算法分析微博用户关注兴趣的相似性。


部分文件列表

文件名 大小
基于PYTHON的微博用户关系挖掘研究.pdf 2M

【关注B站账户领20积分】

部分页面预览

(完整内容请下载后查看)
志  
JOURNAL OF INTELLIGENCE  
33 6 期  
2014 6 月  
Vol. 33摇 No. 6  
June摇 2014  
摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇  
摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇  
Python 的微博用户关系挖掘研究  
林晓丽1,2 胡可可2 1  
(1. 武汉科技大学计算机科学与技术学院武汉摇 430065; 2. 武汉科技大学城市学院武汉摇 430083)  
以新浪微博平台为研究对象,利用 Python 语言和 Web 自动化工具通过平台提供的应用接口实现自动认证  
和微博数据的自动抓取,将其转换成需要的数据格式之后,运用深度优先搜索算法进行分析,获得用户的关系并可  
视化此外,采用改进的 K-means 算法进行主题聚类,实验结果表明,改进后的算法更加准确有效最后,根据用户  
信息生成兴趣相关性矩阵,采用改进后的 K-means 算法分析微博用户关注兴趣的相似性。  
关键词新浪微博用户关系数据挖掘聚类分析  
中图分类号摇 C931摇 摇 摇 摇 摇 摇 摇 文献标识码摇 A摇 摇 摇 摇 摇 摇 摇 文章编号摇 1002-1965(2014)06-0144-05  
DOI摇 10. 3969 / j. issn. 1002-1965. 2014. 06. 028  
Python-based Analysis of Microblog User's Relationship Mining  
Lin Xiaoli1,2 Hu Keke2 Hu Qing1  
(1. School of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan摇 430065;  
2. City College, Wuhan University of Science and Technology, Wuhan摇 430083)  
AbstractTaking Sina Weibo platform as the research object, we can automatically obtain the authorization and grab the microblog data  
from the application interface by using Python language and Web automation tools. Then, the data are converted into the required format.  
The depth first search algorithm is used to analyze the user relationship, and the relationship is visualized. In addition, the improved K-  
means algorithm is proposed for topic clustering analysis. Experimental results demonstrate that the proposed method is more accurate and  
effective. Finally, an interest correlation matrix is generated based on the user information; the improved K-means algorithm is used to an鄄  
alyze the similarity of attention behavior between Microblog users.  
Key wordsSina Weibouser relationshipdata miningclustering analysis  
而是向着多元化发展它允许用户发送 280 字符左右  
0摇 言  
的原创信息,能够发表图片及图片集,支持他人对信息  
的转发评论,以及多人对同一话题的讨论,成为当前  
实事交流休闲娱乐的一种渠道,极大地促进人们生活  
中的沟通与交流手机电脑同步,能满足人们即写即  
即拍即发的要求,具有实时交互性[4] ,对于现今信  
息化时代显得非常重要。  
自从埃文· 威廉姆(Evan Williams)创办的 Twit鄄  
ter(推特) 社交网站形式于 2006 在美国问世以  
,微博(微型博客 Micro-Bloging) 应用在人们的日  
常生活中变得尤为流行,从最初的手机发送文本信息  
的形式发展至现在的信息分享传播以及获取的平台,  
使得 用 户 可 以 通 过 各 种 渠 道 组 建 自 己 的 个 人 社  
微博用户只需进行实名注册,即可关注自己的好  
,以及实时获取好友的信息状态心情用户可以  
通过选择性关注来筛选自己所需要的信息,同时系统  
也会根据用户关注的方向自动向用户推荐一些可能感  
兴趣的话题。  
[1-3] 新浪微博自 2009 8 月运行以来,为广大用  
户所接受和追捧随后,搜狐网易腾讯等门户网站  
相继推出微博服务,然而,新浪微博是中国微博行业的  
主流之一,注册用户现已超过 3 亿。  
对于社交网站应用,人们不再满足于单纯的聊天,  
随着微博使用人群的快速增长,各种状态信息更  
收稿日期:2014-02-27摇  
摇 摇 摇 摇 修回日期:2014-03-24  
基金项目:湖北省教育厅科学技术研究计划指导性项目基于 LP 的社交网络用户关系挖掘平台(编号:B2013258)。  
作者简介:林晓丽(1980-),,硕士,讲师,研究方向:Web 数据挖掘;胡可可(1990-),,硕士研究生,研究方向:数据挖掘;(1984-),  
,硕士,研究方向:Web 语义信息处理。  
6 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 林晓丽,:基于 Python 的微博用户关系挖掘研究  
·145·  
新频繁信息传播迅速,为社交网络研究提供了绝佳的  
研究数据来源,用户在使用微博的过程中,在网络空间  
形成了多种关系,:好友关系亲情关系共同兴趣关  
系等[5-7] 因此,基于微博的数据分析成为十分值得  
关注的研究方向,可以帮助企业开发新的更契合用户  
需求的服务和产品,留住新老用户,营造有效的盈利模  
。  
微博信息传递过程中不断的向外扩展,在自己关注别  
人或被别人关注时,会自动地加入到另一个用户的人  
际关系网中[10] ,其关注机制如图 2 所示:  
2摇 用户关注与被关注  
通过挖掘分析微博数据背后隐藏的关系,可以准  
高效地为那些具有共同兴趣爱好的微博用户群体  
进行个性化推荐,避免了网络中的无用信息泛滥,降低  
社会复杂性,同时,也可以减少企业推销成本[11] 近  
年来,国内外研究者做了大量的研究工作Armentano  
[12] 从社交关系网络中提取和分析用户的兴趣特征,  
并将用户可能感兴趣的信息进行排序,根据候选信息  
序列为用户推荐信息Yamaguchi [13] 根据微博用户  
的自定义标签建立群体用户清单进行信息推荐为了  
能够根据用户的兴趣变化推荐更有价值的信息,Ushi鄄  
ama [14] 首先提取用户兴趣特征,然后向具有共同兴  
趣的微博用户群体进行个性化推荐。  
1摇 微博用户关系分析  
目前,微博已广泛分布在桌面浏览器移动设备  
等多个平台上,渗透人们日常生活中的点点滴滴通  
常人们在使用微博的过程中,会在微博空间建立种种  
关系,例如:用户与用户之间的关注关系分组中的好  
友或亲情关系实时交互过程中因共同评论或关注某  
一事件而结成的共同兴趣爱好关系等例如:当一个  
人与两个交往密切的人互动时,这两个人也有可能相  
互交流, 们趋向于形成联系紧密的 集  
,群中的所有人都有联系,如图 1 所示[8]  
:
本文利用 K-means 聚类将用户划分为不同的群  
,根据微博用户信息生成兴趣相关性矩阵,挖掘用户  
关注兴趣的相似性和关联性。  
2摇 数据抓取与研究方案  
摇 2. 1摇 微博数据抓取本文采用新浪微博开放平台  
API 获取数据要调用新浪微博 API 的开放平台,需  
要先将自己申请成为开发者,并用新浪微博账号在开  
发平台上创建一个应用,完整填写相关信息,在通过审  
核之后,会获取新浪提供的 App_key App_secret,只  
有获取了这两个号码才能完成接下来用户的认证工  
1摇 社交关系图谱  
,这样保证了数据的完全传递[15-16]  
此外,微博的兴起可以曝光社会的舆论百态,较好  
地引领社会各方面的发展趋势,极大地提升社交媒体  
的社会服务效能例如,新闻报道已经从传统的记者  
编辑发展成为今天的借助微博等媒体共同参与的公共  
App_key App_secret 外还需要 Redirtct_  
uri,这个参数是一个回调网页,是当用户进入你创建  
的应用并对你进行授权之后跳转的页面,但此次属于  
理论研究,因而可以设定为新浪公司的默认回调页面。  
在获得新浪微博的 OAuth2 权之后,三方软  
件就可以利用新浪微博提供的 API 获取用户在微博中  
的授权信息。  
活动[9]  
用户在发布信息的同时,信息会被送到接收终端  
(电脑或移动设备),“ 冶 ( 注此用户的其他用  
)接收到此信息之后便可及时做出评论或转发,让  
更多其他的用户分享此信息在信息的传播过程中,  
信息像广播一样同时快速地传递给所有的粉丝。  
国内外网络微博发展的基本逻辑是入式嵌  
,它与其他网络的基本差异在于嵌套式的发展逻  
微博中的信息传播具有很鲜明的嵌套性特点,使  
用微博的每一个用户都是这个网络上的一个节点,包  
含用户关注的其他用户节点的全部信息同时这也是  
以每个用户为中心的人际关系网,这个人际关系网在  
在新浪微博客户端中申请一个账号,并关注一些  
用户在使用自己账号登陆新浪微博之后,使用新浪  
微博开放平台 API,获取当前账号关注的用户信息,获  
得发布者发微博途径转发次数评论次数等信息。  
摇 2. 2摇 改进的聚类算法聚类就是将一个数据对象  
集合分组成为类似的对象组成的多个类的过程每个  
类中的对象具有相似的特征,不同类中的对象具有相  
异的特征K 均值方法是把含有 n 个对象的集合划分  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单
  • 21ic下载 打赏310.00元   20小时前

    用户:w178191520

  • 21ic下载 打赏310.00元   20小时前

    用户:小猫做电路

  • 21ic下载 打赏310.00元   20小时前

    用户:zhengdai

  • 21ic下载 打赏220.00元   20小时前

    用户:gsy幸运

  • 21ic下载 打赏220.00元   20小时前

    用户:jh0355

  • 21ic下载 打赏210.00元   20小时前

    用户:jh03551

  • 21ic下载 打赏60.00元   20小时前

    用户:sun2152

  • 21ic下载 打赏60.00元   20小时前

    用户:xuzhen1

  • 21ic下载 打赏80.00元   20小时前

    用户:xzxbybd

  • 21ic下载 打赏60.00元   20小时前

    用户:铁蛋锅

  • 21ic下载 打赏60.00元   20小时前

    用户:liqiang9090

  • 21ic下载 打赏20.00元   20小时前

    用户:方中禾

  • 21ic下载 打赏20.00元   20小时前

    用户:w1966891335

  • 21ic下载 打赏30.00元   20小时前

    用户:玉落彼岸

  • 21ic下载 打赏15.00元   20小时前

    用户:kk1957135547

  • 21ic下载 打赏15.00元   20小时前

    用户:w993263495

  • 21ic下载 打赏15.00元   20小时前

    用户:x15580286248

  • 21ic下载 打赏20.00元   20小时前

    用户:WK520077778

  • 21ic下载 打赏25.00元   20小时前

    用户:hp860629

  • 21ic下载 打赏15.00元   20小时前

    用户:sbfd010

  • 21ic下载 打赏10.00元   20小时前

    用户:严光辉

推荐下载