推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于核心标签的可重叠微博网络社区划分方法

更新时间:2019-12-24 03:08:32 大小:1M 上传用户:zhiyao6查看TA发布的资源 标签:核心标签 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

针对传统微博社区发现算法内聚低重叠度不可控制等问题,以自顶向下的策略,提出一种基于核心标签的可重叠微博社区发现策略Tag Cut.先利用用户标签的共现关系及逆用户频率对标签进行加权,并基于标签之间的内联及外联关系并将用户的标签进行扩充,然后在整体社区中提取包含某一标签的用户作为临时分组并利用评价函数评估划分的优劣,最后选出最合适的核心标签根据其对应分组与其他分组距离的远近来决定将其划分为新的分组还是并入其他分组.用此策略反复迭代直到满足要求.该算法划分的组由若干个拥有核心标签的分组组成且综合利用微博用户已声明的及隐含的兴趣、用户之间的关注规律、结果的实用性对划分结果进行修正.经真实数据实验表明该方法内聚高社区重叠度可控且拥有实际意义.


部分文件列表

文件名 大小
基于核心标签的可重叠微博网络社区划分方法.pdf 1M

部分页面预览

(完整内容请下载后查看)
4
Vol. 45 No. 4  
Apr. 2017  
2017  
4
ACTA ELECTRONICA SINICA  
基于核心标签的  
可重叠微博网络社区划分方法  
12  
1
13  
1
, , ,  
马慧芳 谢 蒙 何廷年 蔺想红  
( 1.  
西北师范大学计算机科学与工程学院 甘肃兰州  
730070; 2.  
中国科学院计算技术研究所智能信息处理重点实验室 北京  
100190  
3.  
北京师范大学信息科学与技术学院 北京  
100875)  
:
, ,  
针对传统微博社区发现算法内聚低重叠度不控制等问题 以顶向下策略 提出一种基于核心标  
Tag Cut.  
先利用用户标签的共现关系及逆用户频率对标签进行加权 并基于标签之间  
签的可重叠微博社区发现策略  
内联及外联关系并将用户的标签进行扩充 后在整体社区中提取包含某一标签的用户作为临时组并利用评价  
函数评估划分的优劣 最后选出最合适的核心标签根据其其他组距离远近来决定将其划分为新的分  
. .  
组还是并入其他组 用此策略反复迭代直到满足要求 该算法划分的由若干个拥有核心标签的分组组成且综合利  
、 、 .  
微博用户已声明兴趣 用户之间注规律 结果的实对划分结果进行正 经真数据实验表明  
方法内聚社区重叠且拥有际意义  
:
;
;
;
;
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
微博网络 可重叠社区划分 核心标签 用户关关系 标签划分  
TP393. 092 0372-2112 ( 2017) 04-0769-08  
DOI: 10. 3969 /j. issn. 0372-2112. 2017. 04. 001  
:
:
A
:
文章编号  
文献标识码  
电子学报  
An Overlapping Microblog Community Detection Algorithm via Core Tags  
12  
1
13  
1
MA Hui-fang XIE Meng HE Ting-nian LIN Xiang-hong  
( 1. College of Computer Science and EngineeringNorthwest Normal UniversityLanzhouGansu 730070China;  
2. Key Laboratory of Intelligent Information ProcessingInstitute of Computing TechnologyChinese Academy of SciencesBeijing 100190China;  
3. College of Information Science and TechnologyBeijing Normal UniversityBeijing 100875China)  
Abstract: The traditional microblog community detection algorithm has the characteristic of low coupled clustering and  
the overlapping degree can not be controlled. In this paperwe present a divisive approach for overlapping microblog community  
detection algorithm via core tags. Firstlythe key idea is to develop a tag weighing strategy by taking advantage of the co-occur-  
rence of tags and inverse user frequency. Then tag correlation can be exploitedwhich investigates both inter and intra correlation  
of tagsand the tags for users can therefore be expanded. Users containing certain tag in the whole community are extracted as a  
temporary group and the quality value is calculated under the current partition. The most appropriate core tag is selected and the  
corresponding group is then updated until certain requirements are satisfied. The community detected by this algorithm share com-  
mon core tags and the partition results can be revised based on the explicit and implicit interest of userstogether with the users’  
attention and practical application. Experimental results show that the method is effective and has practical significance.  
Key words: microblog network; overlapping community detection; core tag; user attention relationship; tag cut  
网络部存连接紧密的社区 社区之间连接  
1
引言  
比较松散 针对社区结构进行析使得网  
网络在现生活起着非常作用 大  
络的能理解和行为预测变的可能 网络的社区  
研究人员已针对网络开展了相研究 这些网  
发现研究果已经被成功地运如恐怖鉴  
1]  
普遍拥有一种社区结构 这结构是  
别 蛋白质功预测  
Web  
社区多领域中  
: 2016-01-08;  
: 2016-08-01;  
:
收稿日期  
修回日期  
责任编辑 马兰英  
甘肃省青年科技基金  
中国科学院计算技术研究所智能信息处理重点实验室开放基金  
:
( No. 61363058No. 61163039) ;  
( No. 145RJYA259No. 1606RJYA269) ;  
甘肃省自然科学研究基  
基金项目 国家自然科学基金  
( No. 145RJZA232) ;  
( No. IIP2014-4)  
770  
2017  
根据是否允许个节多个社区 社区发现  
:
标签对用户是的  
:
传统的社区发现社  
co( t t )  
j
i
23]  
t
v
k
j
GN  
FN  
;
重叠的社区发  
算法有  
点可多个社区  
的算法基于的算法  
些人目标函数度出发进行社区发现  
算法和  
算法  
cow( v t ) =  
i
( 3)  
k
v
4]  
k
:
基  
( 3)  
t
t
v
一用户 所标注  
k
| v |  
k
式  
56]  
i
j
有  
v
用户 中标签的量  
k
7 ~ 9]  
2. 1. 2  
更准确地表标签考虑标签对用户  
IDF ( inverse document fre-  
标签加权  
这些有着验信息等优点 所逐渐  
社区发现主流  
性 类率  
微博作为一种新网络节  
quency) IUF( inverse user frequency) ,  
逆用户频率  
标签用户数占总用户数值  
之间特  
:
10]  
, ,  
传统微博网络应用并不越  
n
始探索微博社区发现 其微博网络  
IUF( t ) = log (  
2
+ 1)  
( 4)  
i
uf( t )  
i
11]  
标签用户兴趣爱好 是进行社区发现时划  
n
社区中用户数  
uf( t )  
标  
i
分的重准 但想更准确研究微博社区发现必  
t .  
注有标签 的用户标签的关联权和  
i
IUF  
合用户点自标签用户之间关系 较  
v t  
其进行加权 在用户 中标签 的义如下  
i
:
k
12]  
LCA( Lowest Common Ancestor)  
为  
此为础周小平 发现  
R-C  
算法  
w
= cow( v t ) ·IUF( t )  
i
( 5)  
k i  
k
i
13]  
LCA  
其进行算法的处理对  
算法的不足提出微博  
2. 2  
2. 2. 1  
标签扩充  
标签内联关系  
网络  
, ,  
是用户的微博信息导致方  
15]  
:
对标签的内联关系下定义  
14]  
很难准确提取用户兴趣孙怡帆 在用户  
1
标签用户所标两  
定义  
关系础上加入用户标签概念 但方法没  
标签在内联关系  
考虑到用户标签过少情况且该算法为不可重叠的  
t
t
v
的标签 标签  
t
t
在  
j
用户  
i
j
k
i
社区发现算法 本文提出一种微博用户标签用  
v ,  
用户 内联关系 由  
k
Jaccard  
t  
i
t
式  
j
关系的可重叠社区发现方法 通过计算标签之  
( 6)  
:
义  
内联关系式  
间关联关系用户标签进行扩充 后根据是包含  
w w  
ki kj  
1
核心标签对微博网络社区进行可重叠的划分 并根据  
LIR( t t ) =  
j
×
( 6)  
i
H
w + w - w w  
H
kj  
v
k
ki  
ki kj  
,  
划分结果 作为再次核心标签的据 此外 还  
: w  
w v i  
别表用户 的第 标  
kj k  
中  
ki  
提出一种标签与评价以此为础逐  
t
j t  
与第 标签 的重  
j
. H = { v | ( w  
k
0) ( w  
≠ ≠  
kj  
i
ki  
划分结果  
0) } .  
H = LIR( t t ) = 0.  
则  
j
( 7)  
标签间  
i
2
用户标签扩充  
:
内联关系并下  
1,  
i = j  
2. 1  
用户标签加权方案  
LIR( t t )  
j
i
尽管用户在标签的的  
N - LIR( t t ) =  
j
( 7)  
i  
j
i
n
{
标签与标签客观现关  
LIR( t t )  
j
i
i = 1i  
j
种关系使标签对用户显示出不的重要性  
2. 1. 1  
社区网络常被一  
n  
标签的量  
N - LIR  
(
t t  
i
)
同  
j
标签共现关系  
t
t
内联关系  
一用户的标签  
i
j
2. 2. 2  
对标签的外联关系下定义  
标签外联关系  
, ,  
用户则认标签在共现关系 条  
:
:
件概率下共现关系定义如下  
2
v
v
注  
定义  
那么在  
在外联关系  
若有标签用户  
1
2
p( t t )  
j
i
p( t | t ) =  
j
( 1)  
i
v v  
1
中与标签内联关系标签  
2
p( t )  
j
p( t | t ) p( t | t ) ,  
其进行称化处  
j
情况下  
( 2)  
i
j
i
t
t t N -  
在一标签 使得  
q
标签  
j
:
式  
示  
i
LIR( t t ) > 0  
i
N - LIR( t t ) > 0,  
那么标签  
q
t
t
co( t t ) = p( t | t ) ·p( t | t )  
( 2)  
用户的标签之间拥有着现关系 户某  
标签与用户其他标签共现关系则认这个  
q
j
i
j
i
j
i
j
j
i
t  
外联关系中标签 标签  
q
t
t
接  
j
i
标签 标签  
t
t
t
通过标签 的外联关系下  
q
:
i
j

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载