推荐星级:
- 1
- 2
- 3
- 4
- 5
一种基于用户动态兴趣和社交网络的微博推荐方法
资料介绍
针对为微博用户推荐符合其兴趣取向的个性化微博信息的问题,结合LDA主题模型,提出了一种基于用户动态兴趣和社交网络(DISN)的微博推荐方法.DISN方法首先引入时间函数,推断出用户的兴趣向量,通过对新发布的微博数据内容进行聚类分组,以用户兴趣向量筛选与用户最匹配的分组,随后以网格索引的形式对选定的分组中微博进行查询,计算微博发布者被目标用户关注的可能性并进行排序,最终形成推荐列表.实验验证了DISN方法较之传统方法更具有效性和高效性.
部分文件列表
文件名 | 大小 |
一种基于用户动态兴趣和社交网络的微博推荐方法.pdf | 2M |
部分页面预览
(完整内容请下载后查看)4
Vol. 45 No. 4
Apr. 2017
第
期
电
子
学
报
2017
4
ACTA ELECTRONICA SINICA
年
月
一种基于用户动态兴趣和
社交网络的微博推荐方法
1
1
1
2
, , ,
陈 杰 刘学军 李 斌 章 玮
( 1.
,
南京工业大学计算机科学与技术学院 江苏南京
211816; 2.
73677
,
部队 江苏南京
210016)
中国人民解放军
:
,
LDA ,
主题模型 提出了一种基于
摘
要
针对为微博用户推荐符合其兴趣取向的个性化微博信息的问题 结合
( DISN) . DISN , ,
方法首先引入时间函数 推断出用户的兴趣向量 通过对新
用户动态兴趣和社交网络
发布的微博数据内容进行聚类分组 以用户兴趣向量筛选与用户最匹配的分组 随后以网格索引的形式对选定的分组
DISN
的微博推荐方法
,
,
,
,
.
中微博进行查询 计算微博发布者被目标用户关注的可能性并进行排序 最终形成推荐列表 实验验证了
方法
.
较之传统方法更具有效性和高效性
:
;
; LDA;
;
;
关键词
中图分类号
URL: http: / /www. ejournal. org. cn
动态兴趣 社交网络
网格查询 个性化推荐 微博
0372-2112 ( 2017) 04-0898-08
DOI: 10. 3969 /j. issn. 0372-2112. 2017. 04. 019
:
TP391
:
A
:
文章编号
文献标识码
电子学报
Personalized Microblogging Recommendation Based on Dynamic
Interests and Social Networking of Users
1
1
1
2
CHEN Jie ,LIU Xue-jun ,LI Bin ,ZHANG Wei
( 1. Department of Computer Science and Technology,Nanjing Tech University,Nanjing,Jiangsu 211816,China;
2. 73677 PLA Troops,Nanjing,Jiangsu 210016,China)
Abstract: To recommend useful microblogs that match users’interests and likes effectively,an approach in which the
dynamic interests and social networking ( DISN) of users are seamlessly integrated based on LDA model is proposed. The
approach infers the interest vector of users better by using time function and groups the new published microblogs by cluste-
ring method and gets the best matching groups with users’interest vector. Then DISN traverses the selected groups by grid
querying approach and matches the microblogs with publishers’probabilities of being followed and sorts the result. Finally
the personalized microblogging recommendation is achieved. Experimental results show that DISN is more effective and effi-
cient than the traditional models.
Key words: dynamic interests; social networking; LDA; grid querying; personalized recommendation; microblog
; ,
发生着变化 此外 微博推荐在一定程度上也是向用户
1
引言
. ,
推荐与其志趣相投的用户 因此 实时而有效的个性化
web 2. 0
,
技术的不断发展与成熟 新兴社交媒
随着
.
推荐显得尤为重要
微博文本作为微博的信息载体很好地反映了用户
, tweet、 , 、
体 如 新浪微博等 已逐渐发展成为人们传播 分
, .
享信息的重要平台 并吸引了数以亿计的用户 根据新
,
的兴趣取向以及变化趋势 因而传统的微博推荐方法
《2014
浪微博
》,
年微博用户发展报告 新浪微博月活跃
.
大都采用基于内容的推荐方法 基于内容的推荐方法
1. 67
. ,
亿 如此庞大的用户群 每日将产生
用户数已达到
,
首要解决的问题是对用户进行建模 传统的方法是对
,
.
大量的数据 用户很容易被海量的数据所淹没 因而如
何从海量的数据中选取并推荐用户感兴趣的内容变得
,
用户发布的所有历史数据无偏重地进行处理 从而推
,
断用户兴趣 如高明等提出的基于
LDA
模型以及滑动
[1]
. ,
越来越重要 然而 用户的兴趣往往随着时间的推移而
,Otsuka E
窗口的个性化微博推荐方法
等人提出了基
: 2015-09-07;
: 2015-11-12;
:
收稿日期
修回日期
责任编辑 孙瑶
) ( No. BE2015697)
江苏省重点研发计划 社会发展
:
基金项目 国家自然科学基金
( No. 61203072) ;
(
899
4
:
杰 一种基于用户动态兴趣和社交网络的微博推荐方法
第
期
陈
[2]
TF-IDF
HF-IHU
,
此类方法未
于
的微博话题推荐方法
, ; ,
考虑时间因素 因而无法反映用户的兴趣变化 此外 微
,
博推荐在一定程度上 更希望用户能够关注微博的发
, , ,
布者 甚至与其成为好友 而传统的微博推荐方法 往往
[1 ~ 3]
, ,
侧重于内容的推荐 而未
只关注用户的信息需求
.
能考虑用户的社交需求
,
针对以上问题 论文提出了基于用户动态兴趣和
( DISN)
.
的微博推荐方法 该方法首先将新发
社交网络
布的微博数据基于其内容进行分层聚类 从而对微博
LDA( Latent Dirichlet Allocation)
,
.
进行分组 利用
主题模
型推断分组后各组内微博以及用户发布的历史微博的
, ,
主题分布 引入时间函数 调整用户近期及远期微博数
, ,
据的权重 从而动态地推断用户的兴趣取向 并以此为
, .
基础 选取与用户兴趣取向最匹配的微博分组 进而以
,
网格索引的方式遍历选定微博组中的各条微博 并依
据用户与微博发布者的兴趣相似度和用户对微博发布
,
者的信任度 计算微博发布者被用户所关注的可能性
,
,
并根据可能性的高低以及微博的热度进行排序 最终
. 1
生成合适的微博推荐列表 系统框架图如图 所示
.
: ( 1)
,
论文主要贡献如下
引入时间函数 更好地提
取用户兴趣取向 有效地解决了用户兴趣随时间推移
; ( 2)
,
而发生变化的问题
通过对用户兴趣和用户社交网
, ,
络的无缝整合 在推荐用户感兴趣内容的同时 增加用
,
户关注微博发布者的可能性 从而更好地提升推荐效
; ( 3)
,
提出了一个两阶段的微博推荐模型 第一阶段
果
,
根据用户的兴趣取向选取与其匹配的微博分组 第二
,
阶段遍历选定分组中微博 根据微博发布者被用户关
,
注可能性的大小 选定最终推荐给用户的微博
; ( 4)
实
.
验验证了该方法的有效性和高效性
2
推断用户兴趣取向
2. 1 LDA
主题模型
[4]
LDA
Blei D M
2003
,
模型
监督机器学习技术 可以用来识别大规模文档集
ment collection) ( corpus)
由
在
年提出 是一种非
,
( docu-
.
中潜藏的主题信息
或语料库
;
词分布 φ
zn
2
其模型图如图 所示
.
( 4)
w .
n
从词的多项式分布 φ 中采样最终生成词
zn
M
当给定一个有 篇文档的文档集合
D, K
共包含
M
D
LDA
:
个文档集合
用
生成的概率为
) p( ) p( w
θ
n
zn
z,N
w.
个单词 其中 α 与 β 是服从狄力克雷分布
个主题
M
Nm
p(
)
α
θ
d
)
)
θ
(
p( z
m
φ
zn
, p( ) ,
的语料级别的参数 α 是 θ 的向量参数 用于生成一
∏
m
θ
β
∫
∏
n
m
m =1
n =1
,
个主题 θ 向量 β 是各个主题对应的单词概率分布矩阵
( 1)
而其中比较重要的隐含变量 文档 主题分布 θ 和
Gibbs Sampling
p( w | z) .
:
则文本的生成过程可描述如下
:
-
( 1)
d D,
对每个文档 ∈ 从狄利克雷分布
Dir ( )
α 中
-
.
方法获得
主题 词分布可由
d
取样生成文档 的主题分布 θ
;
2. 2
用户兴趣分布
LDA
论文通过使用
( 2)
d
n
第
从主题的多项式分布 θ 中取样生成文档
主题模型提取用户所发布的微
z ;
n
个单词的主题
,
博的主题分布 从而推断用户的兴趣取向
.
( 3)
Dir (
) z
β 中取样生成主题 的
n
从狄利克雷分布
全部评论(0)