推荐星级:
- 1
- 2
- 3
- 4
- 5
融合标签关联关系与用户社交关系的微博推荐方法
资料介绍
通过分析微博特点及现有微博推荐算法的缺陷,提出一种融合了标签间关联关系与用户间社交关系的微博推荐方法.采用标签检索策略对未加标签和标签较少的用户进行加标,构建用户-标签矩阵,得到用户标签权重,为了解决该矩阵中稀疏的问题,通过挖掘标签间的关联关系,继而更新用户-标签矩阵.考虑到多用户之间社交关系对挖掘用户兴趣并进行微博推荐的重要性,构建用户-用户社交关系相似度矩阵,并与更新后的用户-标签矩阵进行迭代,得到最终的用户兴趣并进行相关推荐.实验证明了该算法针对微博信息推荐是有效的.
部分文件列表
文件名 | 大小 |
融合标签关联关系与用户社交关系的微博推荐方法.pdf | 2M |
部分页面预览
(完整内容请下载后查看)1
Vol. 45 No. 1
Jan. 2017
第
期
电
子
学
报
2017
1
ACTA ELECTRONICA SINICA
年
月
融合标签关联关系与用户社交关系的
微博推荐方法
, , ,
马慧芳 贾美惠子 张 迪 蔺想红
(
,
西北师范大学计算机科学与工程学院 甘肃兰州
730070)
:
,
通过分析微博特点及现有微博推荐算法的缺陷 提出一种融合了标签间关联关系与用户间社交关系的
摘
要
. , - ,
微博推荐方法 采用标签检索策略对未加标签和标签较少的用户进行加标 构建用户 标签矩阵 得到用户标签权重
,
, , - .
为了解决该矩阵中稀疏的问题 通过挖掘标签间的关联关系 继而更新用户 标签矩阵 考虑到多用户之间社交关系对
, - , -
挖掘用户兴趣并进行微博推荐的重要性 构建用户 用户社交关系相似度矩阵 并与更新后的用户 标签矩阵进行迭
, .
代 得到最终的用户兴趣并进行相关推荐 实验证明了该算法针对微博信息推荐是有效的
.
:
; ; - ; ; ; -
微博推荐 标签检索 用户 标签矩阵 用户标签权重 标签关联关系 用户 用户社交关系相似度
关键词
矩阵
:
TP393. 092
:
A
: 0372-2112 ( 2017) 01-0112-07
DOI: 10. 3969 /j. issn. 0372-2112. 2017. 01. 016
中图分类号
电子学报
文献标识码
文章编号
URL: http: / /www. ejournal. org. cn
Microblog Recommendation Based on Tag Correlation and
User Social Relation
MA Hui-fang,JIA Mei-hui-zi,ZHANG Di,LIN Xiang-hong
( College of Computer Science and Engineering,Northwest Normal University,Lanzhou,Gansu 730070,China)
Abstract: A novel microblog recommendation method combining the tag correlation with the user social relation is
proposed via analyzing microblog features and the deficiencies of existing microblog recommendation algorithm. Specifical-
ly,we establish a tag retrieval strategy to add tags for unlabeled users and users with few tags,and then build the user-tag
matrix and obtain user-tag weights. In order to solve the problem of sparsity of the matrix,we investigate the correlation be-
tween the tags to update the user-tag matrix. Considering the significance of user social relation for microblog recommenda-
tion,a user-user social relation similarity matrix is constructed and a mechanism is designed to iteratively obtain user inter-
est. Experimental results show that the algorithm is effective in microblog recommendation.
Key words: microblog recommendation; tag retrieval; user-tag matrix; user-tag weight; tag correlation; user-user so-
cial relation similarity matrix
,
数研究人员多从扩展文本特征 丰富语义的角度出发
1
引言
.
进行文本表示 主流的方法多使用外部数据库进行语
[1]
Web2. 0
、
技术 无线网络技术和移动通信
4G
随着
.
,
少数研究人员对文本特征向量进行缩减 利
义扩充
用极少数词表示用户的兴趣
用户专门添加来描述自身特征的 其对于描述用户兴
[2]
, .
技术的发展 微博社交网络平台应运而生 如何在此平
.
由于微博中的标签是
,
台中为用户提供个性化的服务 筛选出高质量的内容
,
,
变得非常重要 而准确的发现用户的兴趣则是实现这
. ,
趣具有重要意义 在互联网其他领域的研究中 己经有
[3]
. ,
种个性化服务的前提 在此前提下 大量的用户兴趣推
.
一些工作开始考虑使用标签信息来表示用户兴趣
[4,5]
. , ,
荐算法应运而生 针对微博长度短 内容稀疏的特点 多
,
方面 虽然已有人采用标签来发掘用户
在推荐研究
: 2015-06-02;
: 2016-01-25;
:
责任编辑 孙瑶
收稿日期
修回日期
:
基金 项 目 国 家 自 然 科 学 基 金
( No. 61163039,No. 61363058 ) ;
( No. 145RJYA259 ) ;
( No.
甘 肃 省 自 然 科 学 基 金
甘 肃 省 科 技 厅 青 年 基 金
1506RJZA127) ;
( No. IIP2014 - 4)
中科院智能信息处理重点实验室开放课题
113
1
:
马慧芳 融合标签关联关系与用户社交关系的微博推荐方法
第
期
[6,7]
1
表
标签检索阶段各符号的定义
定义
需进行加标微博用户集合
用户的个数
,
兴趣
也 已 有 研 究 人 员 挖 掘 用 户 的 关 系 进 行 推
[8,9]
,
荐
但并未考虑多标签之间存在着一定的关联关
符号
U = { u ,u ,…,u ,…,u }
,
系 更是很少有人将标签间关系与用户间关系融合表
1
2
i
N
.
征用户兴趣进行相关微博推荐
N
本文提出了一种融合了标签间关联关系与用户间
D = { d ,d ,…,d
i2
}
u
用户 所发布的微博集合
i
i
i1
iM
i
.
社交关系的微博推荐方法 对于无标签以及标签较少
M ,i = ( 1,2,…,N)
i
u
用户 所发布的微博个数
i
, ,
的用户 通过标签检索策略获取相应标签 继而构建用
N
D =
D
i
∪
所有用户发布的微博集合
- , ,
户 标签矩阵 得到初始用户标签权重 考虑标签与标签
i = 1
T = { t ,t ,…,t }
im
i
D
微博集合
中的词集
i
i1 i2
i
,
间的关联关系 通过挖掘被同一用户标注的多标签的
m ,m << M
i
,
内联关系与被不同用户标注的多标签外联的关系 构
词集中词语的个数
i
i
L = { l ,l ,…,l }
in
i
, -
建合理的多标签关联关系矩阵 对用户 标签矩阵进行
u
用户 的标签集合
i
i
i1 i2
. , ,
更新 另外 考虑用户与用户之间的社交信息关系 构建
n
u
被用户 标注的标签个数
i
i
N
,
合理的用户间社交关系相似度矩阵 并与更新后的用
L =
L
i
∪
所有标签集合
i = 1
- , .
户 标签矩阵进行迭代 得到最终的用户标签权重 与忽
n
L
标签集合 中标签的总数
,
略标签与用户间关系的微博推荐算法对比 本文提出
. 1
的推荐方法能够更有效地进行微博推荐 图 为文章算
在标签检索的过程中最重要的部分是如何从用户
[11]
,
法程序流程图 主要由标签关联关系与用户社交关系
以往发布过的微博中选取具有代表性的关键词 作为
, ,
两部分组成 该算法的输入是微博信息流 输出为微博
.
用户的标签 选择关键词作为相应标签应基于以下两
.
的推荐序列
: ;
点 一是能够较好地揭示用户所发布微博的内容 二是
, .
有局部指示性 即该词应能表示特定的主题 针对前者
,
TF( Term Frequency) TF-
-
采用词频
或词频 逆文档频率
加权
权衡所选查询关
clarity
IDF( Term Frequency-Inverse Document Frequency)
[12]
.
, clarity
针对后者 采用清晰度
策略
键词的局部指示性 所选查询关键词的
KL( Kullback-Leibler)
.
得分是查
询语言模型与选择语言模型间的
.
距离 前者是与一个给定的查询关键词最佳匹配的一
, u . j
系列微博 后者是用户 微博集合 第 个查询关键词
i
l
, l ,
为所选择的候选词 利用 作为单一查询关键词 查
ij
ij
g ,
询检索最具有相关性的 篇微博 定义为
i
Q . ( 1)
式 定
lij
l
Clarity
.
得分
义查询关键词
的
ij
'
P( l | Q )
lij
ij
'
Clarity( l )
ij
=
P( l | Q ) log
lij
( 1)
∑
ij
'
'
P( l | D )
i
ij
lij
L
i
∈
l
,
具有局部指示性且能够代表特定的主题 那么
若
ij
l ,
匹配的文档与 具有相同的主题 该主题由集合中出现
ij
.
概率较高且数量较少的词表示
2
用户标签获取与多标签关联关系
u
j
所发布的微博集中第 个词的得分
定义用户
i
2. 1
用户标签的获取
:
如下
,
对于用户的个人标签 可通过用户其本身设定以
s = tf × clarity( l )
ij
( 2)
j
j
,
及从用户所发布的微博中检索两种方式获取 且可表
n
选定 个最高权重的查询关键词被作为用户
i
u
的
i
[10]
.
,
若用户自身设定标签较多 则不需
示为用户的兴趣
.
标签 每个标签初始权重的归一化如式
( 3)
:
所示
;
对微博标签进行获取 若用户自身设定标签较少或用
s
j
normalized( s ) =
j
( 3)
ni
,
.
户并未自身设定标签 则需对用户的标签进行获取
2. 1. 1
针对未添加标签以及标签较少的用户 设计标签
s
∑
x
标签检索
x
= 1
2. 1. 2
用户标签矩阵
,
u
针对用户 构造一个标签权重向量
i
V = ( w ,w ,
i1
, . 1
检索与加权策略 获取用户的标签 表 为在标签检索
i
i2
[13]
…,w )
in
.
以用来存储标签的权重
.
阶段各符号的定义
全部评论(0)