推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

一种基于用户轨迹的跨社交网络用户身份识别算法

更新时间:2019-12-30 12:51:06 大小:697K 上传用户:IC老兵查看TA发布的资源 标签:用户轨迹身份识别 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

针对现有的基于用户轨迹的跨社交网络用户身份识别算法未考虑用户轨迹中的位置访问顺序特征的缺点,该文提出一种基于Paragraph2vec的跨社交网络用户轨迹匹配算法(CDTraj2vec)。首先将用户轨迹转化为易于处理的网格化表示,并按照一定的时间粒度、距离尺度对原始的用户轨迹进行划分,使用户轨迹中的位置访问顺序特征易于抽取;然后利用Paragraph2vec算法中PV-DM模型抽取轨迹序列中位置访问顺序特征,得到用户轨迹的向量表示。最后通过用户轨迹向量判定轨迹是否匹配。在社交网络BrightKite上的实验结果表明,与基于位置访问频率或者基于轨迹间距离的方法相比,F值提高了2%~4%个百分点,所提算法能够有效地抽取出用户轨迹中的位置访问顺序特征,更加准确地实现了基于用户轨迹的跨社交网络用户身份识别。


部分文件列表

文件名 大小
1577681460一种基于用户轨迹的跨社交网络用户身份识别算法.pdf 697K

部分页面预览

(完整内容请下载后查看)
40卷 第 11期  
201811月  
Vol. 40No. 11  
Nov. 2018  
Journal of Electronics & Information Technology  
一种基于用户轨迹的跨社交网络用户身份识别算法  
陈鸿昶  
*  
黄瑞阳  
程晓涛  
吴 铮  
(国家数字交换系统工程技术研究中心 郑州 450002)  
摘 要:针对现有的基于用户轨迹的跨社交网络用户身份识别算法未考虑用户轨迹中的位置访问顺序特征的缺  
点,该文提出一种基于Paragraph2vec的跨社交网络用户轨迹匹配算法(CDTraj2vec)。首先将用户轨迹转化为易  
于处理的网格化表示,并按照一定的时间粒度、距离尺度对原始的用户轨迹进行划分,使用户轨迹中的位置访问  
顺序特征易于抽取;然后利用Paragraph2vec算法中PV-DM模型抽取轨迹序列中位置访问顺序特征,得到用户轨  
迹的向量表示。最后通过用户轨迹向量判定轨迹是否匹配。在社交网络BrightKite上的实验结果表明,与基于位  
置访问频率或者基于轨迹间距离的方法相比,F值提高了2%4%个百分点,所提算法能够有效地抽取出用户轨迹  
中的位置访问顺序特征,更加准确地实现了基于用户轨迹的跨社交网络用户身份识别。  
关键词:社交网络;用户身份识别;轨迹相似度;Paragraph2vec  
中图分类号:TP393; TP391.4  
DOI10.11999/JEIT180130  
文献标识码:A  
文章编号:1009-5896(2018)11-2758-07  
User Identification Across Social Networks Based on User Trajectory  
CHEN Hongchang  
XU Qian  
HUANG Ruiyang  
CHENG Xiaotao  
WU Zheng  
(National Digital Switching Engineering & Technological Research Center, Zhengzhou 450002, China)  
Abstract: The performance of trajectory based user identification is poor since the existing methods ignore the  
order feature of location sequence. To solve this problem, a Cross Domain Trajectory matching algorithm based  
on Paragraph2vec (CDTraj2vec) is proposed. Firstly, the user trajectory is transformed to the grid  
representation which is easy to handle. The PV-DM model in the Paragraph2vec algorithm is utilized for  
extracting order feature of location sequence in trajectory. Then the original user trajectories are divided by a  
certain time size and distance scale to construct a training sample suitable for training PV-DM model. The PV-  
DM model is trained by different types of training samples, and the vector representation of the user  
trajectories is obtained. Finally, the matching of the trajectory is determined by the user trajectory vector.  
Experimental results on BrightKite shows that the F-measure is improved by 2%4% compared with the  
existing frequency based and distance based algorithm. The proposed algorithm can effectively extract the order  
feature of location sequence, and realize the trajectory based user identification across social networks.  
Key words: Social networks; User identification; Trajectory similarity; Paragraph2vec  
1 引言  
于同一个真实用户的账号关联起来,这一技术的解  
决能够为跨网络推荐、跨网络用户建模以及跨网络  
用户行为分析等应用提供全面的用户数据,实现对  
多源社交网络大数据的充分挖掘[1]。  
在互联网时代,社交网络已成为人们生活中不  
可分割的一部分。社交网站Aboutme表明,一个用  
户通常在多个社交网站上注册账号来与不同的社交  
网络中的朋友进行交互,产生了丰富的社交用户信  
息。然而,各个社交网络账号间是孤立的没有联系  
的,因此用户的社交行为分散在多个社交网络中。  
跨网络用户身份识别,指的是将不同社交网络中属  
近年来逐渐发展的地理位置采集和无线通信技  
术使得社交网络用户可以轻易地使用移动设备在发  
布的内容中加入地理位置标签。因为用户轨迹具有  
不容易模仿伪造的特点,文献[2]已经证明了用户移  
动轨迹的独特性,因此用户轨迹数据为跨社交网络  
用户身份的准确识别带来了全新技术途径。文献[3]  
基于两条用户轨迹中位置的共现频率,提出了一种  
处理多源位置数据的身份识别方法,缺点是参数过  
多,调整参数的过程非常繁琐。文献[4]将整个地图  
收稿日期:2018-01-30;改回日期:2018-06-11;网络出版:2018-06-30  
*通信作者: 徐乾ꢀ
基金项目:国家自然科学基金(61521003)  
Foundation Item: The National Natural Science Foundation of  
China (61521003)  
11期  
陈鸿昶等:一种基于用户轨迹的跨社交网络用户身份识别算法  
2759  
分成许多个网格,然后将每个用户的轨迹表示成若  
干小网格组成的序列,使用TF-IDF模型将每个用  
户的轨迹转化成向量,通过计算向量间余弦相似性  
得到用户轨迹间的相似性。文献[5]使用将每一个地  
理位置表示为该位置的语义位置对应的词,每条用  
户轨迹组成一篇由语义位置组成的文章,然后用  
LDA模型表示出每个用户的主题分布,最后计算  
分布间的KL散度得到轨迹相似性。文献[6]假设用  
户在一段时间内访问某个地点的次数服从泊松分  
布,进而得到两个账号属于同一个真实用户的概率  
形式的函数表示,最终通过优化目标函数得到最佳  
的匹配结果。文献[7]综合考虑轨迹的空间信息和时  
间信息,将原始的用户轨迹转化为三部图的来表  
示,最后通过求取三部图的最优划分,来得到最优  
的匹配方案。  
表 示 , 每 一 个 坐 标 点 pi 都 包 含 3个 属 性x, y, t ,  
(x, y)是坐标点piGPS坐标,t(x, y)被记录下来  
的时间。一个用户的在一个社交网络中产生的所有  
位置信息都记录在一条轨迹中。  
定 义 2 ꢀ 用 户 轨 迹 匹 配 : TA DA  
TB DB 是 来 自 两 个 不 同 的 时 空 数 据 集 (DA 和  
DB)的两条轨迹。如果TATB是同一个真实用户产  
生的,则称TATB互相匹配。本文的最终目的是  
尽可能多且准确地识别出匹配的轨迹对。  
2.2 数据预处理  
2.2.1 原始数据的网格表示ꢀ原始的时空数据集中  
存储的是2维地理空间上的GPS坐标点,直接处理  
这些数据点会遇到样本稀疏的问题,一种简单的解  
决方法是将原始GPS坐标点转化为网格表示。首先  
根据时空数据集中GPS坐标点的地理位置在地图上  
定义一个矩形的经纬度边界,这个矩形包含了所有  
时空数据集中的GPS坐标点。矩形边界对应的纬度  
范围是(lat1, lat2),经度范围是(lon1, lon2)。然后根  
据需要的精度定义小网格的行数r和列数c(行数和  
列数越大对应的精度越高)。任意一个GPS坐标点  
(lat, lon)都可以按照式(1)~式(3)转化为小网格编  
ci来表示。  
纵观现有方法,在计算用户轨迹间的相似性  
时,主要是将轨迹看作地理位置的集合或者时空域  
中点的集合,然后使用基于频率或者基于共现次数  
的方法来计算位置集合之间的相似度,如果这个相  
似度超过一定阈值则认为这两个用户对应现实世界  
中同一个人。这些方法虽然取得了一定的效果,但  
是仍然存在以下问题:将用户访问的各个地理位置  
看作坐标点的集合进行处理,忽略了各个地理位置  
之间的相关性。例如用户在访问位置l之后,很有  
可能会访问另一个附近的位置l。现有方法缺乏对  
这种轨迹序列信息的建模,没有充分挖掘用户访问  
地理位置顺序的潜在规律,导致算法精度下降。  
针对上述问题,本文提出一种考虑位置访问顺  
序特征的跨社交网络用户轨迹匹配方法CDTraj2vec  
(Cross Domain Trajectory to vector algorithm)。  
考虑到基于深度学习的段落向量算法Paragraph2vec[8]  
在对段落进行向量化时考虑词序特征的良好表现,  
尝试使用Paragraph2vec方法抽取用户轨迹中的位  
置访问顺序特征;通过对用户轨迹按照一定的时间  
粒度、距离尺度的划分,构建出适用于训练PV-  
DM模型的轨迹序列,然后通过训练PV-DM模型得  
到用户轨迹在多个类型的训练样本上的向量化表  
示,进而得到蕴含用户位置访问顺序信息的轨迹向  
量。最终通过向量之间的相似性度量得到不同社交  
网络中用户轨迹间的相似性,从而进行用户身份识  
别。本文在真实社交网络中的时空数据上进行实  
验,验证了所提算法的有效性。  
(lat - lat1) r  
cx =  
cy =  
(1)  
lat2-lat1  
(lon - lon1) c  
lon2-lon1  
(2)  
(3)  
ci = ((c(cx - 1)) +cy)  
其中,⎿⋅是向下取整函数,cx是小网格所在的行  
号,cy是小网格所在的列号。  
2.2.2 训练样本构建方法ꢀ真实社交网络中用户产  
生的轨迹通常是相对稀疏的,一些用户轨迹中前后  
相邻的小网格之间并不存在很强的关联,例如某些  
用户轨迹片段中前后相邻的小网格相距很远或者相  
隔时间很长,这使得位置访问顺序特征难以显现,  
直接对这种前后位置相关性较弱的轨迹序列进行建  
模会导致用户轨迹向量表示精度的下降。因此需要  
对用户轨迹进行进一步处理,筛选出能够体现用户  
访问顺序特征的轨迹片段,选取相邻小网格之间相  
关性较强的轨迹序列作为下一步模型的训练样本。  
本文采用3种不同的训练样本构建方法:第1种构建  
方法是按时间划分轨迹,这种划分方法假设用户在Δt  
时间内访问的位置之间具有一定的关联。一段有效  
2 相关定义及数据预处理  
的位置序列定义如下:用户轨迹为T= [c , c , ⋅⋅⋅, c ],  
2.1 相关定义  
t1 t2  
tm  
T的子序列T = [ct , ct , ⋅⋅⋅, ct ]为有效序列如果  
1ꢀ用户轨迹:用户轨迹定义为随时间变化的  
GPS坐标点序列组成的集合,用T= p1, p2, ⋅⋅⋅, p|T|  
s
i
i+1  
i+l  
T 满足:(1)ti+l - ti Δt(2)不存在T的一个子序  
s

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载