推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

路径-维度GraphOLAP大规模多维网络并行分析框架

更新时间:2019-12-26 13:32:53 大小:2M 上传用户:IC老兵查看TA发布的资源 标签:图立方体立方体物化 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

现实生活中,大量数据都可以使用多维网络进行建模.如何更好地对多维网络进行分析,是研究人员关注的重点.OLAP(联机分析处理)技术已被证实是对多维关系数据进行分析的有效工具,但应用OLAP技术管理与分析多维网络数据以支持有效决策,仍是一项巨大的挑战.设计并提出了一种图立方体模型:路径-维度立方体,并针对提出的立方体模型将物化过程划分为关系路径物化与关联维度物化两部分,分别提出了物化策略,并基于Spark框架设计了相关算法.在此基础上,针对网络数据设计并细化了相关的Graph OLAP(图联机分析处理)操作,丰富了框架的分析角度,提高了对多维网络的分析能力.最后,在Spark上实现了相关算法,通过对多个真实应用场景中的数据构建多维网络,在分析框架上进行了分析,实验结果表明,所提出的图立方体模型和物化算法具有一定的有效性和可扩展性.


部分文件列表

文件名 大小
路径-维度GraphOLAP大规模多维网络并行分析框架.pdf 2M

部分页面预览

(完整内容请下载后查看)
软件学报 ISSN 1000-9825, CODEN RUXUEW  
Journal of Software,2018,29(3):545-568 [doi: 10.13328/j.cnki.jos.005443]  
©中国科学院软件研究所版权所有.  
E-mail:  
Tel: +86-10-62562563  
路径-维度 GraphOLAP 大规模多维网络并行分析框架∗  
张子兴  
,
,
吴心宇  
,
张有杰  
,
孙思瑞  
,
彭程程  
,
刘昱彤  
(智能通信软件与多媒体北京市重点实验室(北京邮电大学),北京 100876)  
通讯作者: 吴斌, E-mail:  
: 现实生活中,大量数据都可以使用多维网络进行建模.如何更好地对多维网络进行分析,是研究人员关注  
的重点.OLAP(联机分析处理)技术已被证实是对多维关系数据进行分析的有效工具,但应用 OLAP 技术管理与分析  
多维网络数据以支持有效决策,仍是一项巨大的挑战.设计并提出了一种图立方体模型:路径-维度立方体,并针对提  
出的立方体模型将物化过程划分为关系路径物化与关联维度物化两部分,分别提出了物化策略,并基于 Spark 框架  
设计了相关算法.在此基础上,针对网络数据设计并细化了相关的 GraphOLAP(图联机分析处理)操作,丰富了框架的  
分析角度,提高了对多维网络的分析能力.最后,Spark 上实现了相关算法,通过对多个真实应用场景中的数据构建  
多维网络,在分析框架上进行了分析,实验结果表明,所提出的图立方体模型和物化算法具有一定的有效性和可扩  
展性.  
关键词: 图立方体;立方体物化;关系路径;图联机分析处理  
中图法分类号: TP311  
中文引用格式: 张子兴,吴斌,吴心宇,张有杰,孙思瑞,彭程程,刘昱彤.路径-维度 GraphOLAP 大规模多维网络并行分析框架.软  
件学报,2018,29(3):545-
英文引用格式: Zhang ZX, Wu B, Wu XY, Zhang YJ, Sun SR, Peng CC, Liu YT. P&D GraphOLAP: Parallel framework for  
large-scale multidimensional network analysis. Ruan Jian Xue Bao/Journal of Software, 2018,29(3):545-568 (in Chinese). http://  
P&D GraphOLAP: Parallel Framework for Large-Scale Multidimensional Network Analysis  
ZHANG Zi-Xing, WU Bin, WU Xin-Yu, ZHANG You-Jie, SUN Si-Rui, PENG Cheng-Cheng, LIU Yu-Tong  
(Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia (Beijing University of Posts and  
Telecommunications), Beijing 100876, China)  
Abstract: Most data in real life can be described as multidimensional networks. How to process the analysis on multidimensional  
networks from multiple views and multiple granularities is still the focus of current research. Meanwhile, OLAP (online analytical  
processing) technology has been proven to be an effective tool on relational data. However, it is an enormous challenge to manage and  
analyze multidimensional heterogeneous networks via OLAP technology to support effective decision making. In this paper, a P&D (path  
and dimension) graph cube model is proposed. Based on this model, the graph cube materialization is divided into two parts, termed as  
path related materialization and dimension related materialization, and the corresponding materialization algorithms are designed. Some  
GraphOLAP operations are also refined to improve the ability of analyzing multidimensional networks. Finally, the algorithms are  
implemented on Spark and the multidimensional networks are constructed through real datasets. These networks are then analyzed using  
基金项目: 国家重点基础研究发展计划(973)(2013CB329606); 国家自然科学基金(61772082)  
Foundation item: National Program on Key Basic Research Project (973) (2013CB329606); National Natural Science Foundation of  
China (61772082)  
本文由基于图结构的大数据分析与管理技术专刊特约编辑林学民教授、杜小勇教授、李翠平教授推荐.  
收稿时间: 2017-07-31; 修改时间: 2017-09-05; 采用时间: 2017-11-07; jos 在线出版时间: 2017-12-05  
CNKI 网络优先出版: 2017-12-06 15:23:18, http://kns.cnki.net/kcms/detail/11.2560.TP.20171206.1522.008.html  
546  
Journal of Software 软件学报 Vol.29, No.3, March 2018  
the framework. The results of experiments validate the effectiveness and scalability of P&D graph cube model and the materialization  
algorithms.  
Key words: graph data cube; materialization; relation path; GraphOLAP  
随着信息技术的不断发展,各个应用领域逐渐积累了海量数据.网络结构由于其强大的表达能力,能够对现  
实生活中大量的数据进行建模,例如社交网络、文本网络、科研合作网络、知识图谱、生物网络等.如何针对  
多维网络进行分析,进而挖掘出有价值的信息以支持有效决策,已成为迫切需要解决的问题.  
传统的多维网络分析方法[1-5]只能够对网络当前层次下的各种实体间的关联关系进行分析,不能很好地对  
网络从不同角度、不同粒度、不同层次进行分析.例如,1(a)所示是一个音乐社交软件的社交关系网络.网络  
中的每个节点都代表一个实体,共包含歌曲、专辑、歌手和用户 4 种不同类型的实体,见表 1,每个实体都包含  
一组与其对应的多维属性;网络中的每条边代表两个实体之间的关系,歌手和歌曲之间的边表示这首歌曲是由  
该歌手演唱,用户与歌曲之间的边表示用户听过这首歌,歌曲与专辑之间的边表示这首歌曲属于此张专辑,用户  
的自环表示两个用户之间互为好友.  
album1  
user3  
song2  
user2  
1
1
4
1
1
2
song1  
user3  
user4  
user1  
user1  
user4  
user2  
song3  
women  
man  
user2  
singer1  
user1  
1
singer2  
1
1
1
album2  
user3  
singer3  
user4  
(a) 一个多维异质网络样例  
(b) 用户-用户关系网络  
(c) 性别维度聚集网络  
Fig.1 A sample of multidimensional network analysis  
1 多维网络分析样例  
Table 1 Entity Attribute Table  
1 实体属性表  
UserID  
user1  
user2  
user3  
user4  
Gender  
man  
women  
women  
man  
Age  
20  
18  
23  
36  
SingerID Gender  
Country  
China  
Korea  
Company  
Co1  
Co2  
singer1  
singer2  
singer3  
man  
man  
women America  
SongID  
song1  
song2  
song3  
Date  
20161020 blue  
20160101  
20160730  
Tag  
Album  
album1  
album2  
Price  
100  
100  
Type  
EP  
Mini  
jazz  
pop  
传统的分析方法针对原始网络进行建模,然而现实生活中的网络往往拥有大量不同类型的节点,且节点包  
含丰富的维度属性,我们对网络的分析需求也更为复杂.例如针对图 1(a)所示的网络,我们想探究网络中用户与  
用户之间的关系,显然不能从原始网络中直接得到希望的结果,还需要对原始网络进行一定的转化.1(b),下  
部分的网络为从图 1(a)中提取的原始用户关系网络,其中每条边是由原始网络中用户与用户之间的朋友关系产  
生的,我们可以从中探究出用户与用户之间的关联关系.进一步思考,两个用户可能共同听过某首歌,那么这两  
个用户之间也存在着由共同听过同一首歌曲建立起的联系.1(b),上部分的网络展示了用户之间共同听过  
同一首歌曲的聚合网络,其中,边的权重是由用户之间共同听过的歌曲数量来计算的.在这个例子中,我们选用  
COUNT(*)作为聚合函数.例如,user2 user4 共同听过 song1 song3,因此 user2 user4 之间边的权重就是 2.  
更进一步,若希望探究用户与用户性别之间的关系,则在得到用户关系网络后,还需要将网络沿性别维度对节点  
进行聚合(如图 1(c)所示),从而得到用户与用户的性别之间的关系.  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载