推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

HDVM:基于关系矩阵的关联数据压缩查询模型

更新时间:2019-12-24 01:06:06 大小:992K 上传用户:守着阳光1985查看TA发布的资源 标签:数据压缩 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

随着大数据时代的到来,大量的RDF数据充斥着整个数据网络.RDF(Resource Description Framework)后台引擎管理巨大的数据集时,数据集索引不能全部加载到内存中,导致系统需要执行缓慢的磁盘访问来解决SPARQL查询.本文提出了一种HDVM(Header Dictionary Vector Matrix)压缩查询模型,通过在关联数据集中提取潜在的三元组关系矩阵,以主语向量、谓语向量和宾语矩阵的模型序列化存储来减少关联数据重复出现的次数,允许SPARQL查询在压缩状态下全内存执行.实验结果表明,本文提出的模型比常用的HDT(Header-Dictionary Triples)压缩方式提高了3%~20%的压缩率,同时在三元组个数达到十亿级别的数据集上平均查询时间在400ms左右.


部分文件列表

文件名 大小
HDVM:基于关系矩阵的关联数据压缩查询模型.pdf 992K

部分页面预览

(完整内容请下载后查看)
3
Vol. 46 No. 3  
Mar. 2018  
2018  
3
ACTA ELECTRONICA SINICA  
HDVM:  
基于关系矩阵的  
关联数据压缩查询模型  
12  
123  
12  
1234  
符海东 彭   
黄 莉 顾进广  
( 1.  
430065;  
武汉科技大学 计算机科学与技术学院 湖北武汉  
2.  
430065;  
智能信息处理与实时工业系统湖北省重点实验室 湖北武汉  
国家新闻广电出版总局富媒体数字出版内容组织与知识服务重点实验室 北京  
4. 430072)  
) ,  
3.  
100038;  
(
湖北语言与智能信息处理研究基地 武汉大学 湖北武汉  
:
RDF  
. RDF( Resource Description Framework)  
数据充斥着整个数据网络  
随着大数据时代的到来 大量的  
SPAR-  
后台引擎管理巨大的数据集时 数据集索引不能全部加载到内存中 导致系统需要执行缓慢的磁盘访问来解决  
QL  
HDVM( Header Dictionary Vector Matrix)  
查询 本文提出了一种  
压缩查询模型 通过在关联数据集中提取潜在的三  
元组关系矩阵 以主语向量 谓语向量和宾语矩阵的模型序列化存储来减少关联数据重复出现的次数 允许  
SPARQL  
,  
查询在压缩状态下全内存执行 实验结果表明 本文提出的模型比常用的  
HDT( Header-Dictionary Triples)  
压缩方式提  
3% ~ 20%  
的压缩率 同时在三元组个数达到十亿级别的数据集上平均查询时间在  
400ms  
高了  
左右  
:
;
;
;
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
关系矩阵 关联数据 查询 压缩  
:
TP311  
:
A
:
0372-2112 ( 2018) 03-0721-09  
DOI: 10. 3969 /j. issn. 0372-2112. 2018. 03. 030  
文献标识码  
文章编号  
电子学报  
HDVM: Compression & Query Model of  
Linked-Data Based on Relational Matrix  
12  
123  
12  
1234  
FU Hai-dong PENG Shen  
HUANG Li GU Jin-guang  
( 1. College of Computer Science and TechnologyWuhan University of Science and TechnologyWuhanHubei 430065China;  
2. Hubei Province Key Laboratory of Intelligent Information Processing and Real Time Industrial SystemWuhanHubei 430065China;  
3. Key Laboratory of Rich-media Knowledge Organization and Service of Digital Publishing ContentSAPPRFTBeijing 100038China;  
4. Language and Intelligent Information Processing Research Base ( Wuhan University) WuhanHubei 430072China)  
Abstract: With the arrival of big data eraa large number of RDF( Resource Description Framework) data is flooding  
the entire Web of Data. Since the indexes of these datasets cannot be fully loaded in main memory when the RDF engines  
manage these huge datasetsthese systems need to perform slow disk accesses to solve SPARQL queries. In this papera  
method named HDVM is proposed to reduce the number of linked data repeated times by extracting the latent triplet relation  
matrix from the linked datasetand storing them in the form of subject vectorpredicate vector and object matrixwhich al-  
lows SPARQL queries to be full-in-memory performed without decompression. The experimental results show that the HD-  
VM( Header Dictionary Vector Matrix) model proposed in this paper can improve the compression rate by 3% ~ 20% com-  
pared with HDT( Header-Dictionary Triples) and the query time on billion-level-size dataset reaches average 400 millisec-  
onds.  
Key words: relation matrix; linked-data; query; compression  
: 2016-11-07;  
: 2017-05-18;  
:
收稿日期  
修回日期  
责任编辑 梅志强  
:
( No. 61673304No. 61272110) ;  
( No. 11&ZD189) ;  
(
软件工程国家重点实验室 武汉大  
基金项目 国家自然科学基金  
( No. SKLSE2012-09-07)  
国家社会科学基金重大计划  
)
学 开放基金  
722  
2018  
2
910采用了基于谓词的方法将数据集中的  
K -triple  
1
引言  
,  
三元组分为了不相交的子集对 主语 宾语 并对这些  
2
W3C  
RDF( Resource Description Frame-  
最先提出将  
子集对进行了高度压缩 实验结果表明  
2
K -triple  
方案具  
work) 1]  
作为处理元数据的基础 其目的在于定义一种  
K -triple  
有较好的压缩效果 但  
并没有提出一种序列化  
. RDF  
广泛认可的资源描述机制  
的提出很显然是受到  
模型  
Web  
信息交换过程中以文档数据为中心观点的影响  
RDF RDF  
1112]  
文献  
介绍了一种新的关联数据压缩方案  
随着  
不断演变和进化 人们致力使  
实现信息  
HDT,  
:
将关 联 数 据 中 的 信 息 分 解 成 三 个 部 分 头 部  
处理自动化 就像万维网的超链接允许数据能在自身  
( Header) ( Dictionary) ( Triples) .  
字典 三元组  
头部保  
被创建的环境外被访问和处理一样 因此  
RDF  
成为信  
存了描述整个数据集的逻辑和物理元数据 例如数据  
息自动化处理以及关联数据研究重点  
;
集的来源 编辑信息以及数据集的一些统计信息等 字  
RDF  
HTTP  
关联数据采用  
两种方式发布结构化  
;
典部分主要将数据集中的资源映射为唯一标识 三元  
数据 并将它们从不同的数据源中关联起来 这让网络  
组部分将数据集中的三元组字典化后 再根据三元组  
. RDF  
从最初以文档为中心逐渐向以数据为中心转变  
的主语信息将三元组分组 最后对这些三元组进行压  
提供了一种基于图形的数据模型来描述真实世界的结  
2]  
. HDT  
保存了数据集的底层结构 同时避免了数据集  
Web  
构化关联数据 为  
. RDF  
数据研究奠定了基础  
中较长及重复的资源描述 它是一种比较有效的压缩  
( SPO)  
进行建模 其中主语  
S”  
于主谓宾原子三元组  
HDT bzip2  
方案 经过  
技术进行二次压缩 受  
方案的压缩技术相继被提出 如  
压缩的文件还可通过  
等文件压缩  
HDT  
P”  
是资源属性 宾语 是资  
O”  
是被描述的资源 谓语  
HDT  
方案的启发 一些基于  
13]  
HDT FoQ Water-  
源属性值  
14]  
15]  
RDF  
网络数据包含不同领域的 海量的  
数据 当需  
要管理和查询这些数据时 查询性能和数据可扩展性  
RDF  
Fowl HDT + +  
Urbani  
大型关联数据的压缩一般比较耗时 于是  
16将字典编码技术与  
分布式方案快速的压缩大型数据集 文献  
HDT MapReduce  
相结合 采用  
17]  
便成了焦点 越来越庞大的  
数据可以使用足够多  
MapReduce  
的存储介质来存储 但是庞大的数据集不仅会导致查  
18]  
也同样  
询效率降低 还会加剧其它常见过程的性能问题 如  
HDT  
结合在一起 加快了  
的压缩  
RDF  
发布和交换 随着远程执行  
SPARQL  
方式越来越  
速度  
RDF  
受欢迎  
的发布和交换在关联数据的查询中越来  
上述的压缩方法 在不同的适用场景下都具有良  
2
越频繁 因此减小关联数据集体积的同时提高查询效  
好的压缩率 但是除  
K -tripleBitMat  
外的压缩方法并不  
支持在压缩状态下进行查19本文提出的基于分块  
率具有重大意义 而如何构建一个合适的关联数据压  
缩查询模型成了关键性问题 本文提出一种内存压缩  
向量矩阵的关联数据压缩查询模型不仅具有良好的压  
查询型 在关联数据的压缩和查询中找到一个平  
缩率 还可在压缩状态下直接进行查询操作  
衡点  
3
构建压缩查询模型  
2
关联数据压缩研究现状  
3. 1  
关联数据冗余分析  
3根据对关联数据冗余类型的分析和对  
Wu  
目前关联数据语法压缩从原理上可以分为以下  
现有压缩方案的总结 将现有的压缩技术分成语法压  
:
两类  
缩和语义压缩两类 语义压缩指利用规则推理减少关  
( 1)  
基于关系三维矩阵的压缩方法 这种压缩方案在  
联数据中三元组的数量以达到压缩的目的 但在数据  
.  
结构上形象呈现了主语 谓语和宾语存在的关联关系 但  
压缩过程中 语义压缩的效果并没有语法压缩好  
为了维护矩阵的结构 该类方法存储了部分不存在的关  
联关系 特别是当关联数据集大到一定规模的时候 关联  
语法压缩指通过改变关联数据的文件结构并对数  
据集进行序列化 用更简洁的数据结4表示关联数  
(
1
数据的三维矩阵就是一个超级稀疏矩阵 如图 所示 本  
4. 1 DBLP  
) ,  
的三维空间矩阵 直接存  
5提  
据中的信息 从而达到压缩的目的  
. Fernández  
节实验数据集中  
储三维矩阵将会产生很多冗余信息 虽然这种存储结构  
出了压缩关联数据的基础方案 利用一般的文件压缩  
6]  
7]  
(
技术 如  
LZMA  
bizp2  
)
对查询操作很友好 但在压缩率不够显著  
对关联数据的文件结构进  
8提出了  
行了修改 能够明显减小文件体积  
. Atre  
( 2)  
通过提取关联数据潜在的三元组关联规则 建  
BitMat  
BitMat  
立线性序列化和线性比特预测位作为存储结构 该类  
方案  
用一种紧凑的比特矩阵结构来存储  
关联数据集 并且支持在压缩数据集上直接进行查询  
方法去掉了很多重复的数据项 因此压缩率比较高 这  
.  
操作 但是这种方案的扩展性不高 与  
BitMat  
类方法虽然在语法结构上达到了压缩的极致 但是在  
方法不  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载