推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

一种正交分解大数据处理系统设计方法及实现

更新时间:2019-12-30 04:13:54 大小:2M 上传用户:zhiyao6查看TA发布的资源 标签:大数据处理系统 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

MapReduce等计算框架的出现开启了大数据处理新纪元,以Hadoop,Spark为代表的大数据处理系统具有大吞吐率、跨平台、高可扩展的优势,并得到广泛应用.然而,为避免与具体的操作系统、硬件平台绑定,这些系统的设计与优化集中在计算模型、调度算法等方面,无法充分利用底层平台的优势.提出了一种基于正交分解的大数据处理系统设计与优化方法,将系统分解为松耦合的多个功能正交的模块,使存储、处理功能分离出来,交给能够利用底层平台操作系统甚至硬件资源的存储、执行引擎,原大数据系统退化为调度平台;进而,提出基于锁无关机制的存储底层优化策略和基于指令超级优化的执行引擎底层优化策略.以此为指导,以Hadoop作为兼容和改进的对象,实现了原型大数据处理系统Arion.Arion既能保持Hadoop的跨平台、高可扩展的优势,又能消除任务执行的瓶颈,其本地化的设计与优化手段对非Hadoop平台同样有效.通过在原型系统上的实验证明,Arion能够提升大数据处理任务的执行效率,最高达7.7%.


部分文件列表

文件名 大小
一种正交分解大数据处理系统设计方法及实现.pdf 2M

部分页面预览

(完整内容请下载后查看)
54sn100239 2017 20151062  
计 算 机 研 究 与 发 展  
?
: ,  
09108 2017  
Journom tesearclo nt  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
p p  
一种正交分解大数据处理系统设计方法及实现  
向小佳  
赵晓芳  
龚关俊  
中国科学院计算技术研究所 北京  
100190  
北方工业大学计算机学院 北京  
100144  
n  
g j @  
sentaioi  
ꢀ ꢀ ꢀ ꢀ  
rocesin m  
g y  
an X haaofan  
, ,  
 anhan n  
g j g  
ꢀ ꢀ  
Lin  
Intuom in chnolo  
inesdem o Snce 00190  
gy  
y f  
ꢀ ꢀ  
j g  
Schooom nce rtiver chnolo  
gy  
00144  
j g  
y f  
ꢀ ꢀ  
tract i datlateevoluioattornd rocesin ld resuin ihe  
ꢀꢀ ꢀ ꢀ  
p  
thivin oi data rocesin ms uc doo rk etc ranw  
g y  
ꢀ ꢀ ꢀ  
lafoth fondence hhro t and oocal theand  
g  
g p  
subtrate lafondin thesoreecausn  
ꢀ ꢀ ꢀ ꢀ p  
nl focuhe rocesin elatmewrkmsre resenw  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀꢀ  
osfo ndeni data rocesin  n & od  
p  
g y  
he ndin lafoin arre and ere  
gp  
ꢀ ꢀ ꢀ  
benhesocanfrastructurerthere based on local nd harre wo  
ꢀ ꢀ  
strats thaocreasetoraseata rocesin execuion  
ꢀ ꢀ p  
p  
ne are rserecteforioneodtrat esenn a  
p p p  
erdoo   doo n  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀꢀ ꢀ  
y p p  
cal r lafondenc.Onts rove  
p g ꢀ  
ꢀ ꢀ p  
thahe rotot ccelerati data rocesin .  
yp ꢀ  
ꢀ ꢀ p  
; ; ; ;  
Ke wrds i data rocesin  in frmewrk locazaock free sr  
p  
g y  
n excecuioe  
g  
等计算框架的出现开启了大数据处理新纪元 以  
doo rk  
p p  
为代表的大数据处  
Ma duce  
、 、 , , 、  
理系统具有大吞吐率 跨平台 高可扩展的优势 并得到广泛应用 然而 为避免与具体的操作系统 硬件  
, 、 ,  
平台绑定 这些系统的设计与优化集中在计算模型 调度算法等方面 无法充分利用底层平台的优势 提  
出了一种基于正交分解的大数据处理系统设计与优化方法 将系统分解为松耦合的多个功能正交的模  
, 、 , 、 ,  
块 使存储 处理功能分利用底层平台操作系统储 执行引擎 原大  
; ,  
数据系统退化为调度平台 而 提出基于关机制存储底层优化策略和基于指令超级优化的执行  
引擎底层优化策 略 指 导 以  
作 为 兼 容 和 改 进 对 象 现 了 型 大 数 据 处 理 系 统  
doo  
修回日期  
2016 07 19  
收稿日期  
- -  
2015 12 09  
基金项目 家自然科学基金项目  
61202061 61202413  
);  
中国科学院计算技术研究所创新课题项目  
20146080  
u ote turaencounda 61202061 61202413 annovm  
p  
y  
ꢀ ꢀ  
g  
, ( )  
esadences 20146080 .  
ꢀ  
nstutom in chnlo  
ꢀ ꢀ p g y  
()  
2017 55  
计算机研究与发展  
1098  
、 , ,  
的跨平台 高可扩展的优势 消除任务执行瓶颈 其本地化的设计  
保持  
n  
doo  
n  
与优化手段对非  
平台同样效 通过型系统验证明  
数据处理任  
doo  
执行效达  
.  
; ; ; ; ;  
大数据处理系统 计算框架 本地关 超级优化 执行引擎  
关键词  
中图法分类号  
391  
[]  
、 、  
网络大数据的复杂性 不确定性 涌现性 给当  
议将  
Ma  
两阶段的  
执行逻辑  
Java  
duce  
ꢀꢀ  
、 ,  
系统的架构 计算能力带来了挑战和机遇 催  
替换为  
编写并预编译好 可执行文  
IT  
C++  
生了大数据处理框架 围绕着这些计算框架 诞生了  
, ,  
步 但其失去了中间逻辑表示  
灵活同时本于  
各种大数据处理系统 例如用于批量大数据处理的  
的用  
duce  
Ma  
[]  
[]  
, ,  
户逻辑 没考虑通用中处理没  
 duce a Dsco  
ꢀ  
[]  
向 流 式 处 理 的  
有深度挖掘空间  
l  
ꢀ  
rosot  
[]  
[]  
[]  
等 学  
我们首先提出一种基于交分的大数据处理  
er Sto hoo S4  
系统计与数据处理系统的计  
术界和开源社区也围绕着面向批量大数据处理的  
基 于  
松耦架构 能出功度  
的 更 具 实 时 性 的  
doo  
che doo  
[]  
、 、 ;  
理 数据逻  
伯克利  
向  
RDD  
的基于  
Im la  
AMab  
[]  
展开了究 国内  
相关的数据任务执行下沉到具体硬  
集迭代应的  
rk  
件平台完成 数据系统负责最核心与  
、 、  
互联巨头百度 阿里 腾讯在  
等系  
doo  
, ,  
任务调度 进而 在导下 基  
上部署用  
无关底层优略 以进  
统面向不针对的计  
、 、 ,  
模 型 调 度 数 据 从 而 断 演 进 如  
指令超级行引擎底层优利  
操作统的构  
tom  
等流式处理模型 相对于  
doo  
locreatture  
作 为 造 共 享 的 基  
适合 海 量 流 数 据 的 即 时 查 询 而  
则 针 对  
rk  
模型擅长理和互应提  
; ,  
石 后者基于大数据系统的针对超级优  
Ma duce  
) ,  
行逻辑达  
n  
p  
了  
内存及相关迭代模型  
RDD  
doo  
的计算框架原本单一的  
演化出了  
码层线静态术  
来发挥底层平台力  
Ma duce  
( )  
recte AG  
g p  
基于环图  
doo  
doo  
为灵活的  
统也单  
基于以  
作为的  
10  
我 们 现 了 原 型 大 数 据 处 理 系 统  
全局任务调度的  
.  
rn  
的 方 式 将  
doo  
了  
理与任务调度功能  
Joacker  
任 务 调  
n  
, ,  
而 由于大数据处理系统规模强调平台无  
、 , ;  
计算过通数  
现  
nFS C  
, 、 ,  
避免具体件平台挂述  
下沉到  
的大数据了基于关  
系统的演进都忽视术的用  
ntel  
通过计算  
计算计算外  
11  
态  
locree F  
中国研究院的  
ivsk  
引擎分  
机的数据享读协议 下  
doo  
[ ]  
12  
虚拟外 取得果  
执行引擎 在代码  
到  
基于  
Java  
LLM  
, 、  
思想值得借鉴 但还未充计算点  
( )  
窥  
IR  
间表示  
操作系统 硬件平台力 国百度公司也  
) ,  
行引擎  
ee le  
p p  
通过使似  
提出了  
率  
doo  
C++  
e  
Clouder huuderla  
??g  
①  
②  
③  
?
? p  
ch incubatochr rctml  
?? ?p j  
?
doo ++ tenon mewductate nk85988d0d233d4b14e69c.  
??  
?
?
ml  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载