推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

NV-Shuffle:基于非易失内存的Shuffle机制

更新时间:2019-12-30 13:38:29 大小:3M 上传用户:IC老兵查看TA发布的资源 标签:Shuffle机制 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略——NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffleheavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间.


部分文件列表

文件名 大小
1577684296NV-Shuffle:基于非易失内存的Shuffle机制.pdf 3M

部分页面预览

(完整内容请下载后查看)
54sn100239 2018 20170742  
计 算 机 研 究 与 发 展  
?
: ,  
45 2018  
Journtesearclo nt  
ꢀ ꢀ ꢀ ꢀ ꢀ  
基于非易失内存的  
hue  
机制  
Shue  
潘锋烽  
ꢀꢀꢀ  
( (  
计算机体系结构国家重点实验室 中国科学院计算技术研究所  
北京  
100190  
中国科学院大学 北京  
100049  
anfen  
@  
huhuselaemr  
ꢀ ꢀ  
Pan ann  
ꢀ ꢀ  
Stae Lborator o  checture Intu in chnolo  
),  
inesm o nces  
y f  
ꢀ ꢀ  
y f  
ꢀ ꢀ  
gy  
00190  
j g  
ivert o inesm o nces 00049  
y f  
ꢀ ꢀ  
y f  
ꢀ ꢀ  
j g  
tract he lai data rocesin lafork lecata  
gp  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
n tashile asxcha ens  
ꢀ ꢀ ꢀ ꢀ ꢀ  
y gp  
acrosferenaskle asn ths hase thateee  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
trferrend stentasence thnc of  
ꢀ ꢀ y  
Shle asactorhe efonci data rocesin .Irdeo  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
reduin  verheads trate aselale emr  
p p ꢀ ꢀꢀ ꢀ  
? y y  
NVM  
)—  
( ) ,  
xt eneraiolale em VM ec sucse  
ꢀ ꢀ  
em M  
ꢀ  
),  
anfer emes ntrduce w  
ꢀ  
rteduin verhead dula eae erfonce lw  
pp ? ꢀ  
ꢀ ꢀ ꢀ ꢀ p  
?
ener et ata rocesin lafoaseemr cin sucrk le  
gy p  
ꢀ ꢀ ꢀ ꢀp  
datccesasertacto rfonce ses  
ꢀ ꢀ ꢀ ꢀ ꢀ p  
eremr ttoratrecatccesseemr b intro V  
p y-  
y y  
ꢀ ꢀ  
featnsteanter  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀꢀ ꢀp  
erfoncesuhueduces xecuio eav  
ꢀ  
y  
rkload.  
; ; (  
Ke wrds ata rocesin le VM lale emr  
p  
);  
nolafer ft  
ꢀ  
tolernce  
之间通过  
是大数据处理过程中一个极为重要的阶段 不同类型的  
或者  
Ste  
Shle  
sk  
过程中数据需要进行持久化 以达到避免重计算和容错的目的 因此  
进行数据交换 在  
le  
Shle  
的性能是决定大数据处理性能的关键因素之一 由于传统 阶段的数据通过磁盘文件系  
le  
Shle  
统进行持久化 所以影响  
开销 尤其是对基于内存计算的大数据处  
性能的一个重要因素是  
Shle  
IO  
?
理平台 例如  
le  
( )  
具有读写  
NVM  
阶段的磁盘  
可能拖延数据处理的时间 而非易失内存  
IO .  
?
修回日期  
2017 12 21  
收稿日期  
- -  
2017 09 29  
基金项目 家重点研发计划项目  
);  
国家自然科学基金项目  
2016 Y 1000202  
61379042  
u ote e Rsearclo a 2016 1000202 anl  
ꢀ ꢀ  
turaencounda 61379042 .  
ꢀ ꢀ  
通信作者 劲  
( )  
xi n  
gj  
()  
2018 52  
计算机研究与发展  
230  
、 ,  
速度非易失性以及高密度性等诸多优点 它们数据处理过程中对磁盘  
赖 克服目  
IO  
?
基于内存计算的大数据处理中的  
性能瓶颈提供了新机会 提出于  
NVM le  
策  
IO  
?
———  
阶 段 采 用 文 件 系 统 的 存 储 方 式 使 用 于  
Shle  
摒 弃 了 传 统  
le  
- -  
, ,  
数据的存与管件系统的开销 充分发挥 优  
NVM  
访问行  
Memr  
Shle  
势 从少  
, ,  
实验结果显示 于  
le le  
阶段的 时 在  
rk  
平台 实现了  
Shle  
类型的负载  
节省约  
行时间  
 .  
heav  
le  
; ; ; ;  
非易失内存 非易失缓冲区 容错  
Shle  
大数据处理  
关键词  
中图法分类号  
312  
nolale em VM  
大的例 上述果表明 即使使用的  
非 易 失 性 内 存  
NVM  
ꢀꢀ  
件系统 其开销也非常大的 何高效使用  
的出现为解决磁盘性能瓶颈问题提供了新的机会  
NVM  
指的是基于内存总线接口 字节寻  
本文中的  
升  
阶段的  
IO  
?
性能是存计算使  
NVM  
Shle  
址的非易失内存 在内存计算的场景下 非易失性内  
所面一个问题与挑战  
NVM  
存有 着非常 广 景 与磁盘 和  
DRM  
Tarcentm  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
NVM  
:)  
VM  
主要优势有  
有着与  
DRM  
[ ]  
17  
文件系统中各个部分的开销比例  
读写延迟和吞吐率 用来消除盘  
IO  
?
Funn  
rcent%  
ꢀ ꢀ ?  
;)  
开销 的  
性能  
的存密度比  
IO  
?
VM  
相似 它放  
NANasSD  
ꢀ ꢀ  
m  
y  
5  
大 与  
DRM  
tadatck  
6  
6  
8  
; )  
相比内存  
, 、  
具备易失 可  
NVM  
更多的数据  
tadatate  
p  
持久化势 随业界展非易失内存 其  
_ _  
Co  ser  
py  
相当迅速  
司推载  
2013 Mro ash  
_ _  
Co seocache  
py  
3  
[]  
DRM  
 014  
AiA ch  
gg ꢀ  
_
t  
1  
24  
公司 推 出 了  
接 口 的  
DDR  
联合推出的  
NVM  
ntel  
ocan  
3  
[]  
接口的  
产品预  
ro  
DDR  
int  
市  
3D XPint  
度堪比因  
2018  
在本 文 中 我 们 提 出 了 基 于  
NVM  
为了挥  
.  
解决磁盘性能问题的一个较接的方式替换  
———  
优化略  
Shle  
储介质 将传统的磁盘换成  
这样使得内  
NVM  
的性能势  
摒弃件系统  
NVM  
行  
le  
的性能 与此  
存计算中的数据获得  
数据存 持久化 内  
NVM  
Shle  
同时也保证了数据的持久化  
, ,  
存的方式 直接在户态访持久化内存 避免传  
Shle  
周知  
的性能是决数据性  
, 、  
路径 例如文件系设  
中的冗长的  
IO  
?
69  
能的关键一  
统  
阶段数  
Shle  
驱动等  
通过磁盘文件系久化 影响  
本文的主要贡献如下  
[ ,  
1  
性 能 的 一 个 要 因 是  
开 销  
用  
Shle  
IO  
?
建  
久化访接  
Java  
VM  
解决内存计算在  
阶段由持  
———  
接口 使数据使  
NVM  
久化的  
Shle  
开销 因此将  
le  
引入到  
访问  
IO  
?
NVM  
NVM  
阶 段 于  
的 性 能 接 近  
针对  
提出了种  
数据的织  
Shle  
NVM  
NVM  
Shle  
有研究作表明 对于  
现有的系软  
NVM  
———  
方式  
高效处故障 网络面的问题  
基于  
久化能  
DRM  
sh  
) ,  
文件系统 开销过高 不挥  
NVM  
NVM  
5  
[ ]  
16  
的性能  
. 1  
缩  
过程文件系统  
针对 传 统  
阶 段 先 创 文 件 的 问  
Shle  
[ ]  
17  
题 提出合  
———  
部分开销比例  
略  
NVM  
从表 以看约  
间利用率  
花费了  
延迟从而升  
5%  
NVM  
数据的使用  
Shle  
文件系据的较  
于  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载