推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

并行计算框架Spark的自适应缓存管理策略

更新时间:2019-12-24 01:32:43 大小:1M 上传用户:zhiyao6查看TA发布的资源 标签:自适应缓存管理 下载积分:1分 评价赚积分 (如何评价?) 收藏 评论(0) 举报

资料介绍

并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用.


部分文件列表

文件名 大小
并行计算框架Spark的自适应缓存管理策略.pdf 1M

部分页面预览

(完整内容请下载后查看)
2
Vol. 45 No. 2  
Feb. 2017  
2017  
2
ACTA ELECTRONICA SINICA  
Spark  
并行计算框架  
的自策略  
12  
1
1
1
, , ,  
卞 琛 于 炯 英昌甜 修位蓉  
( 1.  
大学信科学与工程学院 疆乌鲁木齐  
830046; 2.  
乌鲁木齐大学信工程学院 疆乌鲁木齐  
830002)  
:
Spark , ;  
缺乏选择高重用度数据 算法用  
并行计算框架  
LRU, , .  
度量方法不影响提出一种  
Spark  
( Self-Adaptive Cache  
框架策略  
ManagementSACM) ,  
动选择算法  
( Selection) ( Parallel Cache CleanupPCC)  
并行算法  
存  
DAG( Directed Acyclic Graph)  
动选择算法通过分的  
( Lowest Weight ReplacementLWR) .  
算法  
RDD  
RDD,  
算法  
重用的  
通过避免计算复杂  
Spark  
并行算法理无的  
RDD  
:  
的任障资瓶颈下的计算实验我们的  
策略了  
的任使得到用  
; Spark;  
性分布式数据集  
:
;
关键词  
中图分类号  
URL: http: / /www. ejournal. org. cn  
并行计算 策略  
:
TP311  
:
A
: 0372-2112 ( 2017) 02-0278-07  
DOI: 10. 3969 /j. issn. 0372-2112. 2017. 02. 003  
文献标识码  
文章编号  
电子学报  
Self-Adaptive Strategy for Cache Management in Spark  
12  
1
1
1
BIAN Chen YU Jiong YING Chang-tian XIU Wei-rong  
( 1. School of Information Science and EngineeringXinjiang UniversityUrumqiXinjiang 830046China;  
2. School of Information and EngineeringUrumqi Vocational UniversityUrumqiXinjiang 830002China)  
Abstract: As a parallel computation frameworkSpark does not have a good strategy to select valuable RDD to cache  
in limited memory. When memory has been full loadSpark will discard the least recently used RDD while ignoring other  
factors such as the computation cost and so on. This paper proposed a self-adaptive cache management strategy ( SACM) ,  
which comprised of automatic selection algorithm( Selection) parallel cache cleanup algorithm ( PCC) and lowest weight  
replacement algorithm ( LWR) . Selection algorithm can seek valuable RDDs and cache their partitions to speed up data in-  
tensive computations. PCC clean-up the valueless RDD sasynchronously to improve memory utilization. LWR takes compre-  
hensive consideration of the usage frequency of RDDthe RDDs computation costand the size of RDD. Experiment results  
show that Spark with our selection algorithm calculates faster than traditional Sparkparallel cleanup algorithm contributes to  
the improvement of memory utilizationand LWR shows better performance in limited memory.  
Key words: parallel computing; cache management strategy; Spark; resilient distribution datasets  
Spark  
要因度量方法不研究 框架适  
1
引言  
策略具有一定的意义  
算 法 括  
LRFUMIN  
特性统性并行计  
: FIFOLRULFU、  
并行广应  
12]  
. Spark  
Hadoop  
的研究方向  
继  
之后出通  
( Resil-  
用高并行计算框架 性分布式数据集  
.  
能表现的一研究缓  
3]  
ient Distributed DatasetsRDD)  
. Spark  
构  
4FIFO  
算法中加入数 文在  
, ,  
策略中 程掌握缓选择加  
LRU  
算法的基础上进行引入进行换  
策略的不算法用  
LRU,  
考  
的计算 选择于  
Spark.  
5]  
献  
RDD  
计算量等影响应用程的重  
AWRP( Adaptive Weight Ranking Policy)  
的  
算法为每  
: 2015-09-02;  
: 2015-11-16; :  
责任编辑 杰  
收稿日期  
修回日期  
:
基金项目 国家自然科学基金  
( No. 61262088No. 61462079)  
279  
2
: Spark  
并行计算框架 的自策略  
计算并优先转换权存  
2. 2  
内存资源模型  
在并行计算构  
.  
重计算方法不具有性 其研究成  
考虑统特性应用场景 献  
6]  
合  
W = { 12m} ,  
源  
处理的高存 设于分存  
R = { r r r } .  
合  
的任务  
Tasks = { 12n}  
一  
1
2
m
; 7websearch  
算法 提出了针对 应用的存  
A  
i m  
的  
im  
; 8,  
算法 了  
量 则可表为  
:
统  
A = A i Tasks  
im  
( 1)  
i
m
W
研究人员研  
Spark  
证所并发每  
由于  
9]  
提出了  
Tachyon,  
一种基分布式文  
, :  
点的即  
在  
Tachyon  
的实 用  
A
r m  
W
( 2)  
根据源需充  
RDD  
im  
m
LRU.  
10RAMCloud,  
提 出 了 但  
献  
i
Tasks  
RAMCloud  
Spark  
统 无相  
容  
提出一种基于  
i
时 集应与任有  
Spark  
框架的自理  
, ,  
于  
( Self-Adaptive Cache ManagementSACM) ,  
缓  
策略  
RDD  
即  
:
动化 率等的  
RDD  
A
i
( 3)  
ij  
j
Task  
i
, ,  
瓶颈影响 使集  
1
存有影响效  
定理  
,  
能 相的研究工存  
, ,  
下 任的  
Spark  
框架优化  
策略于  
高  
2
问题建模与分析  
i
证明 为  
S
i A  
在分调度概率为  
i
:
vacant  
Spark  
资  
首先析  
S
vacant  
模型 模型和  
RDD  
模型 最后提出  
P =  
( 4)  
A A A A .  
A
i
策略的问题义  
i
为  
x
y
x
y
2. 1 Spark  
任务执行机制  
t,  
下任行时由于  
S
为常  
vacant  
Spark  
的任行采调度户  
RDD Action RDD  
此  
P P ,  
调度成  
y
x
个  
lineage  
行  
作时 调度器根据  
概率率也高  
DAG,  
子任务  
来构建个  
. Spark  
2. 3  
任务执行效率模型  
Spark RDD  
DAG 1 .  
示例如其  
序  
中实线示  
Stage. Spark  
务  
分成多个交由并行  
RDD, ,  
线框  
i,  
计算 此 对于务 记其  
RDD  
Task  
合为  
i
Stage,  
每个  
Stage  
包含  
根据依赖分  
= { RDD RDD RDD } ,  
里  
ij  
RDD  
i
中  
i1  
i2  
ij  
Stage  
可能多依赖  
Stage  
部的依赖接  
j
个  
RDD.  
RDDRDD =  
其分合为  
ij  
对于每个  
构成线 各  
到最得出  
{ P P P } ,  
中  
ij1ij2  
P
RDD  
k
中的第 区  
示  
ijk  
ijk  
ij  
RDD.  
标  
1
RDD  
. Spark  
一  
定义  
计算价  
多个入数据计算生成 设  
Parents  
分  
ijk  
P
的计算取所入数  
ijk  
. P  
根据型进行计算 此分的  
ijk  
计算数据数据处理我们  
, :  
计算衡量计算标 即  
T
= read( Parents ) + proc( Parents )  
ijk  
( 5)  
Pijk  
ijk  
Parents  
都存则数据  
ijk  
read( Parents ) = 0RDD  
可以即  
ijk  
有  
由集并行计算生成 此其计算价  
, :  
计算值 即  
T
= max( T T T  
P
ij2  
)
( 6)  
RDDij  
P
P
ijk  
ij1  

全部评论(0)

暂无评论