您现在的位置是：首页 > 技术资料 > 并行计算框架Spark的自适应缓存管理策略

推荐星级：

并行计算框架Spark的自适应缓存管理策略

更新时间：2019-12-24 01:32:43 大小：1M 上传用户：zhiyao6 查看TA发布的资源 标签：自适应缓存管理 下载积分：1分评价赚积分（如何评价?）打赏收藏评论(0) 举报

资料介绍

并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用.

部分文件列表

文件名	大小
并行计算框架Spark的自适应缓存管理策略.pdf	1M

立即下载

【关注B站账户领20积分】

部分页面预览

（完整内容请下载后查看）

Vol． 45 No． 2

Feb． 2017

第

期

电

子

学

报

2017

ACTA ELECTRONICA SINICA

年

月

Spark

并行计算框架

的自适应缓存管理策略

1，2

，，，

卞琛于炯英昌甜修位蓉

( 1．

，

新疆大学信息科学与工程学院新疆乌鲁木齐

830046; 2．

，

乌鲁木齐职业大学信息工程学院新疆乌鲁木齐

830002)

Spark ， ;

缺乏有效缓存选择机制不能自动识别并缓存高重用度数据缓存替换算法采用

摘

要

并行计算框架

LRU，，．

度量方法不够细致影响任务的执行效率本文提出一种

Spark

( Self-Adaptive Cache

框架自适应缓存管理策略

Management，SACM) ，

包括缓存自动选择算法

( Selection) 、 ( Parallel Cache Cleanup，PCC)

并行缓存清理算法

和权重缓存

， DAG( Directed Acyclic Graph)

其中缓存自动选择算法通过分析任务的

( Lowest Weight Replacement，LWR) ．

替换算法

，

RDD

．

RDD，

．

提高集群内存利用率权重替换算法

结构识别重用的

通过权重值判定替换目标避免重新计算复杂

Spark

并自动缓存并行缓存清理算法异步清理无价值的

，

RDD

，． :

产生的任务延时保障资源瓶颈下的计算效率实验表明我们的

，

．

策略提高了

的任务执行效率并使内存资源得到有效利用

; Spark;

弹性分布式数据集

;

关键词

中图分类号

URL: http: / /www． ejournal． org． cn

并行计算缓存管理策略

TP311

: 0372-2112 ( 2017) 02-0278-07

DOI: 10． 3969 /j． issn． 0372-2112． 2017． 02． 003

文献标识码

文章编号

电子学报

Self-Adaptive Strategy for Cache Management in Spark

1，2

BIAN Chen ，YU Jiong ，YING Chang-tian ，XIU Wei-rong

( 1． School of Information Science and Engineering，Xinjiang University，Urumqi，Xinjiang 830046，China;

2． School of Information and Engineering，Urumqi Vocational University，Urumqi，Xinjiang 830002，China)

Abstract: As a parallel computation framework，Spark does not have a good strategy to select valuable RDD to cache

in limited memory． When memory has been full load，Spark will discard the least recently used RDD while ignoring other

factors such as the computation cost and so on． This paper proposed a self-adaptive cache management strategy ( SACM) ，

which comprised of automatic selection algorithm( Selection) ，parallel cache cleanup algorithm ( PCC) and lowest weight

replacement algorithm ( LWR) ． Selection algorithm can seek valuable RDDs and cache their partitions to speed up data in-

tensive computations． PCC clean-up the valueless RDD sasynchronously to improve memory utilization． LWR takes compre-

hensive consideration of the usage frequency of RDD，the RDD’s computation cost，and the size of RDD． Experiment results

show that Spark with our selection algorithm calculates faster than traditional Spark，parallel cleanup algorithm contributes to

the improvement of memory utilization，and LWR shows better performance in limited memory．

Key words: parallel computing; cache management strategy; Spark; resilient distribution datasets

，．， Spark

要因素度量方法不够细致因此研究框架自适

引言

．

应缓存策略具有一定的现实意义

典型的缓存替换算法包括

LRFU、MIN

利用内存的低延迟特性改进系统性能成为并行计

: FIFO、LRU、LFU、

等这些算法在并行计算框架得到广泛应

［1，2］

． Spark

Hadoop

算新的研究方向

是继

之后出现的通

( Resil-

．

，

用高性能并行计算框架采用弹性分布式数据集

，．

用但性能表现并不理想另外的一些研究成果则在缓

［3］

ient Distributed Datasets，RDD)

． Spark

作为数据结构

，［4］ FIFO

存替换算法中加入了不同的参数文献在

和

，，

缓存管理策略中程序员掌握缓存对象的选择权增加

LRU

，

算法的基础上进行改进引入附加参数进行置换

．

了缓存策略的不确定性缓存替换算法采用

LRU，

未考

，

目标的计算但其参数选择不适用于

Spark．

［5］

文献

提

RDD

虑

计算代价及容量等影响应用程序执行效率的重

AWRP( Adaptive Weight Ranking Policy)

出的

算法为每

: 2015-09-02;

: 2015-11-16; :

责任编辑蓝红杰

收稿日期

修回日期

基金项目国家自然科学基金

( No． 61262088，No． 61462079)

279

: Spark

琛并行计算框架的自适应缓存管理策略

第

期

卞

，

个缓存对象计算权重并优先转换权重值最低的缓存

2. 2

内存资源模型

，

在并行计算集群中资源池由一系列工作节点构

，．

对象但权重计算方法不具有普适性其他一些研究成

．

果则考虑的是不同的系统特性和应用场景文献

［6］

针

，

成定义工作节点集合

W = { 1，2，…，m} ，

集群内存资源

，

对多核处理器的高速缓存设计了基于分区结构缓存

R = { r ，r ，…，r } ．

集合

时间段内运行的任务

Tasks = { 1，2，…，n}

为同一

记

; ［7］ websearch

替换算法文献提出了针对应用的缓存

，A

i m

为任务在工作节点上的

; ［8］，

替换算法文献则利用闪存的低延迟优势设计了

，

内存分配量则任务的内存资源总量可表示为

．

基于闪存的多级缓存管理系统

A = A ，i Tasks

∈

∑

( 1)

∈

，

近年来一些研究人员致力于内存文件系统的研

Spark

，

保证所有任务的并发执行当且仅当每

由于

．［9］

发文献提出了

Tachyon，

一种基于内存的分布式文

， :

个工作节点的内存资源都不会溢出即

．

件系统但在

Tachyon

，

的实现中替换算法仍然采用

＜ r ，m

( 2)

根据任务对资源需求的贪婪效应当内存资源充

RDD

∈

∑

LRU．

［10］ RAMCloud，

提出了内存文件系统但

文献

Tasks

∈

RAMCloud

Spark

，

都属于高内存占用型系统无法相

和

，

．

互兼容

本文提出一种基于

，

足时集群为任务分配的内存资源应与任务所有

Spark

框架的自适应缓存管理

，，

大小之和相等而当内存资源不足时分配内存小于

( Self-Adaptive Cache Management，SACM) ，

包括缓

策略

RDD

．

大小之和即

、

存自动化有效缓存替换和提高内存利用率等方面的

RDD

≥

( 3)

∑

Task

∈

，，

多项改进措施最大限度消除内存资源瓶颈影响使集

．

内存有效利用原则在不影响任务执行效

定理

．，

群发挥最佳效能相比于已有的研究工作自适应缓存

，，

率的前提下任务的内存占用率越低集群内存资源的

Spark

．

框架的性能优化

管理策略更适宜于

．

利用率越高

问题的建模与分析

证明记任务调度时集群的空闲内存容量为

， i A

则任务在分配方案下成功调度的概率为

vacant

Spark

，

任务的执行机制建立内存资

本节首先分析

vacant

、

源模型任务执行效率模型和

RDD

，

权重模型最后提出

P =

( 4)

A 、A ， A ＞ A ．

．

自适应缓存管理策略的问题定义

设任务的两种内存分配方案为

且

2. 1 Spark

任务执行机制

t，

两种分配方案下任务的执行时间均为由于

为常

vacant

Spark

，

的任务执行采用了延时调度机制即当用户

RDD Action RDD

的

，

数因此

P ＜ P ，

即内存占用率越低的分配方案调度成

，

对一个

lineage

执行

操作时调度器会根据

，

功的概率越高集群内存的利用率也越高

．

DAG，

然后为工作结点分配子任务

来构建一个

． Spark

2. 3

任务执行效率模型

Spark RDD

DAG 1 ．

的典型示例如图所示其

执行程序

中实线圆角方框表示

Stage． Spark

任务

，

划分成多个分区交由工作节点并行

将

RDD，，

填充矩形表示分区虚线框

．， i，

计算因此对于每一个任务记其

RDD

Task

集合为

Stage，

每个

Stage

都包含

为

根据宽依赖划分

= { RDD ，RDD ，…，RDD } ，

这里

RDD

表示任务中

，Stage

尽可能多的连续窄依赖

Stage

内部的窄依赖前后连接

第个

RDD．

RDD， RDD =

记其分区集合为

对于每个

，

构成流水线而各

，

则同步顺序执行直到最终得出

{ P P ，…，P } ，

其中

ij1， ij2

RDD

中的第个分区

．

表示

ijk

RDD．

目标

RDD

． Spark

，

任务中分区是以一

定义

计算代价

，

个或多个父节点为输入数据计算生成设

Parents

为分

ijk

．

的父节点集合分区的计算要读取所有的输入数

区

ijk

，． P

据然后根据闭包和操作类型进行计算因此分区的

ijk

，

计算代价为数据读取代价与数据处理代价之和我们

， :

以分区计算时间作为衡量计算代价的唯一指标即

= read( Parents ) + proc( Parents )

ijk

( 5)

P_ijk

ijk

Parents

，

集合所有分区都存储在内存中则数据

若

ijk

， read( Parents ) = 0． RDD

读取代价可以忽略即

ijk

的所有

，

分区由集群工作节点并行计算生成因此其计算代价

， :

为所有分区计算代价的最大值即

= max( T ，T ，…，T

ij2

)

( 6)

RDD_ij

ijk

ij1

全部评论(0)

暂无评论

评论赚积分>>

上传资源上传优质资源有赏金

最新上传

打赏
30日榜单

21ic小能手打赏5.00元 1天前

资料：STM32单片机UWB定位程序
21ic小能手打赏5.00元 1天前

资料：STM32的小恐龙游戏项目程序
21ic小能手打赏5.00元 1天前

资料：GD32F103VCT6程序代码
21ic小能手打赏5.00元 1天前

资料：msp430的多点测温设计
21ic小能手打赏5.00元 1天前

资料：高频功率放大器设计
21ic小能手打赏5.00元 1天前

资料：基于PID的双轮平衡车
21ic小能手打赏10.00元 3天前

资料：CORTEX-M3内核单片机设计智能开关型电子负载AD版硬件（原理图+PCB）+软件程序源码+论
21ic下载打赏310.00元 3天前

用户：w178191520
21ic下载打赏310.00元 3天前

用户：小猫做电路
21ic下载打赏310.00元 3天前

用户：zhengdai
21ic下载打赏220.00元 3天前

用户：gsy幸运
21ic下载打赏220.00元 3天前

用户：jh0355
21ic下载打赏210.00元 3天前

用户：jh03551
21ic下载打赏60.00元 3天前

用户：sun2152
21ic下载打赏60.00元 3天前

用户：xuzhen1
21ic下载打赏80.00元 3天前

用户：xzxbybd
21ic下载打赏60.00元 3天前

用户：铁蛋锅
21ic下载打赏60.00元 3天前

用户：liqiang9090
21ic下载打赏20.00元 3天前

用户：方中禾
21ic下载打赏20.00元 3天前

用户：w1966891335
21ic下载打赏30.00元 3天前

用户：玉落彼岸

21ic下载打赏15.00元 3天前

用户：kk1957135547
21ic下载打赏15.00元 3天前

用户：w993263495
21ic下载打赏15.00元 3天前

用户：x15580286248
21ic下载打赏20.00元 3天前

用户：WK520077778
21ic下载打赏25.00元 3天前

用户：hp860629
21ic下载打赏15.00元 3天前

用户：sbfd010
21ic下载打赏10.00元 3天前

用户：严光辉
鹏鹏科技打赏1.00元 3天前

资料：Xiaomi 15 Pro Schematic
21ic小能手打赏10.00元 3天前

资料：四层无人机飞控打板文件
21ic小能手打赏5.00元 3天前

资料：AD通用3D封装库
21ic小能手打赏5.00元 3天前

资料：DeepSeek使用教程
21ic小能手打赏5.00元 3天前

资料：STM32F051K8U6库函数点灯例程编译通过
21ic小能手打赏10.00元 3天前

资料：九齐单片机2路PWM控制输出
21ic小能手打赏10.00元 3天前

资料：基于STM32单片机及MAX31865模块实现铂电阻PT100温度采集
21ic小能手打赏20.00元 3天前

资料：毕业设计基于python实现的火车订票管理系统源码+数据库+项目说明
21ic小能手打赏10.00元 3天前

资料：二阶RC有源滤波器的设计报告，完整版
21ic小能手打赏15.00元 3天前

资料：基于stm32F1的声源定位
sd-hyc 打赏1.00元 3天前

资料：神州易刻2024最新版
柏涵打赏1.00元 3天前

资料：XDS100_v1_1_RTM

并行计算框架Spark的自适应缓存管理策略

资料介绍

部分文件列表

部分页面预览

相关下载

全部评论(0)

热门标签

最新上传

热门下载

资料专题

推荐下载

专栏首页