推荐星级:
- 1
- 2
- 3
- 4
- 5
大数据流式计算框架Storm的任务迁移策略
资料介绍
Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约束的前提下最小化通信开销,在建立并论证Storm资源约束模型、最优通信开销模型和任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(task migration strategy for heterogeneous Storm cluster,TMSH-Storm),包括源节点选择算法和任务迁移算法.其中,源节点选择算法根据集群中各工作节点CPU、内存和网络带宽的负载情况以及各类资源的优先级顺序,将超出阈值的节点加入源节点集;任务迁移算法综合迁移开销、通信开销、节点资源约束以及节点和任务负载等因素,依次将源节点中的待迁移任务异步迁移至目的节点上.实验表明:相对于现有研究而言,TMSH-Storm能有效降低延迟和节点间通信开销,且执行开销较小.
部分文件列表
文件名 | 大小 |
大数据流式计算框架Storm的任务迁移策略.pdf | 2M |
部分页面预览
(完整内容请下载后查看):
DOI10.7544issn10001239 .2018 .20160812
-
计 算 机 研 究 与 发 展
?
(): ,
551 7192 2018
-
JournalofCom uterResearchandDevelo ment
ꢀ ꢀ ꢀ ꢀ ꢀ
p p
ꢀ
大数据流式计算框架
的任务迁移策略
Storm
1
1
1
1
2
3
鲁
亮
于
炯
卞
琛
刘月超
廖
彬
李慧娟
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
1
2
3
(
)
新疆大学信息科学与工程学院 乌鲁木齐
ꢀ
830046
ꢀ
(
)
新疆财经大学统计与信息学院 乌鲁木齐
ꢀ
830012
ꢀ
(
)
国网乌鲁木齐供电公司 乌鲁木齐
ꢀ
830011
ꢀ
(
lulian19891108 mail.com
@g
)
g
ATaskMirationStrate inBi DataStreamCom utin withStorm
ꢀ ꢀ ꢀ ꢀ ꢀ
ꢀ
ꢀ
g
gy
g
ꢀ
p
g
ꢀ
ꢀ
1
1
1
1
2
3
,
, , , ,
BianChen LiuYuechao LiaoBin andLiHuiuan
g j
ꢀ ꢀ ꢀ ꢀ ꢀ
LuLian
ꢀ
YuJion
g
ꢀ
1
2
3
(
,
,
)
Schoolo In ormationScienceandEnineerin Xinian Universit Urumi830046
ꢀ ꢀ ꢀ
q
ꢀ
ꢀ
f
f
g
g
j
g
ꢀ
y
ꢀ
( , ,
Schoolo StatisticsandIn ormation Xinian Universit o FinanceandEconomics Urumi830012
ꢀ
)
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
q
f
f
j
g
ꢀ
y f
ꢀ ꢀ
ꢀ
(
, ,
WulumuiElectricPowerSu l Com an StateGridCororationo China Urumi830011
ꢀ
)
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
q
q
ppy
p
y
p
f
ꢀ
ꢀ
,
Abstract Asoneofthe mostreresentative latformsinstream com utin A acheStorm has
ꢀ ꢀ ꢀ p ꢀp ꢀ ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
p
g
p
ꢀ
ꢀ
becomethefirstchoiceforthescenariosofrealtimebi data rocessin duetoitsadvantaesinoen
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ - ꢀ g ꢀp ꢀ ꢀ ꢀ
g g ꢀ ꢀp
ꢀ
ꢀ
,
source sim licit andexcellent erformance.Aroundrobinschedulin strate isusedastheStorm
ꢀp
gy ꢀ ꢀ ꢀ
p
y
ꢀ
ꢀ
ꢀ
-
ꢀ
g
ꢀ
ꢀ
ꢀ
,
defaultscheduler withoutconsiderin thedifferencesof erformanceand workloadamon distinct
ꢀ ꢀp
ꢀ
ꢀ
g
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
g
ꢀ
,
,
worknodes andthedifferentoverheadofinternode inter rocessandinterexecutorcommunication
ꢀꢀ
ꢀ
ꢀ
ꢀ
ꢀ
-
-
p
ꢀ
ꢀ
-
ꢀ
,
underheteroeneousenvironment whichcannotfull exloitthehih erformanceofStormclusterin
ꢀ g ꢀp ꢀ ꢀ
ꢀ
g
ꢀ
ꢀ
ꢀ
y
ꢀ
p
ꢀ
ꢀ
ꢀ
itself.Inorderto minimizethecommunicationoverheadonthe remiseofallkindsofresource
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀp ꢀ ꢀ ꢀ ꢀ ꢀ
,
(
)
constraints ataskmirationstrate forheteroeneousStormcluster TMSHStorm is roosedon
gy
ꢀ g ꢀp p
ꢀ
ꢀ
ꢀ
g
ꢀ
ꢀ
-
ꢀ
ꢀ
,
thebasisofresourceconstrained model otimalcommunicationoverhead modelandtask miration
ꢀ ꢀ ꢀ g
ꢀ
-
ꢀ
p
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
,
:
model which com rises two alorithms source node selection alorithm and task miration
ꢀ g ꢀ g ꢀ g
ꢀ
p
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
alorithm.Sourcenodeselectionalorithmaddsworknodeswhichexceedthethresholdtoasetof
ꢀ ꢀ g ꢀ ꢀ ꢀ ꢀ ꢀ ꢀꢀ ꢀ
g
ꢀ
ꢀ
ꢀ ꢀ
,
sourcenodesaccordin totheworkloadand riorit ofCPU memor andnetworkbandwidthineach
g ꢀ
ꢀp ꢀ ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
y
ꢀ
ꢀ
y
ꢀ
ꢀ
ꢀ
ꢀ
;
worknode Task miration alorithm takesintoaccountvariousfactorssuch asthe miration
ꢀ g ꢀ g ꢀ ꢀ ꢀ g
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
,
,
,
overhead communicationoverhead resourceconstraintaswellasloadofeachnodeandeachtask
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
miratin the tasks that from source nodes to roer destination nodes successivel and
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀp p ꢀ
g
g
ꢀ
ꢀ
ꢀ
ꢀ
y
ꢀ
asnchronousl .Exerimentalresultsshow thatthe roosed strate can reducelatenc and
ꢀ ꢀ ꢀ ꢀ ꢀp p ꢀ
gy
y
y
p
ꢀ
ꢀ
y
ꢀ
ꢀ
,
,
overheadofinternodecommunication moreover theim lementationcostislowercom aredwiththe
ꢀ p
ꢀꢀ
-
ꢀ
ꢀ
ꢀꢀ
ꢀ
p
ꢀ
ꢀ
existin research.
g
ꢀ
; ; ; ;
Ke words bi data streamcom utin Storm communicationoverhead taskmiration
ꢀ g
ꢀ g
ꢀ
p
g
ꢀ
y
ꢀ
ꢀ
,
作为流式计算模式下最具代表性的平台之一 其默认轮询的调度机制未考虑到异构环境
摘
要
Storm
ꢀ
ꢀ
,
下不同工作节点的自身性能和负载差异 以及工作节点之间的网络传输开销和节点内部的进程与线程
:
;
:
修回日期
2017 07 17
收稿日期
- -
2016 11 10
-
-
ꢀ
:
基 金 项 目 国 家 自 然 科 学 基 金 项 目
(
, , , ,
61462079 61262088 61562086 61363083 61562078
);
新 疆 维 吾 尔 自 治 区 自 然 科 学 基 金 项 目
ꢀ
(
);
新疆维吾尔自治区高校科研计划基金项目
(
)
2017D01A20
XJEDU2016S106
(
,
,
,
,
Thisworkwassu ortedb theNationalNaturalScienceFoundationofChina 61462079 61262088 61562086 61363083
ꢀ pp ꢀy ꢀ ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
ꢀ
), ( ),
61562078 theNaturalScienceFoundationofXinian U urAutonomousReionofChina 2017D01A20 andtheEducational
ꢀ ꢀ
ꢀ
ꢀ
ꢀ
ꢀ ꢀ j yg ꢀ g ꢀ ꢀ
g
ꢀ
ꢀ
(
)
ResearchProramofXinian U urAutonomousReion XJEDU2016S106 .
ꢀ ꢀ yg ꢀ g
ꢀ
g
j
g
ꢀ
ꢀ
,
()
2018 551
ꢀ
计算机研究与发展
72
, ,
通信开销 无法充分发挥集群的性能 为了在各类资源约束的前提下最小化通信开销 在建立并论证
.
、 ,
资源约束模型 最优通信开销模型和任务迁移模型的基础上 提出一种异构
环境下的任务
Storm
Storm
(
,
taskmirationstrate forheteroeneousStormcluster TMSHStorm
ꢀ g
gy
),
包括源节点选择
迁移策略
ꢀ
ꢀ
g
ꢀ
ꢀ
-
ꢀ
,
、
内存和网络带宽的负载情况
算法和任务迁移算法 其中 源节点选择算法根据集群中各工作节点
.
CPU
、
以及各类资源的优先级顺序 将超出阈值的节点加入源节点集 任务迁移算法综合迁移开销 通信开销
,
;
、
,
节点资源约束以及节点和任务负载等因素 依次将源节点中的待迁移任务异步迁移至目的节点上 实验
.
:
表明 相对于现有研究而言
,
,
能有效降低延迟和节点间通信开销 且执行开销较小
.
TMSHStorm
-
;
大数据 流式计算
;
;
通信开销 任务迁移
Storm
;
关键词
ꢀ
中图法分类号
TP311
ꢀ
,
近些年来 大数据相关研究及应用已成为学术
,
分布到各个工作进程中 再将各工作进程均匀地分
ꢀꢀ
,
界和企业界关注的热点 其计算模式包括批量计算
、
,
布到各工作节点上 并未考虑到不同工作节点的性
[
]
15
,
并以前两者应用
-
、 、
流式计算 交互计算 图计算等
,
能和负载差异 以及工作节点之间的网络传输开销
(
居多 批量计算为先存储后计算 如
.
生态系
Hadoo
p
,
和节点内部的进程与线程通信开销 无法最大限度
),
统
适合实时性不高且需覆盖 全局 数据的应用 场
地发 挥 集 群 的 实 时 计 算 能 力 本 文 针 对
Storm .
[]
6
;
景 流式计算打破了
中
框架
Ma Reduce
p
,
轮询调度策略存在的不足 主要作了 个方
4
Hadoo
p
Storm
面研究工作
, ,
一统天下的局面 它无需存储 只要数据源处于活动
:
, , (
状态 数据就会持续生成 并以流 由时间上无穷的
)
分析已有流式计算框架调度策略的优缺点
1
,
)
元组序列组成 的形式在各工作节点的内存中进行
阐述本文的优化方向和实施思路
.
,
计算 适合实时性要求严格且仅需针对窗口内的局
部数据进行处理的应用场景 流式大数据处理平台
.
)
、
从拓扑的逻辑模型 实例模型和任务分配模
2
,
型出发 比较
集群中 种不同的通信方式 由
3 .
Storm
此建立资源约束模型和最优通信开销模型 提出并
证明了最优通信开销原则
(
,
大大提高了在线数据密集型
onlinedataintensive
ꢀ ꢀ ꢀ
,
[]
7
,
应用 的用户体验 可广泛应用于金融银行
)
OLDI
.
、 ,
业 互联网和物联 网等 诸多 领域 涵盖 股市实时 分
)
为解决异构
系统中工作节点任务过
3
Storm
载和节点间通信开销大的问题 建立任务迁移模型
提出并证明了迁移优化原则和节点间数据流最优性
、 、
析 搜索引擎与社交网站 交通流量实时预警等各类
,
,
[]
8
典型应用
公司的
现有的流式大数据处理框架以
.
Twitter
是一个采用主
.Storm
[]
9
系统为代表
Storm
, ,
原理 并由此推出最优迁移原则 为任务迁移策略的
,
从式架构的开源分布式实时计算平台 其编程模型
设计提供理论依据
.
,
简单 支持包括
,
在内的多种编程语言 横向可
Java
)
、
从源节点选择 阻尼线程选择和目的节点选
4
[ ]
10
扩展性 良 好 相 较 于 目 前 同 样 主 流 的
.
和
Flink
,
个方面出发 提出异构
择
环境下的任务迁
Storm
3
[
]
11
,
在大数据流式处理方面
SarkStreamin
p
ꢀ
Storm
g
(
移策略
task mirationstrate forheteroeneous
ꢀ g ꢀ ꢀ
gy g
ꢀ
[ ]
12
;
的实时性更佳 相较于不开源的
和社区冷
Puma
,
Stormcluster TMSHStorm
-
),
包括源节点选择算
ꢀ
[
]
13
,
淡的
的商用前景更为广阔 加之新版
.
S4 Storm
,
法和任务迁移算法 使系统在拓扑执行过程中根据
各工作节点和各任务的实时负载情况以及任务间的
、
本特性的加入 更多库的支持以及与其他开源项目
,
Storm
的无缝融合
逐渐成为学术界和工业界的研
,
数据流大小 实现任务的优化迁移 实验通过 个基
4
.
, “
究热点 被称为 实时处理领域的
”
Hadoo .
p
准测试从不同角度证明了算法的有效性
.
一个流式计算作业及其包含的一系列任务可用
(
,
)
表 示
directedacclic rah DAG
ꢀ y ꢀg p
,
有向 无 环 图
相关工作
1
ꢀ
(
)
从拓 扑 实 例 模 型
.
中称 之为 拓扑
Storm
toolo
gy
p
,
的角度来看 拓扑 的 个 顶点 代表某 一特 定任务
1
,
,
针对实时大规模数据的处理 现有解决方案可
条有向边代表任务 之间 的依 赖 关系
在进
.Storm
1
: 、
大致归纳为 类 高性能批量计算模式 流式计算模
3
(
行任 务 分 配 时 采 用 轮 询 调 度 策 略
roundrobin
-
,
式和两者混合的模式 其中 高性能批量计算模式的
.
),
即先将拓扑中包含的每个任务均匀地
schedulin
g
,
为代表的批处理框架
核心思想是修改以
Hadoo
p
全部评论(0)