推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

基于开源生态系统的大数据平台研究

更新时间:2019-12-25 17:44:33 大小:2M 上传用户:zhiyao6查看TA发布的资源 标签:开源生态系统大数据 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

大规模数据的收集和处理是近年的研究热点,业界已经提出了若干平台级的设计方案,大量使用了开源软件作为数据收集和处理组件.然而,要真正满足企业应用中海量数据存储、多样化业务处理、跨业务分析、跨环境部署等复杂需求,尚需设计具有完整性、通用性、支持整个数据生命周期管理的大数据平台,并且对开源软件进行大量的功能开发、定制和改进.从小米公司的行业应用和实践出发,在深入研究现有平台的基础上,提出了一种新的基于开源生态系统的大数据收集与处理平台,在负载均衡、故障恢复、数据压缩、多维调度等方面进行了大量优化,同时发现并解决了现有开源软件在数据收集、存储、处理以及软件一致性、可用性和效率等方面的缺陷.该平台已经在小米公司成功部署,为小米公司各个业务线的数据收集和处理提供支撑服务.


部分文件列表

文件名 大小
基于开源生态系统的大数据平台研究.pdf 2M

部分页面预览

(完整内容请下载后查看)
54sn1000 - 1239 2017 20150492  
?
计 算 机 研 究 与 发 展  
: ,  
 2017  
Journtesearclo nt  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
p p  
态系统大数据平台研究  
12  
13  
叶航军  
武泽胜  
何炎祥  
武汉学计算机学院 汉  
430072  
京  
100085  
( (  
程国家重点实验室 学  
武汉  
430072  
m  
Bi lafoseourccom  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
12  
13  
n un eshen Zhan Pen  
gj  
on ann  
ꢀ ꢀ ꢀ  
un  
Com chool haiverha30072  
nc B00085  
j g  
),  
Stae Lborator o Sneerin haivert  
ha30072  
y f  
ꢀ ꢀ  
tract calatlecin nd rocesin arin widl stecent ears  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ y  
severaeleased bi data rocesin lafoms ncrea  rtolen the  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
g p y p y g p  
ran Internenesse.O ourccoms i datnovn  
ꢀ  
ꢀ ꢀ ꢀ ꢀ g  
haveelvin sdl thauccessful adnenf  
ꢀ ꢀ p y ꢀꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
nstreata rocesin lafomseaver thourcm  
gp  
ꢀ ꢀ ꢀ ꢀ ꢀ  
erfeceain weacalatdual racnc  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
thr rse oved folecin nd rocesin calatacf  
pp p p ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
vaesnt.Weocuhe robms nc and  
ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ ꢀ  
avt ore he arxecuteor datlecin stoin nd rocesin  
p  
roceduren we n aoance flover data  
p p ꢀꢀ ꢀ p  
ꢀ  
escheduin canovnc urrent  
ꢀ  
ꢀ ꢀ ꢀ ꢀ ꢀ  
hesescibeaveen racca nted  
ꢀ ꢀ ꢀ ꢀ pp ꢀ ꢀ p  
p p  
anu ornterneervces rovide.  
p y ꢀ ꢀ ꢀ ꢀ ꢀ  
Ke wrds doo ourcco i data datenter nertzan  
ꢀ  
, ,  
数据处理近年研究界已干平台量使  
, 、  
用了数据处理组件 然而 要正满足企理  
、 , 、 、  
分析 环境部署复杂整性 持整数据命周数  
, 、 ,  
平台 进行大量的功能发 定小米公司的行入  
, , 、  
研究平台的基上 提出了一种的基于载均衡 故  
、 、 , 、  
障恢数据方面行了量优存  
、 、 ,  
处理性 可性和方面缺陷 平台小米公司署 为米公司各  
线数据处理撑服务  
修回日期  
2016 08 08  
收稿日期  
- -  
2015 06 12  
基金项目 家自然科学基金项目  
, ,  
91118003 61373039 61170022  
u ote turaencounda 91118003 61373039 61170022 .  
ꢀ ꢀ  
的大数究  
81  
生态系统 大数据 数据中网络虚拟化  
关键词  
doo  
中图法分类号  
391  
规模理是学术  
贡献是的组与自研发的组成一  
ꢀꢀ  
, “ ” “ ”  
被称为 大数在  
完整的大数技术和  
现 在 普 遍 被 接 的 是  
3V  
使其能大数统功能  
M  
[]  
、  
类  
me  
( )  
和 速 度  
vaet  
数 量  
能 一性和用性先介  
),  
lot  
、 、  
是数量并  
研究作 然体  
的数有  
组成以及的  
联网使其  
发展线计划  
程中大量的使日  
等 对 的 分 处  
相关作  
可以了解的  
使些  
工作是  
的分提  
3-4  
的实台  
台  
cebook  
, ,  
体验 通  
迟  
( )  
nc  
的目模  
sct  
常有上述据  
[]  
问 题 使 了  
, (  
FS Hdoo  
Scibe  
( :  
公  
sttem  
y  
项目的一心  
doo  
) , 、  
司业是一个  
[]  
),  
[]  
[]  
[]  
项目  
等开源  
Ma duce ve se  
PB  
据  
的大数题  
自 行 开 发 了  
us ma  
g p  
号分值  
ratelue SV  
)、  
p  
重点是数即  
[]  
)、  
息  
t  
文本文数  
的分统计 非通用务  
日  
处  
TB  
在  
时  
s  
速度等 大数问题有  
控制在  
内  
s  
的技术是分对  
学术量的研究实  
EMC  
: 、  
大数技术分成基础管  
, 、  
可以以及台  
础  
研究工作这  
b  
等开系  
沿分  
在  
doo  
点  
的  
要的工作于  
大  
的 数 和  
B  
成本  
TB  
志挖的  
高  
b  
高的要求  
2  
解决案  
工作重点是为  
线个  
通用量数本  
项目的数大  
灵活性和性  
、 、 ,  
网络论  
通用的实题和如  
用  
5  
容错等  
工作多  
使用  
, 、  
虚  
体验  
8  
分成次  
系  
复  
统 分 访 用  
、 、  
台  
[ ]  
16  
[ ]  
18  
统分务层和用户层  
的工作中研究大数中  
重要组务  
等要效  
本文通  
[]  
用性统  
、 、  
量大 求  
统一的大数的基础文的要  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载