推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

科学大数据管理:概念、技术与系统

更新时间:2019-12-25 07:41:29 大小:1M 上传用户:zhiyao6查看TA发布的资源 标签:大数据管理 下载积分:1分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

近年来,随着越来越多的大科学装置的建设和重大科学实验的开展,科学研究进入到一个前所未有的大数据时代.大数据时代科学研究是一个大科学、大需求、大数据、大计算、大发现的过程,研发一个支持科学大数据全生命周期的数据管理系统具有重要的意义.分析了研发科学大数据管理系统的背景,阐述了科学大数据的概念和三大特征,通过对科学数据资源发展和科学数据管理系统的研究进展进行综述分析,提出了满足科学数据管理全生命周期的科学大数据管理框架,并从数据融合、数据实时分析、长期存储、云服务体系以及数据开放共享机制5个方面分析了科学大数据管理系统中的关键技术.最后,结合科学研究领域展望了科学大数据管理系统的应用前景.


部分文件列表

文件名 大小
科学大数据管理:概念、技术与系统.pdf 1M

部分页面预览

(完整内容请下载后查看)
DOI: 10. 7544issn1000-1239. 2017. 20160847  
54( 2) : 235 - 2472017  
计算机研究与发展  
Journal of Computer Research and Development  
: 、  
科学大数据管理 概念 技术与系统  
1
1
2
黎建辉 沈志宏 孟小峰  
1
(
100190)  
中国科学院计算机网络信息中心 北京  
2
(
100872)  
中国人民大学信息学院 北京  
( lijh@ cnic. cn)  
Scientific Big Data Management: ConceptsTechnologies and System  
1
1
2
Li Jianhui Shen Zhihong and Meng Xiaofeng  
1
( Computer Network Information CenterChinese Academy of SciencesBeijing 100190)  
2
( School of InformationRemin University of ChinaBeijing 100872)  
Abstract In recent yearsas more and more large-scale scientific facilities have been built and significant  
scientific experiments have been carried outscientific research has entered an unprecedented big data era.  
Scientific research in big data era is a process of big sciencebig demandbig databig computingand big  
discovery. It is of important significance to develop a full life cycle data management system for scientific big  
data. In this paperwe first introduce the background of the development of scientific big data management  
system. Then we specify the concepts and three key characteristics of scientific big data. After an review of  
scientific data resource development projects and scientific data management systemsa framework is proposed  
aiming at the full life cycle management of scientific big data. Furtherwe introduce the key technologies of  
the management framework including data fusionreal-time analysislong termstoragecloud serviceand  
data opening and sharing. Finallywe summarize the research progress in this fieldand look into the  
application prospects of scientific big data management system.  
Key words scientific data; big data; data pipeline; full life cycle of data  
, ,  
近年来 随着越来越多的大科学装置的建设和重大科学实验的开展 科学研究进入到一个前所  
、 、 、 、 ,  
未有的大数据时代 大数据时代科学研究是一个大科学 大需求 大数据 大计算 大发现的过程 研发一  
个支持科学大数据全生命周期的数据管理系统具有重要的意义 分析了研发科学大数据管理系统的背  
, ,  
景 阐述了科学大数据的概念和三大特征 通过对科学数据资源发展和科学数据管理系统的研究进展进  
, , 、  
行综述分析 提出了满足科学数据管理全生命周期的科学大数据管理框架 并从数据融合 数据实时分  
、 、 5  
析 长期存储 云服务体以及数据开放共享机制 方面分析了科学大数据管理系统关键技术  
最后 结合科学研究领域了科学大数据管理系统的应用前景  
; ; ;  
关键词 科学数据 大数据 数据流水线 数据全生命周期  
TP391  
中图法分类号  
、 、  
大规模巡天望远镜 大型粒子加速器 高通量基  
因测序仪等源源不断产生巨量科学数据 使得全球  
- -  
: 2016 11 15;  
- -  
: 2017 01 14  
收稿日期  
修回日期  
:
基金项目 国家重点研发计划项目  
( 2016YFB1000600)  
This work was supported by the National Key Research Program of China ( 2016YFB1000600) .  
236  
201754( 2)  
计算机研究与发展  
科技创新进入一个前所未有的科学大数据时代 科  
“ ”  
科学数据从历史自动化的  
学大数据已成为科学发现的新型战略资源 一个国  
家的科学研究水平将直接取决于其在科学大数据的  
.  
方式 逐渐过度到自动化的 机器集 非自动  
“ ” , ,  
的数据 产生的速度较慢 数据量与  
.  
复杂度不高 数据的价值密度大型仪器  
优势以及将数据转换知识能力  
面向大规模的科学数据管理 以及科学大数据  
、 、  
设备 大科学装置 大规模传感器网络等自动化集  
应用 往往需要突破当今所有数据管理系统极限  
, ,  
的数数据 产生的速度快 数据量复杂性  
才能实现高的科学知识发现 这也成为当下科学  
.  
确定噪声 数据进存储  
,  
界和数据管理领域携手攻坚概括起来  
分析和应用需要新技更强的基础设施环境支  
: 1)  
“ ”  
科学大数据主要是指这种机器 自动化快  
科学大数据管理面临主要问和挑包括  
大规模关系数据管理 文领域多个数据中心千  
、 、  
规模存储分析维度复  
. 2)  
亿乃至万亿行文星表数据的管理  
源数据关  
关联的数据及其生产品  
500 m  
口径射电望远  
、 、  
联和知识发现 全球开放资源 文献 列和  
如  
( five-hundred-meter aperture spherical radio  
100  
疾病万种数据源  
亿级关联数据的知识发现  
. 3) .  
时的高数据如  
6
telescopeFAST) ( China spallation  
中国散裂中子源  
步以上关联挖掘  
16 MHz  
10 000  
neutron sourceCSNS)  
引力波科学发现中  
采样频率  
数  
等大科学装置建设重大  
科学以及所不的科学传感传  
需要近似零延迟数据理  
,  
器网络广泛应用于空 陆海洋 对自然环境  
,  
方位测 源源不断产生的科学数据  
1
科学大数据概念与特性  
科学研究一个前所未有的大数据时  
1. 1  
代 科学大数据改变类几世纪以来科学研究  
科学大数据概念  
.  
科学数据科研活动输出资产 究  
主要在于简单 耦合弱耦合系统这一  
竟 什么是科学数据  
?“ ”  
何给 科学数据 一个确  
, ,  
增强我描述复杂性能力 以及  
? ,  
定 义 止 还 困 扰 着 界  
分析度耦合复杂系统为的能力 如  
Greenberg  
, ,  
在其最近出版著作 大数据 数据 没  
希格斯粒子和引力波等重大科学发现 以这样比  
1]  
举了数据识  
“  
科学大数据为科学发现提供新型的 望  
数据  
、  
自然科学 社会科学科学领域  
” “ ,  
远镜 显微大大们对复  
、 、 ,  
者们使分析解释数据 往往知道  
, ,  
系统研究的能力 在的  
”  
数据的真正含义  
科学数据是对所研究的客观对象某些的  
视线复杂系统内部细微变  
,  
描述 这种描述 般是指在领域学科知识指导  
1. 2  
科学大数据的特征  
相较于其型的大数据 科学大数据具  
, ,  
对客观对象科学抽象和概念化后 就中的  
2-4]  
、 、 、  
某些行系统有目的地观调查 所  
4V”  
明显特征  
之外 层次演  
, ,  
成的数据不是客观事数据不是带  
全生命周期以及线和应用特征  
1. 2. 1  
科学大数据层次著特征  
自身特征自然对象 数据只是对研究的客  
层次演化特征  
观对象某些可观的现描述 些描述会  
.  
因人而异 地而异因时而异 把些事物概念化  
1 、  
示 由大型仪器设备 大科学装置计算模  
为数据 本身就是研究活动  
、 、  
等产生的原始数据 特征提  
科学数据科学式存至  
有科学对象数据 与  
、 、  
包括科学测与测的数据 数据 计算  
.  
的数据关联知识网络 美  
与模型模输出的数据 情景描述数据  
( NASA) ( earth observing  
局  
系统  
的数据按照不断加和  
1A 1B 2 3 、  
5]  
为的或定描述数据 用于管理或者商业  
systemEOS)  
.  
目的计数据等 以及描述数据的数据 常  
0
为  
、 、  
科研活动是证科学发现 科学观  
4
6
个不别 根据科学应用和的不同  
点的或者是理的基础  
4 ,  
科学家以直接使数据 使  
: : 、  
等 科学大数据管理 系统  
237  
1A  
0  
至 级数据  
,  
长期保的全生命周期特征 采  
分析阶段主要成科学装置 仪器设  
,  
台站等数据的现数据的筛  
;  
分析 存储阶段主要集  
筛选的数据的存储 时通分析任务  
;
的科学分析科学发现 发共享阶段  
, ,  
主要按照特定科学数据进组织管理 形  
系列的数据过  
Web  
方式科研发  
, ;  
布 提供数据共享服务 再分析与重阶段主  
支持的数据二次整分析 实  
Fig. 1 Characteristics of multi-level progressive  
evolution of scientific big data  
;
现进一的科学发现 归档长期保阶段主要完  
, ,  
历史数据的归档 采用存储设备 现  
1
科学大数据层次著特性  
. 2  
历史数据的长期保流程示  
在如上阶段科学数据的方式具  
1. 2. 2  
全生命周期特征  
1  
有不特征 如表 示  
科学大数据分  
— — —  
存储理 发共享 再分析与重归  
Fig. 2 Full life cycle of scientific big data  
2
科学大数据全生命周期  
Table 1 Stages of Full Life Cycle Management of Scientific Big Data  
1
科学大数据全生命周期的不同过程  
Stages  
Data Operation  
Data Analysis  
Details  
Collection & Real  
Time Analysis  
CollectionStream Processing,  
Fast Insert & Online Analysis  
RTAP  
Real Time Extracting and Transforming  
Offline Analysis( SCAN) of  
Storing & Processing  
Publish & Sharing  
Reanalysis & Reuse  
OLAP  
DatabaseIndexCollectionBatch AnalysisETL  
LinkingIntegrationOnline QueryWeb Service  
Online Analysis ModelVisualization  
Large Scale Data  
Fast Query  
OLTP  
OLTP  
OLAP  
Online Visual Analysis  
Archiving & Long  
Term Storage  
Analysis is not  
involved  
Reliable Storage  
Archiving strategymediadata copy and migration  
1. 2. 3  
array)  
GWAC  
例  
线特征  
伽玛暴测天卫  
GWAC 15 s  
“ ”  
科学大数据线和应用 特征  
SVOM  
设备 一个  
32 MB  
产生一个大为  
每  
GWAC ( The ground-based wide-angle camera  
的天区图 图像的点源取  

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载