推荐星级:
  • 1
  • 2
  • 3
  • 4
  • 5

Apache Hadoop 技术概述

更新时间:2026-04-02 12:39:14 大小:16K 上传用户:烟雨查看TA发布的资源 标签:apachehadoop 下载积分:2分 评价赚积分 (如何评价?) 打赏 收藏 评论(0) 举报

资料介绍

Apache Hadoop 是一个开源的分布式计算平台,旨在处理大规模数据集的存储与分析。它基于 Google 的 MapReduce 和 Google File System (GFS) 论文设计,由 Apache 软件基金会管理,广泛应用于大数据处理领域。

一、核心组件

1. Hadoop Distributed File System (HDFS)

分布式文件系统,具有高容错性和高吞吐量。其核心特点包括:

· 副本机制:默认将文件分成 128MB 块并存储 3 个副本

· 主从架构:NameNode 管理元数据,DataNode 存储实际数据

· 适合场景:大文件存储、流式数据访问

2. MapReduce

分布式计算框架,采用"分而治之"思想:

· Map 阶段:将任务分解为多个子任务并行处理

· Reduce 阶段:合并子任务结果得到最终输出

· 典型应用:日志分析、数据统计、机器学习训练

3. YARN (Yet Another Resource Negotiator)

资源管理系统,负责集群资源调度:

· 主要组件:ResourceManager(全局资源管理)、NodeManager(节点资源管理)、ApplicationMaster(应用任务调度)

· 核心功能:动态资源分配、多框架支持(MapReduce/Spark/Flink)


部分文件列表

文件名 大小
Apache_Hadoop_技术概述.docx 16K

【关注B站账户领20积分】

全部评论(0)

暂无评论

上传资源 上传优质资源有赏金

  • 打赏
  • 30日榜单

推荐下载