上传资源列表
-
PySpark Python API 详解
大小:18K 更新时间:2026-05-09 下载积分:2分
一、PySpark 简介PySpark 是 Apache Spark 提供的 Python API,它允许开发者使用 Python 语言编写 Spark 应用程序。通过 PySpark,用户可以利用 Spark 的分布式计算能力处理大规模数据集,同时享受 Python 语言的简...
-
主流机器学习库概述
大小:14K 更新时间:2026-05-09 下载积分:2分
一、核心通用库1. Scikit-learno 特点:基于NumPy和SciPy构建,提供完整的监督/无监督学习工具链,包含分类、回归、聚类、降维等算法实现。o 优势:API设计简洁一致,内置数据集(如鸢尾花、波士顿房价)便于快速...
-
Spark Streaming 技术详解
大小:18K 更新时间:2026-05-09 下载积分:2分
1. 概述Spark Streaming 是 Apache Spark 生态系统中的实时计算框架,它提供了高吞吐量、可容错的流处理能力。基于 Spark 的核心 API,Spark Streaming 能够将实时数据流分解为一系列小的批处理作业(Micro-Batch)...
-
HBase 技术详解
大小:17K 更新时间:2026-05-09 下载积分:2分
HBase 是一个分布式、可扩展、支持海量数据存储的 NoSQL 数据库,基于 Google 的 Bigtable 论文实现,运行在 Hadoop 分布式文件系统(HDFS)之上。它适用于存储非结构化和半结构化数据,具有高吞吐量、高可靠性和实...
-
Hive 详解.
大小:16K 更新时间:2026-05-09 下载积分:2分
一、Hive 概述Hive 是基于 Hadoop 的一个数据仓库工具,由 Facebook 开源,用于处理大规模结构化数据。它提供类 SQL 查询语言(HiveQL),允许用户通过 SQL 语法分析存储在 Hadoop 分布式文件系统(HDFS)中的数据,...



