第一章 Hadoop介绍
title: 1 第一章 Hadoop介绍 updated: 2025-11-01 11:27:23Z created: 2025-11-01 11:27:23Z
1.1 什么是Hadoop
Hadoop是由Apache基金会所开发的分布式系统基础架构,旨在解决海量数据存储和计算分析问题。狭义上来说,Hadoop是指Apache Hadoop开源框架,包含以下三种核心组件:
- Hadoop HDFS(Hadoop Distributed File System):分布式文件存储系统,解决海量数据存储问题。
- Hadoop Yarn:集群资源管理和任务调度框架,解决资源任务调度问题。
- Hadoop MapReduce:分布式计算框架,解决海量数据计算问题。
广义上来说,Hadoop通常是指围绕Hadoop打造的大数据生态圈,部分技术栈如下图所示:
- zookeeper:分布式协调组件。
- HDFS:分布式文件系统。
- MapReduce:分布式计算框架。
- Hive:分布式数据仓库。
- HBase:分布式数据库。
- Flume:日志采集框架。
- Sqoop:数据导入/导出工具。
- pig:工作流引擎。
- Mahout:机器学习算法库。
- oozie:作业流调度工具。
- Ambari:大数据集群管理平台。
Hadoop官网:hadoop.apache.org
1.2 大数据技术生态体系
Hadoop官网:hadoop.apache.org
本小节主要作为技术了解内容,先总体了解下大数据技术生态体系技术分层,方便后续清楚的知道Hadoop相关技术栈技术所处的层及作用。下图是大数据技术生态每层及对应技术。
1.3 Hadoop发展历史
Hadoop最初是由Doug Cutting和Mike Cafarella于2002年左右创建的,最早起源于Nutch,其最初的目标是构建一个能够处理大规模数据集的分布式文件处理系统。后期,Doug Cutting以Google的GFS(Google File System)和MapReduce为基础,开发了Hadoop Distributed File System(HDFS)和Hadoop MapReduce。2006年,Hadoop成为Apache软件基金会的顶级项目,开始吸引了越来越多的开发者和用户。以下是Hadoop发展历史中的一些重要时间点,了解即可。
共有 0 条评论