Hadoop 文件系统与 MapReduce 架构详解
- NameNode 用于维护文件系统名称并管理客户端对文件的访问,存储真实的数据块。
- NameNode 与 DataNode 通过 RPC 互相通信。
- NameNode 以元数据形式维护着文件和目录。
- 在 MapReduce 中,Map 阶段负责将输入数据切分为键值对,Reduce 阶段将输出键值对。
- MapReduce 工作流程分为提交作业、拆分任务、分配任务、执行任务、汇总结果、输出结果。
- ResourceManager 内部包含了两个组件,分别是 Scheduler 和 ApplicationMaster。
- 数据仓库是结构化、半结构化、非结构化和实时数据集合,用于支持管理决策。
- Hive 默认元数据存储在 Derby 数据库数据库中。
原文地址: https://www.cveoy.top/t/topic/hU0Y 著作权归作者所有。请勿转载和采集!