14、IIC主机控制--引脚软件模拟

阅读 79

2023-05-24

Hadoop的基本概念和架构

学习路线

  1. hadoop的基本概念和架构
  2. hadoop的安装和配置
  3. hadoop的HDFS文件系统
  4. hadoop的MapReduce计算框架
  5. hadoop的YARN资源管理器
  6. hadoop的高级特效,如HBase,Hive,Pig等
  7. hadoop的优化和调优
  8. hadoop的应用场景,如日志分析,数据挖掘等

简介

​ Hadoop是由Apache基金会所发布的开源的分布式计算框架,由Java语言编写,主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统(GFS)的思想,提供了一个可靠,高效,可扩展的分布式计算平台。

​ Hadoop可以运行在廉价的硬件上,而且提供了高吞吐量,通过横向扩展的方式提高计算能力,因此被广泛应用与大数据处理领域。

三大核心

HDFS(存储系统)

​ 存储系统:是指用于存储数据的系统,包括文件系统、数据库系统等。

​ 在Hadoop中,HDFS是Hadoop分布式文件系统,它是Hadoop的核心组件之一。

​ HDFS采用了Master/Slave的架构,Master节点负责管理和调度,Slave节点负责执行具体的任务。其中NameNode作为Master节点,负责管理文件系统的命名空间和文件块的映射关系,DataNode作为Slave节点,负责存储文件块的实际数据。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KOz69t8D-1684315460787)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517155828221.png)]

MapReduce(计算环节)

​ 在Hadoop中,MapReduce是Hadoop的计算框架,它采用了Map和Reduce两个阶段,其中Map阶段负责将输入数据切分成若干个小块,并对每个小块进行处理,输出中间结果;Reduce阶段负责将中间结果进行合并,得到最终的输出结果。

MapReduce是一种分布式计算模型,用于处理大规模数据集。它将数据分成多个小块,然后在多个计算节点上并行处理这些小块。MapReduce的工作原理如下:

  1. Map阶段:将输入数据分成多个小块,然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数,将输入数据转换成键值对。

  2. Shuffle阶段:将Map函数的输出结果按照键进行分组,然后将同一组的键值对发送到同一个Reduce节点上。

  3. Reduce阶段:将同一组的键值对发送到同一个Reduce节点上,然后在该节点上执行Reduce函数,将同一组的键值对合并成一个结果。

  4. 输出结果:将所有Reduce节点的输出结果合并成一个最终结果。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bRvRevhB-1684315460788)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517153953473.png)]

YARN(资源分配)

​ 在Hadoop中,YARN(Yet Another Resource Negotiator)是Hadoop的资源管理系统,它负责集群中各个节点的资源管理和任务调度。

​ YARN采用了Master/Slave的架构,其中ResourceManager作为Master节点,负责管理集群中的资源,NodeManager作为Slave节点,负责管理单个节点的资源。ResourceManager负责对各个NodeManager上的资源进行统一管理个和调度。

​ YARN的基本结构包含ResourceManager、NodeManager、ApplicationMaster三个组件

  • ResourceManager:是YARN的核心组件,负责资源的管理和分配。主要功能:
    • 接收客户端提交的应用程序,并为其分配ApplicationMaster
    • 监控集群中的资源使用情况,为ApplicationMaster分配资源
    • 处理NodeManager的心跳信息,更新集群资源使用情况
    • 处理ApplicationMaster的请求,如为其分配资源、杀死应用程序等
  • NodeManager:是YARN的节点管理器,负责节点的管理和任务的执行。主要功能
    • 监控节点上的资源使用情况,向ResourceManager发送心跳信息
    • 接收ApplicationMaster的请求,为其分配容器
    • 启动容器中的任务,并监控任务的执行情况
    • 向ApplicationMaster发送任务执行状态
  • ApplicationMaster:是YARN的应用程序管理器,负责应用程序的管理和调度。主要功能
    • 向ResourceManager提交应用程序,并为其分配资源
    • 向NodeManager申请容器,并为容器分配任务
    • 监控任务的执行情况,并向NodeManager发送任务执行状态
    • 处理任务执行失败的情况,如重新分配任务、杀死任务等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rQNu5NX8-1684315460788)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517162229435.png)]

举例:

假设有一个大型电商网站,需要对用户的购物行为进行分析,以便提高销售额。

首先,需要将用户的购物数据存储到HDFS中,以便后续的计算。

然后,使用MapReduce计算框架对购物数据进行处理,得到用户的购物行为特征。

最后,使用YARN资源管理系统将计算任务分配给集群中的各个节点进行处理,以提高计算效率。

总结:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aqdPwTsa-1684315460789)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230515213434408.png)]

精彩评论(0)

0 0 举报