0
点赞
收藏
分享

微信扫一扫

0527-6.1-如果你不小心删了一个NameNode2

Hyggelook 2022-09-22 阅读 200

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。


Fayson的github:

​​https://github.com/fayson/cdhproject​​


提示:代码块部分可以左右滑动查看噢


1

文档编写目的


在启用了HDFS HA的集群,2个NameNode节点上一般都会部署三个角色:NameNode,JournalNode和Failover Controller。在实际生产中,我们有时会碰到一个情况,你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,然后你想再把这个节点加回去的时候,发现无论如何HDFS服务都没办法正常使用了。本文Fayson会在一个HDFS HA的CDH集群中模拟这种情况,然后尝试去解决,即先删除一个NameNode,然后这时HDFS会故障,我们来看看如何恢复故障。有兴趣的读者可以注意本文的处理方式与上篇文章《​​0526-6.1-如果你不小心删了一个NameNode1​​》的区别,上篇文章是比较健康的将删掉的NameNode再加回去,本文提供的是手动将HDFS HA回退,最后只会保留一个NameNode,也算另一种思路,万一你使用《​​0526-6.1-如果你不小心删了一个NameNode1​​》中的方法没办法恢复呢,是吧。


  • 测试环境

1.CDH6.1

2.Redhat7.4

3.采用root进行操作


2

模拟异常


1.首先Fayson准备一个正常的CDH6.1的集群,并且HDFS已经启用了HA。


0527-6.1-如果你不小心删了一个NameNode2_hive


2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode,JournalNode和Failover Controller服务。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_02

0527-6.1-如果你不小心删了一个NameNode2_hdfs_03


3.删除这三个角色,注意下表已经少了这三个角色。


0527-6.1-如果你不小心删了一个NameNode2_元数据_04


4.这是HDFS服务直接报错了。


3 个验证错误。
Quorum Journal 需要至少三个 JournalNode
Quorum Journal 需要奇数的 JournalNode
Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner
1 个验证警告。
在 NameNode (ip-172-31-6-83) 个非 HA Nameservice nameservice1 上启用自动故障转移不起作用。


0527-6.1-如果你不小心删了一个NameNode2_hive_05


3

故障恢复


1.我们选择HDFS服务,然后点击“操作”,发现虽然是HDFS HA的集群,操作列表显示却是“启用High Availability”,实际应该是“禁用High Availability”,应该是因为手动删除了一个NameNode后引起的。


0527-6.1-如果你不小心删了一个NameNode2_hive_06


2.因为我们最终会删掉ip-172-31-9-113节点上的NameNode角色,所以在操作前,我们先备份一下ip-172-31-6-83节点上的NameNode元数据。


[root@ip-172-31-6-83 ~]# cd /dfs
[root@ip-172-31-6-83 dfs]# tar cvzf nn.tar.gz nn


0527-6.1-如果你不小心删了一个NameNode2_元数据_07


当然你如果有条件也可以备份所有DataNode上的Data目录。


3.停止多余的2个JournalNode以及1个Failover Controller服务,然后删掉这3个角色。


0527-6.1-如果你不小心删了一个NameNode2_hive_08

0527-6.1-如果你不小心删了一个NameNode2_元数据_09


停止成功后,选择这3个服务停止的角色,选择“已选定的操作”->“删除”


0527-6.1-如果你不小心删了一个NameNode2_hdfs_10


删除成功


0527-6.1-如果你不小心删了一个NameNode2_元数据_11


4.回到HDFS服务,点击“配置”,搜索nameservice


0527-6.1-如果你不小心删了一个NameNode2_hive_12


如上图标红的部分的,点击“移除覆盖项”,删除该配置。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_13


保存更改。


5.回到HDFS服务的“实例”页面,看到依旧有报错,缺少一个Secondary NameNode,我们点击“添加角色实例”增加一个Secondary NameNode。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_14


点击“添加角色实例”


0527-6.1-如果你不小心删了一个NameNode2_hive_15


点击Secondary NameNode选项框增加一个Secondary NameNode,这里可以随便一个节点。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_16

0527-6.1-如果你不小心删了一个NameNode2_hdfs_17

0527-6.1-如果你不小心删了一个NameNode2_元数据_18



6.回到CM主页,重启集群所有服务。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_19

0527-6.1-如果你不小心删了一个NameNode2_元数据_20

0527-6.1-如果你不小心删了一个NameNode2_hdfs_21


重启成功后,发现CM主页才提示需要重新部署客户端。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_22


重新部署客户端配置。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_23

0527-6.1-如果你不小心删了一个NameNode2_hive_24


部署成功后,回到CM主页服务一切正常。


0527-6.1-如果你不小心删了一个NameNode2_元数据_25


7.HDFS简单测试。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_26


8.因为之前的集群是HDFS HA状态,我们还需要去更新Hive元数据,首先停止Hive服务。


0527-6.1-如果你不小心删了一个NameNode2_hdfs_27

0527-6.1-如果你不小心删了一个NameNode2_hdfs_28

0527-6.1-如果你不小心删了一个NameNode2_元数据_29


点击“更新Hive Metastore NameNode”


0527-6.1-如果你不小心删了一个NameNode2_hive_30


更新成功后,重启Hive服务,过程略。


4

总结


1.如果你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,Fayson提供了两种方法供参考恢复集群的HDFS服务,第一种是比较健康也是比较建议的方式,参考《​​0526-6.1-如果你不小心删了一个NameNode1​​》,恢复后集群依旧是HA状态。第二种方法即本文提供的方法,不是太建议,恢复HDFS服务后只有单个NameNode。


2.参见本文的方法,最后恢复HDFS服务后,只有单个NameNode,但因为之前的集群HDFS是有HA的,所以需要更新Hive元数据,否则Hive和Impala无法进行查询。


提示:代码块部分可以左右滑动查看噢


为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。



推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

0527-6.1-如果你不小心删了一个NameNode2_hive_31

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操






举报

相关推荐

0 条评论