k8s笔记15-CFANZ编程社区

摘要：

Ceph OSD Status out down；

k8s笔记1(知识图谱，添加节点，ceph存储)_ATCtoK8s 空管智能运维的技术博客_51CTO博客
【ceph】ceph OSD状态及常用命令 - bdy - 博客园 (cnblogs.com)
ceph集群磁盘故障，更换磁盘流程-腾讯云开发者社区-腾讯云 (tencent.com)

1、Ceph Dashboard显示out down：(out:命令ceph osd out 4)

k8s笔记15_ceph存储

检查为/dev/sdb（RAID0）的一个磁盘故障导致，更换磁盘，重新设置RAID0后，现象如下：

rook-ceph     rook-ceph-osd-4-88d88cd44-c7jmz   0/1     CrashLoopBackOff  
没有rook-ceph-osd-prepare-k8s-node03的job运行完成记录Completed
[root@k8s-node03 ~]# ll /dev/sdb               // root disk而不是167 167 
brw-rw---- 1 root disk 8, 16 10月 12 22:09 /dev/sdb
# k edit CephCluster rook-ceph -n rook-ceph  删除以下内容，然后再添加后ll /dev/sdb 显示167 167 
    - devices:
      - name: sdb
      name: k8s-node03

但是Ceph Dashboard中OSDs的ID在最后递增：原先状态out down的ID 10还在，新增ID 11

k8s笔记15_数据_02

在ceph-tools容器中命令可以删除ID 10，Ceph Dashboard中ID 10的条目消失。

[root@k8s-master01 ~]# k -n rook-ceph exec -ti rook-ceph-tools-897d6797f-nghs9 -- bash
[root@rook-ceph-tools-897d6797f-nghs9 /]# ceph osd tree
ID   CLASS  WEIGHT    TYPE NAME            STATUS  REWEIGHT  PRI-AFF
 10    hdd   0.27280          osd.10         down         0  1.00000
 11    hdd   0.54559          osd.11           up   1.00000  1.00000
#  ceph osd rm osd.10

但是在Ceph Dashboard的CRUSH map viewer中还有：

k8s笔记15_数据_03

从crush map中删除OSD后OK。

# ceph osd crush rm osd.10
removed item id 10 name 'osd.10' from crush map

CRUSH算法的设置目的是使数据能够根据设备的存储能力和宽带资源加权平均地分布，并保持一个相对的概率平衡。CRUSH会复制数据到多个磁盘，这些复制的数据在恢复的时候使用，确保ceph的容错性。在将新的磁盘加入Ceph集群后，集群将开始将数据平衡到新的磁盘上。