摘要:
Ceph OSD Status out down;
- k8s笔记1(知识图谱,添加节点,ceph存储)_ATCtoK8s 空管智能运维的技术博客_51CTO博客
- 【ceph】ceph OSD状态及常用命令 - bdy - 博客园 (cnblogs.com)
- ceph集群磁盘故障,更换磁盘流程-腾讯云开发者社区-腾讯云 (tencent.com)
1、Ceph Dashboard显示out down:(out:命令ceph osd out 4)
检查为/dev/sdb(RAID0)的一个磁盘故障导致,更换磁盘,重新设置RAID0后,现象如下:
rook-ceph rook-ceph-osd-4-88d88cd44-c7jmz 0/1 CrashLoopBackOff
没有rook-ceph-osd-prepare-k8s-node03的job运行完成记录Completed
[root@k8s-node03 ~]# ll /dev/sdb // root disk而不是167 167
brw-rw---- 1 root disk 8, 16 10月 12 22:09 /dev/sdb
# k edit CephCluster rook-ceph -n rook-ceph 删除以下内容,然后再添加后ll /dev/sdb 显示167 167
- devices:
- name: sdb
name: k8s-node03
但是Ceph Dashboard中OSDs的ID在最后递增:原先状态out down的ID 10还在,新增ID 11
在ceph-tools容器中命令可以删除ID 10,Ceph Dashboard中ID 10的条目消失。
[root@k8s-master01 ~]# k -n rook-ceph exec -ti rook-ceph-tools-897d6797f-nghs9 -- bash
[root@rook-ceph-tools-897d6797f-nghs9 /]# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
10 hdd 0.27280 osd.10 down 0 1.00000
11 hdd 0.54559 osd.11 up 1.00000 1.00000
# ceph osd rm osd.10
但是在Ceph Dashboard的CRUSH map viewer中还有:
从crush map中删除OSD后OK。
# ceph osd crush rm osd.10
removed item id 10 name 'osd.10' from crush map
CRUSH算法的设置目的是使数据能够根据设备的存储能力和宽带资源加权平均地分布,并保持一个相对的概率平衡。CRUSH会复制数据到多个磁盘,这些复制的数据在恢复的时候使用,确保ceph的容错性。 在将新的磁盘加入Ceph集群后,集群将开始将数据平衡到新的磁盘上。