Ceph集群缩容及相关故障处理的示例分析

175次阅读

共计 2083 个字符，预计需要花费 6 分钟才能阅读完成。

这篇文章主要介绍 Ceph 集群缩容及相关故障处理的示例分析，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

引言

由于目前机器比较紧张，需要将我集群中的一批机器提供给其他业务使用，这时问题来了，集群机器的退出意味着数据要重新分布，数据迁移的过程中比较容易出故障。

处理过程处理测试 POOL 对应的机器

集群中有很多 POOL，有些 POOL 是客户数据，这非常重要；有些 POOL 是我测试用，这些 POOL 对应的 OSD 可以直接删除，即时集群报 pg 异常，也无需关心，在删除对应 OSD 后将对应 POOL 删除即可，相应的 pg 异常也消失。

注：为了避免关闭 OSD 的过程中发生数据迁移，请设置 norecover 标记。

ceph osd set norecover

删除对应主机上的所有 OSD 信息的命令如下：

killall -9 ceph-osd
for i in {108..119} 
do 
ceph osd out osd.$i; 
ceph osd crush remove osd.$i; 
ceph auth del osd.$i;
ceph osd rm $i; 
ceph auth del osd.$i;

ceph osd crush remove hostname
removed item id -10 name  hostname  from crush map

处理业务需要的 POOL 对应的机器

对于业务用到的 POOL 分布在了 10 台机器上，现在要从这 10 台机器中释放出五台, 这需要涉及到数据迁移了。有三种办法进行处理。

方法一之设置 out

将要退出的机器依次设置为 out 状态。一台机器做完后做另外一台，由系统负责将数据迁走；

方法二之设置权重

将要推出的机器权重调整为 0，由系统负责将数据迁走；

方法三构建新规则

构建新 group, 将要保留的机器放到新 group 下；

构建新 crushrule, take from newgroup;

将业务 pool 的规则设置为 new crush rule 下；

这是最快的办法，只涉及到一次迁移，等待数据迁移完毕后，就可以将不需要的 OSD 关闭并移除了。

处理后碰到的问题

症状表现，在集群状态中显示少量 PG 状态异常。active + remapped + backfilling active + remapped

[root@gnop029-ct-zhejiang_wenzhou-16-11 ~]# ceph -s
 cluster c6e7e7d9-2b91-4550-80b0-6fa46d0644f6
 health HEALTH_WARN
 2 pgs backfilling
 3 pgs stuck unclean
 recovery 24/2148593 objects misplaced (0.001%)
 norecover,noscrub,nodeep-scrub flag(s) set
 monmap e3: 3 mons at {a=101.71.4.11:6789/0,b=101.71.4.12:6789/0,c=101.71.4.13:6789/0}
 election epoch 446, quorum 0,1,2 a,b,c
 osdmap e69909: 120 osds: 120 up, 120 in; 3 remapped pgs
 flags norecover,noscrub,nodeep-scrub
 pgmap v8678900: 10256 pgs, 16 pools, 2763 GB data, 1047 kobjects
 7029 GB used, 197 TB / 214 TB avail
 24/2148593 objects misplaced (0.001%)
 10253 active+clean
 2 active+remapped+backfilling
 1 active+remapped

[root@ceph]# ceph pg dump_stuck unclean
pg_stat state up up_primary acting acting_primary
23.1c1 active+remapped+backfilling [59,37] 59 [76,84] 76
23.23b active+remapped [35,7] 35 [82,119] 82
23.221 active+remapped+backfilling [15,18] 15 [70,82] 70

后来我开启了 scrub 和 deepscrub，将所有 pg 扫描后就恢复为 active + clean。

在发生数据迁移时，有时候某些 osd 会因为负载过高，导致 osd 进程退出，这是需要做两方面工作：

调低 osd backfill 的线程数量，降低 osd 工作负载；

down 掉的 osd 即时恢复，要不会有很多 Pg 状态异常，osd 回复后这些异常的 pg 也会很快恢复正常；

以上是“Ceph 集群缩容及相关故障处理的示例分析”这篇文章的所有内容，感谢各位的阅读！希望分享的内容对大家有帮助，更多相关知识，欢迎关注丸趣 TV 行业资讯频道！

正文完