Ceph 集群运行久了,需要对其进行停机维护。 而停止服务需要按照一定的手续来进行。


目录

  1. 停机维护
  2. 开机启动 Ceph 集群
  3. 参考

停机维护

  1. 关掉所有使用 Ceph 集群的客户端
  2. 保证集群的健康状态(healthy state) 为 OK
  3. 设置 OSD flags

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    ## osd no out
    $ ceph osd set noout
    ## not backfill data to other osd
    $ ceph osd set nobackfill
    ## not recover
    $ ceph osd set norecover
    ## 上面一些flags 对于关掉集群应该已经足够安全了,
    ## 还可以设置如下的flags以完全停止集群
    $ ceph osd set norebalance
    $ ceph osd set nodown
    $ ceph osd set pause
  4. 依次关掉 Ceph 的服务节点

  5. 依次关停 Ceph 的 OSD 节点
  6. 依次关停 Ceph 的 Mon 节点
  7. 依次关停 Ceph 的 MGR 节点
  8. 进行维护工作

开机启动 Ceph 集群

  1. 启动 MGR 节点
  2. 启动 MOM 节点
  3. 启动 OSD 节点
  4. 在所有节点启动上线后,确认所有服务都已正常
  5. 取消之前设置的 flags

    1
    2
    3
    4
    5
    6
    $ ceph osd unset noout
    $ ceph osd unset nobackfill
    $ ceph osd unset norecover
    $ ceph osd unset norebalance
    $ ceph osd unset nodown
    $ ceph osd unset pause
  6. 检查 Ceph 健康状态,确定为 OK。

  7. 检查 Ceph 客户端是否能连接上 Ceph 集群

参考

  1. How to do a Ceph cluster maintenance/shutdown
  2. [ceph-users] Steps to stop/restart entire ceph cluster