15.11节点维护

在维护节点时,例如更换硬件或安装新内核时,可以将节点关机或重启。使用HA堆栈时也是如此。可以配置HA堆栈在关闭期间的行为。

15.11.1关闭策略

在下面,您可以找到有关节点关闭的不同HA策略的说明。由于向后兼容,当前条件为默认设置。一些用户可能会发现迁移的行为更符合预期。

  • 迁移

    一旦本地资源管理器(LRM)收到关闭请求并且启用了此策略,它会将其自身标记为对当前HA管理器不可用。这将触发当前位于此节点上的所有HA服务的迁移。在所有正在运行的服务移走之前,LRM将尝试延迟关闭过程。但是,这需要将正在运行的服务迁移到另一个节点。换句话说,服务不能本地绑定,例如通过使用硬件通道。由于如果没有可用的组成员,则非组成员节点被视为可运行的目标,因此在仅选择了一些节点的情况下使用HA组时,仍可以使用此策略。但是,将组标记为受限会告诉HA管理器服务不能在所选节点集之外运行,如果所有这些节点都不可用,则关闭将挂起,直到您手动干预。一旦关闭的节点重新联机,如果之前替换的服务没有在中间手动迁移,它们将被移回。

注意:在关闭时的迁移过程中,监视程序仍处于活动状态。如果节点失去仲裁,它将被隔离,并且服务将恢复。

如果在当前正在维护的节点上启动(先前停止的)服务,则需要隔离该节点,以确保可以在另一个可用节点上移动和启动该服务。

  • 故障切换

    此模式可确保停止所有服务,但如果当前节点未立即联机,则也会恢复这些服务。在集群规模上执行维护时可能会很有用,因为如果一次关闭多个节点,则可能无法实时迁移虚拟机,但您仍希望确保HA服务尽快恢复并重新启动。

  • 冻结

    此模式可确保停止并冻结所有服务,以便在当前节点再次联机之前不会恢复这些服务。

  • 有条件的

    有条件关闭策略自动检测是否请求关闭或重新启动,并相应地更改行为。

  • 关机

    关机(断电)通常在需要停止节点一段时间时使用。此时,LRM将停止其管理的所有服务。也就是说,其他节点将接手继续运行这些服务。

注意: 最新的服务器往往配置了大容量内存。所以我们先停止所有资源运行,然后在其他节点启动,以避免大量内存数据的在线迁移。如果你希望使用在线迁移,你需要在关闭节点前手工执行。

  • 重启

    重启节点可使用reboot命令。这通常在安装新内核后执行。请注意重启和“关机”的区别,重启后节点会很快恢复运行。

    重启前,LRM告诉CRM它希望重启,并等待CRM将所有资源置于freeze状态(也就是在软件包升级时所处于的状态,见14.10节)。这样相关资源就不会迁移到其他节点。想法,重启后CRM将在当前节点重启相关资源。

  • 手工迁移资源

    最后但不是唯一,你可以在关机或重启前手工把资源迁移到其他节点运行。该方式的好处是你将全程掌控资源运行状态,并且可以决定使用在线迁移或离线迁移。

注意:请不要杀死pve-ha-crm,pve-ha-lrm或watchdog-mux等服务。由于它们是基于看门狗的管理服务,这样做可能会导致服务器重启。