15.6. 配置

HA组件被紧密集成到了Proxmox VE API中。因此，你既能够通过ha-manager命令行配置HA，也可以通过WebGUI配置HA，两种方式都很简便，更进一步，还可以用自动化工具直接调用API配置HA。

HA配置文件全部保存在/etc/pve/ha/目录中，因此可以被自动复制到集群所有节点，所有节点都共享使用相同的HA配置。

15.6.1. 资源

资源配置文件/etc/pve/ha/resources.cfg保存了ha-manager管理的所有资源列表。资源列表中的资源配置格式如下：

<type>: <name>
<property> <value>
...

每条资源配置信息都以冒号分隔的资源类型和资源名称开始，这也是ha-manager命令用于标识HA资源的ID（例如vm:100或ct:101），而后续配置行包含了附加属性：

comment: <string>

描述信息。
group: <string>

HA组标识符。
max_relocate: <integer> (0 -N) (default = 1)

资源启动失败后尝试重新部署最大次数。
max_restart: <integer> (0 -N) (default = 1)

资源启动失败后尝试重新启动最大次数。
state: <disabled | enabled | ignored | started | stopped> (default =started)

资源的指定状态。CRM将根据该状态值管理相关资源。请注意enabled是started的别名。
- started
  
  CRM将尝试启动资源，并在成功启动后将状态设置为started。如果遭遇节点故障或启动失败，CRM将尝试恢复资源。如果所有尝试均告失败，状态将被设为error。
- stopped
  
  CRM将努力确保资源处于停止状态。但在遭遇节点时，CRM还是会尝试将资源重新部署到其他节点。
- disabled
  
  CRM将努力确保资源处于停止状态。但在遭遇节点时，CRM不会将资源重新部署到其他节点。设置该状态的主要目的是将资源从error状态恢复出来，因为这是error状态的资源唯一可以被设置的状态。
- ignored
  
  该状态表示资源不再接受HA管理，CRM和LRM也不再管理相关资源。所有Proxmox将努VE API将绕过HA组件，直接对相关资源进行操作。对该资源执行的CRM命令将直接返回，而不做任何操作。同时，在节点发生故障时，资源也不会被自动故障转移。

以下是一个实际生产中的例子，其中包含了一个虚拟机和一个容器。可以看到，配置文件的语法其实非常简单，所以你可以用文本编辑器直接读取或修改这些配置文件：

配置示例（/etc/pve/ha/resources.cfg）

vm: 501
    state started
    max_relocate 2

ct: 102
    # Note: use default settings for everything

以上配置示例是由命令行工具ha-manager生成的：

ha-manager add vm:501 --state started --max_relocate 2
ha-manager add ct:102

15.6.2. 组

HA的组配置文件/etc/pve/ha/groups.cfg用于定义集群节点服务器组。一个资源可以被指定只能在一个组内的节点上运行。组配置示例如下：

group: <group>
	nodes <node_list>
	<property> <value>
	...

comment: <string>

描述信息。
nodes: <node>[:<pri>]{,<node>[:<pri>]}*

节点组成员列表，其中每个节点都可以被赋予一个优先级。绑定在一个组上的资源会优先选择在最高优先级的节点上运行。如果有多个节点都被赋予最高优先级，资源将会被平均分配到这些节点上运行。优先级的值只有相对大小意义。
nofailback: <boolean> (default = 0)

CRM会尝试在最高优先级的节点运行资源。当有更高优先级的节点上线后，CRM将把资源迁移到更高优先级节点。设置nofailback后，CRM将继续保持资源在原节点运行。
restricted: <boolean> (default = 0)

绑定到restricted组的资源将只能够在该组的节点运行。如果该组的节点全部关机，则相关资源将停止运行。而对于非restricted组而言，如果该组的节点全部关机，相关资源可以转移到集群内的任何节点运行，一旦该组节点重新上线，相关资源会立刻迁移回到该组节点上运行。可以通过设置只有一个成员的非restricted组实现更好表现。

指定资源在固定节点运行是很常见的做法，但通常也会允许资源在其他节点运行。为此，你可以设置一个只有一个节点的非restricted组：

ha-manager groupadd prefer_node1 --nodes node1

对于节点较多的集群而言，可以考虑制定更加详尽的故障转移策略。例如，你可以指定一组资源固定在node1节点运行。一旦node1节点不可用，你可以将相关资源平均分配到node2和node3节点运行。如果node2和node3也遭遇故障，则可以进一步转移到node4运行。为达到该效果，你可以设置节点列表如下：

ha-manager groupadd mygroup1 -nodes "node1:2,node2:1,node3:1,node4"

另一个例子是，如果某个资源需要用到只有特定节点，比如node1和node2，才具有的硬件或其他资源。我们就需要确保HA管理器不在其他节点运行该资源。为此，我们需要创建一个由指定节点构成的restricted组：

ha-manager groupadd mygroup2 -nodes "node1,node2" -restricted

以上命令创建的配置文件如下：

配置文件示例（/etc/pve/ha/groups.cfg）

group: prefer_node1
	nodes node1
group: mygroup1
	nodes node2:1,node4,node1:2,node3:1
group: mygroup2
	nodes node2,node1
	restricted 1

选项nofailback主要用于在管理操作中避免意外的资源迁移。例如，如果你需要将一个资源迁移到一个优先级较低的节点运行，就需要设置nofailback选项来告诉HA管理器不要立刻把资源迁移回原来的高优先级节点。

另一种可能场景是，在节点因故障被隔离后，相关资源会自动迁移到其他节点运行，而管理员在把故障节点重新恢复加入集群后，可能会希望先查明故障原因并检测该节点是否能稳定运行。这时可以设置nofailback选项组织HA管理器立刻把相关资源迁移故障节点运行。