协调策略


借助声明式配置,您可以定义系统期望的状态。然后,系统会持续工作以尽可能保持接近此状态。如需了解详情,请参阅使用配置文件对 Kubernetes 对象进行声明式管理

借助 Config Connector,您可以按任意顺序创建和更新资源,而不管依赖关系如何。GKE 将声明的配置移向具有期望状态的最终一致性

例如,如果您在相应的 PubSubTopic 之前创建 PubSubSubscription,则 Config Connector 会等到主题创建之后再创建关联的订阅。

Config Connector 安装保持不一致的时长取决于它管理的资源的数量和类型。对 GKE 集群的更改通常在几秒钟内执行。但是,创建 Google Cloud 资源的时间可能会因资源类型而异。例如,创建单个 PubSubTopic 需要几秒钟时间。Google Cloud 资源在创建之前不会达到一致性。例如,在创建 SQLInstanceSQLDatabase 时,系统会在创建数据库期间有几分钟的时间不一致。

GKE 和 Config Connector 会在每次更新时或在抖动周期过后,根据预配置的默认时间间隔为每个资源进行协调。您可以在每个资源参考页面的“Config Connector 默认平均协调间隔(秒)”中找到默认间隔。如需查看每种资源的链接,请参阅资源概览。 当协调出错时,Config Connector 会使用指数退避算法重试,其中退避时长上限为 2 分钟。您可以在给定资源的事件中查看任何错误。

配置对账间隔

从 Config Connector 1.102 开始,您可以使用 cnrm.cloud.google.com/reconcile-interval-in-seconds 注解为由 Config Connector 管理的资源配置平均调和间隔。该注解的值会覆盖资源引用页面中的“Config Connector 默认平均协调间隔(秒)”的默认值。注解的值应该是表示时间(以秒为单位)的非负整数。如果该值设置为 0,则 Config Connector 会在资源达到 UpToDate 状态后停止为其启动协调。

例如,如果您希望 Config Connector 降低资源协调频率以避免发生潜在的 Google Cloud API 配额问题,则可以将平均协调间隔值设置为 1 小时。

cnrm.cloud.google.com/reconcile-interval-in-seconds: "3600"

如果您希望 Config Connector 更频繁地协调资源以更快地纠正偏移,可以将注解设置为较小的值。

您可以使用以下脚本为具有相同群组版本种类 (GVK) 的所有特定类型的资源添加注释:

#!/bin/bash

KIND=RESOURCE_KIND
NAMESPACE=RESOURCE_NAMESPACE
ANNOTATION_KEY="cnrm.cloud.google.com/reconcile-interval-in-seconds"
ANNOTATION_VALUE=RECONCILE_INTERVAL

kubectl annotate --overwrite --all ${KIND} ${ANNOTATION_KEY}=${ANNOTATION_VALUE} -n ${NAMESPACE}
echo "Annotation added to all ${KIND} RESOURCE"

替换以下内容:

  • RESOURCE_KIND:您要添加注释的资源种类。
  • RESOURCE_NAMESPACE:包含要注解的资源的命名空间。
  • RECONCILE_INTERVAL:以秒为单位的协调时间间隔。

您可以将协调间隔设置为 0 以停用资源的偏移校正,但不会停用资源激活。如果您更改了资源 Spec,该资源会再次进行协调。

将对账间隔设置为 0 是不可逆转的。这意味着,将值改回非零数字不会使 Config Connector 再次对资源进行协调。

如果您想还原 0 的对帐间隔,可以采用以下方法:

  • 使用协调间隔值修改资源规范,以启用新的协调。
  • 通过设置注解 cnrm.cloud.google.com/deletion-policy: "abandon" 放弃资源,并使用 0 以外的协调间隔值重新创建资源。

可变但无法读取的字段仅在更改后生效

某些 API 会公开不可读但可变的字段(例如 SQL 用户的密码)。由于无法查看这些字段是否已被修改,可变但不可读的字段只有在修改自定义资源时才会更新。

修改不可变字段时,系统不会重新创建资源

资源中的某些字段是不可变的,如不删除然后重新创建目标资源,则无法进行协调。

在这些情况下,Config Connector 将针对资源发出“UpdatedFailed”Kubernetes 事件,而不是执行这种重新创建操作。然后,您必须删除并重新创建资源。

事件示例

Warning  UpdateFailed  37m (x643 over 15d)    computeinstance-controller  Update call failed: the desired mutation for the following field(s) is invalid: [bootDisk.0.InitializeParams.0.Image networkInterface.0.NetworkIp]