排查元数据服务器访问问题


本文档介绍如何解决 Compute Engine 元数据服务器的问题。

Compute Engine 虚拟机将元数据存储在元数据服务器上。虚拟机会自动获得对元数据服务器 API 的访问权限,而无需任何额外的授权。但是,虚拟机有时可能会因以下原因之一而无法访问元数据服务器:

  • 无法解析元数据服务器域名
  • 与元数据服务器的连接会被以下某项阻止:
    • 操作系统级层防火墙配置
    • 代理设置
    • 自定义路由

当虚拟机无法访问元数据服务器时,某些进程可能会失败。

如需了解如何对 gke-metadata-server 进行问题排查,请参阅排查 GKE 身份验证问题

准备工作

  • 设置身份验证(如果尚未设置)。身份验证是通过其进行身份验证以访问 Google Cloud 服务和 API 的过程。如需从本地开发环境运行代码或示例,您可以按如下方式向 Compute Engine 进行身份验证。

    选择标签页以了解您打算如何使用本页面上的示例:

    控制台

    当您使用 Google Cloud 控制台访问 Google Cloud 服务和 API 时,无需设置身份验证。

    gcloud

    1. 安装 Google Cloud CLI,然后通过运行以下命令初始化 Google Cloud CLI:

      gcloud init
    2. 设置默认区域和可用区

    REST

    如需在本地开发环境中使用本页面上的 REST API 示例,请使用您提供给 gcloud CLI 的凭据。

      安装 Google Cloud CLI,然后通过运行以下命令初始化 Google Cloud CLI:

      gcloud init

常见错误

以下是您的虚拟机可能无法访问元数据服务器时可能会遇到的情况示例:

curl: (6) Could not resolve host: metadata.google.internal
postAttribute error: Put "http://metadata.google.internal/computeMetadata/v1/instance/guest-attributes/guestInventory/ShortName": dial tcp: lookup metadata.google.internal on [::1]:53: read udp [::1]:58319->[::1]:53: read: connection refused

对元数据服务器失败的请求进行问题排查

如果您的虚拟机失去对元数据服务器的访问权限,请执行以下操作:

Linux

  1. 连接到您的 Linux 虚拟机。
  2. 从您的 Linux 虚拟机运行以下命令,以测试与元数据服务器的连接:

    1. 查询域名服务器:

      nslookup metadata.google.internal
      

      输出应类似如下所示:

      Server:         169.254.169.254
      Address:        169.254.169.254#53
      
      Non-authoritative answer:
      Name:   metadata.google.internal
      Address: 169.254.169.254
      
    2. 检查元数据服务器是否可访问。如需进行验证,请运行以下命令:

      ping -c 3 metadata.google.internal
      

      输出应类似如下所示:

      PING metadata.google.internal (169.254.169.254) 56(84) bytes of data.
      64 bytes from metadata.google.internal (169.254.169.254): icmp_seq=1 ttl=255 time=0.812 ms
      
      ping -c 3 169.254.169.254
      

      输出应类似如下所示:

      PING 169.254.169.254 (169.254.169.254) 56(84) bytes of data.
      64 bytes from 169.254.169.254: icmp_seq=1 ttl=255 time=1.11 ms
      
    3. 如果上述命令的输出与建议的输出相符,则您的虚拟机已连接到元数据服务器,无需执行进一步操作。如果命令失败,请执行以下操作:

      1. 检查域名服务器是否已配置为元数据服务器:

        cat /etc/resolv.conf
        

        输出应类似如下所示:

        domain ZONE.c.PROJECT_ID.internal
        search ZONE.c.PROJECT_ID.internal. c.PROJECT_ID.internal. google.internal.
        nameserver 169.254.169.254
        

        如果输出没有上述行,请参阅操作系统文档,了解如何修改 DHCP 政策以将域名服务器配置保留为 169.254.169.254。 这是因为如果对项目中的虚拟机应用可用区级 DNS 设置,则对 /etc/resolv.conf 的更改会在一小时内被覆盖。如果您的项目仍在使用全局 DNS,则 resolv.conf 文件将在 24 小时内还原为默认 DHCP。

      2. 检查元数据服务器域名与其 IP 地址之间的映射是否存在:

        cat /etc/hosts
        

        输出中应包含以下行:

        169.254.169.254 metadata.google.internal  # Added by Google
        

        如果输出没有上述行,请运行以下命令:

        echo "169.254.169.254 metadata.google.internal" >> /etc/hosts
        

Windows

  1. 连接到您的 Windows 虚拟机。
  2. 从 Windows 虚拟机运行以下命令:

    1. 查询域名服务器:

      nslookup metadata.google.internal
      

      输出应类似如下所示:

      Server:  UnKnown
      Address:  10.128.0.1
      
      Non-authoritative answer:
      Name:    metadata.google.internal
      Address:  169.254.169.254
      
    2. 检查元数据服务器是否可访问。如需进行验证,请运行以下命令:

      ping -n 3 metadata.google.internal
      

      输出应类似于以下内容:

      Pinging metadata.google.internal [169.254.169.254] with 32 bytes of data:
      Reply from 169.254.169.254: bytes=32 time=1ms TTL=255
      

      ping -n 3 169.254.169.254
      

      输出应类似如下所示:

      Pinging metadata.google.internal [169.254.169.254] with 32 bytes of data:
      Reply from 169.254.169.254: bytes=32 time=1ms TTL=255
      
    3. 如果上述命令的输出与建议的输出相符,则您的虚拟机已连接到元数据服务器,无需执行进一步操作。如果命令失败,请执行以下操作:

      1. 运行以下命令,检查是否存在指向元数据服务器的永久性路由:

        route print
        

        输出应该包含以下内容:

        Persistent Routes:
        Network Address          Netmask  Gateway Address  Metric
        169.254.169.254  255.255.255.255         On-link        1
        

        如果输出没有上述行,请使用以下命令添加路由:

        $Adapters = Get-NetKVMAdapterRegistry
        $FirstAdapter = $Adapters | Select-Object -First 1
        route /p add 169.254.169.254 mask 255.255.255.255 0.0.0.0 'if' $FirstAdapter.InterfaceIndex metric 1
        
      2. 检查元数据服务器域名与其 IP 地址之间的映射是否存在:

        type %WINDIR%\System32\Drivers\Etc\Hosts
        

        输出中应包含以下行:

        169.254.169.254 metadata.google.internal  # Added by Google
        

        如果输出没有上述行,请运行以下命令:

        echo 169.254.169.254 metadata.google.internal >> %WINDIR%\System32\Drivers\Etc\Hosts
        

对使用网络代理时失败的请求进行问题排查

网络代理服务器会阻止虚拟机直接访问互联网。从虚拟机内部发送的所有查询都改由代理服务器处理。

使用从元数据服务器获取凭据(如身份验证令牌)的应用时,虚拟机需要直接访问元数据服务器。 如果虚拟机位于代理后面,您必须为 IP 地址和主机名设置 NO_PROXY 配置。

如果您未设置 NO_PROXY 配置时,您可能会在运行 Google Cloud CLI 命令或直接查询元数据服务器时看到错误,因为调用 metadata.google.internal 将发送到代理,而无需在实例本地进行本地解析。

以下是您可能会看到的错误示例:

ERROR 403 (Forbidden): Your client does not have permission to get URL

如需解决此代理问题,请执行以下操作,从而将元数据服务器主机名和 IP 地址添加到环境变量 NO_PROXY 中:

Linux

  1. 连接到您的 Linux 虚拟机。
  2. 从 Linux 虚拟机运行以下命令:

    export no_proxy=169.254.169.254,metadata,metadata.google.internal
    

    如需保存更改,请运行以下命令:

    echo no_proxy=169.254.169.254,metadata,metadata.google.internal >> /etc/environment
    

Windows

  1. 连接到您的 Windows 虚拟机。
  2. 从 Windows 虚拟机运行以下命令:

    set NO_PROXY=169.254.169.254,metadata,metadata.google.internal
    

    如需保存更改,请运行以下命令:

    setx NO_PROXY 169.254.169.254,metadata,metadata.google.internal /m
    

标头格式不正确

元数据服务器会执行格式检查,以确保标头符合标头格式准则 RFC 7230 第 3.2 节。如果标头格式未能通过这些检查,则会发生以下情况:

  • 请求被接受。但是,您会收到建议,告知您虚拟机使用格式错误的标头向元数据服务器发出请求。系统只为每个虚拟机发送一次建议。您可以使用 Google Cloud CLI 或 Recommender REST API 访问这些建议。

    应用建议后,将建议状态设置为 succeeded

  • 从 2024 年 1 月 20 日开始,元数据服务器会拒绝标头格式不正确的请求。

下面显示了有效和无效标头请求格式的示例。

无效:标头名称和冒号之间包含空格

Metadata-Flavor : Google

有效:标头名称和冒号之间没有空格,检查器会忽略冒号后面的空格

Metadata-Flavor: Google

有效:标头中不含空格

Metadata-Flavor:Google

如需详细了解如何向元数据服务器发出查询,请参阅访问虚拟机元数据