So schützt Google den physisch-zu-logischen Raum in einem Rechenzentrum

Der Inhalt dieses Dokuments wurde im Mai 2023 zum letzten Mal aktualisiert und stellt den Stand zum Zeitpunkt der Erstellung dar. Die Sicherheitsrichtlinien und -systeme von Google Cloud können sich aber in Zukunft ändern, da wir den Schutz unserer Kundinnen und Kunden kontinuierlich verbessern.

Jedes Google-Rechenzentrum ist eine große und vielfältige Umgebung mit Maschinen, Netzwerkgeräten und Steuerungssystemen. Rechenzentren sind als Industriekomplex konzipiert, die eine breite Palette von Rollen und Fähigkeiten für die Verwaltung, Wartung und den Betrieb erfordern.

In diesen komplexen Umgebungen hat die Sicherheit Ihrer Daten höchste Priorität. Google implementiert sechs Ebenen physischer Steuerelemente (Video) und viele logische Steuerelemente auf den Maschinen selbst. Außerdem modellieren wir kontinuierlich Bedrohungsszenarien, in denen bestimmte Kontrollen nicht erfolgreich sind oder nicht angewendet werden.

Einige Bedrohungsszenarien modellieren Insiderrisiken und gehen davon aus, dass ein Angreifer bereits legitimen Zugriff auf das Rechenzentrum hat. Diese Szenarien zeigen einen Bereich zwischen physischen und logischen Kontrollen, der auch tief greifenden Schutz erfordert. Dieser Bereich wird als Armlänge von einem Rechner in einem Rack bis zur Laufzeitumgebung des Computers bezeichnet und ist bekannt als der physisch-zu-logische Bereich.

Der physisch-zu-logische Bereich ähnelt der physischen Umgebung um Ihr Smartphone. Obwohl Ihr Smartphone gesperrt ist, gewähren Sie Personen nur dann physischen Zugriff, wenn dieser berechtigt ist. Google verfolgt denselben Ansatz wie die Computer, die Ihre Daten enthalten.

Zusammenfassung der physisch-zu-logischen Steuerelemente

Innerhalb des physisch-zu-logischen Raums verwendet Google vier Funktionen, die zusammenwirken:

  • Hardwarehärtung: Reduzieren Sie die physischen Zugriffspfade jeder Maschine, die als Angriffsfläche bezeichnet werden, und zwar so:
    • Reduzieren Sie physische Zugriffsvektoren wie Ports.
    • Sperren Sie die verbleibenden Pfade auf der Firmwareebene, einschließlich des grundlegenden Eingabe-/Ausgabesystems (BIOS), aller Verwaltungs-Controller und Peripheriegeräte.
  • Aufgabenbasierte Zugriffssteuerung: Gewähren Sie nur Mitarbeitern mit einer gültigen, zeitgebundenen geschäftlichen Begründung Zugriff auf sichere Rack-Gehäuse.
  • Erkennung anomaler Ereignisse: Benachrichtigungen generieren, wenn physisch-zu-logische Steuerelemente anomale Ereignisse erkennen.
  • Selbstverteidigung des Systems: Erkennen Sie Änderungen in der physischen Umgebung und reagieren Sie auf Bedrohungen mit defensiven Aktionen.

Gemeinsam bieten diese Steuerelemente gestaffelte Sicherheitsmaßnahmen für Sicherheitsereignisse im physisch-zu-logischem Bereich. Das folgende Diagramm zeigt alle vier Steuerelemente, die in einem sicheren Rack-Gehäuse aktiv sind.

Die vier Steuerelemente, die in einem sicheren Rack-Gehäuse aktiv sind.

Hardwarehärtung

Die Hardwarehärtung reduziert die physische Angriffsfläche, um verbleibende Risiken zu minimieren.

Ein herkömmliches Unternehmensrechenzentrum hat einen offenen Grundriss und Reihen von Racks ohne Barrieren zwischen der Frontseite und den Personen auf der Ebene des Rechenzentrums. Ein solches Rechenzentrum verfügt möglicherweise über Maschinen mit vielen externen Ports wie USB-A, Micro-USB oder RJ-45, die das Risiko eines Angriffs erhöhen. Jeder Nutzer mit physischem Zugriff auf das Rechenzentrum kann schnell und einfach auf beweglichen Speicher zugreifen oder einen USB-Stick mit Malware in einen Anschluss auf der Rückseite des Anschlusses verbinden. Google-Rechenzentren verwenden Hardwarehärtung als grundlegende Kontrolle, um diese Risiken zu mindern.

Die Härtung der Hardware ist eine Suite vorbeugender Maßnahmen auf dem Rack und seinen Maschinen, mit der die physische Angriffsfläche so weit wie möglich reduziert werden kann. Die Härtung von Maschinen umfasst Folgendes:

  • Entfernen oder deaktivieren Sie offengelegte Ports und sperren Sie verbleibende Ports auf Firmwareebene.
  • Überwachen Sie Speichermedien mit zuverlässigen Manipulationssignalen.
  • Inaktive Daten verschlüsseln
  • Wenn von der Hardware unterstützt, verwenden Sie die Geräteattestierung, um zu verhindern, dass nicht autorisierte Geräte in der Laufzeitumgebung bereitgestellt werden.

In bestimmten Fällen, um sicherzustellen, dass kein Personal physischen Zugriff auf Maschinen hat, installiert Google auch sichere Rack-Gehäuse, die Manipulationen verhindern oder davon abschrecken. Die sicheren Rack-Gehäuse stellen eine unmittelbare physische Barriere für Passanten dar und können außerdem Alarme und Benachrichtigungen für das Sicherheitspersonal auslösen. In Verbindung mit den bereits erwähnten Abhilfemaßnahmen bieten Gehäuse eine leistungsstarke Schutzebene für den physisch-zu-logischen Bereich.

Die folgenden Bilder veranschaulichen den Übergang von vollständig offenen Racks zu sicheren Rack-Gehäusen mit vollständiger Hardwarehärtung.

  • Die folgende Abbildung zeigt ein Rack ohne Hardwarehärtung:

    Ein Rack ohne Hardwarehärtung.

  • Die folgende Abbildung zeigt ein Rack mit einer gewissen Härtung:

    Ein Rack mit einer gewissen Hardware-Härtung

  • Die folgende Abbildung zeigt die Front- und Rückseite eines Racks mit vollständiger Hardwarehärtung:

    Die Front- und Rückseite eines Racks mit vollständiger Hardwarehärtung.

Aufgabenbasierte Zugriffssteuerung

Aufgabenbasierte Zugriffssteuerung (Task-Based Access Control, TBAC) sorgt dafür, dass nur Mitarbeiter mit einer gültigen geschäftlichen Berechtigung auf sensible Maschinen zugreifen können.

Sichere Rack-Gehäuse müssen physische Sicherheit und Zugriff aus berechtigten Gründen gegeneinander abwägen. Um unsere komplexe Infrastruktur für unsere Kunden aufrechtzuerhalten, muss Google in der Lage sein, schnellen und zuverlässigen Zugriff auf gültige Geschäftsanforderungen zu gewähren, z. B. für Maschinenreparaturen. Außerdem müssen nicht autorisierte Zugriffsversuche protokolliert und zur Untersuchung gemeldet werden.

TBAC ermöglicht beide Funktionen. Mitarbeiter des Rechenzentrums erhalten zeitgebundenen Zugriff auf ein einzelnes sicheres Rack-Gehäuse basierend auf bestimmten Geschäftsaufgaben und TBAC-Systeme erzwingen diesen Zugriff. TBAC protokolliert alle Zugriffsversuche und benachrichtigt das Sicherheitspersonal, wenn potenzielle Sicherheitsereignisse erkannt werden.

Beispiel: Nach dem Erhalt einer Arbeitsanfrage kann ein Supervisor eine Aufgabe für eine Maschine generieren, die sich in einem Rack mit der Bezeichnung Secure Rack Enclosure 123 befindet. Der Supervisor legt dann einen Zeitraum für die Arbeit fest (z. B. zwei Stunden). Wenn ein Techniker das Arbeitsticket in Anspruch nimmt, erlaubt TBAC den Zugriff auf Secure Rack Enclosure 123 für diese Person und startet einen zweistündigen Timer, wenn das Gehäuse geöffnet wird. TBAC widerruft den Zugriff auf Secure Rack Enclosure 123, wenn zwei Stunden vergangen sind oder wenn der Techniker die Aufgabe abschließt, wodurch die Arbeit als abgeschlossen markiert wird.

Sichere Rack-Gehäuse haben verschiedene Authentifizierungs- und Autorisierungsmechanismen. Das einfachste Gehäuse verwendet einen physischen Schlüssel, der eine Authentifizierung und Autorisierung zusammen gewährt und daher nur eine grobe Sicherheitskontrolle bietet. Für zusätzliche Sicherheit sorgen einige Gehäuse für Keypads mit einzeln zugewiesenen und rotierenden PINs.

In einigen Fällen verwendet Google die Bestätigung in zwei Schritten, die mit einem separaten Autorisierungsmechanismus gekoppelt ist. Die Authentifizierung beginnt mit der Person, die ihr zugewiesenes Logo abruft, und der zweite Faktor kann eine vom Nutzer zugewiesene PIN oder ein komplexerer Faktor wie biometrische Verfahren sein.

Erkennung von ungewöhnlichen Ereignissen

Die Erkennung von anomalen Ereignissen informiert Sicherheitsmitarbeiter, wenn Maschinen unerwartete Ereignisse aufweisen.

Branchenweit kann es Monate oder Jahre dauern, bis Organisationen Sicherheitslücken erkennen, oft erst, wenn erhebliche Schäden oder Verluste aufgetreten sind. Der kritische Kompromittierungsindikator (IoC) kann bei einer großen Menge von Logging- und Telemetriedaten von Millionen Produktionsmaschinen verloren gehen. Google verwendet jedoch TBAC und mehrere Datenstreams, um potenzielle physisch-zu-logische Sicherheitsereignisse in Echtzeit zu identifizieren. Dieses Steuerelement wird als Erkennung anomaler Ereignisse bezeichnet.

Moderne Maschinen überwachen und verfolgen ihren physischen Zustand sowie Ereignisse, die im physisch-zu-logischem Bereich auftreten. Maschinen erhalten diese Informationen über immer aktuelle automatisierte Systemsoftware. Diese Software kann auf Minicomputern innerhalb des Computers, die als Baseboard-Verwaltungscontroller (BMCs) bezeichnet werden, oder als Teil eines Betriebssystem-Daemons ausgeführt werden. Diese Software meldet wichtige Ereignisse wie Anmeldeversuche, das Einfügen physischer Geräte und Sensorsensoren wie einen Manipulationssensor des Gehäuses.

Bei der Erkennung ungewöhnlicher Ereignisse kombiniert Google den Kontext aus vom System gemeldeten Ereignissen mit der Arbeitsverfolgung von TBAC, um ungewöhnliche Aktivitäten zu erkennen. Wenn beispielsweise eine Maschine in Secure Rack Enclosure 123 meldet, dass eine Festplatte entfernt wurde, prüfen unsere Systeme, ob diese Maschine kürzlich für den Austausch einer Festplatte autorisiert wurde. Wenn keine Autorisierung vorhanden ist, löst das gemeldete Ereignis zusammen mit den aufgabenbasierten Autorisierungsdaten eine Benachrichtigung für Sicherheitspersonal zur weiteren Untersuchung aus.

Bei Maschinen mit der Hardware Root of Trust werden anomale Ereigniserkennungssignale noch stärker. Die Hardware Root of Trust ermöglicht Systemsoftware wie BMC-Firmware, den sicheren Start zu bestätigen. Google-Erkennungssysteme haben daher eine noch höheres Vertrauen, dass gemeldete Ereignisse gültig sind. Weitere Informationen zu unabhängigen Roots of Trust finden Sie unter Remote-Attestierung von nicht aggregierten Maschinen.

System-Selbstverteidigung

Mit der System-Selbstverteidigung können Systeme auf potenzielle Manipulationen mit sofortiger Verteidigung reagieren.

Einige Bedrohungsszenarien gehen davon aus, dass ein Angreifer im physisch-zu-logischem Bereich die physischen Zugriffsmaßnahmen, die unter Hardwarehärtung erläutert werden, überwinden kann. Ein solcher Angreifer könnte auf Nutzerdaten oder einen vertraulichen Prozess abzielen, der auf einem Rechner ausgeführt wird.

Zur Minderung dieses Risikos implementiert Google die Systemsicherheit, eine unmittelbare und entscheidende Reaktion auf potenzielle Manipulationen. Dieses Steuerelement verwendet die Telemetrie aus der physischen Umgebung, um in der logischen Umgebung zu fungieren.

In den meisten großen Produktionsumgebungen sind mehrere physische Maschinen in einem Rack vorhanden. Jede physische Maschine führt mehrere Arbeitslasten aus, z. B. virtuelle Maschinen (VMs) oder Kubernetes-Container. Jede VM führt ihr eigenes Betriebssystem mit dediziertem Arbeitsspeicher und Speicher aus.

Damit Google feststellen kann, welche Arbeitslasten Sicherheitsereignissen ausgesetzt sind, fasst Google die Telemetriedaten aus den Steuerelementen zur Hardwarehärtung, TBTB und der Erkennung anomaler Ereignisse zusammen. Anschließend korrelieren wir die Daten, um eine kleine Gruppe von Ereignissen zu generieren, die ein hohes Risiko darstellen und sofortige Maßnahmen erfordern. So könnte beispielsweise die Kombination aus einem Alarm für eine sichere Regaltür, einem Signal zum Öffnen des Maschinengehäuses und dem Fehlen einer gültigen Arbeitsautorisierung ein risikoreiches Ereignis darstellen.

Wenn Google diese Ereignisse erkennt, können Systeme sofort Maßnahmen ergreifen:

  • Sichtbare Arbeitslasten können sensible Dienste sofort beenden und sensible Daten löschen.
  • Die Netzwerkstruktur kann das betroffene Rack isolieren.
  • Die betroffenen Arbeitslasten können je nach Situation auf anderen Maschinen oder sogar in Rechenzentren verschoben werden.

Aufgrund der Kontrolle des Systems zur Verteidigung des Systems kann ein Angreifer keine Daten extrahieren und kann sich nicht seitlich in der Umgebung bewegen, auch wenn ein Angreifer erfolgreich Zugriff auf einen physischen Computer erhält.

Nächste Schritte


Autoren: Thomas Koh und Kevin Plybon