Architektur für raumbezogene Analysen

Last reviewed 2024-03-25 UTC

In diesem Dokument werden raumbezogene Funktionen von Google Cloud erläutert und wie Sie diese Funktionen in Anwendungen für raumbezogene Analysen verwenden können. Dieses Dokument richtet sich an Experten von geografischen Informationssystemen (Geographic Information Systems), Data Scientists und Anwendungsentwickler, die wissen möchten, wie sie die in Google Cloud verfügbaren Produkte und Dienste nutzen können, um den Stakeholdern des Unternehmens raumbezogene Informationen zur Verfügung zu stellen.

Übersicht

Google Cloud bietet eine umfassende Suite raumbezogener Analysen und ML-Funktionen (maschinelles Lernen), mit denen Sie Einblicke in die Welt, Ihre Umgebung und Ihr Unternehmen erhalten. Mit raumbezogenen Informationen, die Sie aus diesen Google Cloud-Funktionen gewinnen, können Sie präzise und nachhaltige Geschäftsentscheidungen treffen, ohne die Komplexität und den Kostenaufwand, die mit der Verwaltung einer GIS-Infrastruktur verbunden sind.

Anwendungsfälle für raumbezogene Analysen

Viele zentrale Geschäftsvorgänge drehen sich um Standortdaten. Informationen, die aus raumbezogenen Analysen gewonnen werden, gelten für verschiedene Branchen, Unternehmen und Märkte, wie in den folgenden Beispielen beschrieben:

  • Umweltrisiken bewerten. Durch die Vorhersage von Naturkatastrophen wie Überschwemmungen und Waldbränden können Sie durch ökologische Bedingungen entstehende Risiken verstehen. So können Sie Risiken effektiver vorhersagen und entsprechend planen.
  • Auswahl von Standorten optimieren Kombinieren Sie Messwerte zu Standorten mit öffentlich verfügbaren Daten wie Traffic-Mustern und geografischer Mobilität. Verwenden Sie dann raumbezogene Analysen, um die optimalen Standorte für Ihr Unternehmen zu ermitteln und finanzielle Ergebnisse vorherzusagen.
  • Logistik und Transport planen. Bessere Verwaltung des Flottenbetriebs wie Logistik über die letzte Meile, Analysieren von Daten aus autonomen Fahrzeugen, Verwalten des Präzisionsschienenverkehrs und Verbessern der Mobilitätsplanung durch Einbinden von raumbezogenen Daten in Geschäftsentscheidungen.
  • Bodengesundheit und -ertrag analysieren und verbessern. Sie können Hunderttausende Hektar Land analysieren, um sich ein Bild von der Beschaffenheit des Bodens zu machen und Landwirten bei der Analyse von Interaktionen zwischen den Variablen helfen, die sich auf die Ernte auswirken.
  • Nachhaltige Entwicklung verwalten. Kartieren Sie die wirtschaftlichen, ökologischen und sozialen Bedingungen, um Schwerpunktbereiche für den Schutz und den Erhalt der Umwelt festzulegen.

Raumbezogene Cloud-Bausteine

Die Architektur raumbezogener Analysen kann aus einer oder mehreren raumbezogenen Cloud-Komponenten bestehen, je nach Anwendungsfall und Anforderungen. Jede Komponente bietet unterschiedliche Funktionen und diese bilden zusammen eine einheitliche, skalierbare raumbezogene Cloud-Analyse-Architektur.

Daten sind das Rohmaterial für raumbezogene Informationen. Hochwertige raumbezogene Daten stehen aus einer Reihe öffentlicher und proprietärer Quellen zur Verfügung. Zu den öffentlichen Datenquellen gehören öffentliche BigQuery-Datasets, der Earth Engine-Katalog und United States Geological Survey (USGS). Proprietäre Datenquellen umfassen interne Systeme wie SAP und Oracle sowie interne GIS-Tools wie Esri ArcGIS Server, Carto und QGIS. Sie können Daten aus mehreren Geschäftssystemen aggregieren, z. B. für Inventarverwaltung, Marketinganalysen und Lieferkettenlogistik, und diese Daten mit raumbezogenen Quelldaten kombinieren und die Ergebnisse an Ihr raumbezogenes Data Warehouse senden.

Abhängig vom Datentyp und Ziel der Quelle können Sie raumbezogene Datenquellen direkt in Ihr Data Warehouse für Analysen laden. BigQuery bietet beispielsweise integrierte Unterstützung für das Laden von durch Zeilenumbruch getrennten GeoJSON-Dateien und Earth Engine hat einen integrierten Datenkatalog mit einer umfassenden Sammlung analysebereiter Datasets. Sie können andere Daten in anderen Formaten über eine raumbezogene Datenpipeline laden, die die raumbezogenen Daten vorverarbeitet und in Ihr Enterprise Data Warehouse in Google Cloud lädt. Sie können produktionsbereite Datenpipelines mit Dataflow erstellen. Alternativ können Sie eine Partnerlösung wie FME Spatial ETL verwenden.

Das Enterprise Data Warehouse ist der Kern Ihrer raumbezogenen Analyseplattform. Nachdem raumbezogene Daten in Ihr Data Warehouse geladen wurden, können Sie mit einigen der folgenden Funktionen raumbezogene Anwendungen und Statistiken erstellen:

Die Architektur dient dann als ein zentrales System, mit dem Sie Daten in großem Maßstab speichern, verarbeiten und verwalten können. Außerdem können Sie mit dieser Architektur erweiterte Analyselösungen erstellen und bereitstellen, die Einblicke liefern, die in Systemen ohne diese Features nicht realisierbar sind.

Raumbezogene Datentypen, Formate und Koordinatensysteme

Um Ihre raumbezogenen Daten in ein Data Warehouse wie BigQuery einzubinden, müssen Sie die Formate für raumbezogene Daten kennen, die in internen Systemen und aus öffentlichen Quellen auftreten können.

Datentypen

Raumbezogene Datentypen fallen in zwei Kategorien: Vektoren und Raster.

Vektordaten bestehen aus Eckpunkten und Liniensegmenten, wie im folgenden Diagramm dargestellt.

Beispiele für Vektorbilder (Punkt, Linienzug, Polygon, Multi-Polygon und Sammlungen).

Beispiele für Vektordaten sind Parzellengrenzen, öffentliche Wegerechte und Anlagenstandorte. Da Vektordaten in einem Tabellenformat (Zeilen- und Spaltenformat) gespeichert werden können, eignen sich raumbezogene Datenbanken wie BigQuery und PostGIS in Cloud SQL hervorragend zum Speichern, Indexieren und Analysieren von Vektordaten.

Rasterdaten bestehen aus Pixelrastern. Beispiele für Rasterdaten sind atmosphärische Messungen und Satellitenbilder, wie in den folgenden Beispielen gezeigt.

Beispiele für Rasterbilder, die Luftbilder von geografischen Gebiete zeigen.

Earth Engine wurde für die Speicherung und Analyse von Rasterdaten im globalen Maßstab entwickelt. Earth Engine bietet eine Funktion zum Vektorisieren von Rastern, mit der Sie Regionen klassifizieren und Muster in Rasterdaten verstehen können. Wenn Sie beispielsweise atmosphärische Rasterdaten im Zeitverlauf analysieren, können Sie Vektoren extrahieren, die die vorherrschenden Windströmungen darstellen. Sie können jedes einzelne Rasterpixel mithilfe eines Prozesses namens Polygonisierung in BigQuery laden, der jedes Pixel direkt in eine Vektorform konvertiert.

Raumbezogene Cloud-Anwendungen kombinieren oft beide Datentypen, um ganzheitliche Erkenntnisse zu gewinnen, die die Stärken der Datenquellen aus jeder Kategorie nutzen. Zum Beispiel kann eine Immobilienanwendung, die neue Entwicklungsstandorte identifiziert, Vektordaten wie Grenzlinien von Parzellen mit Rasterdaten wie Höhendaten kombinieren, um Risiken durch Überschwemmungen und somit Versicherungskosten zu minimieren.

Datenformate

In der folgenden Tabelle finden Sie gängige raumbezogene Datenformate und Möglichkeiten zu deren Verwendung auf Ihrer Analyseplattform.

Format der Datenquelle Beschreibung Beispiele
Shapefile Ein von Esri entwickeltes Vektordatenformat. Damit können Sie geometrische Standorte speichern und mit Attributen verknüpfen. Geometrien statistischer Erhebungsgebiete, Grundflächen
WKT Ein für Menschen lesbares Vektordatenformat, das von OGC veröffentlicht wird. Die Unterstützung für dieses Format ist in BigQuery integriert. Darstellung von Geometrien in CSV-Dateien
WKB Ein speichereffizientes Äquivalent von WKT. Die Unterstützung für dieses Format ist in BigQuery integriert. Darstellung von Geometrien in CSV-Dateien und Datenbanken
KML Ein XML-kompatibles Vektorformat, das von Google Earth und anderen Desktoptools verwendet wird. Das Format wird von OGC veröffentlicht. 3D-Gebäudestrukturen, Straßen, Landmerkmale
Geojson Ein offenes Vektordatenformat, das auf JSON basiert. Features in Webbrowsern und mobilen Anwendungen
GeoTIFF Ein weit verbreitetes Rasterdatenformat. Mit diesem Format können Sie Pixel in einem TIFF-Bild geografischen Koordinaten zuordnen. Digitale Höhenmodelle, Landsat

Referenzsysteme koordinieren

Alle raumbezogenen Daten enthalten unabhängig vom Typ und Format ein Koordinatenreferenzsystem, mit dem raumbezogene Analysetools wie BigQuery und Earth Engine Koordinaten einem physischen Standort auf der Erdoberfläche zuordnen können. Es gibt zwei grundlegende Arten von Koordinatenreferenzsystemen: geodätische und planare.

Geodätische Daten berücksichtigen die Rundung der Erde und verwenden ein Koordinatensystem, das auf geografischen Koordinaten (Längengrad und Breitengrad) basiert. Geodätische Formen werden allgemein als Geografien bezeichnet. Das von BigQuery verwendete WGS 84-Koordinatenreferenzsystem ist ein geodätisches Koordinatensystem.

Planare Daten basieren auf einer Kartenprojektion wie Mercator, die geografische Koordinaten einer zweidimensionalen Ebene zuordnet. Zum Laden planarer Daten in BigQuery müssen Sie planare Daten in das Koordinatensystem "WGS 84" reprojizieren. Sie können diese Reprojektion manuell mithilfe Ihrer vorhandenen GIS-Tools oder einer raumbezogenen Cloud-Datenpipeline ausführen (siehe nächster Abschnitt).

Überlegungen zum Entwickeln einer raumbezogenen Cloud-Datenpipeline

Wie bereits erwähnt, können Sie je nach Datentyp einige raumbezogene Daten direkt in BigQuery und Earth Engine laden. Mit BigQuery können Sie Vektordaten in die Dateiformate WKT, WKB und GeoJSON laden, wenn die Daten das Referenzsystem "WGS 84" verwenden. Earth Engine lässt sich direkt in die Daten einbinden, die im Earth Engine-Katalog verfügbar sind, und unterstützt das direkte Laden von Rasterbildern im GeoTIFF-Dateiformat.

Sie können auch raumbezogenen Daten begegnen, die in anderen Formaten gespeichert sind und nicht direkt in BigQuery geladen werden können. Oder die Daten können sich in einem Koordinaten-Referenzsystem befinden, das Sie zuerst in das WGS 84-Referenzsystem projizieren müssen. Ebenso können Sie auf Daten stoßen, die vorverarbeitet, vereinfacht und auf Fehler geprüft werden müssen.

Sie können vorverarbeitete raumbezogene Daten in BigQuery laden, wenn Sie raumbezogene Datenpipelines mit Dataflow erstellen. Dataflow ist ein verwalteter Analysedienst, der das Streaming und die Batchverarbeitung von Daten im erforderlichen Maßstab unterstützt.

Sie können die Python-Bibliothek geobeam verwenden, die Apache Beam erweitert und Funktionen für raumbezogene Verarbeitung zu Dataflow hinzufügt. Mit der Bibliothek können Sie raumbezogene Daten aus verschiedenen Quellen lesen. Die Bibliothek unterstützt Sie auch beim Verarbeiten und Transformieren der Daten und beim Laden in BigQuery, um es als raumbezogenes Cloud Data Warehouse zu verwenden. Die geobeam-Bibliothek ist Open Source, sodass Sie sie ändern und erweitern können, um zusätzliche Formate und Vorverarbeitungsaufgaben zu unterstützen.

Mit Dataflow und der Bibliothek geobeam können Sie enorme Mengen an raumbezogenen Daten parallel aufnehmen und analysieren. Die Bibliothek geobeam funktioniert durch das Implementieren benutzerdefinierter E/A-Connectors. Die Bibliothek geobeam enthält GDAL, PROJ und andere zugehörige Bibliotheken, um die Verarbeitung von raumbezogenen Daten zu vereinfachen. Beispielsweise reprojiziert geobeam automatisch alle Eingabegeometrien in das von BigQuery verwendete WGS84-Koordinatensystem, um räumliche Daten zu speichern, zu gruppieren und zu verarbeiten.

Die Bibliothek geobeam folgt Apache Beam-Designmustern, sodass Ihre räumlichen Pipelines ähnlich wie nicht räumliche Pipelines funktionieren. Der Unterschied besteht darin, dass Sie zum Lesen aus räumlichen Quelldateien die benutzerdefinierten geobeam-Klassen FileBasedSource verwenden. Sie können auch die integrierten geobeam-Transformationsfunktionen verwenden, um die räumlichen Daten zu verarbeiten und Ihre eigenen Funktionen zu implementieren.

Das folgende Beispiel zeigt, wie Sie eine Pipeline erstellen können, die eine Rasterdatei liest, das Raster polygonisiert, es in WGS 84 reprojiziert und die Polygone in BigQuery schreibt.

with beam.Pipeline(options=pipeline_options) as p:
  (p
   | beam.io.Read(GeotiffSource(known_args.gcs_url))
   | 'MakeValid' >> beam.Map(geobeam.fn.make_valid)
   | 'FilterInvalid' >> beam.Filter(geobeam.fn.filter_invalid)
   | 'FormatRecords' >> beam.Map(geobeam.fn.format_record,
       known_args.band_column, known_args.band_type)
   | 'WriteToBigQuery' >> beam.io.WriteToBigQuery('DATASET.TABLE'))

Raumbezogene Datenanalysen in BigQuery

Wenn sich die Daten in BigQuery befinden, können Sie sie transformieren, analysieren und modellieren. Sie können beispielsweise die durchschnittliche Höhe einer Landparzelle abfragen – durch Berechnung der Schnittmenge dieser Geografien und Zusammenführen der Tabellen mithilfe von Standard-SQL. BigQuery bietet viele Funktionen, mit denen Sie neue geografische Werte erstellen, Messungen von Geografien berechnen und die Beziehung zwischen zwei Geografien untersuchen können und vieles mehr. Mit BigQuery-S2-Funktionen können Sie die hierarchische raumbezogene Indexierung mit S2-Rasterzellen durchführen. Außerdem können Sie Features für maschinelles Lernen von BigQuery ML verwenden, um Muster in den Daten zu identifizieren, indem Sie z. B. ein k-Means-Modell für maschinelles Lernen zum Clustern raumbezogener Daten erstellen.

Raumbezogene Visualisierungen, Berichte und Bereitstellungen

Google Cloud bietet mehrere Optionen zum Visualisieren und Erfassen räumlicher Daten und Informationen, um diese an Nutzer und Anwendungen weiterzugeben. Welche Methoden Sie zur Darstellung Ihrer räumlichen Daten verwenden, hängt von Ihren Geschäftsanforderungen und -zielen ab. Nicht alle räumlichen Daten werden grafisch dargestellt. Viele Informationen werden am besten über einen API-Dienst wie Apigee oder durch Speichern in einer Anwendungsdatenbank wie Firestore bereitgestellt, um die Features in Ihren Nutzeranwendungen zu optimieren.

Beim Testen und Prototyping von raumbezogenen Analysen können Sie BigQuery GeoViz verwenden, um Ihre Abfragen zu validieren und eine visuelle Ausgabe aus BigQuery zu generieren. Für die Business Intelligence-Berichterstellung können Sie Looker Studio oder Looker verwenden, um eine Verbindung zu BigQuery herzustellen und Ihre raumbezogenen Visualisierungen mit einer Vielzahl anderer Berichtstypen zu kombinieren, um eine ganzheitliche Übersicht über die benötigten Informationen zu erhalten.

Sie können auch Anwendungen erstellen, mit denen Nutzer mit raumbezogenen Daten und Statistiken interagieren und diese in Ihre Geschäftsanwendungen einbinden können. Beispiel: Mit Google Maps Platform können Sie raumbezogene Analysen, maschinelles Lernen und Daten aus der Maps API in eine einzelne zuordnungsbasierte Anwendung einbinden. Mithilfe von Open-Source-Bibliotheken wie deck.gl können Sie leistungsstarke Visualisierungen und Animationen für eine optimale kartengestützte Darstellung Ihrer Daten hinzufügen.

Google bietet außerdem eine robuste und wachsende Plattform von Partnerangeboten, mit denen Sie raumbezogene Informationen optimal nutzen können. Carto, NGIS, Climate Engine usw. haben jeweils spezielle Funktionen und Angebote, die Sie entsprechend Ihrer Branche und Ihres Geschäfts anpassen können.

Referenzarchitektur

Im folgenden Diagramm wird eine Referenzarchitektur dargestellt, die die Interaktion der raumbezogenen Cloud-Komponenten veranschaulicht. Die Architektur besteht aus zwei Hauptkomponenten: der raumbezogenen Datenpipeline und der raumbezogenen Analyseplattform.

Architektur, die den Datenfluss von einer Datenquelle (Earth Engine oder Cloud Storage) über eine Pipeline auf Basis von Dataflow zeigt und die Ergebnisse in BigQuery speichert.

Wie das Diagramm zeigt, werden raumbezogene Quelldaten in Cloud Storage und Earth Engine geladen. Von beiden diesen Produkten können die Daten über eine Dataflow-Pipeline mit geobeam geladen werden, um gängige Vorverarbeitungsvorgänge wie die Feature-Validierung und die Geometrie-Reprojektion durchzuführen. Dataflow schreibt die Pipelineausgabe in BigQuery. Wenn sich die Daten in BigQuery befinden, können sie direkt mit BigQuery-Analysen und maschinellem Lernen analysiert oder von anderen Diensten wie Looker Studio, Looker, Vertex AI und Apigee aufgerufen werden.

Nächste Schritte