Testen Sie Gemini 1.5-Modelle, unsere neuesten multimodalen Modelle in Vertex AI, und erfahren Sie, was Sie mit einem 1 Mio. Tokenkontextfenster erstellen können. Tesen Sie Gemini 1.5-Modelle, unsere neuesten multimodalen Modelle in Vertex AI, und erfahren Sie, was Sie mit einem 1 Mio. Tokenkontextfenster erstellen können.

Videos auf Labels hin analysieren

Die Video Intelligence API kann mithilfe der Funktion LABEL_DETECT Entitäten in Videomaterial identifizieren und diese Entitäten mit Labels (Tags) versehen. Diese Funktion identifiziert Objekte, Orte, Aktivitäten, Tierarten, Produkte und mehr.

Die Labelerkennung unterscheidet sich vom Objekt-Tracking. Im Gegensatz zum Objekt-Tracking liefert die Labelerkennung Labels für den gesamten Frame (ohne Begrenzungsrahmen).

Beispiel: Die Video Intelligence API kann für ein Video von einem Zug an einem Bahnübergang Labels wie "Zug", "Verkehr", "Bahnübergang" usw. erzeugen. Jedes Label enthält ein Zeitsegment mit dem Zeitversatz (Zeitstempel) für das Erscheinungsbild der Entität ab Beginn des Videos. Die Anmerkung enthält außerdem zusätzliche Informationen wie eine Entitäts-ID, mit der Sie weitere Informationen zu dieser Entität in der Google Knowledge Graph Search API finden können.

Jede zurückgegebene Entität kann auch zugehörige Kategorieentitäten im Feld categoryEntities zurückgeben. Das Entitätslabel "Terrier" hat beispielsweise die Kategorie "Hund". Kategorieentitäten haben eine Hierarchie. Beispielsweise ist die Kategorie "Hund" der Kategorie "Säugetier" in der Hierarchie untergeordnet. Eine Liste der allgemeinen Kategorieentitäten, die vom Video Intelligence verwendet werden, finden Sie unter entry-level-categories.json.

Die Analyse kann so unterteilt werden:

Segmentebene:
Vom Nutzer ausgewählte Segmente eines Videos können zur Analyse angegeben werden, indem Start- und Endzeitstempel für Annotationen festgelegt werden (siehe VideoSegment). Entitäten werden dann in jedem Segment identifiziert und mit Labels versehen. Wenn keine Segmente angegeben sind, wird das gesamte Video als ein Segment behandelt.
Aufnahmeebene:
Aufnahmen (auch als Szene bezeichnet) werden automatisch in jedem Segment (oder Video) erkannt. Entitäten werden dann innerhalb jeder Szene identifiziert und mit Labels versehen. Ausführliche Informationen finden Sie unter Erkennung von Aufnahmeänderungen
Frame-Ebene:
Entitäten werden in jedem Frame identifiziert und mit einem Label versehen (ein Frame pro Sekunde wird als Stichprobe verwendet).

Um Labels in einem Video zu erkennen, rufen Sie die Methode annotate auf und geben Sie LABEL_DETECTION in das Feld features ein.

Weitere Informationen finden Sie unter Videos auf Labels hin analysieren und Anleitungen für Labelerkennung.

Video Intelligence API-Visualisierer

Sehen Sie sich den Video Intelligence API-Visualisierer an, um diese Funktion in Aktion zu sehen.