„Metadaten“ – Versionsunterschied

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
[gesichtete Version][gesichtete Version]
Inhalt gelöscht Inhalt hinzugefügt
Sprachliche Korrektur
KKeine Bearbeitungszusammenfassung
 
(34 dazwischenliegende Versionen von 23 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
[[Datei:Schlagwortkatalog.jpg|mini|Im 21. Jahrhundert beziehen sich Metadaten in der Regel auf digitale Formen. Metadaten finden sich aber auch schon in traditionellen Kartenkatalogen. Die Karten bestehen aus Informationen (Autor, Titel, Thema usw.) über die Bücher einer Bibliothek.]]
'''Metadaten''' oder ''Metainformationen'' sind [[Datenstruktur|strukturierte Daten]], die Informationen über Merkmale anderer Daten enthalten.
'''Metadaten''' sind [[Datenstruktur|strukturierte Daten]], die Informationen über Merkmale anderer Daten enthalten.


Bei den durch Metadaten beschriebenen Daten handelt es sich oft um größere Datensammlungen wie [[Elektronisches Dokument|Dokumente]], [[Buch|Bücher]], [[Datenbank]]en oder [[Datei]]en. So werden auch Angaben von [[Eigenschaft]]en eines einzelnen Objektes (beispielsweise „[[Personenname]]“) als dessen Metadaten bezeichnet.
Bei den durch Metadaten beschriebenen Daten handelt es sich oft um größere Datensammlungen wie [[Elektronisches Dokument|Dokumente]], [[Buch|Bücher]], [[Datenbank]]en oder [[Datei]]en. So werden auch Angaben von [[Eigenschaft]]en eines einzelnen Objektes (beispielsweise „[[Personenname]]“) als dessen Metadaten bezeichnet.


Anwendern von [[Computer]]n ist oft nicht bewusst, dass Daten über nicht unmittelbar erkennbare Metadaten verfügen und dass diese unter Umständen einen größeren Nutzen für [[Computerkriminalität|Computerkriminelle]] oder [[Behörde]]n haben als die Daten selbst.<ref>[https://www.datensicherheit.de/aktuelles/abhoerskandal-metadaten-inhalt-22403 Abhörskandal: Metadaten oft aufschlussreicher als der eigentliche Inhalt], datensicherheit.de vom 23. September 2013, abgerufen am 11. September 2017</ref>
Anwendern von [[Computer]]n ist oft nicht bewusst, dass Daten über nicht unmittelbar erkennbare Metadaten verfügen und dass diese unter Umständen einen größeren Nutzen für [[Computerkriminalität|Computerkriminelle]] oder [[Behörde]]n haben als die Daten selbst.<ref>{{Internetquelle |url=https://www.datensicherheit.de/aktuelles/abhoerskandal-metadaten-inhalt-22403 |titel=Abhörskandal: Metadaten oft aufschlussreicher als der eigentliche Inhalt |werk=datensicherheit.de |datum=2013-09-23 |zugriff=2017-09-11 }}</ref>


== Einführende Beispiele ==
== Einführende Beispiele ==
Zeile 9: Zeile 10:


== Unterscheidung zwischen Daten und Metadaten ==
== Unterscheidung zwischen Daten und Metadaten ==
Während der Begriff der ''Metadaten'' relativ neu ist, ist das Prinzip der Verweisung und der formalen Vorgaben schon jahrhundertelange bibliothekarische Praxis. Eine allgemeine Standardisierung von Formaten für Metadaten wird nicht verfolgt. Eine gültige Unterscheidung zwischen Metadaten und gewöhnlichen Daten existiert allerdings nur für den speziellen Fall, da die Bezeichnung eine Frage des Standpunkts ist. Für den Leser eines Buches sind der Inhalt die eigentlichen Daten, während der Name des Autors oder die Nummer der Auflage Metadaten sind. Für den Herausgeber eines [[Verzeichnis|Bücherkatalogs]] sind diese beiden Angaben dagegen Eigenschaften von Büchern allgemein, „Autor“ und „Auflagennummer“ sind Metadaten, die konkreten Ausprägungen („Karl May“, „17“) sind für ihn die eigentlichen Daten.<!--schlechtes Beispiel: Auch für einen Leser sind Autorangaben von Büchern 'Daten' - siehe auch Definition dort.-->
Während der Begriff der ''Metadaten'' relativ neu ist, ist das Prinzip der Verweisung und der formalen Vorgaben schon jahrhundertelange bibliothekarische Praxis. Eine gültige Unterscheidung zwischen Metadaten und gewöhnlichen Daten existiert allerdings nur für den speziellen Fall, da die Bezeichnung eine Frage des Standpunkts ist. Für den Leser eines Buches sind der Inhalt die eigentlichen Daten, während der Name des Autors oder die Nummer der Auflage Metadaten sind. Für den Herausgeber eines [[Verzeichnis|Bücherkatalogs]] sind diese beiden Angaben dagegen Eigenschaften von Büchern allgemein, „Autor“ und „Auflagennummer“ sind Metadaten, die konkreten Ausprägungen („Karl May“, „17“) sind für ihn die eigentlichen Daten.<!--schlechtes Beispiel: Auch für einen Leser sind Autorangaben von Büchern 'Daten' - siehe auch Definition dort.-->


=== Zweckbestimmung ===
=== Zweckbestimmung ===
Zeile 20: Zeile 21:


== Verwendung ==
== Verwendung ==
In vielen Fällen findet keine bewusste Trennung zwischen Objekt- und [[Metaebene]] statt. Beispielsweise spricht man davon, in einem Katalog ein Buch zu suchen und nicht nur seine Metadaten. Bei der Verwendung von Metadaten wird oft erwartet, dass sie durch direkte Koppelung mit den Nutzdaten untrennbare Bestandteile eines abgeschlossenen, sich selbst beschreibenden Systems sind.
In vielen Fällen findet keine bewusste Trennung zwischen [[Objektraum und Bildraum|Objekt-]] und [[Metaebene]] statt. Beispielsweise spricht man davon, in einem Katalog ein Buch zu suchen und nicht nur seine Metadaten. Bei der Verwendung von Metadaten wird oft erwartet, dass sie durch direkte Koppelung mit den Nutzdaten untrennbare Bestandteile eines abgeschlossenen, sich selbst beschreibenden Systems sind.


Metadaten werden oft dazu eingesetzt, um Informationsressourcen zu beschreiben und dadurch besser auffindbar zu machen und Beziehungen zwischen den Materialien herzustellen. Dies setzt in der Regel erst eine [[Dokumentation|Erschließung]] mit einem gewissen [[Standardisierung]]sgrad (zum Beispiel durch [[Bibliothekarische Regelwerke]]) voraus.
Metadaten werden oft dazu eingesetzt, um Informationsressourcen zu beschreiben und dadurch besser auffindbar zu machen und Beziehungen zwischen den Materialien herzustellen. Dies setzt in der Regel erst eine [[Dokumentation|Erschließung]] mit einem gewissen [[Standardisierung]]sgrad (zum Beispiel durch [[Bibliothekarisches Regelwerk|Bibliothekarische Regelwerke]]) voraus.


== Speicherung ==
== Speicherung ==
Zeile 31: Zeile 32:
* Bei Computerdateien in den [[Dateiattribut]]en. Die meisten Dateisysteme erlauben nur genau festgelegte Metadaten in Dateiattributen; andere ([[HPFS]] mittels erweiterter Attribute) erlauben die Assoziation beliebiger Daten mit einer Datei. Auch ist es üblich, die Meta-Information „[[Dateityp]]“ im Dateinamen unterzubringen; typischerweise in der [[Dateinamenserweiterung]] oder in [[Magische Zahl (Informatik)#Magische Zahlen zur Kennzeichnung von Dateitypen|magischen Zahlen]] am Beginn der Datei.
* Bei Computerdateien in den [[Dateiattribut]]en. Die meisten Dateisysteme erlauben nur genau festgelegte Metadaten in Dateiattributen; andere ([[HPFS]] mittels erweiterter Attribute) erlauben die Assoziation beliebiger Daten mit einer Datei. Auch ist es üblich, die Meta-Information „[[Dateityp]]“ im Dateinamen unterzubringen; typischerweise in der [[Dateinamenserweiterung]] oder in [[Magische Zahl (Informatik)#Magische Zahlen zur Kennzeichnung von Dateitypen|magischen Zahlen]] am Beginn der Datei.


Zur Speicherung und Übertragung von Metadaten gibt es eine Reihe von [[Datenformat]]en und [[Datenmodell]]en, wie beispielsweise [[Dublin Core]] oder [[EXIF]], die sich in unterschiedliche, und somit auch in von Menschen lesbare Formate übertragen lassen.
Zur Speicherung und Übertragung von Metadaten gibt es eine Reihe von [[Datenformat]]en und [[Datenmodell]]en, wie beispielsweise [[Dublin Core]] oder [[Exchangeable Image File Format|EXIF]], die sich in unterschiedliche, und somit auch in von Menschen lesbare Formate übertragen lassen.


=== Interoperable Metadaten ===
=== Interoperable Metadaten ===
„Operabel“ bedeutet in fachsprachlichen Fügungen zunächst „so beschaffen, dass damit gearbeitet, ''operiert'' werden kann“. Die Vorsilbe „inter“ stammt aus dem Lateinischen und bedeutet so viel wie „zwischen“. [[Interoperabilität|Interoperable]] Metadaten sind also Metadaten aus potenziell unterschiedlichen Quellen, zwischen denen („inter“) eine Beziehung in der Weise besteht, dass mit ihnen gemeinsam gearbeitet („operiert“) werden kann.
„Operabel“ bedeutet in fachsprachlichen Fügungen zunächst „so beschaffen, dass damit gearbeitet, ''operiert'' werden kann“. Die Vorsilbe „inter“ stammt aus dem Lateinischen und bedeutet so viel wie „zwischen“. [[Interoperabilität|Interoperable]] Metadaten sind also Metadaten aus potenziell unterschiedlichen Quellen, zwischen denen („inter“) eine Beziehung in der Weise besteht, dass mit ihnen gemeinsam gearbeitet („operiert“) werden kann.


[[Standards]] für interoperable Metadaten haben die Aufgabe, Metadaten aus unterschiedlichen Quellen nutzbar zu machen. Sie umfassen dazu zunächst die Aspekte [[Semantik]], Datenmodell und [[Syntax]].
[[Standard]]s für interoperable Metadaten haben die Aufgabe, Metadaten aus unterschiedlichen Quellen nutzbar zu machen. Sie umfassen dazu zunächst die Aspekte [[Semantik]], Datenmodell und [[Syntax]].


Die ''Semantik'' beschreibt die Bedeutung, die in der Regel von [[Normung|Normierungs-Gremien]] festgelegt wird (vgl. [[Dublin Core]]). Das ''Datenmodell'' legt fest, welche [[Struktur]] die Metadaten besitzen können. Als „Daten“ lassen sich im Zusammenhang mit Metadaten [[Aussage]]n auffassen, die über ein zu beschreibendes Objekt (Dokument, [[Ressource]],&nbsp;…) getroffen werden. Als „Modell“-Komponente des Begriffs ''Datenmodell'' lässt sich eine Beschreibung dessen auffassen, wie die Aussagen [[strukturell]] beschaffen sind (der Begriff ''Datenmodell'' bedeutet damit im Kontext von Metadaten so viel wie „[[Grammatik]]“ oder „[[Struktur von Aussagen]]“). Beispiele für Datenmodelle von Metadaten sind einfache Attribut/Wert-Kombinationen (z.&nbsp;B. HTML-[[Meta-Element]]e) oder [[Satz (Grammatik)|Sätze]] mit [[Subjekt (Grammatik)|Subjekt]], [[Prädikat (Grammatik)|Prädikat]] und [[Objekt (Grammatik)|Objekt]] (z.&nbsp;B. [[Tripel]] in [[Resource Description Framework|RDF]]). Die ''Syntax'' dient schließlich dazu, die entsprechend dem Datenmodell generierten Aussagen zu repräsentieren. Beispiel für ein Repräsentationsformat ist [[Extensible Markup Language|XML]] (eXtensible Markup Language).
Die ''Semantik'' beschreibt die Bedeutung, die in der Regel von [[Normung|Normierungs-Gremien]] festgelegt wird (vgl. [[Dublin Core]]). Das ''Datenmodell'' legt fest, welche Struktur die Metadaten besitzen können. Als „Daten“ lassen sich im Zusammenhang mit Metadaten [[Aussage]]n auffassen, die über ein zu beschreibendes Objekt (Dokument, [[Ressource]],&nbsp;…) getroffen werden. Als „Modell“-Komponente des Begriffs ''Datenmodell'' lässt sich eine Beschreibung dessen auffassen, wie die Aussagen strukturell beschaffen sind (der Begriff ''Datenmodell'' bedeutet damit im Kontext von Metadaten so viel wie „[[Grammatik]]“ oder „Struktur von Aussagen“). Beispiele für Datenmodelle von Metadaten sind einfache Attribut/Wert-Kombinationen (z.&nbsp;B. HTML-[[Meta-Element]]e) oder [[Satz (Grammatik)|Sätze]] mit [[Subjekt (Grammatik)|Subjekt]], [[Prädikat (Grammatik)|Prädikat]] und [[Objekt (Grammatik)|Objekt]] (z.&nbsp;B. Tripel in [[Resource Description Framework|RDF]]). Die ''Syntax'' dient schließlich dazu, die entsprechend dem Datenmodell generierten Aussagen zu repräsentieren. Beispiel für ein Repräsentationsformat ist [[Extensible Markup Language|XML]] (eXtensible Markup Language).


Zwischen diesen drei Aspekten besteht nun folgende Beziehung: Die Semantik wird durch [[Konstrukt]]e des Datenmodells repräsentiert. Das Datenmodell wird wiederum durch syntaktische Konstrukte repräsentiert. Die syntaktischen Konstrukte werden schließlich aus [[Zeichen]] eines vereinbarten [[Zeichensatz]]es (wie bei [[Unicode]]) zusammengesetzt. Diese drei Aspekte lassen sich als [[hierarchisch]] übereinander liegende [[Schicht]]en auffassen, da jede Schicht jeweils auf der darunter befindlichen Schicht aufbaut. Die Schichten sind dabei voneinander unabhängig, d.&nbsp;h. die Verwendung eines bestimmten Standards in einer Schicht erfolgt unabhängig von den anderen Schichten (wie die [[Schichtenmodell]]e der Netzwerkkommunikation, beispielsweise das [[OSI-Modell|ISO/OSI-Schichtenmodell]]). So kann eine bestimmte Semantik durch Konstrukte verschiedener Datenmodelle repräsentiert werden (z.&nbsp;B. Attribut/Wert-Kombination, Tripel), die wiederum durch verschiedenen Syntaxen repräsentiert werden können ([[Funktionsgraph|Graphen]], XML-Formate).
Zwischen diesen drei Aspekten besteht nun folgende Beziehung: Die Semantik wird durch [[Konstrukt]]e des Datenmodells repräsentiert. Das Datenmodell wird wiederum durch syntaktische Konstrukte repräsentiert. Die syntaktischen Konstrukte werden schließlich aus [[Zeichen]] eines vereinbarten [[Zeichensatz]]es (wie bei [[Unicode]]) zusammengesetzt. Diese drei Aspekte lassen sich als [[hierarchisch]] übereinander liegende Schichten auffassen, da jede Schicht jeweils auf der darunter befindlichen Schicht aufbaut. Die Schichten sind dabei voneinander unabhängig, d.&nbsp;h. die Verwendung eines bestimmten Standards in einer Schicht erfolgt unabhängig von den anderen Schichten (wie die [[Schichtenmodell]]e der Netzwerkkommunikation, beispielsweise das [[OSI-Modell|ISO/OSI-Schichtenmodell]]). So kann eine bestimmte Semantik durch Konstrukte verschiedener Datenmodelle repräsentiert werden (z.&nbsp;B. Attribut/Wert-Kombination, Tripel), die wiederum durch verschiedene Syntaxen repräsentiert werden können ([[Funktionsgraph|Graphen]], XML-Formate).


[[Orthogonal]] zu diesen Schichten liegt als vierter Aspekt die ''[[Identifikator|Identifizierung]]'', die alle drei Schichten betrifft. Um Metadaten verschiedener Quellen sinnvoll verarbeiten zu können, muss (weltweit) eindeutig gekennzeichnet werden, um welche Semantik, welches Datenmodell und welche Syntax es sich handelt. Hierzu ist ein Identifikationsmechanismus erforderlich, wie ihn die [[Uniform Resource Identifier|URIs]] (Uniform Resource Identifier) bereitstellen.
[[Orthogonal]] zu diesen Schichten liegt als vierter Aspekt die ''[[Identifikator|Identifizierung]]'', die alle drei Schichten betrifft. Um Metadaten verschiedener Quellen sinnvoll verarbeiten zu können, muss (weltweit) eindeutig gekennzeichnet werden, um welche Semantik, welches Datenmodell und welche Syntax es sich handelt. Hierzu ist ein Identifikationsmechanismus erforderlich, wie ihn die [[Uniform Resource Identifier|URIs]] (Uniform Resource Identifier) bereitstellen.


[[Datei:Frameworks-Metadaten-Generisch-3.gif|mini|Generisches Framework]]
[[Datei:Frameworks-Metadaten-Generisch-3.gif|mini|Generisches Framework]]
Alle vier Aspekte –&nbsp;''Semantik'', ''Datenmodell'', ''Syntax'' und ''Identifizierung''&nbsp;– sind erforderlich, um Standards für interoperable Metadaten zu schaffen. Sie können daher gemeinsam in ein ''[[Framework]]'' eingeordnet werden. Ein Framework bietet also eine Art Grundgerüst oder Gerippe, das bereits die wichtigsten Elemente bzw. [[Komponente]]n eines Systems und deren Beziehungen beschreibt, jedoch ohne genaue Vorgaben hinsichtlich deren Ausgestaltung zu machen. Es fungiert somit als eine Art „Bezugssystem“, das die sinnvolle Eingliederung neuer Komponenten ermöglicht. Da ein Framework Elemente und deren Beziehungen zeigt, kann dies leicht durch die grafische Anordnung von Elementen visualisiert werden. Die Abbildung „Generisches Framework“ zeigt ein Framework für Metadaten, auf einer ''Metaebene''. Im Gegensatz zu konkreten Ausprägungen von Frameworks, d.&nbsp;h. also der ''Ausprägungs''- oder ''Instanzenebene'', beschreibt ein Framework auf der Metaebene ein ''verallgemeinertes'' Framework – erkennbar an den generischen Bezeichnungen der Bestandteile.
Alle vier Aspekte –&nbsp;''Semantik'', ''Datenmodell'', ''Syntax'' und ''Identifizierung''&nbsp;– sind erforderlich, um Standards für interoperable Metadaten zu schaffen. Sie können daher gemeinsam in ein ''[[Framework]]'' eingeordnet werden. Ein Framework bietet also eine Art Grundgerüst oder Gerippe, das bereits die wichtigsten Elemente bzw. [[Komponente (Software)|Komponenten]] eines Systems und deren Beziehungen beschreibt, jedoch ohne genaue Vorgaben hinsichtlich deren Ausgestaltung zu machen. Es fungiert somit als eine Art „Bezugssystem“, das die sinnvolle Eingliederung neuer Komponenten ermöglicht. Da ein Framework Elemente und deren Beziehungen zeigt, kann dies leicht durch die grafische Anordnung von Elementen visualisiert werden. Die Abbildung „Generisches Framework“ zeigt ein Framework für Metadaten, auf einer ''Metaebene''. Im Gegensatz zu konkreten Ausprägungen von Frameworks, d.&nbsp;h. also der ''Ausprägungs''- oder ''Instanzenebene'', beschreibt ein Framework auf der Metaebene ein ''verallgemeinertes'' Framework – erkennbar an den generischen Bezeichnungen der Bestandteile.


Als Beispiel für ein konkretes Framework für Metadaten sei RDF ([[Resource Description Framework]]) des [[World Wide Web Consortium]] (W3C) genannt. RDF enthält alle der oben genannten vier Aspekte mit spezifischen Ausprägungen, wie in der Abbildung dargestellt.
Als Beispiel für ein konkretes Framework für Metadaten sei RDF ([[Resource Description Framework]]) des [[World Wide Web Consortium]] (W3C) genannt. RDF enthält alle der oben genannten vier Aspekte mit spezifischen Ausprägungen, wie in der Abbildung dargestellt.
Zeile 59: Zeile 60:
Der Idee eines Frameworks folgend definiert RDF selbst keine domänenspezifische Semantik, sondern spezifiziert lediglich einen Mechanismus, wie über Namensräume mit Hilfe einer URI weitere Semantiken eingebunden werden können. Verbindlich legt RDF hingegen ein gemeinsames Datenmodell in Form von Tripeln fest sowie die universelle Verwendung von URIs als Identifikationsmechanismus. Diese werden sowohl eingesetzt, um die einzelnen Komponenten eines Tripels (Subjekt, Prädikat, Objekt) zu kennzeichnen, als auch deren Werte und [[Datentyp]]en. Die konkrete Syntax zur Repräsentation der Tripel kann jedoch, wiederum dem Gedanken eines Frameworks folgend, frei gewählt werden, wobei RDF/XML als Standard vorgesehen ist. Mit RDF Schema enthält RDF außerdem noch eine [[Schema-Sprache]], um eigene [[Metadaten-Vokabular]]e zu definieren.
Der Idee eines Frameworks folgend definiert RDF selbst keine domänenspezifische Semantik, sondern spezifiziert lediglich einen Mechanismus, wie über Namensräume mit Hilfe einer URI weitere Semantiken eingebunden werden können. Verbindlich legt RDF hingegen ein gemeinsames Datenmodell in Form von Tripeln fest sowie die universelle Verwendung von URIs als Identifikationsmechanismus. Diese werden sowohl eingesetzt, um die einzelnen Komponenten eines Tripels (Subjekt, Prädikat, Objekt) zu kennzeichnen, als auch deren Werte und [[Datentyp]]en. Die konkrete Syntax zur Repräsentation der Tripel kann jedoch, wiederum dem Gedanken eines Frameworks folgend, frei gewählt werden, wobei RDF/XML als Standard vorgesehen ist. Mit RDF Schema enthält RDF außerdem noch eine [[Schema-Sprache]], um eigene [[Metadaten-Vokabular]]e zu definieren.


[[RDF-Schema]] verhält sich zu RDF ähnlich wie [[XML Schema]] zu XML. Ein RDF Schema ist gleichzeitig ein gültiges RDF-Dokument, ebenso ist ein XML Schema gleichzeitig ein gültiges XML-Dokument. In beiden Fällen handelt es sich also um [[spezialisiert]]e [[Teilmenge]]n einer [[Auszeichnungssprache]]. Während XML Schema jedoch syntaktische Einschränkungen beschreibt, z.&nbsp;B. Elementnamen, Häufigkeit des Auftretens etc., beschreibt RDF Schema ''semantische'' Einschränkungen, also z.&nbsp;B. dass ein Attribut „hasPublished“ nur auf [[Instanz (Informatik)|Instanzen]] der [[Klasse (Objektorientierung)|Klasse]] „Mensch“ oder „juristischePerson“ angewendet werden darf, nicht jedoch auf Instanzen der Klasse „Tier“ – in der Schemasprache formuliert, hat das [[Attribut (Objekt)|Attribut]] „hasPublished“ die ''[[Definitionsmenge|Domäne]]'' „Mensch“ oder „juristischePerson“.
[[RDF-Schema]] verhält sich zu RDF ähnlich wie [[XML Schema]] zu XML. Ein RDF Schema ist gleichzeitig ein gültiges RDF-Dokument, ebenso ist ein XML Schema gleichzeitig ein gültiges XML-Dokument. In beiden Fällen handelt es sich also um spezialisierte [[Teilmenge]]n einer [[Auszeichnungssprache]]. Während XML Schema jedoch syntaktische Einschränkungen beschreibt, z.&nbsp;B. Elementnamen, Häufigkeit des Auftretens etc., beschreibt RDF Schema ''semantische'' Einschränkungen, also z.&nbsp;B. dass ein Attribut „hasPublished“ nur auf [[Objekt (Programmierung)|Instanzen]] der [[Klasse (Objektorientierung)|Klasse]] „Mensch“ oder „juristischePerson“ angewendet werden darf, nicht jedoch auf Instanzen der Klasse „Tier“ – in der Schemasprache formuliert, hat das Attribut „hasPublished“ die ''[[Definitionsmenge|Domäne]]'' „Mensch“ oder „juristischePerson“.


Wie XML dem Grundsatz der Einfachheit und Erweiterbarkeit folgend die Welt der Daten gründlich veränderte, in dem es durch eine einheitliche Syntax, ein genormtes [[Typsystem]] und seine Textbasiertheit die Definition problemlos zwischen verschiedenen Systemen und Programmen austauschbarer Datenformate ermöglichte, versucht RDF die Welt der Metadaten durch ein einheitliches Datenmodell zu verändern. Durch den Charakter eines Frameworks knüpft RDF dabei ebenfalls an bewährte Grundsätze wie Einfachheit und Erweiterbarkeit an.
Wie XML dem Grundsatz der Einfachheit und Erweiterbarkeit folgend die Welt der Daten gründlich veränderte, in dem es durch eine einheitliche Syntax, ein genormtes [[Typsystem]] und seine Textbasiertheit die Definition problemlos zwischen verschiedenen Systemen und Programmen austauschbarer Datenformate ermöglichte, versucht RDF die Welt der Metadaten durch ein einheitliches Datenmodell zu verändern. Durch den Charakter eines Frameworks knüpft RDF dabei ebenfalls an bewährte Grundsätze wie Einfachheit und Erweiterbarkeit an.
Zeile 85: Zeile 86:
=== Metadaten in der Softwareentwicklung ===
=== Metadaten in der Softwareentwicklung ===
In der [[Softwareentwicklung]] wird der Metadatenbegriff für verschiedene Zwecke gebraucht:
In der [[Softwareentwicklung]] wird der Metadatenbegriff für verschiedene Zwecke gebraucht:
* Man bezeichnet Bestandteile eines [[Quelltext|Programmquelltextes]] als Metadaten, die nicht vom eigentlichen Übersetzungswerkzeug, meist einem [[Compiler]], sondern Zusatzwerkzeugen ausgewertet werden. Diese Metadaten werden meist zur [[Dokumentation]] oder mit Hilfe von [[Annotation (Programmierung)|Annotationen]] zur [[Codegenerator|Codegenerierung]] eingesetzt. Beispiele sind die [[Annotation (Java)|Annotations]] in [[Java (Programmiersprache)|Java]] oder die Attribute innerhalb des [[.NET Framework]]s.
* Man bezeichnet Bestandteile eines [[Quelltext|Programmquelltextes]] als Metadaten, die nicht vom eigentlichen Übersetzungswerkzeug, meist einem [[Compiler]], sondern Zusatzwerkzeugen ausgewertet werden. Diese Metadaten werden meist zur [[Dokumentation]] oder mit Hilfe von [[Annotation (Programmierung)|Annotationen]] zur [[Codegenerator|Codegenerierung]] eingesetzt. Beispiele sind die [[Annotation (Java)|Annotations]] in [[Java (Programmiersprache)|Java]] oder die Attribute innerhalb des [[.Net-Framework]]s.
* Eine von der klassischen Programmierung abweichende Form ist die Verwendung von Metadaten in Universal-Software. Hierbei sind die meisten benötigten Anwendungsfunktionen vorkompiliert vorhanden und werden über eine Metadaten-Engine aufgerufen und parametrisiert. Die gewünschte Zielanwendung muss vorher mittels spezifischer Metadaten deklarativ beschrieben werden. Dieser Ansatz wird insbesondere von [[Data-Warehouse]]- und [[Business Intelligence|Business-Intelligence]]-Produkten verfolgt. Einige Hersteller wie [[Tenfold]], Data-Warehouse GmbH und [[Scopeland Technology]] wenden dieses Prinzip auch auf die Erstellung schreibender Datenbankanwendungen an. Dieser sogenannte [[Universal Application|Universal-Application]]-Ansatz verspricht drastische Kostensenkungen bei der Erstellung von [[Anwendungssoftware]] und eine anders nicht zu erreichende Flexibilität der so erstellten Lösungen.
* Eine von der klassischen Programmierung abweichende Form ist die Verwendung von Metadaten in Universal-Software. Hierbei sind die meisten benötigten Anwendungsfunktionen vorkompiliert vorhanden und werden über eine Metadaten-Engine aufgerufen und parametrisiert. Die gewünschte Zielanwendung muss vorher mittels spezifischer Metadaten deklarativ beschrieben werden. Dieser Ansatz wird insbesondere von [[Data-Warehouse]]- und [[Business Intelligence|Business-Intelligence]]-Produkten verfolgt. Einige Hersteller wie [[Tenfold]], Data-Warehouse GmbH und [[Scopeland Technology]] wenden dieses Prinzip auch auf die Erstellung schreibender Datenbankanwendungen an.
* Unter Metadaten versteht man auch die Datensatzdefinition in einem [[Data-Dictionary]] einer Datenbank.
* Unter Metadaten versteht man auch die Datensatzdefinition in einem [[Data-Dictionary]] einer Datenbank.
* Als Metadaten können auch die Informationen in der Software-[[Versionsverwaltung]] gelten. Diese machen es oft möglich, den Autor einer jeden Zeile eines Programmcodes zu identifizieren. Dafür werden Nutzdaten (der Quellcode) und Metadaten aus dem Versionsverwaltungsarchiv korreliert. Bei vielen Versionsverwaltungssoftwaren (etwa [[Git]] und [[Apache Subversion|SVN]]) heißt dieser fest eingebaute Befehl ''blame'' (eng. für beschuldigen).
* Als Metadaten können auch die Informationen in der Software-[[Versionsverwaltung]] gelten. Diese machen es oft möglich, den Autor einer jeden Zeile eines Programmcodes zu identifizieren. Dafür werden Nutzdaten (der Quellcode) und Metadaten aus dem Versionsverwaltungsarchiv korreliert. Bei vielen Versionsverwaltungssoftwaren (etwa [[Git]] und [[Apache Subversion|SVN]]) heißt dieser fest eingebaute Befehl ''blame'' (eng. für beschuldigen).
Zeile 93: Zeile 94:
Typische Metadaten bei Musik und anderen [[Tonaufnahme]]n sind z.&nbsp;B. Titel, Künstler, Komponist, Veröffentlichungsdatum, Musikverlag oder die [[International Standard Recording Code|ISRC]]-Nummer; bei digitalen Tonaufnahmen ist es möglich, diese Metainformationen direkt in der Datei abzuspeichern (beispielsweise im [[ID3-Tag]] von [[MP3]]-Dateien).
Typische Metadaten bei Musik und anderen [[Tonaufnahme]]n sind z.&nbsp;B. Titel, Künstler, Komponist, Veröffentlichungsdatum, Musikverlag oder die [[International Standard Recording Code|ISRC]]-Nummer; bei digitalen Tonaufnahmen ist es möglich, diese Metainformationen direkt in der Datei abzuspeichern (beispielsweise im [[ID3-Tag]] von [[MP3]]-Dateien).


Über diese zur Erstellung einer herkömmlichen Musikbibliothek notwendigen primären Daten hinaus gibt es deutlich komplexere inhaltliche Musikmetadaten. Dazu zählen beispielsweise Stilistik, Haupt- und Nebeninstrumente, Genre, Tempo, Tonart, Dynamik, Gesangscharakter und die Beschreibung von Stimmungen und Szenen. Diese inhaltlichen Metadaten werden nach [[Wilbert Hirsch]], Komponist und Pionier der [[Musikkategorisierung]], als sekundäre Musikmetadaten bezeichnet. Weitaus diffiziler in ihrer Erschließungsarbeit bilden diese sekundären Metadaten die Grundlage zur inhaltlichen Musikkategorisierung.
Über diese zur Erstellung einer herkömmlichen Musikbibliothek notwendigen primären Daten hinaus gibt es deutlich komplexere inhaltliche Musikmetadaten. Dazu zählen beispielsweise Stilistik, Haupt- und Nebeninstrumente, Genre, Tempo, Tonart, Dynamik, Gesangscharakter und die Beschreibung von Stimmungen und Szenen.


=== Metadaten digitaler Bilder ===
=== Metadaten digitaler Bilder ===
Metadaten digitaler Fotos, wie Aufnahmedatum/-zeit, Brennweite, Blende, Belichtungsdauer und andere technische Parameter (ggf. auch [[geographische Koordinaten]] des Aufnahmeorts), werden heute von nahezu allen [[Digitalkamera]]s am Anfang einer [[Bilddatei]] im [[Exchangeable Image File Format|Exif]]-Format abgespeichert. Durch geeignete Software kann ein [[digitales Bild]] (Foto, [[Scanner (Datenerfassung)|Scan]] oder Grafik) durch Metadaten im [[IPTC-IIM-Standard|IPTC]]-Format angereichert werden; dabei können im Wesentlichen Angaben gemacht werden zu Bildtitel, Bildbeschreibung, Aufnahmeort ([[Global Positioning System|GPS]]-Koordinaten/Ort/Bundesland/Land), Autor (Fotograf) bzw. Urheberrechts-Inhaber, Kontaktdaten des Urheberrechts-Inhabers oder Lizenzgebers, Urheberrechts-Bestimmungen und Suchbegriffe (Schlüsselwörter). Viele Bildbearbeitungsprogramme ergänzen oder verändern beim Bearbeiten von digitalen Fotos (bzw. Bildern im Allgemeinen) die Metadaten zusätzlich, sodass sich Rückschlüsse auf die Bildbearbeitungssoftware ziehen lässt.
Metadaten digitaler Fotos, wie Aufnahmedatum/-zeit, Brennweite, Blende, Belichtungsdauer und andere technische Parameter (ggf. auch [[geographische Koordinaten]] des Aufnahmeorts), werden heute von nahezu allen [[Digitalkamera]]s am Anfang einer [[Bilddatei]] im [[Exchangeable Image File Format|Exif]]-Format abgespeichert. Durch geeignete Software kann ein [[digitales Bild]] (Foto, [[Scanner (Datenerfassung)|Scan]] oder Grafik) durch Metadaten im [[IPTC-IIM-Standard|IPTC]]-Format angereichert werden; dabei können im Wesentlichen Angaben gemacht werden zu [[Bildtitel]], Bildbeschreibung, Aufnahmeort ([[Global Positioning System|GPS]]-Koordinaten/Ort/Bundesland/Land), Autor (Fotograf) bzw. Urheberrechts-Inhaber, Kontaktdaten des Urheberrechts-Inhabers oder Lizenzgebers, Urheberrechts-Bestimmungen und Suchbegriffe (Schlüsselwörter). Viele Bildbearbeitungsprogramme ergänzen oder verändern beim Bearbeiten von digitalen Fotos (bzw. Bildern im Allgemeinen) die Metadaten zusätzlich, sodass sich Rückschlüsse auf die Bildbearbeitungssoftware ziehen lässt.


=== Metadaten bei der Kommunikation im Internet ===
=== Metadaten bei der Kommunikation im Internet ===
Das [[Internet Protocol|Internet-Protokoll]] folgt einem Schichtenmodell. Am Beispiel des Standards zum Versenden von [[E-Mail]]s soll dies illustriert werden. Das zur Übermittlung von E-Mails gebräuchliche Protokoll lautet [[Simple Mail Transfer Protocol]]. Seine Position in der Internetprotokollschicht lässt sich genau angeben:
Das [[Internet Protocol|Internet-Protokoll]] folgt einem Schichtenmodell. Am Beispiel des Standards zum Versenden von [[E-Mail]]s soll dies illustriert werden. Das zur Übermittlung von E-Mails gebräuchliche Protokoll lautet [[Simple Mail Transfer Protocol]]. Seine Position in der Internetprotokollschicht lässt sich genau angeben:


{{Netzwerk-TCP-IP-Anwendungsprotokoll|SMTP|}}
{{Netzwerk-TCP-IP-Anwendungsprotokoll|SMTP}}


Aus Sicht der Versender und Empfänger von E-Mails ''können'' alle Schichten unterhalb der Anwendungsschicht als Metadaten angesehen werden. Das wird besonders augenfällig, wenn die Anwendungsschicht verschlüsselt wird. Selbst dann kodiert bereits die Transportschicht (TCP) genügend Informationen, um den Namen des sendenden und empfangenden Servers (oft der globale Teil einer [[E-Mail-Adresse]]) sowie Nachrichtenlänge und Zeitraum der Sendung zu ermitteln. Bei häufigem E-Mail-Verkehr zwischen zwei Parteien kann die bloße Frequenzinformation einem recherchierenden Dritten Rückschlüsse auf den Inhalt der E-Mails erlauben.
Aus Sicht der Versender und Empfänger von E-Mails ''können'' alle Schichten unterhalb der Anwendungsschicht als Metadaten angesehen werden. Das wird besonders augenfällig, wenn die Anwendungsschicht verschlüsselt wird. Selbst dann kodiert bereits die Transportschicht (TCP) genügend Informationen, um den Namen des sendenden und empfangenden Servers (oft der globale Teil einer [[E-Mail-Adresse]]) sowie Nachrichtenlänge und Zeitraum der Sendung zu ermitteln. Bei häufigem E-Mail-Verkehr zwischen zwei Parteien kann die bloße Frequenzinformation einem recherchierenden Dritten Rückschlüsse auf den Inhalt der E-Mails erlauben.


Die gleiche Situation ergibt sich prinzipiell mit anderen Netzwerkprotokollen, etwa [[Instant Messaging|Instant-Messaging]]-Diensten oder dem [[World Wide Web]].
Die gleiche Situation ergibt sich prinzipiell mit anderen Netzwerkprotokollen, etwa [[Instant Messaging|Instant-Messaging]]-Diensten oder dem [[World Wide Web]].
Allgemein spricht man in diesem Zusammenhang von [[Verkehrsdaten]] oder [[Randdaten (bei der Nutzung elektronischer Infrastruktur)]].
Allgemein spricht man in diesem Zusammenhang von [[Verkehrsdaten]] oder [[Randdaten]].

Nach {{§|206|StGB|juris|text=§206 Abs. 5}} des [[Strafgesetzbuch (Deutschland)|deutschen Strafgesetzbuchs]] zählen neben dem Inhalt der Telekommunikation auch ''„ihre näheren Umstände, insbesondere die Tatsache, ob jemand an einem Telekommunikationsvorgang beteiligt ist oder war“'' zum [[Fernmeldegeheimnis]].

== Gesellschaftskritik ==
Der italienische Philosoph und Medientheoretiker Matteo Pasquinelli hat die These aufgestellt, dass mit der Datenexplosion eine neue Steuerungsform möglich werde: eine „Gesellschaft der Metadaten“. Mit Metadaten könnten neue Formen der biopolitischen Steuerung zur Kontrolle der Massen und Verhaltenssteuerung etabliert werden, etwa Online-Aktivitäten in sozialen Netzwerken oder Passagierströme in öffentlichen Verkehrsmitteln. Das Problem sieht Pasquinelli nicht darin, dass Individuen wie in totalitären Systemen auf Schritt und Tritt überwacht werden, sondern vermasst werden und die Gesellschaft als Aggregat berechenbar und kontrollierbar werde.<ref>{{Internetquelle |url=https://www.sueddeutsche.de/digital/philosophie-die-gesellschaft-der-metadaten-1.4070474 |titel=Philosophie – Die Gesellschaft der Metadaten |autor=Adrian Lobe |werk=[[Süddeutsche.de]] |datum=2018-07-31 |zugriff=2018-09-03 }}</ref>


== Siehe auch ==
== Siehe auch ==
Zeile 122: Zeile 128:
== Weblinks ==
== Weblinks ==
{{Wiktionary}}
{{Wiktionary}}
* Martin Warnke: [http://www.zeitenblicke.de/2003/01/warnke/index.html ''Daten und Metadaten''.] – Online-Ressourcen für die [[Bildwissenschaft]]; zeitenblicke.de, 2003
* Martin Warnke: [https://www.zeitenblicke.de/2003/01/warnke/index.html ''Daten und Metadaten''.] – Online-Ressourcen für die [[Bildwissenschaft]]; zeitenblicke.de, 2003
* [http://www.getty.edu/research/conducting_research/standards/intrometadata/crosswalks.html Metadata Standards Crosswalk.] Getty Standards and Digital Resource Management Program (englisch)
* [https://www.getty.edu/research/publications/electronic_publications/intrometadata/crosswalks.html Metadata Standards Crosswalk.] Getty Standards and Digital Resource Management Program (englisch)


== Einzelnachweise ==
== Einzelnachweise ==
<references></references>
<references />


{{Normdaten|TYP=s|GND=4410512-5}}
{{Normdaten|TYP=s|GND=4410512-5}}


[[Kategorie:Daten]]
[[Kategorie:Dokumentation]]
[[Kategorie:Dokumentation]]
[[Kategorie:Wirtschaftsinformatik]]
[[Kategorie:Wirtschaftsinformatik]]

Aktuelle Version vom 26. Mai 2024, 22:13 Uhr

Im 21. Jahrhundert beziehen sich Metadaten in der Regel auf digitale Formen. Metadaten finden sich aber auch schon in traditionellen Kartenkatalogen. Die Karten bestehen aus Informationen (Autor, Titel, Thema usw.) über die Bücher einer Bibliothek.

Metadaten sind strukturierte Daten, die Informationen über Merkmale anderer Daten enthalten.

Bei den durch Metadaten beschriebenen Daten handelt es sich oft um größere Datensammlungen wie Dokumente, Bücher, Datenbanken oder Dateien. So werden auch Angaben von Eigenschaften eines einzelnen Objektes (beispielsweise „Personenname“) als dessen Metadaten bezeichnet.

Anwendern von Computern ist oft nicht bewusst, dass Daten über nicht unmittelbar erkennbare Metadaten verfügen und dass diese unter Umständen einen größeren Nutzen für Computerkriminelle oder Behörden haben als die Daten selbst.[1]

Einführende Beispiele

[Bearbeiten | Quelltext bearbeiten]

Typische Metadaten zu einem Buch sind beispielsweise der Name des Autors, die Auflage, das Erscheinungsjahr, der Verlag und die ISBN. Zu den Metadaten einer Computerdatei gehören unter anderem der Dateiname, die Zugriffsrechte und das Datum der letzten Änderung.

Unterscheidung zwischen Daten und Metadaten

[Bearbeiten | Quelltext bearbeiten]

Während der Begriff der Metadaten relativ neu ist, ist das Prinzip der Verweisung und der formalen Vorgaben schon jahrhundertelange bibliothekarische Praxis. Eine gültige Unterscheidung zwischen Metadaten und gewöhnlichen Daten existiert allerdings nur für den speziellen Fall, da die Bezeichnung eine Frage des Standpunkts ist. Für den Leser eines Buches sind der Inhalt die eigentlichen Daten, während der Name des Autors oder die Nummer der Auflage Metadaten sind. Für den Herausgeber eines Bücherkatalogs sind diese beiden Angaben dagegen Eigenschaften von Büchern allgemein, „Autor“ und „Auflagennummer“ sind Metadaten, die konkreten Ausprägungen („Karl May“, „17“) sind für ihn die eigentlichen Daten.

Zweckbestimmung

[Bearbeiten | Quelltext bearbeiten]

Versucht man zwischen Daten und Metadaten zu unterscheiden, so ist es hilfreich, den „Zweck“ als Begriff einzuführen. Der Zweck bestimmt das Ergebnis; um in der Lage zu sein, einen bestimmten Zweck zu erfüllen – ein bestimmtes Ergebnis zu erreichen –, werden Metadaten benötigt. Das Ergebnis kann aus Daten bestehen, insbesondere können Metadaten in ihrer Rolle als Daten Teil des Ergebnisses sein.

Beispiele:

  • Zweck: Suche innerhalb einer Bibliothek nach allen Standorten (Signaturen) verfügbarer Bücher eines bestimmten Autors
  • Metadaten: „Name des Autors“ und „verfügbar“
  • Ergebnis: „Signatur“ (über die Signatur ist der Standort erschließbar)

In vielen Fällen findet keine bewusste Trennung zwischen Objekt- und Metaebene statt. Beispielsweise spricht man davon, in einem Katalog ein Buch zu suchen und nicht nur seine Metadaten. Bei der Verwendung von Metadaten wird oft erwartet, dass sie durch direkte Koppelung mit den Nutzdaten untrennbare Bestandteile eines abgeschlossenen, sich selbst beschreibenden Systems sind.

Metadaten werden oft dazu eingesetzt, um Informationsressourcen zu beschreiben und dadurch besser auffindbar zu machen und Beziehungen zwischen den Materialien herzustellen. Dies setzt in der Regel erst eine Erschließung mit einem gewissen Standardisierungsgrad (zum Beispiel durch Bibliothekarische Regelwerke) voraus.

Zur Speicherung von Metadaten gibt es verschiedene Möglichkeiten:

  • Im Dokument selbst. So ist in einem Buch stets auch der Autor und das Erscheinungsjahr verzeichnet. In HTML-Dokumenten werden mit Hilfe des Elements <meta> beispielsweise Sprache, Autor, Unternehmen oder Schlagwörter angegeben.
  • In zugeordneten Nachschlagewerken, zum Beispiel für ein Buch in einer Bibliothek im Bibliothekskatalog.
  • Bei Computerdateien in den Dateiattributen. Die meisten Dateisysteme erlauben nur genau festgelegte Metadaten in Dateiattributen; andere (HPFS mittels erweiterter Attribute) erlauben die Assoziation beliebiger Daten mit einer Datei. Auch ist es üblich, die Meta-Information „Dateityp“ im Dateinamen unterzubringen; typischerweise in der Dateinamenserweiterung oder in magischen Zahlen am Beginn der Datei.

Zur Speicherung und Übertragung von Metadaten gibt es eine Reihe von Datenformaten und Datenmodellen, wie beispielsweise Dublin Core oder EXIF, die sich in unterschiedliche, und somit auch in von Menschen lesbare Formate übertragen lassen.

Interoperable Metadaten

[Bearbeiten | Quelltext bearbeiten]

„Operabel“ bedeutet in fachsprachlichen Fügungen zunächst „so beschaffen, dass damit gearbeitet, operiert werden kann“. Die Vorsilbe „inter“ stammt aus dem Lateinischen und bedeutet so viel wie „zwischen“. Interoperable Metadaten sind also Metadaten aus potenziell unterschiedlichen Quellen, zwischen denen („inter“) eine Beziehung in der Weise besteht, dass mit ihnen gemeinsam gearbeitet („operiert“) werden kann.

Standards für interoperable Metadaten haben die Aufgabe, Metadaten aus unterschiedlichen Quellen nutzbar zu machen. Sie umfassen dazu zunächst die Aspekte Semantik, Datenmodell und Syntax.

Die Semantik beschreibt die Bedeutung, die in der Regel von Normierungs-Gremien festgelegt wird (vgl. Dublin Core). Das Datenmodell legt fest, welche Struktur die Metadaten besitzen können. Als „Daten“ lassen sich im Zusammenhang mit Metadaten Aussagen auffassen, die über ein zu beschreibendes Objekt (Dokument, Ressource, …) getroffen werden. Als „Modell“-Komponente des Begriffs Datenmodell lässt sich eine Beschreibung dessen auffassen, wie die Aussagen strukturell beschaffen sind (der Begriff Datenmodell bedeutet damit im Kontext von Metadaten so viel wie „Grammatik“ oder „Struktur von Aussagen“). Beispiele für Datenmodelle von Metadaten sind einfache Attribut/Wert-Kombinationen (z. B. HTML-Meta-Elemente) oder Sätze mit Subjekt, Prädikat und Objekt (z. B. Tripel in RDF). Die Syntax dient schließlich dazu, die entsprechend dem Datenmodell generierten Aussagen zu repräsentieren. Beispiel für ein Repräsentationsformat ist XML (eXtensible Markup Language).

Zwischen diesen drei Aspekten besteht nun folgende Beziehung: Die Semantik wird durch Konstrukte des Datenmodells repräsentiert. Das Datenmodell wird wiederum durch syntaktische Konstrukte repräsentiert. Die syntaktischen Konstrukte werden schließlich aus Zeichen eines vereinbarten Zeichensatzes (wie bei Unicode) zusammengesetzt. Diese drei Aspekte lassen sich als hierarchisch übereinander liegende Schichten auffassen, da jede Schicht jeweils auf der darunter befindlichen Schicht aufbaut. Die Schichten sind dabei voneinander unabhängig, d. h. die Verwendung eines bestimmten Standards in einer Schicht erfolgt unabhängig von den anderen Schichten (wie die Schichtenmodelle der Netzwerkkommunikation, beispielsweise das ISO/OSI-Schichtenmodell). So kann eine bestimmte Semantik durch Konstrukte verschiedener Datenmodelle repräsentiert werden (z. B. Attribut/Wert-Kombination, Tripel), die wiederum durch verschiedene Syntaxen repräsentiert werden können (Graphen, XML-Formate).

Orthogonal zu diesen Schichten liegt als vierter Aspekt die Identifizierung, die alle drei Schichten betrifft. Um Metadaten verschiedener Quellen sinnvoll verarbeiten zu können, muss (weltweit) eindeutig gekennzeichnet werden, um welche Semantik, welches Datenmodell und welche Syntax es sich handelt. Hierzu ist ein Identifikationsmechanismus erforderlich, wie ihn die URIs (Uniform Resource Identifier) bereitstellen.

Generisches Framework

Alle vier Aspekte – Semantik, Datenmodell, Syntax und Identifizierung – sind erforderlich, um Standards für interoperable Metadaten zu schaffen. Sie können daher gemeinsam in ein Framework eingeordnet werden. Ein Framework bietet also eine Art Grundgerüst oder Gerippe, das bereits die wichtigsten Elemente bzw. Komponenten eines Systems und deren Beziehungen beschreibt, jedoch ohne genaue Vorgaben hinsichtlich deren Ausgestaltung zu machen. Es fungiert somit als eine Art „Bezugssystem“, das die sinnvolle Eingliederung neuer Komponenten ermöglicht. Da ein Framework Elemente und deren Beziehungen zeigt, kann dies leicht durch die grafische Anordnung von Elementen visualisiert werden. Die Abbildung „Generisches Framework“ zeigt ein Framework für Metadaten, auf einer Metaebene. Im Gegensatz zu konkreten Ausprägungen von Frameworks, d. h. also der Ausprägungs- oder Instanzenebene, beschreibt ein Framework auf der Metaebene ein verallgemeinertes Framework – erkennbar an den generischen Bezeichnungen der Bestandteile.

Als Beispiel für ein konkretes Framework für Metadaten sei RDF (Resource Description Framework) des World Wide Web Consortium (W3C) genannt. RDF enthält alle der oben genannten vier Aspekte mit spezifischen Ausprägungen, wie in der Abbildung dargestellt.

RDF als Framework für Metadaten

Die Komponenten im Detail:

  • Semantik: Domänenspezifische Semantiken können über Namensräume importiert werden, womit die Semantik eines RDF-Vokabulars beliebig erweitert werden kann
  • Datenmodell: RDF besitzt ein festgelegtes Datenmodell, das Aussagen über Ressourcen in Form von Tripeln mit Subjekt, Prädikat und Objekt gestattet
  • Syntax: Zur Repräsentation solcher Aussagen kann eine beliebige Syntax verwendet werden, RDF/XML, Graphen, oder die N-Triple-Notation; RDF/XML ist jedoch die normative Syntax
  • Identifikation: Als universeller Identifikations-Mechanismus werden URIs verbindlich vorgeschrieben

Der Idee eines Frameworks folgend definiert RDF selbst keine domänenspezifische Semantik, sondern spezifiziert lediglich einen Mechanismus, wie über Namensräume mit Hilfe einer URI weitere Semantiken eingebunden werden können. Verbindlich legt RDF hingegen ein gemeinsames Datenmodell in Form von Tripeln fest sowie die universelle Verwendung von URIs als Identifikationsmechanismus. Diese werden sowohl eingesetzt, um die einzelnen Komponenten eines Tripels (Subjekt, Prädikat, Objekt) zu kennzeichnen, als auch deren Werte und Datentypen. Die konkrete Syntax zur Repräsentation der Tripel kann jedoch, wiederum dem Gedanken eines Frameworks folgend, frei gewählt werden, wobei RDF/XML als Standard vorgesehen ist. Mit RDF Schema enthält RDF außerdem noch eine Schema-Sprache, um eigene Metadaten-Vokabulare zu definieren.

RDF-Schema verhält sich zu RDF ähnlich wie XML Schema zu XML. Ein RDF Schema ist gleichzeitig ein gültiges RDF-Dokument, ebenso ist ein XML Schema gleichzeitig ein gültiges XML-Dokument. In beiden Fällen handelt es sich also um spezialisierte Teilmengen einer Auszeichnungssprache. Während XML Schema jedoch syntaktische Einschränkungen beschreibt, z. B. Elementnamen, Häufigkeit des Auftretens etc., beschreibt RDF Schema semantische Einschränkungen, also z. B. dass ein Attribut „hasPublished“ nur auf Instanzen der Klasse „Mensch“ oder „juristischePerson“ angewendet werden darf, nicht jedoch auf Instanzen der Klasse „Tier“ – in der Schemasprache formuliert, hat das Attribut „hasPublished“ die Domäne „Mensch“ oder „juristischePerson“.

Wie XML dem Grundsatz der Einfachheit und Erweiterbarkeit folgend die Welt der Daten gründlich veränderte, in dem es durch eine einheitliche Syntax, ein genormtes Typsystem und seine Textbasiertheit die Definition problemlos zwischen verschiedenen Systemen und Programmen austauschbarer Datenformate ermöglichte, versucht RDF die Welt der Metadaten durch ein einheitliches Datenmodell zu verändern. Durch den Charakter eines Frameworks knüpft RDF dabei ebenfalls an bewährte Grundsätze wie Einfachheit und Erweiterbarkeit an.

Beispiele in Anwendungsgebieten

[Bearbeiten | Quelltext bearbeiten]

Die folgenden Abschnitte liefern Beispiele und Standardformate für Metadaten in Anwendungsgebieten auf.

Metadaten in der Statistik

[Bearbeiten | Quelltext bearbeiten]

In statistischen Datenbanken werden diejenigen Daten als Metadaten bezeichnet, die nicht direkt den Inhalt einer Statistik darstellen, so als Branchen- oder Berufsbezeichnungen, Gemeindeverzeichnisse und andere Kataloge. Zu den statistischen Metadaten zählen auch Beschreibungen der Datenfelder in Umfrageformularen, unter Umständen auch komplette Formularbeschreibungen. Die eigentlichen statistischen Daten bezeichnet man in Abgrenzung zu den Metadaten als Mikrodaten und Makrodaten.

In der Umfrageforschung werden spezielle Metadaten zur Umfrage als Paradaten bezeichnet.

Metadaten bei Geodaten

[Bearbeiten | Quelltext bearbeiten]

In der INSPIRE-Richtlinie sowie in dem darauf aufbauenden Gesetz über den Zugang zu digitalen Geodaten (Geodatenzugangsgesetz – GeoZG) findet sich eine Legaldefinition für Metadaten im Bereich der Geoinformationsverarbeitung: „Metadaten sind Informationen, die Geodaten oder Geodatendienste beschreiben und es ermöglichen, Geodaten und Geodatendienste zu ermitteln, in Verzeichnisse aufzunehmen und zu nutzen.“ (§ 3 Abs. 2 GeoZG)

Metadaten in der Softwareentwicklung

[Bearbeiten | Quelltext bearbeiten]

In der Softwareentwicklung wird der Metadatenbegriff für verschiedene Zwecke gebraucht:

  • Man bezeichnet Bestandteile eines Programmquelltextes als Metadaten, die nicht vom eigentlichen Übersetzungswerkzeug, meist einem Compiler, sondern Zusatzwerkzeugen ausgewertet werden. Diese Metadaten werden meist zur Dokumentation oder mit Hilfe von Annotationen zur Codegenerierung eingesetzt. Beispiele sind die Annotations in Java oder die Attribute innerhalb des .Net-Frameworks.
  • Eine von der klassischen Programmierung abweichende Form ist die Verwendung von Metadaten in Universal-Software. Hierbei sind die meisten benötigten Anwendungsfunktionen vorkompiliert vorhanden und werden über eine Metadaten-Engine aufgerufen und parametrisiert. Die gewünschte Zielanwendung muss vorher mittels spezifischer Metadaten deklarativ beschrieben werden. Dieser Ansatz wird insbesondere von Data-Warehouse- und Business-Intelligence-Produkten verfolgt. Einige Hersteller wie Tenfold, Data-Warehouse GmbH und Scopeland Technology wenden dieses Prinzip auch auf die Erstellung schreibender Datenbankanwendungen an.
  • Unter Metadaten versteht man auch die Datensatzdefinition in einem Data-Dictionary einer Datenbank.
  • Als Metadaten können auch die Informationen in der Software-Versionsverwaltung gelten. Diese machen es oft möglich, den Autor einer jeden Zeile eines Programmcodes zu identifizieren. Dafür werden Nutzdaten (der Quellcode) und Metadaten aus dem Versionsverwaltungsarchiv korreliert. Bei vielen Versionsverwaltungssoftwaren (etwa Git und SVN) heißt dieser fest eingebaute Befehl blame (eng. für beschuldigen).

Metadaten bei Musikaufnahmen

[Bearbeiten | Quelltext bearbeiten]

Typische Metadaten bei Musik und anderen Tonaufnahmen sind z. B. Titel, Künstler, Komponist, Veröffentlichungsdatum, Musikverlag oder die ISRC-Nummer; bei digitalen Tonaufnahmen ist es möglich, diese Metainformationen direkt in der Datei abzuspeichern (beispielsweise im ID3-Tag von MP3-Dateien).

Über diese zur Erstellung einer herkömmlichen Musikbibliothek notwendigen primären Daten hinaus gibt es deutlich komplexere inhaltliche Musikmetadaten. Dazu zählen beispielsweise Stilistik, Haupt- und Nebeninstrumente, Genre, Tempo, Tonart, Dynamik, Gesangscharakter und die Beschreibung von Stimmungen und Szenen.

Metadaten digitaler Bilder

[Bearbeiten | Quelltext bearbeiten]

Metadaten digitaler Fotos, wie Aufnahmedatum/-zeit, Brennweite, Blende, Belichtungsdauer und andere technische Parameter (ggf. auch geographische Koordinaten des Aufnahmeorts), werden heute von nahezu allen Digitalkameras am Anfang einer Bilddatei im Exif-Format abgespeichert. Durch geeignete Software kann ein digitales Bild (Foto, Scan oder Grafik) durch Metadaten im IPTC-Format angereichert werden; dabei können im Wesentlichen Angaben gemacht werden zu Bildtitel, Bildbeschreibung, Aufnahmeort (GPS-Koordinaten/Ort/Bundesland/Land), Autor (Fotograf) bzw. Urheberrechts-Inhaber, Kontaktdaten des Urheberrechts-Inhabers oder Lizenzgebers, Urheberrechts-Bestimmungen und Suchbegriffe (Schlüsselwörter). Viele Bildbearbeitungsprogramme ergänzen oder verändern beim Bearbeiten von digitalen Fotos (bzw. Bildern im Allgemeinen) die Metadaten zusätzlich, sodass sich Rückschlüsse auf die Bildbearbeitungssoftware ziehen lässt.

Metadaten bei der Kommunikation im Internet

[Bearbeiten | Quelltext bearbeiten]

Das Internet-Protokoll folgt einem Schichtenmodell. Am Beispiel des Standards zum Versenden von E-Mails soll dies illustriert werden. Das zur Übermittlung von E-Mails gebräuchliche Protokoll lautet Simple Mail Transfer Protocol. Seine Position in der Internetprotokollschicht lässt sich genau angeben:

SMTP im TCP/IP-Protokollstapel:
Anwendung SMTP
Transport TCP
Internet IP (IPv4, IPv6)
Netzzugang Ethernet Token
Bus
Token
Ring
FDDI

Aus Sicht der Versender und Empfänger von E-Mails können alle Schichten unterhalb der Anwendungsschicht als Metadaten angesehen werden. Das wird besonders augenfällig, wenn die Anwendungsschicht verschlüsselt wird. Selbst dann kodiert bereits die Transportschicht (TCP) genügend Informationen, um den Namen des sendenden und empfangenden Servers (oft der globale Teil einer E-Mail-Adresse) sowie Nachrichtenlänge und Zeitraum der Sendung zu ermitteln. Bei häufigem E-Mail-Verkehr zwischen zwei Parteien kann die bloße Frequenzinformation einem recherchierenden Dritten Rückschlüsse auf den Inhalt der E-Mails erlauben.

Die gleiche Situation ergibt sich prinzipiell mit anderen Netzwerkprotokollen, etwa Instant-Messaging-Diensten oder dem World Wide Web. Allgemein spricht man in diesem Zusammenhang von Verkehrsdaten oder Randdaten.

Nach §206 Abs. 5 des deutschen Strafgesetzbuchs zählen neben dem Inhalt der Telekommunikation auch „ihre näheren Umstände, insbesondere die Tatsache, ob jemand an einem Telekommunikationsvorgang beteiligt ist oder war“ zum Fernmeldegeheimnis.

Gesellschaftskritik

[Bearbeiten | Quelltext bearbeiten]

Der italienische Philosoph und Medientheoretiker Matteo Pasquinelli hat die These aufgestellt, dass mit der Datenexplosion eine neue Steuerungsform möglich werde: eine „Gesellschaft der Metadaten“. Mit Metadaten könnten neue Formen der biopolitischen Steuerung zur Kontrolle der Massen und Verhaltenssteuerung etabliert werden, etwa Online-Aktivitäten in sozialen Netzwerken oder Passagierströme in öffentlichen Verkehrsmitteln. Das Problem sieht Pasquinelli nicht darin, dass Individuen wie in totalitären Systemen auf Schritt und Tritt überwacht werden, sondern vermasst werden und die Gesellschaft als Aggregat berechenbar und kontrollierbar werde.[2]

  • Gunnar Auth: Metadaten – Grundlagen und Bedeutung im Data Warehousing. In: Gunnar Auth: Prozessorientierte Organisation des Metadatenmanagements für Data-Warehouse-Systeme. BoD, Norderstedt 2004, ISBN 978-3-8334-1926-3, S. 27–74.
  • Ingrid Schmidt: Modellierung von Metadaten. In: Henning Lobin; Lothar Lemnitzer: Texttechnologie. Perspektiven und Anwendungen. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3, S. 143–164.
  • Ulrich Hambuch: Erfolgsfaktor Metadatenmanagement: Die Relevanz des Metadatenmanagements für die Datenqualität bei Business Intelligence. Vdm, Saarbrücken 2008, ISBN 3-639-07879-9
Wiktionary: Metadaten – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Abhörskandal: Metadaten oft aufschlussreicher als der eigentliche Inhalt. In: datensicherheit.de. 23. September 2013, abgerufen am 11. September 2017.
  2. Adrian Lobe: Philosophie – Die Gesellschaft der Metadaten. In: Süddeutsche.de. 31. Juli 2018, abgerufen am 3. September 2018.