Content is King war gestern, heute gilt: Context is King

Die lebhafte Diskussion um die neuen E-Book-Reader erinnert stark an jene um das Aufkommen von CD-ROMs vor nunmehr 20 Jahren. Jeder Verlag, der dazugehören wollte, beschäftigte sich nicht nur mit dem Thema, sondern veröffentlichte – vornehmlich lexikalisch nutzbare – Inhalte auf den verheißungsvoll schillernden Scheiben. Schneller, effektiver Zugriff war das eigentliche Ziel, selten auch das tatsächliche Angebot. Satzdaten wurden – damals noch nicht pure Selbstverständlichkeit – in bildschirmtaugliche Formate konvertiert, Inhaltsverzeichnisse und Register zur vornehmlichen Quelle des Zugriffs auf den Content.

Dass das auf längere Sicht nicht genügen würde, um Content mit elektronischen Mitteln zu erschließen, war bereits damals Diskussionsgegenstand. Nach Lösungen wurde intensiv, aber wenig erfolgreich gesucht. Die semantische Suche brachte Näherungen, die in ausgesuchten Umgebungen nützlich sein mochte, aber nie den Sprung in die Allgemeingültigkeit schaffte.

So gesehen stehen wir mit der angestrebten Suchmaschinenoptimierung von 2009 mit neuen Begriffen mehr oder weniger dort, wo wir schon 1989 standen und versuchen weiterhin, das Finden zu optimieren, wo die sinnträchtige Content-Aufbereitung nicht gelingen will. Google darf genau dafür durchaus als Beleg gelten: Auch heute ist mit Näherungen ein besseres Ergebnis erreichbar, aber die Verfahren hinsichtlich der Belastbarkeit der Fundstellen arbeiten nach wie vor unzureichend, wenn das gesuchte Ergebnis nicht mit wenigen Begriffen genau genug eingegrenzt werden kann. Die Suchergebnisse werden zudem kontinuierlich verschlechtert durch die exponentiell wachsende Menge an verfügbaren Daten.

Weil Suchen und Finden ein wichtiger Aspekt von zukünftigem Publizieren ist, müssen wir weiter über Metadaten diskutieren. Dabei steht das Verständnis von Metadaten noch immer am Anfang.

Metadaten überbrücken semantische Lücke

Metadaten gibt es selbstverständlich auch im Print und sind in bisheriger Sicht definiert als Daten, die nicht Content sind. Im Allgemeinen werden Metadaten im Print durch bibliografische Daten gedruckter Bücher und durch die bibliothekarische Verschlagwortung ihrer Inhalte repräsentiert. Hinzu kommen aufbereitete, im Print integrierte Metadaten wie Inhaltsübersichten, verschiedene Arten von Registern, Quellenverzeichnisse, Randziffern u.ä.

Bei einer tiefer gehenden Herangehensweise, wie wir sie für das E-Publishing anstreben, sind Metadaten

Informationen zu Inhaltselementen verschiedenster Art;
Information über Beziehungen zwischen solchen Arten inhaltsbeschreibender Daten und ihre Definition als verständnisrelevant;
Information über den Kontext solcher verständnisrelevanter Inhaltsdaten.

Kurz: Metadaten liefern den Kontext von inhaltsbezogenen Daten, sie helfen die semantische Lücke zu überbrücken, die beispielsweise eine bloße Volltextsuche (Suchworte kommen vor) oder ein herkömmliches Register offen lässt.

Items of Content identifizieren

Solche „semantischen“ Metadaten sind strukturiert kodierte Daten. Sie beschreiben die Charakteristik von Content-Einheiten, die verständnisrelevante Informationen in sich tragen. Das Ziel solcher Metadaten ist, diese Content-Einheiten zu identifizieren, zu entdecken, auszuwerten und das Management dieser Einheiten zu ermöglichen.

Für die Beschreibung eines Rahmens für Metadaten im Veröffentlichungsprozess ist in Diskussionen der Berliner Werkstatt Herstellung und bei den Klopotek-Road-Shows 2008 der Begriff Information Workflow akzeptiert worden. In diesem Rahmen können Repräsentationsformen, Attribute und Items of Content sinnvoll unterschieden werden:

Items of Content sind die kleinsten sinnvollen Einheiten des Content, die im gegeben Kontext eine sinntragende Rolle spielen, z.B. ein Textabschnitt oder eine Abbildung.
Repräsentationsformen von Content sind in dieser Sicht das Ergebnis der gesamten Aufbereitung einer beliebigen Aggregation von Content-Einheiten; im klassischen Verständnis so etwas wie ein Kapitel, ein Aufsatz oder ein Buch.
Attribute beschreiben den Kontext dieser Aufbereitung. So kann z.B. die nutzergesteuerte Vor-Ort-Sicht die konkrete Auswahl eines Reiseführer-Content determinieren, wie heute schon mit GPS-Positionsbestimmung lokal relevante Informationen zu Restaurants oder Sehenswürdigkeiten bezogen werden.

Die erste Annäherung an semantische Metadaten ist die Top-down-Betrachtung: Ein Publikationsprozess definiert Repräsentationsformen, die Attribute definieren, die wiederum Items als Basiseinheiten des Contents definieren.

Dieser Vorgang unterliegt ständig dem Einfluss von zwei Bereichen eines Information Workflow: Dem Bereich, wo Content erzeugt oder zur Verfügung gestellt wird (durch Autoren oder Datenbanken), und dem, wo Content in eine Produktform übergeht.

Kontinuierliche Anreicherung

In diesem Prozess wirken zusätzlich Treiber, die den Charakter der semantischen Metadaten bestimmen:

Für den Distributionskanal ergänzt der Anbieter (eher als der Urheber) den Content um Metadaten, die seine Marktziele gewährleisten sollen.
Für den Bestellkanal nutzt der Anbieter Marktbindung beispielsweise in Form von Communitys zur Erzeugung nutzerspezifischer oder zur Modifikation vorhandener Metadaten, die den Kontext der möglichen Nutzung reflektieren. Dieser Bereich unterliegt einer kontinuierlichen Anreicherung. Ansätze dafür existieren bereits.

Im Ergebnis dieses Einflusses ergibt sich eine Bottom-up-Betrachtung, beginnend mit dem ausgewählten Item of Content, ergänzt um darauf bezogene (Kontext-)Items, deren Verknüpfung getrieben wird durch die spezifische Sicht von Kunden.

Die Aktivitäten beeinflussen sich also gegenseitig und determinieren so spezifische Metadaten eines spezifischen Information Workflow. Sie selbst werden bestimmt durch unterschiedliche Nutzungsumgebungen, die zu jeweils spezifischen Produkten führen.

Ein identisches Item of Content kann vertrieben werden basierend auf Attributen oder Repräsentationsformen, die sich von Markt zu Markt voneinander unterscheiden und die gesucht, gefunden und bestellt werden können. Sie basieren auf Attributen oder Repräsentationsformen, die sich von Kunde zu Kunde unterscheiden.

Erfolgreich beeinflusstes Suchen

Der Information Workflow wird so Kundenanforderungen erfüllen basierend auf

marktbezogenen Metadaten, interaktiv von den jeweiligen Märkten geliefert, und
kundenbezogenen Metadaten, interaktiv von den jeweiligen Kunden beigesteuert.

Dadurch wird der Prozess semantische Metadaten aggregieren, generiert allein durch die tatsächliche Nutzung der Items of Content.

Ein einfaches Beispiel anhand eines Bildes illustriert das Problem und seinen Lösungsansatz. Es geht um den Gesichtspunkt, dass von Anbieterseite durch die Integration von geeigneten Metadaten in den Content zielführende Vorkehrungen für ein erfolgreich beeinflusstes Suchen und Finden durch den Nutzer getroffen werden.

Dass hier ein Content, der nicht Text ist, herangezogen wurde, um das Problem zu illustrieren, soll belegen, dass eine abstrakte Sicht auf Content die Voraussetzung dafür ist, mit sinntragenden Content-Einheiten beliebige Texte erschließbar zu strukturieren.

Die Entwicklung von Metadaten-Konzepten als naheliegendem und machbarem Beitrag zur Lösung des Problems semantischer Suche steht auf der Tagesordnung.

Autor Helmut von Berg ist Direktor des Software- und Beratungsunternehmens Klopotek & Partner und leitet das Production Network.

Beitrag erstmals erschienen in: buchreport.spezial Herstellung & Management 2009, S. 20-22

Trotz ihrer Bedeutung steht das Verständnis von Metadaten immer noch am Anfang

Content is King war gestern, heute gilt: Context is King

Kommentare

Kommentar hinterlassen zu "Content is King war gestern, heute gilt: Context is King"

Hinterlassen Sie einen Kommentar Antworten abbrechen

Themen-Kanäle

SPIEGEL-Bestseller

Veranstaltungen

Die aktuellsten Artikel

Neueste Kommentare

größte Buchhandlungen

Ähnliche Artikel

Metadaten: Ordnung für Spiele: VLB integriert neue Kategorien

Metadaten: Metadaten: Der Unterschied zwischen 100 Seiten und 100 Teilen

Vertrieb: Michael Tamblyns Metadaten-Appell

Metadaten: Metadaten enthalten (zu) viel Interpretationsspielraum