Wenn Maschinen Texte verstehen wollen...

Felix Sasaki arbeitet als Enterprise Content Architect im IT-Ressort bei Cornelsen. Zuvor war er beim Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) tätig und in diesem Rahmen auch Ko-Leiter des deutsch-österreichischen Büros des W3C.

Verlagsinhalte finden heute auf verschiedene Art den Weg zum Konsumenten. Einer dieser Wege ist das automatisierte Publizieren, wie es in Chatbots, Web to Print und vielen anderen Anwendungen zum Tragen kommt.

Publishing Automation erlaubt Anwendungen, die mit menschlicher Arbeit nicht zu realisieren sind: individualisierte Zusammenstellung digitalen Contents wie persönliche Reiseführer, Ratgeber oder Fachinformationen zu sehr speziellen oder plötzlich aktuell gewordenen Themen und vieles mehr. Voraussetzung dafür sind zunächst medienneutral vorliegender, reichhaltiger und inhaltlich klassfizierter Content und die Möglichkeit zum Zugriff über eine detaillierte Suche. In den meisten dieser Anwendungen aber bietet Künstliche Intelligenz einen zusätzlichen und wesentlichen Qualitäts- und Geschwindigkeitshebel. Wie können standardisierte Webtechnologien helfen, die Semantik von Inhalten für KI-Anwendungen zugänglich zu machen? Felix Sasaki gibt im Produktionschannel von buchreport.de einen Überblick.

Was ist mit der Semantik von Inhalten gemeint?
Verlagsinhalte behandeln bestimmte Themen, in Bildungsverlagen etwa didaktische Themen oder Wissensvermittlung bei Lehr- und Lernanbietern. Diese sind für Leserinnen und Leser verständlich. Um KI-gestützte Anwendungen zu ermöglichen, muss die Semantik explizit gemacht werden. Inhalte müssen layout-neutral strukturiert werden. Hier ist XML eine etablierte und weit verbreitete Technologie. Zusätzlich muss die Semantik der Inhalte kodiert werden. Das W3C (World Wide Web Consortium) hat schon vor geraumer Zeit Standards in diesem Bereich entwickelt – allen voran RDF (Resource Description Framework).

Was ist ein Beispiel für explizite Semantik und eine Anwendung?
Inhalte sind erfasst nach Systematiken. Eine Anwendung könnte dann ein digitaler Helfer sein, den man fragen kann: ‚Gib mir Erklärungen oder Aufgaben zum Wissensgebiet XY‘. Natürlich kann eine Websuche das auch bewerkstelligen. Mithilfe expliziter Semantik kann diese Funktionalität innerhalb von Produkten genutzt werden, ohne Inhalte frei verfügbar zu machen.

Wo werden semantische Standards eingesetzt?
Die prominenteste Anwendung ist aus meiner Sicht Schema.org, das genutzt wird, um die Semantik von Webseiten-Inhalten explizit zu machen. Viele Nutzerinnen und Nutzer, die Schema.org auf ihren Webseiten platzieren, wissen gar nicht, dass dahinter RDF steckt. Das ist aber der Fall.

Gibt es noch andere Anwendungen – und wo fange ich an, wenn ich RDF nutzen möchte?
Es gibt eine Reihe von Anwendungen, die auf RDF basieren. Die Seite „Linked Open Vocabularies“ verschafft einen guten Überblick. Bei der Integration von Semantik in Verlagsinhalte muss das Rad nicht neu erfunden werden. Bereits definierte Entitäten lassen sich auch wiederverwenden.

Der Channel Produktion & Prozesse

Weitere Lösungen, Impulse und Erfahrungsberichte für die Verlagsproduktion lesen Sie im Channel Produktion & Prozesse von buchreport und Channel-Partner Publisher Consultants. Hier mehr…

Welche Tools unterstützen bei der Verwendung von RDF?
Da ich keinen bestimmten Toolanbieter öffentlich bevorzugen möchte, halte ich mich hierzu lieber bedeckt. Natürlich kann man festhalten, dass es eine Reihe von Open-Source-Tools gibt, etwa Apache Jena, mit denen man in das Thema einsteigen kann. Auch einige XML-Datenbanken unterstützen RDF. Die Nutzerfreundlichkeit der meisten Tools lässt jedoch zu wünschen übrig.

Muss Semantik immer händisch eingefügt werden?
Sowohl die händische wie automatische Inhaltsverarbeitung hat ihre Stärken und Schwächen. Fehlerlos wird sie in beiden Fällen nie sein. Je nach Anwendungsszenario sind Nachbesserungen der Anreicherung einzuplanen.

Warum sind Standards so wichtig bei Semantik?
Gerade bei automatischen Verarbeitungen entstehen komplexe, feingliedrige und kleinschrittige Workflows. Solche Routinen profitieren stark von der Nutzung von Standards wie RDF.

Was interessiert sie persönlich an Semantik?
Für mich sind mehrsprachige Chatbots sehr interessant, um darüber schnell an sprachübergreifende Informationen zu kommen. Ein Beispiel findet sich auf der Code Plattform GitHub.

Schema.org ist dafür verantwortlich, dass zum Beispiel Treffer in Suchmaschinen nicht nur kurze Anleser enthalten, sondern Preise, Bewertungen, Öffnungszeiten und viele andere Informationen, die für den Suchenden relevanter sind als ein einfacher Textauszug aus der ausgelesenen Seite. Ihre Basis sind sogenannte Rich Snippets. Wie Inhalte mit Rich Snippets angereichert werden.

Semantik von Inhalten

Wenn Maschinen Texte verstehen wollen…

Kommentare

Kommentar hinterlassen zu "Wenn Maschinen Texte verstehen wollen…"

Hinterlassen Sie einen Kommentar Antworten abbrechen

Themen-Kanäle

SPIEGEL-Bestseller

Veranstaltungen

Die aktuellsten Artikel

Neueste Kommentare

größte Buchhandlungen

Ähnliche Artikel

SERIE: KI IN DER BUCHBRANCHE: Auflagenplanung: Präzisere Prognosen durch KI

Lektorat | Produktmanagement: Manuskripte und Buchprojekte mit KI-Assistenten steuern

Digitales Vorschausystem: Mit VLB-Tix gedruckte Vorschauen erstellen

Predictive Marketing: Wissen, was der Kunde wollen wird