Wie Verlage mehr aus ihren Daten holen

Michael Marheineke ist Betriebswirt und Finanzfachmann. Er gelangte über mehrere berufliche Stationen bei Dienstleistern in der Finanzbranche als Business Developer zum Beratungs- und IT-Dienstleistungsunternehmen Capgemini und ist seit 2013 dort Bereichsleiter Search, Analytics, Machine Learning und Big Data beim Suchdienstleister SHI. (Foto: privat)

Künstliche Intelligenz im Verlag – das klingt für viele ziemlich abstrakt. Die Analyse der eigenen Inhaltebasis ist dabei eine naheliegende Anwendung. Ein Beitrag von Michael Marheineke. 

Begriffe wie Künstliche Intelligenz (KI) und Maschinelles Lernen (Machine Learning, ML) sind aktuell popu­läre Schlagwörter der Informatik. Aber wie schaffen es Verlage, Nutzen aus diesen Technologien zu ziehen? Ein Feld für die Anwendung von KI und ML ist das Durchsuchen der unternehmenseigenen Datenbestände, wofür gern die Bezeichnung Enterprise Search verwendet wird. Ziel ist es, mehr Wert aus Datenbeständen zu schöpfen und das sollte auch in der Verlagsbranche möglich sein.

Zur Begrifflichkeit:

  • Maschinelles Lernen liegt vor, wenn ein IT-System aus der Erfahrung mit vielen vergleichbaren Mustern eigenständig lernen und immer besser werden kann, ohne explizit auf bestimmte Routinen programmiert worden zu sein.
  • Künstliche Intelligenz: KI bedeutet, dass ein System eigenständig Entscheidungen trifft, die bei der Überprüfung durch einen Menschen „intelligent“, also richtig oder zumindest nachvollziehbar sind.

 

Die Datenexplosion zwingt zu intelligenter Suche

Schon allein, weil die Zeit stetig steigt, die während der Arbeit mit der Suche von Informationen verbracht wird, lohnt es sich, in die Optimierung von internen Enter­prise-Search-Lösungen zu investieren.

In der Vergangenheit hieß Suche lediglich, Daten-Repositorien nach bestimmten, bereits enthaltenen Schlüsselbegriffen zu durchsuchen und die gefundenen Dokumente aufzulisten – zum Beispiel in ab­steigender Reihenfolge der Häufigkeit des Vorkommens dieser Schlüsselbegriffe. In Zeiten explodierender Datenvolumina reicht dieses Vorgehen nicht mehr aus und zwingt zu einem intelligenteren Vorgehen.

Ein Analyst des Marktforschungsins­tituts Gartner schildert die aktuelle Zwangslage und schlägt KI als Lösung vor: „Mit­arbeiter verbringen einen erheblichen Teil ihrer wertvollen Zeit damit, nach den Informationen zu suchen, die sie benötigen, um Aufgaben zu erledigen und Entscheidungen zu treffen. KI-Techniken können eine Vielzahl von Geschäftsproblemen lösen.“ Der Gartner-Analyst schreibt KI-basierten Suchprojekten stolze Kapitalrenditen bis 800% und mehr zu. Angesichts wachsender Daten- und Informationsvielfalt muss es daher schon aus kaufmännischen Gründen im Interesse jedes Verlags liegen, seine Inhalte so effektiv wie möglich zu verwalten, um schnell und effizient zum Ziel zu kommen.

Dabei ist es zweitrangig, ob eine Such­lösung ausschließlich verlagsintern die Mitarbeiter unterstützt, etwa um daten­basierte neue Produkte zu entwickeln oder Rechnungen den korrespondierenden Leistungen korrekt zuzuordnen, oder ob Kunden von außen auf die Daten zugreifen können, um maßgeschneiderte Informationspakete für sich zusammenzustellen.

IT-Grundlagen und Technologien der Zukunft

Mehr zum Thema IT und Digitalisierung lesen Sie im IT-Channel von buchreport und Channel-Partner knk. Hier mehr…

 

Machine Learning hilft, Inhalte anzureichern

Machine Learning kann dann am besten unterstützen, wenn komplexe Probleme auf der Grundlage großer Datenmengen gelöst werden sollen. Genau dies ist die Hauptaufgabe der Enterprise-Search-Systeme: in größeren Datenbeständen die richtigen Inhalte finden.

Um die Auffindbarkeit von Dokumenten zu optimieren, hilft es, sie mit Metadaten anzureichern, für die es zahlreiche Mög­lich­keiten gibt. Anwendungsbeispiele für Machine Learning zur systematischen Inhalts­anreicherung sind:

  • Klassifikation von Dokumenten: Handelt es sich beim jeweiligen Dokument um eine Rechnung, eine Bestellung, eine Autoren­vita oder ein Gesetz? Für den Suchenden kann dies eine zentrale Information sein, anhand derer das Dokument schnell und zielgerichtet gefunden werden kann.
  • Erkennung von Entitäten: Welche Orte, Personen, Organisationen etc. kommen in einem Dokument vor? Bezüglich Organisationen oder Personen kann es in bestimmten Fällen (z.B. bei einer Vorschrift) von Bedeutung sein, ob das Dokument von dieser Entität kam oder an diese Entität ging.
  • Erkennung von Synonymen: Es geht darum, Dokumente mit Begriffen anzureichern, die die gleiche oder eine ähnliche Bedeutung haben. Dies kann einen wesent­lichen Beitrag dazu leisten, ob ein Dokument später überhaupt gefunden wird. Diese Anreicherung kann auch Akronyme oder andere Abkürzungen einschließen. Wer sucht schon gerne nach einem komplexen Fachbegriff, wenn es dafür auch eine bequeme Abkürzung gibt?

Solche Anreicherungen könnte theoretisch auch ein Mensch durchführen. Aber wie lange bräuchte er, um Millionen Dokumente zu klassifizieren und alle Entitäten aus dieser Menge an Inhalten zu extra­hieren? Hier helfen Machine-Learning- Mo­delle, die derartige Aufgaben in einer Geschwindigkeit erledigen können, in der parallel ein Datenbankindex aufgebaut wird. Und für die Modelle spielt es keine Rolle, ob sie diese Tätigkeiten für ein paar Dutzend oder für ein paar Millionen Datensätze durchführen müssen.

Machine Learning: Der Wirkungszyklus des maschinellen Lernens zeichnet sich durch den Effekt des Erfahrungssammelns während der Datenanalyse aus.

Machine Learning hilft, Anwender zu verstehen

Nicht nur die Indexierungsfunktion einer Enterprise-Search-Lösung kann von Machine Learning profitieren, sondern auch die Suchfunktion:

  • Learning to Rank: Regelbasiert das Ranking so zu optimieren, dass für jede Suchanfrage die relevantesten Ergebnisse an erster Stelle erscheinen, ist eine aufwendige und knifflige Aufgabe. In solchen Fällen können Machine-Learning-Modelle helfen.
  • Personalisierung und Recommendations: Was im E-Commerce seit Jahren als automatisch generierte Empfehlung funk­tioniert, kann auch auf Enterprise Search übertragen werden, denn die Historie eines Nutzers kann dabei helfen, zukünftig re­levante Dokumente zu empfehlen oder bestimmte Merkmale des Nutzers in eine Suchanfrage einzubeziehen, um die Trefferliste individuell relevanter zu gestalten.
  • Query Intent Classification: Wer versteht, was der User mit seiner Suchanfrage bezweckt oder wissen möchte, kann ihm passgenaueste Inhalte anbieten. Machine Learning kann helfen, zu verstehen, welche Absicht ein User mit seiner Suchanfrage verfolgt.
  • Chatbots: Mit Chatbots lässt sich ein Teil der Suchanfragen in Dialoge überführen, was die Hürde zum Zugang zu Informationen senkt und das Browsen oder Navigieren zu den gewünschten Informationen beschleunigen kann.

Besonders Learning to Rank, Persona­lisierung, Recommendations und Query Intent Classification basieren auf den Daten, die die Nutzer während ihrer Interaktion mit Suchapplikationen hinterlassen. Maschi­nelles Lernen und KI können diese Daten verwenden, um ein Fundament für Suchfunktionen zu bilden. Dies gilt, nebenbei bemerkt, nicht nur für die hier angesprochenen Enterprise-Search-Lösungen, sondern für Suchapplikationen jeglicher Art.

 

Wie Suchprojekte entstehen und wachsen

Es gilt also, Suchlösungen zu etablieren, die von Anfang an in der Lage sind, Suchdaten datenschutzkonform zu sammeln, zu speichern und auszuwerten. Je mehr Daten man hat, desto besser funktioniert Machine Learning. Auf diesem Fundament kann man bereits erste Erkenntnisse darüber gewinnen, wie die Suchanwendung verwendet wird und wo Verbesserungspotenzial steckt. Die erste schmale Lösung lässt sich so nach und nach ausbauen, um Machine Learning in die Enterprise Search zu integrieren und dadurch die Effizienz der Plattform zu steigern. Dabei sind klare Konzepte und Ziel­bestimmungen von Vorteil: Wenn mangelnder Einsatz menschlicher Intelligenz Probleme aufwirft, löst diese keine KI.

Wenn ein Verlag prüft, ob er mit Machine Learning mehr aus seinen Daten herausholen kann, sollte er sich zunächst fragen, ob er über die beschriebenen Voraussetzungen verfügt. Angst vor hohen Lizenzkosten ist unbegründet, denn für ML und KI ist auch der Einsatz von Open-Source-Software möglich.

 

Wie Machine Learning die Verlage verändert oder verändern kann

Heute sind selbst Computer von der Größe eines Smartphones für KI nutzbar. Warum sie nicht einsetzen, um in kurzer Zeit Routinetätigkeiten zu verrichten, die zwar auch ein Mensch mit ein wenig Grips erledigen könnte, für die er aber ohne Maschine ein ganzes Berufsleben bräuchte?

Machine Learning wird das Leben erleichtern und verändern, nicht nur, weil es Auf­gaben schneller, kostengünstiger und präziser erledigen, Entscheidungen effizienter vorbereiten und Informationsvorsprünge besser sichern kann. Sondern auch, weil es die Möglichkeiten der Marktteilnehmer erweitern wird. Was kann aus den Abermil­lionen von Daten, Texten und Bildern eines Verlages entstehen? Wofür kann der Verlag künftig zusätzlich nützlich sein? Wem kann er seine Daten als Grundlage für dessen Business bereitstellen? Verlagsdaten „as a Service“ – vielleicht ein neues Businessmodell?

buchreport.spezial Management & Produktion 2019

Dieser Artikel ist zuerst im buchreport.spezial Management & Produktion erschienen.

Kommentare

Kommentar hinterlassen zu "Wie Verlage mehr aus ihren Daten holen"

Hinterlassen Sie einen Kommentar

Mit dem Abschicken des Kommentars erklären Sie sich damit einverstanden, dass Ihre Daten elektronisch gespeichert werden. Diese Einverständniserklärung können Sie jederzeit gegenüber der Harenberg Kommunikation Verlags- und Medien-GmbH & Co. KG widerrufen. Weitere Informationen finden Sie in unseren Datenschutz-Richtlinien

E-Mail Adresse wird nicht veröffentlicht.


*

Webinar-Mediathek

Geballtes Fachwissen

Auf pubiz.de finden Fach- und Führungskräfte aus der Buch- und Medienbranche passgenau auf Ihre Bedürfnisse zugeschnittene Live-Webinare, Video-Kurse, Praxisbeiträge, Interviews und Anleitungen.

Themen-Kanäle

SPIEGEL-Bestseller

Hardcover Belletristik
1
Leon, Donna
Diogenes
2
Ferdinand von Schirach
Luchterhand
3
Krien, Daniela
Diogenes
4
McEwan, Ian
Diogenes
5
Hansen, Dörte
Penguin
17.06.2019
Komplette Bestsellerliste Weitere Bestsellerlisten

Veranstaltungen

  1. 26. Juni

    Finale Vorlesewettbewerb

  2. 6. Juli - 8. Juli

    TrendSet Sommer

  3. 17. August - 18. August

    Maker Faire Hannover

  4. 20. August - 24. August

    Gamescom

  5. 21. August - 25. August

    Buchmesse Peking