Mustererkennung im Lektorat: Eine realistische Option?

Verlage müssen eine sehr große Zahl von Manuskripten sichten. Der erste Leser könnte eine intelligente Maschine sein, sagt Dirk Strohe.

Das überlastete Lektorat ist ein im Verlagswesen altbekanntes Problem. Insbesondere der Eingang unverlangt eingesandter Manuskripte bereitet regelmäßig Kopfzerbrechen. In vielen Bereichen werden die Werke unbekannter Autoren nur noch akzeptiert, wenn eine kurze und prägnante Zusammenfassung beigefügt ist. Und trotzdem dauert die Bearbeitung teilweise quälend lange. Ständig schwingt dabei die Sorge mit: Verbirgt sich im Posteingang ein unentdecktes Juwel, vielleicht der nächste Harry Potter? Oder ein voll im Trend liegender Fachartikel, der gerade jetzt gefragt ist und dessen Marktwert in ein paar Monaten schon wieder fällt?

Die schnelle und optimale kommerzielle Verwertung eingehender Manuskripte scheitert oft schon beim ersten Schritt, nämlich bei der Erkennung des inhaltlichen und wirtschaftlichen Potenzials. Die Gründe liegen neben der ständigen Arbeitsüberlastung z.B. auch darin, dass die vom Autor gelieferte Zusammenfassung die für eine korrekte Bewertung erforderlichen Informationen nicht enthält oder diese nur mangelhaft aufbereitet. Die zeitliche Komponente birgt außerdem das Risiko, dass ein vielversprechendes und bei mehreren Verlagen eingereichtes Manuskript bei einem Wettbewerber schneller bearbeitet und „weggeschnappt“ wird.

In vielen Lektoraten besteht daher der Wunsch nach Hilfskräften, die idealerweise schnell lesen, das entsprechende Fachgebiet genau kennen und obendrein auch noch wenig kosten.

 

Künstlich-intelligente Lese-Assistenz?

Eine interessante Option ist die automatisierte, rechnerbasierte Textsichtung. Diese Vision erscheint mutig, aber quer durch fast alle wirtschaftlichen Branchen vollzieht sich eine rasante Entwicklung konkreter Anwendungen Künstlicher Intelligenz (KI). Öffentlich viel beachtet ist derzeit der Einsatz von KI bei hochkomplexen Vorgängen im Straßenverkehr als Assistenzsystem oder auch zur Vollautomatisierung des Autofahrens. Das Prinzip besteht darin, dass in großen Datenmengen Muster erkannt werden, und das System lernt einen automatisierten Umgang mit diesen Mustern.

Das dahinterstehende Prinzip der Mustererkennung in großen Datenmengen und einem vom System zu lernenden Automatismus funktioniert auch für die Verarbeitung großer Datenmengen auf der Basis von Sprache. Die linguistischen Grundlagen für die Mathematisierung von Sprache sind seit Jahrzehnten gelegt, wie etwa mit der in den 1950er Jahren von Noam Chomsky begründeten generativen Transformationsgrammatik als Modell der Beschreibung von Sprachproduktion und Sprachrezeption. Allerdings ist es ein weiter Weg bis zur praktischen Anwendung, da die Umsetzung die Anwendung einer ganzen Palette mathematischer Disziplinen erfordert und technischer Infrastrukturen bedarf.

 

Syntax plus »tieferer Sinn«

Die ersten derartigen Assistenz-Systeme klopfen aber bereits an die Tür und werden bald Realität sein. Das KI-Unternehmen Cognotekt hat dafür eine neuartige Technologie zur Textanalyse entwickelt, die sich bereits in verschiedenen Wirtschaftszweigen im Einsatz befinden. Beispiele:

Mathematisierter Text: Die Punkte spiegeln die ‧Semantik, also den Inhalt/Sinn von Textfragmenten wider. Die Einfärbung macht einzelne Kofaktoren sichtbar. Im gezeigten Beispiel handelt es sich um Rechnungen, die mit Künstlicher Intelligenz inhaltlich geprüft werden. Durch Einfärbung werden Untergruppen identifiziert, die bestimmte Merkmale aufweisen (z.B. Potenzial, die Rechnung zu kürzen, Betrugsverdacht o.Ä.).

  • Ein kürzlich entwickelter Automat prüft völlig selbstständig privatärztliche Zahnarztrechnungen auf ihre inhaltliche Richtigkeit, kommentiert zu jeder Position etwaiges Kürzungspotenzial und begründet dies unter Hinweis auf die Gebührenordnung. Der Automat liest und versteht die zu den einzelnen Positionen gehörenden Freitexte und gleicht diese mit dem gesetzlichen Rahmen ab.
  • Ein weiterer Automat prüft selbstständig Kfz-Reparaturrechnungen. Hier erfolgt die Kontrolle durch Abgleich mit Referenzrechnungen.
  • Ein neuer Prototyp eines Automaten liest Diskussionsbeiträge in Patientenforen und extrahiert daraus Erkenntnisse für die patientenbasierte Entwicklung von Arzneimitteln. Auch für die Zulassung neuer Arzneimittel lassen sich auf diese Weise wertvolle zusätzliche Erkenntnisse gewinnen.

Die hierbei gesammelten Erfahrungen lassen sich nun u.a. für die Verlagsbranche fruchtbar machen. Während die meisten Anbieter sprachverarbeitender Künstlicher Intelligenz sich auf technologische Ansätze konzentrieren, die stark an der Syntax orientiert sind – d.h. an der Wortwahl sowie der Struktur der Texte –, kombiniert Cognotekt/Nomotekt dies mit semantischer Erschließung. Dadurch wird der tiefere Sinn – also dasjenige, um das es in einem Text eigentlich geht – erkannt und in mathematische Muster übersetzt, mit denen anschließend Rechenoperationen durchgeführt werden können.

 

Relevante Datenmuster erkennen

Ein „mitlesendes“ und kommentierendes Assistenz-System entsteht allerdings nicht aus dem Nichts – die Basistechnologie muss zunächst „angelernt“ werden, indem Linguisten die spezielle sprachliche Domäne (z.B. Fachliteratur für Steuerberater, Kriminalromane, Kinderbücher o.Ä.) durchdringen und – untechnisch gesprochen – spezielle Lexika erstellen, die dann von Algorithmen „gelesen“ werden können. Sodann müssen Beispieltexte mit externen Informationen verknüpft werden (sog. Annotierungen). Manchmal existieren bereits entsprechende Datenbestände im Unternehmen.

Der künstliche Lese-Assistent ist nicht wirklich intelligent – jedenfalls nicht in der Form wie ein Mensch. Ihm fehlt es insbesondere an Kreativität, sodass er nicht mit völlig neuen Phänomenen umgehen kann. Dafür kann er auf der anderen Seite wiederum Dinge, die ein Mensch nicht kann, etwa umfangreiche Texte in Sekundenbruchteilen durchdringen und nach bestimmten syntaktischen und semantischen Mustern suchen. Er kann Gemeinsamkeiten und Unterschiede zwischen großen Mengen von Beispieltexten erkennen und in Ansätzen interpretieren, auch auf wahrscheinlich relevante Datenmuster hinweisen.

 

Ein Lese-Assistent mit Marktkenntnis?

Wer Content im Angebot hat, der zufällig zu aktuellen Trends passt, weiß, dass sich dieser Content besonders gut verkauft, solange der Trend anhält. Und Trends lassen sich heute aus zahlreichen, im Internet (oder anderweitig) verfügbaren Quellen ablesen, beispielsweise aus Nachrichten, Tweets, Blog-Einträgen usw. Verfügt man über eine Technologie, die in die Semantik solcher Texte eindringt, lassen sich daraus inhaltliche Trends ablesen. So könnte man etwa Content stärker und zielgerichtet bewerben, der aktuell zu in bestimmten gesellschaftlichen Gruppen stark diskutierten Themen passt.

Wieder stellt sich ein zeitliches Problem und die Herausforderung der Komplexität: Wer kann neben der Prüfung von Manuskripten nebenher noch Trends verfolgen und kontinuierlich nach entsprechenden Manuskripten suchen? Die Antwort kann auch hier der künstliche Lese-Assistent sein.

In technischer Hinsicht müsste man – nach entsprechender „Ausbildung“ des Assistenten für bestimmte Fachgebiete – lediglich die semantischen Muster aktueller Trends mit denjenigen vergleichen, die in den unbearbeiteten Manuskripten enthalten sind. Auf diese Weise sollte es möglich sein, schnell diejenigen Manuskripte zu entdecken und priorisiert zu bearbeiten, die sich mit Trend-Themen beschäftigen.

 

Voraussetzung sind große Textmengen

Der Lese-Assistent wird also für jedes Fachgebiet mit einer besonderen „Ausbildung“ versehen. Dieser Vorgang verursacht einen gewissen Aufwand. Am Anfang steht daher immer die Vorüberlegung, ob sich der Einsatz Künstlicher Intelligenz für die Verbesserung eines bestimmten Geschäftsprozesses rechnet. Die Frage ist also nicht mehr, ob der künstlich-intelligente Lese-Assistent technisch möglich ist, sondern in welchem Bereich er sich besonders anbietet und zuerst ausbreitet.

Außer dem „business case“ setzt die Entwicklung eines künstlich-intelligenten Lese-Assistenten eine gewisse Datenlage im Unternehmen voraus. Ein kleiner Spezialverlag, der im Jahr in einer fachlichen Nische 100 Manuskripte sichtet, wird auf absehbare Zeit keine Künstliche Intelligenz einsetzen können. Denn eine solche Zahl reicht kaum aus, um die semantischen Muster in den Textkorpora mit ausreichender Deutlichkeit herauszubilden.

Dr. Dirk Strohe ist Rechtsanwalt in Köln und seit 2016 geschäftsführender Gesellschafter der Nomotekt GmbH (www.nomotekt.com), eines Unternehmens der Kölner ‧Cognotekt-Gruppe (www.cognotekt.com). Nomotekt hat es sich zur Aufgabe gemacht, die neuartige Technologie, die die Gruppe im Bereich sprachverarbeitender Künstlicher Intelligenz entwickelt hat, in verschiedenen sprachlastigen Branchen in neue Anwendungen zu bringen.(Foto: privat)

Die Konsequenz ist, dass sich Anwendungen im Bereich Künstlicher Intelligenz am leichtesten in Verlagen mit großen Textkorpora verwirklichen lassen. Darin steckt eine Problematik, die durch die Entwicklung Künstlicher Intelligenz noch verstärkt werden könnte: Kleine Verlage dürften es unter diesen Umständen aufgrund ihrer kleineren Textkorpora in Zukunft wirtschaftlich noch schwerer haben.

 

Schließlich: Die Rechtefrage

Das „Können“ des Systems besteht aus der Kombination von Basistechnologie und den gelernten Mustern, etwa auf Basis der im Verlag vorhandenen Daten und Texte. Dies wirft die Frage auf, wem das auf den Daten beruhende Können und Wissen des Assistenten rechtlich zuzuordnen ist. Das Wissen stellt einen „Extrakt“ aus den Daten des Kunden dar und kann erheblichen Wert haben, und es könnte beispielsweise auch für Wettbewerber von großem Nutzen sein.

Cognotekt/Nomotekt hat sich grundsätzlich dafür entschieden, den Wert der Kundendaten zu respektieren und diesbezüglich eine transparente Regelung zu treffen: Die Rechte an den Daten sowie in der Folge auch die Parametrisierung und Kalibrierung eines potenziellen Lese-Assistenten verbleibt beim Unternehmen, das den Leseassistenten einsetzt. Das scheint naheliegend, wenn man es mit einem Textverarbeitungsprogramm wie Word vergleicht, bei dem der Autor und nicht der Programmentwickler die Rechte an dem mit Word verfassten Text hat. Bei Künstlicher Intelligenz ist dies jedoch noch ungewohnt und nicht selbstverständlich, weil die Interaktion zwischen der Basistechnologie und dem „Extrakt“ der Daten unsichtbar und sehr komplex ist. Außerdem gibt es Anbieter, deren Geschäftsmodell gerade das Sammeln und Mischen von Kundendaten ist. Verlage sollten jedoch darauf achten, dass der in ihren Daten und Textkorpora enthaltene Wert nicht unbemerkt das Haus verlässt.

Dirk Strohe  dirk.strohe@nomotekt.com

»Kann Ihre Maschine das Erfolgsrezept herausfiltern?«

Fragen an Dirk Strohe zum Lese-Assistenten

Nachgefragt: Jedes Buch ist anders, wie ein Fingerabdruck: Wie weit kann kreative Intelligenz algorithmisch zerlegt werden?

Viele Bücher, die uns zunächst als kreative Schöpfungen erscheinen, enthalten tatsächlich nur geringe kreative Elemente und folgen im übrigen Mustern, die sie mit vielen anderen Büchern teilen. Ein völlig neuartiges Buch, das mit sämtlichen Konventionen bricht, wäre allerdings für KI schwer zu verdauen, es würde aber als unregelmäßig erkannt und zur menschlichen Bearbeitung ausgesteuert.

Welche Textsorten eignen sich besonders für die Erstanalyse durch den Leseassistenten?

Dies lässt sich relativ klar sagen, nämlich Sachtexte. Diese weisen im Inhalt weniger Varianz und Ambiguität auf. Auch verzichten sie auf stilistische Verdunkelungen, die für KI schwieriger zu durchdringen sind.

Trauen Sie Ihrer Maschine zu, dass sie Erfolgsfaktoren heraus­filtert, die auch erfahrene Lektoren nicht als Muster beschreiben können?

Der Automat ist nie kreativ, er kann immer nur das konzentrierte Wissen von Lektoren anwenden, die ihn anlernen. Wir verfügen wohl über eine Technologie, die interessante Muster zutage fördert und zur Interpretation anbietet. Und in der Tat würde ein erfahrener Lektor alsbald Muster erkennen, die ihm so nie bewusst geworden sind. Dass ein bestimmtes Muster relevant ist, muss aber immer noch der Lektor dem Automaten beibringen.

Dieser Beitrag ist zuerst erschienen im buchreport.spezial „Management & Produktion“ 2017.

Kommentare

Kommentar hinterlassen zu "Mustererkennung im Lektorat: Eine realistische Option?"

Hinterlassen Sie einen Kommentar

Mit dem Abschicken des Kommentars erklären Sie sich damit einverstanden, dass Ihre Daten elektronisch gespeichert werden. Diese Einverständniserklärung können Sie jederzeit gegenüber der Harenberg Kommunikation Verlags- und Medien-GmbH & Co. KG widerrufen. Weitere Informationen finden Sie in unseren Datenschutz-Richtlinien

E-Mail Adresse wird nicht veröffentlicht.


*

IT-Channel

buchreport IT-Channel
  • »Vertrauensmaschine« Blockchain – was sie für Wissenschaft und Verlage bedeutet  …mehr
  • Mustererkennung im Lektorat: Eine realistische Option?  …mehr

  • Webinar-Video

    webinar_videos

    Webinar verpasst?

    Falls Sie ein Webinar verpasst haben, können Sie nachträglich das Video zum Webinar bestellen und sich die Inhalte bequem am Computer anschauen. Hier finden Sie eine Übersicht der verfügbaren Webinar-Videos.

    Hardcover Belletristik
    1
    Robert Seethaler
    Hanser, Berlin
    2
    Frank Schätzing
    Kiepenheuer & Witsch
    3
    Jochen Gutsch, Maxim Leo
    Ullstein
    5
    Volker Klüpfel, Michael Kobr
    Ullstein
    09.07.2018
    Komplette Bestsellerliste Weitere Bestsellerlisten

    Veranstaltungen

    1. 3. August - 12. August

      25. Bienal do Livro, Buchmesse Brasilien

    2. 11. August - 13. August

      Nordstil Sommer

    3. 21. August - 25. August

      Gamescom

    4. 22. August - 26. August

      Buchmesse Peking

    5. 25. August - 27. August

      Maker Faire Hannover