Eine Datenbank-Technologie für unstrukturierte Dokumente

Vor allem Verlage mit großen Mengen an Inhalten (Dokumenten) beschäftigen sich mit einer Technologie, die unter dem Oberbegriff „NoSQL-Datenbank“ immer weitere Verbreitung findet. Diese Datenbanken sind vor allem dann stark, wenn sehr viele unterschiedlich oder kaum bis gar nicht strukturierte Dokumente verwaltet und publiziert werden sollen. Welche greifbaren Vorteile bietet diese neue Technologie tatsächlich?

 


Christian Kohl ist seit Jahresbeginn Berater für digitales Publizieren und Informationstechnologie. Zuvor war er von 2005 bis Ende 2015 beim Wissenschaftsverlag De Gruyter, zunächst im Bereich Electronic Publishing, ab 2012 als Director Information & Publishing Technology.


Zunächst ist eine präzisere Definition der Teminologie vonnöten, denn es gibt viele verschiedene Typen von NoSQL-DB. Die für Content-Verarbeitung im Verlagsbereich relevanteste Ausprägung sind dokumentorientierte Datenbanken („document-oriented“ oder „document store“), speziell die Unterklasse „XML-DB“. Bei einigen Verlagen und ihren Dienstleistern kommen inzwischen auch andere Typen von NoSQL-DB zum Einsatz, etwa für Business-Intelligence oder Analytics-Anwendungen. Ebenso gibt es mit zunehmendem Einsatz von semantischen Technologien einen Bedarf nach Graph-DB, ebenfalls eine Unterklasse der NoSQL-DB. In Bereichen, in denen sehr große Datenmengen in Echtzeit verarbeitet werden müssen (Stichworte sind hier häufig „web scale“ und „big data“), sind NoSQL-DB sogar längst zur Standardtechnologie geworden. Einige davon sind sogar von Konzernen wie Google, Facebook und Amazon entwickelt worden, da bestehende Technologien nicht den Anforderungen genügten. Eine tiefergehende Betrachtung würde aber an dieser Stelle den Rahmen sprengen.

Kein festes Datenbank-Schema

Eine SQL-Datenbank hat ein relationales Datenmodell als Grundlage, grob vereinfacht besteht alles aus Zeilen und Spalten, Werte stehen in Zellen. Eine dokumentorientierte NoSQL-XML-Datenbank hat als Datenmodell das XML-Dokument an sich. Der Vorteil einer XML-DB besteht darin, dass Dokumente im Vergleich zu einer SQL-DB nicht mehr „geschreddert“ werden müssen, damit sie in die Spalten-Zeilen-Struktur einer relationalen DB passen. Vielmehr wird das Dokument als solches in die DB eingespeist, und diese ermöglicht dann entsprechende Operationen darauf. Hinzu kommt, dass diese DB häufig kein Schema erfordern, es also nicht im Voraus notwendig ist, alle aktuellen und möglichen künftigen Datenstrukturen zu definieren und zu modellieren, sondern die Dokumente „as is“ in die DB übernommen werden können. Damit ist ein schnellerer Start in der Applikationsentwicklung möglich, bspw. mit einem Rapid-Prototyping-Ansatz.

Der Einsatz einer XML-DB erfordert allerdings ein konzeptionelles Umdenken im Vergleich zur relationalen Welt: Kein DB-Schema mehr, keine aufwendige Normalisierung, XQuery statt SQL als Abfragesprache. Glücklicherweise ist das für Verlage relativ einfach, da häufig ohnehin XML Know-how im Haus vorhanden ist. Insofern stellen XQuery und XSLT keine so großen Hürden dar wie in anderen Branchen, wo Mitarbeiter mit jahrelanger SQL-Erfahrung radikal umdenken müssten. Aber natürlich müssen neben reinen technischen Aspekten weitere „weiche“ Faktoren (u.a. Schulungsaufwände, Nachhaltigkeit) in die Entscheidungsfindung mit einfließen. Eine Anfangshürde ist auch der doch recht unscharf gehaltene Begriff NoSQL, der eben alle verschiedenen Typen von NoSQL-DB umfasst, die völlig unterschiedliche Stärken, Schwächen und Einsatzgebiete haben. Ein weiteres Argument ist oftmals, dass diese DB angeblich keine Datenkonsistenz garantieren – allerdings gibt es inzwischen einige NoSQL-DB, die den sog. ACID-Kriterien (Atomicity, Consistency, Isolation, Durability) genügen; zudem gibt es viele Anwendungsfälle, bei denen explizit auf Konsistenz zugunsten von Performance und Skalierbarkeit verzichtet werden kann.

XML-DB sind dann besonders wertvoll, wenn große Mengen von Dokumenten mit unterschiedlichen oder sogar sich verändernden Strukturen verarbeitet werden sollen. Rein technologisch betrachtet ist damit eine dokumentorientierte NoSQL-XML-Datenbank der „best fit“ für Anwendungsfälle, bei denen große Mengen XML-Dokumente im Fokus stehen. Der Einsatz von dokumentorientierten NoSQL-DB bietet hier die Chance, in den Feldern Flexibilität, Skalierbarkeit, Time-to-market, Performance und Kosten signifikante Verbesserungen zu erzielen. Speziell beim Thema Skalierbarkeit kommen die Stärken von NoSQL-DB zur Geltung, sie ermöglichen eine horizontale Skalierung („scale out“), im Gegensatz zur bei SQL-DB häufig anzutreffenden vertikalen Skalierung („scale up“): Hierbei wird möglichst einfache, billige Hardware parallel zueinander eingesetzt, anstatt wenige, spezielle und sehr teure Maschinen hochzurüsten. Eine der bekanntesten NoSQL-DB im Verlagsbereich ist zudem gleichzeitig auch eine Suchmaschine, dadurch ergeben sich zusätzlich Einsparpotenziale bei Lizenzund Implementierungskosten, da keine separate Suchmaschinenlösung mehr benötigt wird.

Der Reifegrad der verschiedenen NoSQL-Lösungen ist allerdings unterschiedlich, und noch gibt es kaum Standardsoftware, die darauf aufsetzt. Demnach überrascht es nicht, dass die meisten großen Verlage inzwischen eine solche Technologie einsetzen, wohingegen kleine bis mittlere Verlage sich häufig noch abwartend verhalten. Es gibt aber bereits erste Bewegungen von Herstellern von Standardsoftware, NoSQL in ihr Technikportfolio aufzunehmen, deshalb wird sich über kurz oder lang jeder IT-Verantwortliche damit auseinandersetzen müssen.

aus: pubiz.spezial Herstellung & Management 2016

Kommentare

Kommentar hinterlassen zu "Eine Datenbank-Technologie für unstrukturierte Dokumente"

Hinterlassen Sie einen Kommentar

E-Mail Adresse wird nicht veröffentlicht.


*


IT-Channel

buchreport IT-Channel
  • »Digitale Transformation« – was genau ist das jenseits der Buzzwords?  …mehr
  • knk übernimmt die Verlagssparte von Kumavision  …mehr
  • »3000 Wetterberichte schreibt ein Roboter besser als ein Redakteur«  …mehr

  • Webinar-Video

    webinar_videos

    Webinar verpasst?

    Falls Sie ein Webinar verpasst haben, können Sie nachträglich das Video zum Webinar bestellen und sich die Inhalte bequem am Computer anschauen. Hier finden Sie eine Übersicht der verfügbaren Webinar-Videos.

    Hardcover Belletristik
    1
    Brown, Dan
    Bastei Lübbe
    2
    Kehlmann, Daniel
    Rowohlt
    3
    Menasse, Robert
    Suhrkamp
    4
    Gier, Kerstin
    Fischer FJB
    5
    Follett, Ken
    Bastei Lübbe
    16.10.2017
    Komplette Bestsellerliste Weitere Bestsellerlisten

    Veranstaltungen

    1. 24. Oktober - 26. Oktober

      Medientage München

    2. 25. Oktober

      Webinar: Ausdrucksstarke Grafiken für Social Media

    3. 4. November - 7. November

      Buchmesse Istanbul

    4. 7. November

      Bayerischer Buchpreis

    5. 9. November - 12. November

      Buch Wien