Eine Datenbank-Technologie für unstrukturierte Dokumente

Vor allem Verlage mit großen Mengen an Inhalten (Dokumenten) beschäftigen sich mit einer Technologie, die unter dem Oberbegriff „NoSQL-Datenbank“ immer weitere Verbreitung findet. Diese Datenbanken sind vor allem dann stark, wenn sehr viele unterschiedlich oder kaum bis gar nicht strukturierte Dokumente verwaltet und publiziert werden sollen. Welche greifbaren Vorteile bietet diese neue Technologie tatsächlich?

Christian Kohl ist seit Jahresbeginn Berater für digitales Publizieren und Informationstechnologie. Zuvor war er von 2005 bis Ende 2015 beim Wissenschaftsverlag De Gruyter, zunächst im Bereich Electronic Publishing, ab 2012 als Director Information & Publishing Technology.

Zunächst ist eine präzisere Definition der Teminologie vonnöten, denn es gibt viele verschiedene Typen von NoSQL-DB. Die für Content-Verarbeitung im Verlagsbereich relevanteste Ausprägung sind dokumentorientierte Datenbanken („document-oriented“ oder „document store“), speziell die Unterklasse „XML-DB“. Bei einigen Verlagen und ihren Dienstleistern kommen inzwischen auch andere Typen von NoSQL-DB zum Einsatz, etwa für Business-Intelligence oder Analytics-Anwendungen. Ebenso gibt es mit zunehmendem Einsatz von semantischen Technologien einen Bedarf nach Graph-DB, ebenfalls eine Unterklasse der NoSQL-DB. In Bereichen, in denen sehr große Datenmengen in Echtzeit verarbeitet werden müssen (Stichworte sind hier häufig „web scale“ und „big data“), sind NoSQL-DB sogar längst zur Standardtechnologie geworden. Einige davon sind sogar von Konzernen wie Google, Facebook und Amazon entwickelt worden, da bestehende Technologien nicht den Anforderungen genügten. Eine tiefergehende Betrachtung würde aber an dieser Stelle den Rahmen sprengen.

Kein festes Datenbank-Schema

Eine SQL-Datenbank hat ein relationales Datenmodell als Grundlage, grob vereinfacht besteht alles aus Zeilen und Spalten, Werte stehen in Zellen. Eine dokumentorientierte NoSQL-XML-Datenbank hat als Datenmodell das XML-Dokument an sich. Der Vorteil einer XML-DB besteht darin, dass Dokumente im Vergleich zu einer SQL-DB nicht mehr „geschreddert“ werden müssen, damit sie in die Spalten-Zeilen-Struktur einer relationalen DB passen. Vielmehr wird das Dokument als solches in die DB eingespeist, und diese ermöglicht dann entsprechende Operationen darauf. Hinzu kommt, dass diese DB häufig kein Schema erfordern, es also nicht im Voraus notwendig ist, alle aktuellen und möglichen künftigen Datenstrukturen zu definieren und zu modellieren, sondern die Dokumente „as is“ in die DB übernommen werden können. Damit ist ein schnellerer Start in der Applikationsentwicklung möglich, bspw. mit einem Rapid-Prototyping-Ansatz.

Der Einsatz einer XML-DB erfordert allerdings ein konzeptionelles Umdenken im Vergleich zur relationalen Welt: Kein DB-Schema mehr, keine aufwendige Normalisierung, XQuery statt SQL als Abfragesprache. Glücklicherweise ist das für Verlage relativ einfach, da häufig ohnehin XML Know-how im Haus vorhanden ist. Insofern stellen XQuery und XSLT keine so großen Hürden dar wie in anderen Branchen, wo Mitarbeiter mit jahrelanger SQL-Erfahrung radikal umdenken müssten. Aber natürlich müssen neben reinen technischen Aspekten weitere „weiche“ Faktoren (u.a. Schulungsaufwände, Nachhaltigkeit) in die Entscheidungsfindung mit einfließen. Eine Anfangshürde ist auch der doch recht unscharf gehaltene Begriff NoSQL, der eben alle verschiedenen Typen von NoSQL-DB umfasst, die völlig unterschiedliche Stärken, Schwächen und Einsatzgebiete haben. Ein weiteres Argument ist oftmals, dass diese DB angeblich keine Datenkonsistenz garantieren – allerdings gibt es inzwischen einige NoSQL-DB, die den sog. ACID-Kriterien (Atomicity, Consistency, Isolation, Durability) genügen; zudem gibt es viele Anwendungsfälle, bei denen explizit auf Konsistenz zugunsten von Performance und Skalierbarkeit verzichtet werden kann.

XML-DB sind dann besonders wertvoll, wenn große Mengen von Dokumenten mit unterschiedlichen oder sogar sich verändernden Strukturen verarbeitet werden sollen. Rein technologisch betrachtet ist damit eine dokumentorientierte NoSQL-XML-Datenbank der „best fit“ für Anwendungsfälle, bei denen große Mengen XML-Dokumente im Fokus stehen. Der Einsatz von dokumentorientierten NoSQL-DB bietet hier die Chance, in den Feldern Flexibilität, Skalierbarkeit, Time-to-market, Performance und Kosten signifikante Verbesserungen zu erzielen. Speziell beim Thema Skalierbarkeit kommen die Stärken von NoSQL-DB zur Geltung, sie ermöglichen eine horizontale Skalierung („scale out“), im Gegensatz zur bei SQL-DB häufig anzutreffenden vertikalen Skalierung („scale up“): Hierbei wird möglichst einfache, billige Hardware parallel zueinander eingesetzt, anstatt wenige, spezielle und sehr teure Maschinen hochzurüsten. Eine der bekanntesten NoSQL-DB im Verlagsbereich ist zudem gleichzeitig auch eine Suchmaschine, dadurch ergeben sich zusätzlich Einsparpotenziale bei Lizenzund Implementierungskosten, da keine separate Suchmaschinenlösung mehr benötigt wird.

Der Reifegrad der verschiedenen NoSQL-Lösungen ist allerdings unterschiedlich, und noch gibt es kaum Standardsoftware, die darauf aufsetzt. Demnach überrascht es nicht, dass die meisten großen Verlage inzwischen eine solche Technologie einsetzen, wohingegen kleine bis mittlere Verlage sich häufig noch abwartend verhalten. Es gibt aber bereits erste Bewegungen von Herstellern von Standardsoftware, NoSQL in ihr Technikportfolio aufzunehmen, deshalb wird sich über kurz oder lang jeder IT-Verantwortliche damit auseinandersetzen müssen.

aus: pubiz.spezial Herstellung & Management 2016

Christian Kohl über NoSQL-Datenbanken für Verlage

Eine Datenbank-Technologie für unstrukturierte Dokumente

Kein festes Datenbank-Schema

Kommentare

Kommentar hinterlassen zu "Eine Datenbank-Technologie für unstrukturierte Dokumente"

Hinterlassen Sie einen Kommentar Antworten abbrechen

Themen-Kanäle

SPIEGEL-Bestseller

Veranstaltungen

Die aktuellsten Artikel

Neueste Kommentare

größte Buchhandlungen