Cloud
19.02.2019
Haufe Group
1. Teil: „Cloudbasierter Content Hub als Drehscheibe“

Cloudbasierter Content Hub als Drehscheibe

Cloud-DatenbankCloud-DatenbankCloud-Datenbank
Virgiliu Obada / Shutterstock.com
Eine moderne Datenbanktechnologie sorgt bei der Haufe Group für bessere Suchergebnisse. Dabei setzt das Unternehmen auf eine Cloud-gestützte Lösung.
Die Haufe Group hat sich aus den Kern­bereichen eines erfolgreichen Verlagsgeschäfts zu einem Spezialisten für digitale und webbasierte Services entwickelt und vertreibt heute vorwiegend digitale Produkte und Dienstleistungen. Lizenznehmer erhalten über kostenpflichtige Portale Zugriff auf Fachinformationen aus verschiedenen (Arbeits-)Bereichen wie zum Beispiel Personal, Steuern, Recht, Arbeitsschutz, Öffentlicher Dienst oder Compliance. Außerdem betreibt die Haufe Group eine Akademie mit einem breit gefächerten Seminarangebot für Fach- und Führungskräfte.
Die Fachexpertise des Unternehmens stützt sich auf riesige Datenmengen, die geschickt verwaltet und verknüpft werden müssen, damit sich Nutzer bei ihrer Online-Suche innerhalb kürzester Zeit einen möglichst umfassenden Überblick über das Angebot an Fachliteratur und Weiterbildungsangeboten verschaffen können. Um zu ermöglichen, dass Nutzer die gesamte Bandbreite an Produkten und Services abrufen können und bei ihrer Schlagwortsuche passgenaue Suchergebnisse erhalten, setzt die Haufe Group in ihrem Geschäftsbereich Editorial Department mittlerweile auf die Datenbanktechnologie von MarkLogic.

Streuverluste durch Datensilos

  • Content Hub der Haufe Group: Hinter der Suchfunktion liegt eine leistungsstarke Datenbanktechnologie mit flexiblen Verknüpfungsmöglichkeiten.
    Quelle:
    Haufe
Vor Einführung der neuen Datenbanktechnologie vor rund drei Jahren hatte das Unternehmen seine Daten über verschiedene Datentöpfe verteilt, die für jeweils unterschiedliche Applikationen bereitstanden. Eine Verknüpfung der Daten und damit eine Gesamtbetrachtung aller Inhalte war kaum möglich. Nutzer der Website erhielten bei ihrer Schlagwortsuche Ergebnisse, die nur zum Teil das tatsächliche Angebot an verfügbaren Fachinformationen wiedergaben, thematische Querverweise fehlten weitgehend. Die Streuverluste für den Nutzer waren erheblich, Haufe konnte sein Potenzial nicht ausschöpfen.
Ziel war es deshalb, einen zentralen Content Hub aufzubauen, der diese Defizite beseitigt und den Nutzern wesentlich bessere Suchergebnisse liefert. Dabei stand das Team vor der Herausforderung, mit einem gewachsenes System umgehen zu müssen, das auf der Open-Source-Plattform Solr und relationalen Datenbanken basierte.
Darin wurden unterschiedliche Datentypen wie Buch-Metadaten, Widgets, Buchumschläge, Produktinformationen und der eigentliche Content in unterschiedlichen Datensilos gespeichert. Die Abfrage erfolgte über verschiedene Suchmaschinen und Tools. Insgesamt mussten rund 1,5  Millionen Dokumente, meist in XML-Format, in die neue Datenbank integriert werden.
2. Teil: „Enterprise-NoSQL-Datenbank“

Enterprise-NoSQL-Datenbank

Nach einer Evaluationsphase und der Erarbeitung eines Proofs of Concept hatte sich herausgestellt, dass für diese Aufgabe eine NoSQL-Datenbank, die auf einem flexiblen Datenmodell basiert, am besten geeignet ist. Denn in relationalen Datenbanken gestalten sich der Import und die Konvertierung von Dateien zeitaufwendig und komplex. Die Haufe Group entschied sich für ein NoSQL-Datenbanksystem von MarkLogic, dessen Betrieb cloudbasiert über Microsoft Azure laufen sollte.
In einem ersten Schritt wurde das Konzept des Content Hubs erstellt und danach ein grobes Datenmodell erarbeitet, das unterschied­liche Inhalte in ein einheitliches Format überführt. Ziel war es, die Automatisierung der häufig notwendigen Dokumentenaktualisierungen möglichst einfach zu gestalten und gleichzeitig die Suchergebnisse für Nutzer deutlich zu verbessern.
Die schnelle und unkomplizierte Aktualisierung der Dokumente war für Haufe von zentraler Bedeutung, denn das Know-how des Unternehmens gründet auf einer sehr detaillierten und vielfältigen Content-Erstellung. „Unsere Redaktion arbeitete schon immer sehr Content-orientiert. Diese Arbeitsweise musste in die digitale Dokumentenverwaltung übertragen werden“, beschreibt Alexander Bieber, Projektleiter Content Hub bei der Haufe Group, die Aufgabenstellung.  
Das zentrale Element der geplanten Architektur war eine Services-Schicht, die durch ein API-Gateway an die Konsumenten exponiert wird. Im Detail handelt es sich um Dienste für den Ingest des Contents (Verarbeitung von Content in der Datenbank) und für die Suche und Analyse der Inhalte.
Als weiteres tragendes Element wurde die MarkLogic-Software definiert, die die Services-Schicht unterstützt und als Suchmaschine und zentrale Dokumentenablage (Repository) agiert. Für die MarkLogic-Datenbank als zentralen Content Hub sprach zum einen die native XML-Verwaltung, da die meisten Daten in diesem Format vorliegen, zum anderen das flexible, schemalose Datenmodell, das eine hohe Skalierbarkeit bietet.
3. Teil: „Schnelle Entwicklung“

Schnelle Entwicklung

Die Einführung der Datenbank hat darüber hinaus auch die Abfrage und damit die Qualität der Suchergebnisse in hohem Maß verbessert. Die Ergebnislisten werden nach diversen Themenbereichen sortiert, darunter Controlling, Finance, Recht und Sozialwesen. Zudem erhält der Nutzer nun Angaben zu Art und Anzahl der gefundenen Dokumente wie News, Kommentare, Arbeitshilfen, Downloads und so weiter. Das eröffnet ihm die Möglichkeit, seine Suche weiter zu verfeinern. Besonders positiv wirkt sich die Möglichkeit der verknüpften Suche auf die Qualität der Ergebnisse aus: Nutzern, die etwa im Bereich Immobilien nach steuerrelevanten Themen suchen, stehen nun auch Dokumente aus dem Fachbereich Steuern zur Verfügung. Dies war mit dem alten System aufgrund der Datenspeicherung in unterschiedlichen Datensilos nicht möglich.
Mit einem Klick auf den jeweiligen Beitrag stellt das System zudem eine Übersicht der meistgelesenen Beiträge zur gesuchten Thematik, die Top-Themen sowie verfügbare Downloads, Seminarangebote und themen­relevante Fachmagazine zur Verfügung. „Die MarkLogic-Datenbank liefert eine komplette 360-Grad-Sicht auf alle vorhandenen Dokumente. Der Mehrwert für den Nutzer liegt in den granularen Suchmöglichkeiten, die für sehr gute Ergebnisse sorgen“, so Alexander Bieber.
20 bis 30 Anfragen pro Sekunde bearbeitet die Datenbank bei der Haufe Group im Schnitt derzeit, 75 bis 80 Anfragen wären maximal möglich. Damit ist das Unternehmen gut gerüstet, Nutzer können mit dem neuen System auf einen weitaus größeren Daten-Pool zugreifen, als dies vor Einführung der NoSQL-Datenbank möglich war.
Haufe arbeitet daran, das Potenzial der Datenbank weiter auszuschöpfen und die Ergebnislisten stetig zu verbessern. So sollen künftig auch neue Formate wie Bilder und Videos gespeichert, die Autovervollständigungs- und Rechtschreibkorrekturen verbessert und die Ergebnislisten im Sinne eines lernenden Empfehlungssystems noch granularer werden – „Die meisten Leser, die das gesucht haben, haben auch nach folgenden Themen gesucht …“.
Außerdem will das Content-Hub-Team von Haufe die Flexibilität des Systems hinsichtlich der Suchkriterien besser nutzen, denn Nutzer arbeiten bei Abfragen sehr individuell: Setzen sie bei der Schlagwortsuche etwa die Präferenz beim Titel, beim Text, dem Datum oder der Dokumentenart?

360-Grad Sicht auf Produkte

„Unser Ziel ist es, die Suche noch feiner zu justieren. Die Datenbanktechnologie von MarkLogic bietet dafür sehr gute Verknüpfungsmöglichkeiten und damit die notwendige 360-Grad Sicht auf unsere Produkte und Dienstleistungen. Damit erreichen wir ein einheitliches Abfrage- und Rechercheerlebnis für Kunden hinsichtlich Suche und Trefferqualität“, resümiert Bieber.
Neben den Vorteilen im Content-Bereich ist ihm auch der organisatorische Mehrwert, der sich für das Team ergibt, wichtig. Durch automatisierte Prozesse bei der Bereitstellung und Aktualisierung der Produkte und des Contents werden Ressourcen frei, die anderweitig genutzt werden können.
Die Projektierung der Lösung erfolgte mit Unterstützung von MarkLogic Consulting in den Bereichen Architektur, Entwicklung und Betrieb. Das Projekt wurde in einer agilen Methode implementiert und führte Alexander Bieber zufolge sehr schnell zu den ersten Versionen. Heute entwickelt das Haufe-Team die Lösung selbstständig weiter und betreibt sie erfolgreich über Micro­softs Cloud-Plattform Azure.

mehr zum Thema