30.10.2019

Alle Daten im Griff haben

1. Teil: „Virtualisierung macht Schluss mit Datensilos“

Virtualisierung macht Schluss mit Datensilos

sdecoret / shutterstock.com

Klassische Data Warehouses und Data Lakes erfüllen nicht mehr die nötigen Anforderungen. Abhilfe kann eine Datenvirtualisierung schaffen.

Konsistent über Datensilos hinweg: Metadaten spielen eine wichtige Rolle beim Sortieren, Filtern und Suchen von Daten.
Quelle:
Denodo

Daten, Daten, Daten - durch Digitalisierung und das Internet of Things (IoT) wächst die Menge der verfügbaren Informationen in Unternehmen geradezu exponentiell. Die Kunst liegt darin, diesen Datenschatz zu heben, diesen Ozean an Informationen intelligent zu analysieren und dann die richtigen Entscheidungen zu treffen. Unabhängig von Branche oder Größe - Daten sind für Unternehmen jeder Couleur unverzichtbar geworden, um Prozesse zu optimieren und vor allem neue, datenbasierte Geschäftsmodelle zu entwickeln.

Dazu müssen Firmen die vorhandenen, gigantischen Datenmengen allerdings zuerst erschließen und aufbereiten. Hier sieht es im deutschsprachigen Raum nicht so gut aus. Das zeigen die
Ergebnisse der aktuellen „biMA“-Studie von Sopra Steria Consulting. Demnach gibt die Hälfte aller befragten Unternehmen (49 Prozent) an, dass ihre Daten für Analysen unvollständig, veraltet oder widersprüchlich seien. Neben der mangelhaften Datenqualität stellt auch die fehlende Integration von Daten aus unterschiedlichsten Datenquellen eine Hürde dar.

Zahlreiche Firmen kämpfen bei der Datenanalyse also immer noch mit den Grundlagen: Verfügbarkeit, Integration und Qualität. Datenvirtualisierung soll diese Probleme lösen. Sie fungiert als eine Art Middleware für die schnelle Bereitstellung von Daten.

Aufwand für Datenvorbereitung

Traditionelle Ansätze des Datenmanagements auf Basis von Data Warehouses oder Data Lakes wie ETL (Extract, Transform, Load), bei denen Daten für Analysen zunächst gespeichert und transformiert werden müssen, gelangen zunehmend an ihre Grenzen.

„Der Aufwand und die Kosten sind hier sehr hoch. Bevor Unternehmen die Daten nutzen können, müssen sie diese in Datenbanken laden, speichern, bearbeiten und vorbereiten“, erklärt Nick Golovin das Problem, CEO & Gründer von Data Virtuality, einem Anbieter von Software für Datenvirtualisierung. „Der Aufbau eines Data Lakes, eines zentralen Repositorys, in dem sämtliche Daten gespeichert und verwaltet werden, ist nicht trivial.“

Oft verfügen Firmen heute über Dutzende von Datenquellen, die über Rechenzentren, Cloud-Lösungen und andere Orte verteilt sind. Daher ist nicht garantiert, dass wirklich alle relevanten Daten im Data Lake landen. Der zentrale Speicherort erleichtert zwar die Erfassung von Daten und bietet eine hohe Rechenleistung, aber die Herausforderungen an Verfügbarkeit, Aufbereitung und Integration der Daten bleiben bestehen. Denn es reicht nicht, Daten einfach in ihrer Rohform zu speichern.

Unternehmen müssen eine ausufernde Vielfalt von Datentypen und Formaten aggregieren, validieren, mit Metadaten versehen, normalisieren oder verknüpfen, um sie in möglichst optimaler Qualität für analytische und andere Zwecke einsetzen zu können. Das kostet enorm viel Zeit. Studien zeigen, dass Datenexperten bis zu 80 Prozent ihrer Zeit mit entsprechenden Aufgaben beschäftigt sind. Einen Ausweg und die Lösung des Problems verspricht die Datenvirtualisierung.

Zentrale Fähigkeiten der Datenvirtualisierung

Logische Abstraktion und Entkoppelung: Datenvirtualisierung verbindet verteilte Datenquellen, Middleware und Anwendungen, die spezielle Plattformen und Schnittstellen, Formate, Schemata, Sicherheitsprotokolle oder andere Eigenschaften nutzen.

Data Federation: Das Zusammenführen von Daten ist eine wichtige Teildisziplin der Datenvirtualisierung. Um die Geschwindigkeit von Abfragen zu optimieren, kommen unter anderem Techniken wie Caching, In-Memory-Verarbeitung und Algorithmen zum Einsatz.

Integration strukturierter und unstrukturierter Daten: Datenvirtualisierung schlägt eine Brücke zwischen dem Verständnis von unstrukturierten und Webdaten einerseits und dem schematischen Verständnis strukturierter Daten andererseits.

Dynamische Bereitstellung von Datenservices: Datenvirtualisierung fördert die API-Ökonomie, indem sie über Schnittstellen den Zugriff auf jede noch so unterschiedlich formatierte digitale Datenquelle ermöglicht.

Einheitliche Data-Governance und Sicherheit: Alle Daten lassen sich durch eine einzelne virtuelle Ebene, die Redundanzen und Qualitätsprobleme schneller aufdeckt, leicht integrieren. Basis dafür sind Data-Governance und Security von der Quelle bis zum Datenservice für die Ausgabe, eine konsistente Integration sowie Regeln für die Datenqualität.

Tabelle öffnen

2. Teil: „Virtualisierung schafft Abhilfe “

Virtualisierung schafft Abhilfe

Quelle:
Sopre Steria Consulting

Datenvirtualisierung stellt über Konnektoren Daten aus unterschiedlichen Datenquellen einfach und schnell in einem virtuellen Datenmodell bereit, entweder über Datenbank-Protokolle wie SQL, ODBC oder JDBC, Web-Services wie HTTP, REST, SOAP oder XML sowie Messaging (JMS). So werden auch Daten verfügbar, die sich noch nicht im Data Lake befinden.

„Im Prinzip handelt es sich bei Datenvirtualisierung um eine Art Middleware, die Daten aus verschiedenen Töpfen sammelt und direkt für die Analyse zur Verfügung stellt. Der Nutzer bekommt nicht mit, woher die Daten stammen. Das heißt, die Komplexität wird versteckt, es sieht für ihn wie eine einzige Datenbank aus“, erklärt Nick Golovin die Idee dieses Ansatzes.

Datenvirtualisierung schafft somit eine Abstraktionsschicht zwischen den vorhandenen internen und externen Datenquellen sowie den Reporting-Tools. Hierbei ist es unwesentlich, um welche Art von Datenquelle und Datenformat es sich handelt.

„Datenvirtualisierung integriert all diese unterschiedlichen Daten, ohne die Daten replizieren zu müssen. Auf diese Weise wird eine einzelne, ‚virtuelle‘ Datenebene geschaffen, die mit einheitlichen Datenservices zahlreiche Anwendungen und geschäftliche Nutzer unterstützt“, erläutert Thomas Niewel, Technical Sales Director DACH beim Virtualisierungs-Anbieter Denodo.

Lösungen für die Datenvirtualisierung kombinieren, integrieren und bereinigen die anfallende Daten und wandeln sie für das jeweilige Einsatzszenario in ein passendes semantisches Datenmodell um, meist in einer grafischen Bedienoberfläche oder durch dokumentierte Skripts. Die jeweilige virtuelle Datenansicht wird gesichert und als SQL-Ansicht oder in anderen Datenservice-Formaten meist über APIs veröffentlicht.

Schneller Zugriff

„Nutzer und Anwendungen erhalten damit in Echtzeit abstrahierte und integrierte Informationen aus verteilten Quellen. Echtzeit heißt hier nicht Streamen von Daten, sondern die Bereitstellung von Daten innerhalb einer Minute“, so Thomas Niewel. Um den Zugriff auf die Daten zu beschleunigen, werden sie meist in einem Cache vorgehalten. Zusätzlich sorgen Algorithmen dafür, dass Abfragen auf die einzelnen Datenquellen optimiert werden.

Robert Eve, Senior Director of Data Intelligence bei TIBCO Software, stellt als einen der wichtigsten Vorteile der Datenvirtualisierung heraus, dass sie zu einer höheren Agilität im Business beiträgt, da die Daten schneller für die Analyse bereitstehen als bei herkömmlichen Methoden der Datenintegration wie ETL und Replikation.

„Die IT-Abteilung stellt die Datensätze damit den Fachabteilungen als Data as a Service konsistenter, sicherer und schneller zu deutlich niedrigeren Kosten bereit. Es sind keine Kopien mehr notwendig, der Administrationsaufwand sinkt und auch die Compliance etwa mit der europäischen Datenschutz-Grundverordnung bleibt gewahrt“, betont
Robert Eve.

Der einheitliche Datenzugriff über Selfservice ermögliche es Business-Anwendern, Daten innerhalb weniger Minuten ohne aufwendige Suche zu finden, in das Analyse-Tool ihrer Wahl zu ziehen und die Ergebnisse anschaulich zu visualisieren. Dadurch sind sie laut Eve in der Lage, schnellere und bessere Entscheidungen mit Mehrwert für ihr Geschäft zu treffen.

„Wenn man bedenkt, dass die Data Scientists laut IDC mit herkömmlichen Mitteln und Methoden 80 Prozent ihrer Zeit mit der Suche und Aufbereitung von Daten verbringen, dann zeigt sich das große Potenzial, das die Datenvirtualisierung hier bietet. Mit Hilfe von Datenvirtualisierung sind die Experten also nicht länger von Montag bis Donnerstag mit der Datenaufbereitung beschäftigt und mit der eigentlichen Analyse nur am Freitag.“

Hinzu kommt: Die Daten lassen sich darüber hinaus je nach Bedarf mit der ursprünglichen Datenquelle synchronisieren, und durch ein zentrales Zugriffsmanagement erhalten ausschließlich berechtigte Mitarbeiter Zugang zu entsprechenden Daten.

Vorteile der Datenvirtualisierung

Firmen können von Investitionen in Datenvirtualisierung profitieren. Sie bietet folgende wichtige Vorteile:

Überblick: Einheitliche Sicht auf Daten durch die Integration von Informationen, die in mehreren Quellen gespeichert sind.

Agilität: Schneller Zugriff auf Informationen nahezu in Echtzeit zum Zeitpunkt der Abfrage.

Effizienz: Bessere Nutzung vorhandener Datenbestände, auch durch hohen Automatisierungsgrad.

Niedrigere Kosten: Der Aufwand sinkt, da Daten nicht mehr physisch repliziert, verschoben und mehrmals gespeichert werden müssen.

Selfservice: Nutzer aus den Fachabteilungen können dank einfacherer Bedienung und Suche selbst auf hochwertige Daten zugreifen und sind dadurch besser mit aktuellen Informationen versorgt.

Compliance: Datenvirtualisierung erhöht den Datenschutz, da Daten nicht mehr dupliziert und an mehreren Standorten gespeichert werden.

Schnell implementiert: Im Vergleich zu einem traditionellen Data Warehouse sind Lösungen für Datenvirtualisierung schneller zu implementieren.

Tabelle öffnen

3. Teil: „Herausforderung Performance “

Herausforderung Performance

Große Fische: Auf dem Markt für Datenintegration und Datenvisualisierung mischen viele bekannte Hersteller mit.
Quelle:
Gartner

Über eines muss man sich allerdings auch im Klaren sein: Die Datenvirtualisierung gibt nicht auf jede Herausforderung der Datenintegration die richtige Antwort. So bildet beispielsweise die Batch-ETL-Verarbeitung beim Erstellen von historischen Berichten mit den im Data Warehouse gespeicherten historischen Ergebnissen eine bessere Lösung. Wenn jedoch diese historischen Berichte eine von mehreren Datenquellen darstellen, dann spielt die Datenvirtualisierung ihre ureigenen Stärken aus. Die Methodik der Datenvirtualisierung lohnt sich demnach überhaupt erst ab einer gewissen Komplexität, wenn also mehrere Datenquellen vorliegen. Als Mindestgröße gelten drei Datenquellen.

Eine große technische Herausforderung sind die Schnittstellen zwischen der Datenvirtualisierungs-Software und den Datenquellen. Wenn ein Fileserver als Quelle langsam ist, dann ist auch der virtuelle Zugriff langsam. Es geht also um die schnelle Präsentation der Daten in Quasi-Echtzeit. Die Anbieter setzen in diesem Fall auf Caching des Fileservers und leiten den Zugriff auf die Daten im Cache um. Weitere Methoden sind Parallel Processing oder verschiedene Algorithmen für die Optimierung der Abfragen auf die einzelnen Datenquellen.

Robert Eve von TIBCO sieht die größte Herausforderung bei Einführung einer Datenvirtualisierungs-Lösung im Change-Management. „Datenexperten sind mit den physischen Methoden und Tools zur Datenintegration über ETL vertraut. Sie wissen, dass sie diese mit genügend Zeit und Technik zum Laufen bringen können. Doch etwa für Ad-hoc-Anfragen benötigen sie einen alternativen Ansatz und Know- how rund um das Thema Datenvirtualisierung. Hier stellen wir oft eine Barriere fest.“

Um diese Bedenken zu überwinden, bietet TIBCO Leitfäden und eine Vielzahl von Best Practices für die Entwicklung, Datenmodellierung, Optimierung und den Betrieb einer skalierbaren Lösung zur Datenvirtualisierung.

Vielfältige Einsatzgebiete

Robert Eve unterscheidet grundsätzlich zwei Use-Cases der Datenvirtualisierung: den Einsatz als Datenarchitektur und den Einsatz auf Projektebene.

Bei Ersterem ist es Ziel des Unternehmens, eine firmenweite Datenschicht zu implementieren, die alle Datenquellen umfasst und alle Anwendungen und Datennutzer unterstützt. Dazu erklärt Robert Eve. „Es gibt viele Namen für diese Art von Architektur: Logical Data Warehouse, Data Fabric, Datenvirtualisierungs-Schicht oder Data-Delivery-Plattform. Ich persönlich finde Data as a Service am besten.“

Auf Projektebene wiederum würden die Datenvirtualisierungs-Techniken dazu eingesetzt, um die Daten zu integrieren, die für eine bestimmte Geschäftsanforderung erforderlich sind. Hier bildet die Datenvirtualisierung also eher ein Werkzeug zur Datenintegration als eine Datenarchitektur. „Diese beiden Anwendungsfälle hängen oft zusammen, unsere erfolgreichsten Kunden sehen Projekte häufig als Sprungbrett hin zur Architektur“, betont Eve.

Thomas Niewel von Denodo sieht keine besonderen Begrenzungen für den Einsatzbereich. „Im Prinzip profitiert jede Branche, die umfangreiche Daten analysieren muss, ab einer gewissen Komplexität und Vielfalt an Datenquellen von der Datenvirtualisierung. Beispiele sind die Auswertung von Finanztransaktionen, die 360-Grad-Sicht auf den Kunden in Service, Vertrieb und Marketing, Selfservice-Analytics und BI mit Dashboards, die Vereinigung von verschiedenen Data Warehouses oder der Transport zwischen Datenquellen in einer hybriden Cloud-Umgebung.“

Datenvirtualisierung kann auch digitale Prozesse beschleunigen. Beispiel Maschinenbau: Ändern sich in einem Unternehmen durch IoT oder andere Themen die Produktionsprozesse, sammelt es die Produktionsdaten nicht nur im SAP-System, sondern auch in anderen Datenbanken oder Data Warehouses. Mit Datenvirtualisierung wird hier der Zugriff auf die Daten für die Analyse vereinfacht und beschleunigt. Gleiches gilt für den Fall, dass ein Geschäftsbereich für ein datenbasiertes neues Geschäftsmodell schnell und unkompliziert Daten verarbeiten muss.

Tabelle:

Tabelle öffnen

4. Teil: „Maschinelles Lernen im Einsatz“

Maschinelles Lernen im Einsatz

Quelle:
IDC

Hier wird künftig maschinelles Lernen eine zentrale Rolle spielen. „Die Datenlandschaft wird immer komplexer: mehr Quellen, mehr Kunden und mehr Daten. Algorithmen und maschinelles Lernen unterstützen beim Erstellen von Datenmodellen, beim Erkennen von Zusammenhängen zwischen Daten und natürlich auch beim Optimieren der Abfrageleistung“, so Thomas Niewel.

Auch beim Metadaten-Management lassen sich mit KI Assoziationen bilden, um Zusammenhänge besser zu erkennen. Metadaten spielen eine wichtige Rolle beim Sortieren, Filtern und Suchen von Daten. Ziel wird sein, die Metadaten künftig über Datensilos hinweg konsistent zu erfassen. Datenvirtualisierung wird dann auch zu einem Repository für Metadaten.

Ein weiterer wichtiger Trend sind intuitiv nutzbare Bedienoberflächen und eine verbesserte Visualisierung, damit auch weniger IT-affine Anwender die Tools für die Datenvirtualisierung im Selfservice einsetzen können. So lassen sich auch die Beziehungen zwischen den Datenelementen visualisieren. Aufgrund der zentralen Definition und Speicherung wird außerdem der Transformationsprozess von der Quelle bis zum Zielformat transparent.

Zudem ist davon auszugehen, dass Datenvirtualisierung künftig enger mit anderen Datenmanagement-Tools für ETL, Master Data Management, Metadaten-Management oder Data Governance zusammenwachsen wird.

Funktionen und Komponenten

Welche Funktionen und Merkmale sollten Werkzeuge für die Datenvirtualisierung umfassen? Für Nick Golovin von Data Virtuality steht die Einbindung und Connectivity zu vielen unterschiedlichen Datenquellen ganz oben auf der Liste: „Zentral ist hier ein schneller Zugriff auf die Daten. Daher geht es darum, die Performance der Abfragen mit Methoden wie Caching, Parallel Processing und weiteren Algorithmen zu optimieren.“

Weiterhin wichtig sind seiner Ansicht nach Funktionen für Security und Data Governance, Hochverfügbarkeit und Skalierbarkeit sowie Ressourcen-Management.

Robert Eve von TIBCO Software nennt die folgenden fünf Hauptkomponenten von Lösungen für die Datenvirtualisierung:

Datenmodellierung: Wiederverwendbare Datenservices bündeln Daten aus verschiedenen Quellen und wandeln die Rohdaten für die Analyse in lesbare Formate um

Laufzeitumgebung (Runtime): Ein Application Server führt die Datenservices mit Hilfe von Algorithmen aus, um die Leistung der Abfragen zu optimieren

Management: Diese Komponente stellt die Verfügbarkeit und Servicequalität sicher. Hier erfolgen auch administrative Aktivitäten wie Benutzeranmeldung, Sicherheit oder Backup- und Failover-Umgebungen

Adapter/Konnektoren: Eine Vielzahl von Konnektoren dient der Anbindung von Datenquellen und Schnittstellen wie ODBC, SOAP oder REST für den Zugriff durch die Nutzer oder Anwendungen

Katalog: Hier können die Anwender nach Datenservices suchen und diese nutzen.

Fazit & Ausblick

Das Konzept der Datenvirtualisierung existiert im Umfeld von Business Intelligence (BI) und Data Warehousing schon seit einer ganzen Weile. Klassische Tools der Datenintegration laden dabei Daten aus verschiedenen Quellsystemen, bereiten sie auf und speichern sie in einem Data Warehouse. Über BI-Berichte werden diese Informationen dann visualisiert.

Bei der Datenvirtualisierung selbst geht es dann in Kern in erster Linie um die logische Datenintegration von Daten zum Abfragezeitpunkt. Sie schafft vor allem eine Abstraktionsschicht zwischen den vorhandenen internen und externen Datenquellen sowie den diversen Reporting-Tools. Ganz entscheidend dabei ist: Dafür ist es unwesentlich, um welche Art von Datenquellen und Datenformaten es sich handelt.

Nach außen hin sieht die Datenvirtualisierungs-Lösung aus wie ein Data Warehouse. Der entscheidende Unterschied ist, dass sie die Daten nicht selbst speichert, sondern sie holt sie bei Abfragen mehr oder weniger in Echtzeit on demand aus den Quellsystemen.

Mit Datenvirtualisierung können Unternehmen gegenüber herkömmlichen Tools für die Integration von Daten zwischen 50 und 80 Prozent Zeit sparen. Business-Anwender arbeiten dank dieses Ansatzes nur noch mit einer zentralen, logischen Datenbank. Da Unternehmen durch die Datenvirtualisierung agiler und flexibler werden, können sie geschäftliche Herausforderungen besser meistern. Grundlage dafür ist allerdings eine ausreichende Performance der Abfragen.

5. Teil: „Im Gespräch mit Lars Iffert von BARC“

Im Gespräch mit Lars Iffert von BARC

Lars Iffert: Analyst und Berater Analytics und Datenmanagement bei BARC
Quelle:
BARC

Lars Iffert ist Analyst & Berater Analytics und Datenmanagement beim Forschungs- und Beratungsinstitut BARC - Business Application Research Center. Er begleitet Unternehmen bei Projekten und der Software-Auswahl zum Thema Datenvirtualisierung.

Im Interview mit com! professional spricht er über Vorteile und Grenzen der Datenvirtualisierung und erklärt, warum Unternehmen dafür über eine Datenstrategie verfügen sollten.

com! professional: Datenvirtualisierung ist vor allem in den USA eine etablierte Technologie. Schon vor zehn Jahren setzten hier insbesondere Anwender aus dem Finanzsektor Projekte um. Im deutschsprachigen Raum nimmt das Thema erst seit etwa zwei Jahren Fahrt auf. Was ist Datenvirtualisierung?

Lars Iffert: Datenvirtualisierung ist eine Technologie, die wir im Bereich von Analytics, Business Intelligence (BI) und Data Warehousing schon lange diskutieren. Aktuell nutzen Unternehmen für das Data Warehousing zumeist noch die klassische Datenintegration: Daten, die später in den Analysen und Berichten angezeigt werden sollen, werden von Tools aus Quellsystemen wie CRM-, ERP-Systemen oder CSV-Dateien geladen und verarbeitet. Anschließend speichern die Werkzeuge die Informationen in das Data Warehouse. Anwender greifen dann über ihre BI-Berichte oder OLAP-Analysen auf diese Informationen zu, um die Daten auszuwerten und darauf Entscheidungen zu treffen.

com! professional: Worin unterscheidet sich Datenvirtualisierung von dieser klassischen Form der Datenintegration?

Iffert: Bei der Datenvirtualisierung geschieht die Datenintegration nicht zu einem bestimmten, vorher festgesetzten Zeitpunkt in ein Data Warehouse, etwa jede Nacht. Vielmehr passiert die Integration, sprich das Laden aus den Zielsystemen und die Aufbereitung, zum Abfragezeitpunkt: Das Werkzeug für die Datenvirtualisierung sieht dabei nach außen selbst aus wie ein Data Warehouse. Es bietet den BI-Berichten und Analyse-Tools Tabellen, die sich mit SQL lesen lassen. Intern hält das Tool aber nicht die Daten, sondern holt sie sich dann aus den Quellsystemen, wenn sie benötigt werden, etwa wenn die BI-Software auf die virtuellen Tabellen im Datenvirtualisierungs-Werkzeug zugreift.

com! professional: Welche Vorteile bietet Datenvirtualisierung?

Iffert: Ihr Hauptvorteil liegt darin, dass Unternehmen damit sehr schnell neue Analytics-Anforderungen umsetzen können. Man legt keine Tabellen im Data Warehouse an und konzipiert, entwickelt und stellt komplexe Datentransformationsstrecken in einem Datenintegrationswerkzeug bereit. Vielmehr geschehen das Design der Analytics-Tabellen und die notwendige Datenaufbereitung an einem Ort - im Datenvirtualisierungs-Werkzeug. Auch die Pflege und Erweiterung der Tabellen kann vergleichsweise schnell erfolgen, etwa das Hinzufügen neuer Datenquellen und zusätzlicher Spalten.

com! professional: Wo liegen die Grenzen?

Iffert: Ein großes Problem ist die Geschwindigkeit. Wenn das Analytics-Tool Daten von der Virtualisierungs-Plattform abruft, stehen die im Normalfall erst zur Verfügung, wenn das langsamste Quellsystem seine Informationen geliefert hat. Viele (Quell-)Systeme sind zudem Massenabfragen nicht gewachsen: Fragt das Datenvirtualisierungs-Werkzeug die Umsätze der letzten drei Jahre direkt vom ERP-System ab, kann dies zu Problemen in der Systemstabilität und Verfügbarkeit dieser ERP-Software führen.

com! professional: Welche Funktionen und Merkmale sollten Werkzeuge für die Datenvirtualisierung umfassen?

Iffert: Datenvirtualisierung ist ein Konzept. Informationen werden nicht als „physische Kopie“ im Data Warehouse gespeichert, sondern stehen „virtuell“ zur Verfügung und zeigen die jeweils aktuellen Informationen zum Abfragezeitpunkt. Technisch ist das auf viele Weise möglich. Auf Anbieterseite sind in der DACH-Region vor allem Data Virtuality, Denodo und TIBCO in den letzten Jahren als Vorreiter der Technologie in Erscheinung getreten. Weitere Lösungen auf dem Markt sind etwa die von Actifio, Attivio, Domo, Informatica oder SAS.

com! professional: Welche weiteren technischen Ansätze gibt es?

Iffert: Klassische Datenbanken wie von IBM, Microsoft oder Oracle bieten über Funktionen wie „virtuelle“ oder „externe“ Tabellen schon seit Langem ähnliche Ansätze wie Datenvirtualisierungs-Werkzeuge.

Tools für die Datenintegration wiederum können zwar oft ihre Datenintegrationsstrecken nicht als SQL-View nach außen zur Verfügung stellen, wohl aber als API oder Service, der dann bei Bedarf flexibel gestartet werden kann, um Ergebnisse etwa als CSV-Datei zu erstellen. Und SAP HANA kann mit der Funktion „Smart Data Access“ externe Datenquellen an seine Plattform anschließen.

com! professional: Welche Trends sehen Sie?

Iffert: In vielen Unternehmen kommen Daten in diversen „Datensilos“ vor. Um ihre Datenlandschaft zu optimieren oder zu modernisieren, etwa indem sie ein Data Warehouse einrichten, das sie mittels professioneller Datenintegrations-Werkzeuge füllen, kann sich Datenvirtualisierung als Brückentechnologie für das Prototyping oder als Ergänzung eignen.

Seit Jahren ein wichtiger Trend ist Selfservice BI. Bislang lag der Schwerpunkt hier auf der Nutzung von vorbereiteten Daten. Mehr und mehr Fachbereiche entwickeln jedoch auch Kompetenzen, um Daten aus Quellsystemen zu extrahieren und diese aufzubereiten. Fachbereichsorientierte Datenvirtualisierungs-Werkzeuge schließen hier die Lücke zwischen Selfservice BI und überfrachteten Datenintegrations-Tools.

com! professional: Was ist mit KI und maschinellem Lernen?

Iffert: Natürlich können auch Data Scientists von der Datenvirtualisierung profitieren, um sich die notwendigen Datensichten auf Datenbestände für die Entwicklung ihrer Data-Mining-Lösungen aufzubauen. Ein Punkt sei aber angemerkt: Unternehmen vergessen im KI-Hype heute leider oft noch die Operationalisierung. Data Scientists entwickeln zwar interessante KI-Prototypen, bauen diese aber nur selten in die operativen Prozesse ein. Somit stiften die teuren Entwicklungen selten einen messbaren Nutzen. Ein Grund ist oft die Herausforderung, die KI-Prototypen mit aktuellen Daten zu trainieren. Datenvirtualisierung kann hier als Lösung oder Brückentechnologie dienen.

Grundsätzlich empfehlen wir, Datenvirtualisierung als Bestandteil einer Datenstrategie zu sehen. Treiber dafür sind neben den angesprochenen Trends zunehmend regulatorische Verpflichtungen oder innerbetriebliche Bedürfnisse nach mehr Transparenz (Welche Daten gibt es im Unternehmen?), Datenqualität und Abgleich der Systeme untereinander. Dafür können Firmen auf Software wie Datenkataloge, Datenqualitäts- und Stammdatenmanagement-Lösungen sowie moderne Datenbank-Systeme zugreifen. Um nicht den Aufbau eines weiteren Tool-Zoos zu riskieren, sollte eine Planung etwa in Form einer Datenstrategie erfolgen.

mehr zum Thema

Huawei Roadshow 2024

Virtualisierung macht Schluss mit Datensilos

Aufwand für Datenvorbereitung

Virtualisierung schafft Abhilfe

Schneller Zugriff

Herausforderung Performance

Vielfältige Einsatzgebiete

Maschinelles Lernen im Einsatz

Funktionen und Komponenten

Fazit & Ausblick

Im Gespräch mit Lars Iffert von BARC

mehr zum Thema

Technologie auf Rädern - der Show-Truck von Huawei ist unterwegs

GitLab Duo Chat mit KI-Chat-Unterstützung

KI macht Gebärdensprache zugänglicher

Google Maps-Funktionen für nachhaltigeres Reisen