Big Data
01.04.2020
Marktüberblick
1. Teil: „Nur gute Daten liefern auch gute Ergebnisse“

Nur gute Daten liefern auch gute Ergebnisse

Analyse von Big DataAnalyse von Big DataAnalyse von Big Data
Big Data Analytics / shutterstock.com
Viele Unternehmen tun sich schwer, die nötige Datenqualität zu gewährleisten.
  • Gartner Magic Quadrant: Die Analysten ordnen die Hersteller von Data-Quality-Tools in die vier Kategorien „Challengers“, „Leaders“, „Visionaries“ und „Niche Players“ ein.
    Quelle:
    Gartner
Heute werden in einer Woche mehr Daten produziert als in den zurückliegenden 2.000 Jahren Menschheitsgeschichte zusammengenommen. Schätzungen gehen von knapp drei Milliarden GByte pro Tag aus. Jede E-Mail, jede Business-Anwendung, jede Websuche, jeder Security-Scan und jeder Cloud-Service erzeugt jede Menge Daten.
Angesichts dieser Tatsachen setzt sich in den Unternehmen allmählich die Einsicht durch, dass sich Daten zum eigenen Vorteil nutzen lassen. Die Erkenntnisse, die man aus den Daten gewinnen kann, sind allerdings nur so gut wie die Daten selbst. Die englische Redewendung „Garbage in - Garbage out“ bringt das auf den Punkt: Ohne sinnvolles Qualitäts­management führen Big-Data-Technologien lediglich zu einer schnelleren Analyse des Datenmülls. Die Business-Anwendungen werden zwar immer ausgefeilter, doch das grundlegende Problem der Datenqualität wird dabei allzu oft vernachlässigt. Dabei gilt: Die intelligenteste CRM-Software, das beste ERP-System und die smarteste BI-Anwendung - sie alle entfalten ihr wahres Potenzial erst bei einer entsprechenden Datenqualität. Die mangelnde Datenqualität hat Folgen: Wenn mehrere Studien zu dem Schluss kommen, dass ungefähr die Hälfte der Digitalisierungsprojekte nicht den gewünschten Nutzen erbringen, dann hängt das nicht nur, aber auch damit zu­sammen.

Gute Daten, schlechte Daten

Für die Qualität von Daten lassen sich eine Reihe von Indikatoren benennen:
Vollständigkeit: Ist ein Maß dafür, ob die vorhandene Datenmenge ausreicht, um Schlussfolgerungen zu ziehen.
Konsistenz: Gewährleistet, dass die Daten in allen Systemen eines Unternehmens synchronisiert sind und dieselben Informationen widerspiegeln.
Genauigkeit: Fordert, dass die Daten in der notwendigen Exaktheit vorliegen, etwa mit Nachkommastellen.
Aktualität: Nichts ist so alt wie die Zeitung von gestern - veraltete Daten liefern keinerlei Erkenntnisgewinn.
Einzigartigkeit: Unternehmen müssen sicherstellen, dass keine Duplikate vorhanden sind. Wenn ein Kundenkonto mehrfach auftaucht und der Kunde deshalb mehrfach kontaktiert wird, wirkt sich das meist nicht positiv auf seine Meinung über das Unternehmen aus.
Plausibilität: Daten müssen plausibel sein. Eine Bestell­menge kleiner als null ergibt zum Beispiel keinen Sinn.

Auswirkungen schlechter Daten

Schlechte Daten können sich massiv auswirken: Mehrere Versionen eines Sachverhalts verhindern zunächst einmal, dass Unternehmen Vorschriften einhalten und eine einheitliche Sicht auf Kunden, Produkte, Konten oder Standorte erreichen. Und das Vertrauen in Informationen wird untergraben, wenn verschiedene Informationsquellen abweichende Antworten auf dieselbe Frage liefern.
Wenn Daten über mehrere Datenbanken und Anwendungen verteilt liegen, engt das zudem häufig den Handlungsspielraum in Bezug auf Konsistenz oder Genauigkeit ein. Allein schon die Datenflut verhindert, dass Mitarbeiter und Systeme Daten priorisieren und differenzieren. Die Unfähigkeit, Informationen aus verschiedenen Quellen effizient zu standardisieren, zusammenzuführen und zu korrigieren, verzögert aber die Einführung neuer Geschäftsanwendungen, und mangelhafte Daten, die eng an bestimmte Anwendungen und Prozesse gekoppelt sind, führen nicht zuletzt auch zu Problemen bei der Flexibilität und Agilität in der Entwicklung. 
2. Teil: „Datenqualität sicherstellen“

Datenqualität sicherstellen

Die Kriterien für gute Daten und die Folgen schlechter Daten deuten es an: Eine hohe Datenqualität - Data Quality - in den wachsenden Datenmengen sicherzustellen, bedeutet einen großen Aufwand. Hier kommen Anwendungen ins Spiel, die den Unternehmen einen Großteil der Arbeit abnehmen. Sie automatisieren Data Quality mit Hilfe intelligenter, zum Teil selbstlernender Algorithmen und halten die riesigen Datenmengen dauerhaft auf einem hohen Qualitätslevel. Ohne solche Data-Quality-Tools wird ein Data Lake schnell zu einem „Data Swamp“, einem trüben Datensumpf.
Die Arbeit an der Qualität der Daten lässt sich in drei grundlegende Schritte unterteilen, in deren Verlauf die Data-Quality-Tools eine ganze Reihe kritischer Funktionen wie Profiling, Parsing, Standardisierung, Bereinigung, Abgleich, Anreicherung und Überwachung der Daten durchzuführen haben:
Data Profiling: Die Datenanalyse erkennt Fehler, Widersprüche und Inkonsistenzen. Daraus werden weitere Schritte abgeleitet, um die Qualität des Datenbestands zu verbessern.
Data Cleaning: Die Datenbereinigung beseitigt die beim Data Profiling erkannten Fehler. Durch den hohen Automatisierungsgrad ist der Aufwand überschaubar. Die Datenbereinigung entfernt auch Dubletten, korrigiert Daten­typen und ver­vollständigt lückenhafte Datensätze.
Data Monitoring: Überprüft kontinuierlich die Qualität der vorliegenden Daten. Tritt eine Änderung darin ein, schlägt das Monitoring Alarm und es wird ein weiterer Analyse-Bereinigungs-Zyklus durchgeführt.

Data-Quality-Markt

Der Markt für Datenqualitäts-Software spiegelt das steigende Interesse der Unternehmen an der Thematik wider. Den Umsatz beziffert das Marktforschungs- und Beratungsunternehmen Gartner auf 1,61 Milliarden Dollar, das Wachstum für die nächsten fünf Jahre auf durchschnittlich 8,1 Prozent jährlich.
Knapp die Hälfte dieses schnell wachsenden Marktes entfällt auf drei große, etablierte Anbieter: Informatica, SAP und Syncsort. Der Rest verteilt sich auf Konzerne wie IBM und Oracle, aber auch auf kleinere Anbieter wie Innovative Systems, Ataccama und Information Builders. Die kleineren Hersteller sind oft gezwungen, sich Nischen zu suchen. Gleichzeitig schafft die Unzufriedenheit der Kunden mit den hohen Preisen der größeren Anbieter, wenig flexiblen Lizenzmodellen, unzureichenden Services sowie langen Bereitstellungszeiten Chancen für innovative kleinere Anbieter und Start-ups.
In der Ausrichtung der Programme beobachtet Gartner eine Verlagerung weg von Spezialwerkzeugen hin zu breiteren Funktionspaletten inklusive Datenmanagement und Information Governance. Als Folge überschneidet sich der Markt für Datenqualitäts-Tools mit den Märkten für Datenintegra­tions-Tools und Master Data Management (MDM). Den Analysten zufolge erwarten die Anwender eine umfassende Integration und Interoperabilität dieser Produkte, aber keine Konvergenz.
3. Teil: „Der magische Quadrant“

Der magische Quadrant

Bei der Suche nach passenden IT-Lösungen bedienen sich Firmen verschiedener Instrumente und Methoden, um die Auswahl einzugrenzen. Gartner bietet seit Jahren mit seinem Magic Quadrant ein Visualisierungs-Tool zur Bewertung von Unternehmen in einem spezifischen Technologie-Markt. Auch für Data-Quality-Tools gibt es einen Magic Quadrant.
Nachfolgend stellt com! professional sechs Lösungen von Unternehmen vor, die dort unter den „Leaders“ oder „Visionaries“ eingestuft sind. Die Bandbreite reicht dabei von Großkonzernen wie IBM bis zu Spezialisten wie Information Builders. Ihre Tools richten sich vorwiegend an große und mittlere Unternehmen.
IBM: Das Datenqualitätsprodukt von IBM heißt InfoSphere Information Server for Data Quality und hat das Ziel, Daten in vertrauenswürdige Informationen zu verwandeln, die als Grundlage für
  • IBM: Infosphere ermöglicht es, die Datenqualität kontinuierlich zu analysieren und nach vorgegebenen Kriterien zu klassifizieren.
    Quelle:
    com! professional / Screenshot
Geschäftsentscheidungen dienen können. Die Software bietet umfassende, flexible Datenbereinigungsfunktionen, die die Analyse von Quelldaten, die Standardisierung von Informationen und den Abgleich von Datensätzen automatisieren. Firmen können damit Daten anreichern und die besten Daten aus mehreren Quellen filtern. Das Tool hilft beim Daten-Monitoring und ermöglicht es, mit Qualitätsmetriken Probleme in der Datenqualität schnell aufzudecken und Korrekturpläne zu erstellen.
Die Software ist Teil der Plattform IBM InfoSphere Information Server, die Datenquellen wie Datenbank-Management-Systeme, Big-Data-Anwendungen, ERP- und CRM-Systeme sowie On-Premise- und Cloud-Quellen unterstützt. Hauptsächliche Zielgruppe sind Großunternehmen. Weitere datenrelevante Bestandteile der Plattform sind der Info­Sphere Information Governance Catalog und der InfoSphere Information Server for Data Integration.
Die Preispolitik von IBM stand zuletzt bei vielen Kunden in der Kritik. IBM hat sich deshalb hin zu flexibleren Preis- und Lizenzmodellen bewegt. Weitere Kritikpunkte, von denen Gartner berichtet, sind technische Schwierigkeiten bei der Aktualisierung und der Migration, eher bescheidene Funktionen zur Datenvisualisierung und ein unterdurchschnittlicher technischer Support des Produkts.
Informatica: Informatica hat gleich mehrere Data-Quality-Produkte im Köcher: Informatica Data Quality, Big Data Quality, Axon Data Governance und Data as a Service.
  • Informatica: Mit Informatica Data Quality lassen sich Regeln festlegen, um die Qualität der Daten darzustellen und sie zu standardisieren und zu überwachen.
    Quelle:
    com! professional / Screenshot
Informatica Data Quality ist eine Suite von Anwendungen und Komponenten, die sich in die Datenintegrationsplattform Informatica PowerCenter übernehmen lassen, um in vielerlei Szenarien Datenqualitätsfunktionen parat zu haben. Die Kernkomponente Data Quality Workbench dient dazu, Datenqualitätsprozesse und Pläne zu entwerfen, zu prüfen und sie bereitzustellen. Die Prozesse sowie die zugehörigen Daten und Referenzdateien lassen sich auch für andere Data-Quality-Engines zur Verfügung stellen. Alle Pläne werden in einem Data-Quality-Repository gespeichert. Die Workbench bietet Zugriff auf 50 datenbankbasierte, dateibasierte und algorithmische Datenqualitätskomponenten, die man für neue Data-Quality-Pläne verwenden kann.
Die Kernkomponente Data Quality Server kommuniziert via TCP/IP mit der Workbench und ermöglicht es, Pläne in einer Netzwerkumgebung auszuführen. Mehrere Nutzer können an Projekten zusammenarbeiten, was die Entwicklung und Implementierung von Data-Quality-Lösungen beschleunigt. 
Informatica verwendet metadatengesteuertes maschinelles Lernen, um die Konsistenz der Datendomäne zu prüfen und Ausreißer und Fehler zu identifizieren. Über eine Bedien­oberfläche können Anwender Algorithmen für maschinelles Lernen trainieren. Das System nutzt das Gelernte, um Aufgaben im Umfeld von IoT, Data Science, MDM, Data Governance und inhaltsgesteuerten Analysen zu automatisieren.
Informatica verfügt über ein großes globales Ökosystem mit über 500 Partnern, darunter Accenture, Amazon, Cognizant, Deloitte, Google und Microsoft. Dieses Ökosystem erhöht Breite und Tiefe der Branchenkenntnisse und des Supports von Informatica und unterstützt Kunden bei der Implementierung der entsprechenden Produkte.
Gartner berichtet von einigen Referenzkunden, die bemängeln, dass die Preise von Informatica recht hoch und die Lizenzmodelle recht kompliziert seien. Obwohl Informatica vor Kurzem Optionen wie Subskription, Pay as you go und Bring Your Own Licence (BYOL) eingeführt hat, nennen laut Gartner potenzielle Kunden immer noch den Preis als Hauptgrund für die Wahl eines anderen Anbieters. Ein weiterer Kritikpunkt der Analysten sind die eingeschränkten Möglichkeiten der Visualisierung von Daten. Sie seien nicht modern und es gebe keine Selfservice-BI.
4. Teil: „Information Builder und SAP“

Information Builder und SAP

Information Builders: Omni-Gen Data Quality Edition von Information Builders ist eine einheitliche Plattform zur Profilierung, Bereinigung und Anreicherung von Informationen in
  • Information Builders: Das Remediation-Modul der Omni-Gen Data Quality Edition entdeckt und bereinigt fehlerhafte, ungültige und unvollständige Daten.
    Quelle:
    com! professional / Screenshot
Datenbanken und anderen betrieblichen Informationssystemen. Sie ermöglicht nach dem Selfservice-Prinzip die Behebung von Datenqualitätsproblemen. So lassen sich per Datenexploration Einblicke in lokale Datenquellen wie Datenbanken und Tabellenkalkulationen vornehmen. Die dortigen Inhalte können dann über vorgegebene Regeln nach Wertemustern durchsucht und auf die Einhaltung von Compliance-Vorgaben überprüft werden. Fehler und Inkonsistenzen in den Daten korrigiert das Programm durch den gezielten Einsatz von Reinigungs- und Validierungsregeln. Ein Abgleich von Rohdaten und bereinigten Daten und ihrer Qualitätsattribute schließt den Vorgang ab.
Zusätzliche Funktionen der Software umfassen etwa Data Governance und Remediation, Master Data Management sowie Datenprozess- und Workflow-Verwaltung.
Entwicklungen bezüglich der Datenqualität lassen sich per browserbasiertem Dashboard anhand ausgewählter Indikatoren verfolgen und auswerten. Eine Monetarisierungsfunk­tion hilft dabei, die Auswirkungen auf den Umsatz und den potenziellen RoI von Datenqualitätsinitiativen zu bewerten.
Seit vergangenem Jahr bietet Information Builders von Omni-Gen eine Personal Edition an. Das verschlankte Tool basiert auf den Kernfunktionen der Omni-Gen Data Quality Edition. Mit der Selfservice-Anwendung können Mitarbeiter aus den Fachbereichen eigenständig Datenqualitätsauf­gaben durchführen und datengesteuerte Einblicke in Geschäftsprozesse aller Art erhalten.
Gartner bemängelt an den Data-Quality-Produkten von Information Builders das Fehlen von vorkonfiguriertem maschinellem Lernen, automatisierter Problemlösung und prädiktiver Analyse. Der Anteil von Information Builders am Data- Quality-Markt ist denn auch eher klein. Der Hersteller leidet etwas unter der mangelnden Sichtbarkeit außerhalb seines etablierten Kundenstamms, der laut Gartner zudem seit der letzten Magic-Quadrant-Erhebung kaum gewachsen ist.
SAP: Die Produktlandschaft von SAP ist bekanntermaßen ziemlich unübersichtlich. Das Data-Quality-Segment ist da keine Ausnahme. Hier umfasst das Angebot SAP Smart Data Quality, SAP
  • SAP: Der Walldorfer Konzern hat zahlreiche Data-Quality-Tools wie den SAP Information Steward in seiner Produktpalette.
    Quelle:
    com! professional / Screenshot
Information Steward, SAP Data Services und SAP Data Hub. Die Data-Quality-Tools und ihre umfangreichen Funktionen zur Integration und Bereitstellung von Daten sind optimiert für die Entwicklungs- und Integrationsplattform SAP HANA. Sie erlauben einen schnellen Zugriff auf eine Vielzahl von Quellsystemen und ermöglichen die Virtualisierung, Replikation, Transformation und Bereitstellung dieser Daten wahlweise On-Premise, in der Cloud und in einem Hybrid-Szenario. Die Lösungen sind Bestandteil des Datenmanagement-Portfolios von SAP, das unter dem Begriff SAP EIM zusammengefasst ist (SAP Enterprise Information Management). Vor einer Migration auf SAP S/4 HANA lassen sich die Daten mit SAP Data Services bereinigen. Zudem beschleunigen diese die Extraktion, Bereinigung, Transformation und Integration von ERP-Daten bei Neuimplementierungen von SAP S/4 HANA oder Systemkonsolidierungen.
SAP hat in den vergangenen Jahren die Datenmanagementfunktionen deutlich vorangetrieben, zum Beispiel mit der Daten-Orchestrierungsplattform SAP Data Hub. In den Augen von Gartner ist SAP in vielen Bereichen innovativ, etwa in Form einer erweiterten Konnektivität zu großen Datenspeichern, maschinenlesbarer Datenstatistiken mit Analysen und prädiktiver Modellierung sowie Datenqualitäts-Microservices im SAP Data Hub.
Die Data-Quality-Produkte von SAP zeichnen sich durch eine starke Integration mit anderen SAP-Produkten aus. Bei der Anbindung an Nicht-SAP-Plattformen wie Salesforce und Amazon Web Services sieht es dagegen nicht so rosig aus. Hier erfordert eine Integration tief gehende API-Kenntnisse, über die viele Unternehmen nicht verfügen. In der Gartner-Analyse weisen viele Kunden zudem auf hohe Preise sowie zu komplexe Preis- und Lizenzmodelle für die zahllosen SAP-Komponenten hin. Der Preis richtet sich in der Regel nach der Anzahl der verwendeten physischen oder virtuellen CPU-Kerne. Die von manchen Kunden als schwach und veraltet monierten Bedienoberflächen in einigen Werkzeugen hat SAP laut Gartner im SAP Data Hub inzwischen verbessert.
5. Teil: „SAS und Talend“

SAS und Talend

SAS: Um Data Quality kümmern sich bei SAS die Produkte Data Management, Data Quality, Data Preparation und Data Quality Desktop. SAS Data Management setzt auf der Analytics-Lösung
  • SAS: Wenn SAS Data Management ein Datenproblem entdeckt, kann es automatisch zur Bereinigung in SAS Data Remediation überführt werden.
    Quelle:
    com! professional / Screenshot
SAS Plattform auf. Dabei spielt es keine Rolle, ob die Informationen in traditionellen Systemen oder im Hadoop-Framework gespeichert sind - SAS Plattform unterstützt relationale Datenbanken, Data Lakes, Cloud-Angebote sowie On-Premise- und hybride Datenarchitekturen. SAS Data Management verschafft den Mitarbeitern Zugriff auf die Daten und erlaubt es ihnen, eigene Datenmanagement-Regeln zu erstellen.
Eine Schlüsselkomponente der SAS Plattform ist zudem das Tool SAS Data Quality. Es unterstützt auch neue Datenquellen wie Impala für Echtzeitabfragen und Amazon Redshift. Die Daten werden direkt dort optimiert, wo sie abgelegt sind.
SAS Data Preparation vereinfacht Datenzugriff und Datenintegration für Mitarbeiter ohne Programmierkenntnisse. Das Tool hat zudem die Aufgabe, die Datenqualität zu verbessern: Es soll Probleme identifizieren und direkt mittels vordefinierter Routinen beheben. Anwender können die Daten selbst über eine visuelle Bedienoberfläche aufbereiten. Die Daten lassen sich kategorisieren, standardisieren und zerlegen.
Eine Erweiterung der SAS Plattform ist SAS Viya. Sie enthält eine Reihe weiterer Datenprogramme und erlaubt eine Integration von Datenqualitätsfunktionen mit SAS-Analytik, Datenintegration, Datenaufbereitung und Data Governance.
Die Gartner-Analysten loben bei SAS die Investitionen in neue Techniken wie Echtzeit-Datentransformation großer Datenmengen, parallele In-Memory-Datenqualitätsprozesse in massiv parallelen Verarbeitungsumgebungen und automatisiertes Tagging von Dateninhalten. Auf der anderen Seite bemängeln sie die komplexen Preismodelle und eine begrenzte Vertragsflexibilität sowie die Gefahr eines Vendor-Lock-ins.
Talend: Talend hat zwei Data-Quality-Tools im Portfolio. Die kostenlose Open-Source-Lösung
  • Talend: Die Data Quality Platform bietet Open-Source-basierte Profiling-Tools, die heterogene Datensätze laden, extrahieren und transformieren.
    Quelle:
    com! professional / Screenshot
Talend Open Studio for Data Quality ist fürs Profiling und Bereinigen der Daten zuständig. Mitarbeiter können damit die Datenqualität auf Basis benutzerdefinierter Schwellenwerte evaluieren und feststellen, ob Standards eingehalten werden. Zudem können sie Daten selektiv weitergeben, ohne dass Unbefugte Zugang zu personenbezogenen Daten erhalten. Vertrauliche Daten werden durch Maskierung anonymisiert.
Die Data Management Platform verknüpft Datenquellen und hilft, Datensätze zu konsolidieren und zu validieren. Sie enthält grafische Werkzeuge und mehr als 900 Komponenten und Konnektoren zur nativen Verbindung von Datenbanken und cloudbasierten Anwendungen. Zudem bietet sie eingebettete Qualitätskontrollen und ein Regelmanagement.
Gartner lobt die Bedienfreundlichkeit der Talend-Tools in Einrichtung und Betrieb. Bemerkenswert an Talend sei zudem eine sehr aktive Open-Source-Anwendergemeinschaft, die einen umfangreichen, schnellen Produkt-Support biete.

Fazit & Ausblick

Die Datenanalyse verändert sich - und die Datenqualitätsstandards müssen sich anpassen. So nimmt etwa die staatliche Regulierung der Daten zu, Stichwort DSGVO. Data-Quality-Tools müssen in der Lage sein, solche Vorgaben umzusetzen. 
Mit Natural Language Processing, maschinellem Lernen und KI wachsen zudem die Risiken einer schlechten Datenqualität. Viele Unternehmen sehen von der Einführung von KI-Techniken ab, weil sie sich der Aufgabe, die nötige Datenqualität zu erzielen, nicht gewachsen fühlen. Data-Quality-Tools werden sich daher weiter verbreiten. Umgekehrt tragen KI-Fortschritte dazu bei, die Datenqualität zu verbessern. KI automatisiert die Datenerfassung, erkennt Ano­malien und beseitigt Dubletten. Dies erlaubt eine effizientere Verarbeitung großer Datenmengen.
Veränderungen zeichnen sich auch in der Unternehmensorganisation ab. So bringt die aufstrebende Disziplin Data­Ops DevOps-Teams mit Data-Science-Rollen zusammen - mit dem Ziel, auf Basis agiler Methoden Anwendungen und Prozesse für ein datenfokussiertes Unternehmen be­reitzustellen.
Tabelle:


mehr zum Thema