Business-IT
07.10.2020
Datenmanagement
1. Teil: „Dark Data - die große Verschwendung“

Dark Data - die große Verschwendung

Abstrakte Darstellung von Software- und Binär-CodeAbstrakte Darstellung von Software- und Binär-CodeAbstrakte Darstellung von Software- und Binär-Code
cherezoff / shutterstock.com
Berge nicht nutzbarer Daten verursachen unnötig hohe Kosten und neue Risiken. Deutschland gehört zu den traurigen Spitzenreitern im internationalen Vergleich bei ungenutzten Daten.
Daten gelten als das Öl des 21. Jahrhunderts. Unzählige Hersteller und Medien haben in den vergangenen Jahren immer wieder betont, wie wichtig ihre Bedeutung sei und wie kostbar Daten seien. Das ist sicher auch richtig, man kann es aber auch anders formulieren: Einmal gespeicherte Daten kosten sehr viel Geld und sind es nicht immer wert. Das ist die hässliche Seite von Big Data, also dem festen Glauben daran, dass man nur so viele Daten wie möglich sammeln muss, um verborgene Reichtümer darin zu finden. Der Irrglaube hat dazu geführt, dass Unternehmen (und Behörden) alles speichern, dessen sie habhaft werden können. Trends wie fallende Kosten für Storage und Rechenleistung haben die Entwicklung weiter angefeuert.
Während die Datenberge expontiell wachsen, hängt jedoch die Fähigkeit hinterher, sie zu analysieren und nutzbringend zu verwerten, sagen Kritiker wie Professor Daniel J. Grimm vom Georgetown University Law Center. „Es besteht eine Kluft zwischen Daten, die gespeichert wurden, und Daten, die leicht analysiert und verstanden werden können“, schreibt Grimm in einem Artikel für die juristische Fachzeitschrift American University Law Review. Angetrieben durch das Versprechen, aus den gespeicherten Daten künftig einen geschäftlichen Nutzen ziehen zu können, häufen Unternehmen immer größere Datenmengen an, die sich allerdings schon lange nicht mehr effektiv verwalten lassen.
Weniger als die Hälfte der in einem Unternehmen gespeicherten strukturierten Daten werden überhaupt für geschäftliche Entscheidungen herangezogen, ergänzen Leandro DalleMule und Thomas H. Davenport in der Harvard Business Review. Bei den unstrukturierten Daten liege der Anteil der genutzten Informationen sogar bei unter einem Prozent. Dazu komme, dass mehr als 70 Prozent der Mitarbeiter in Unternehmen auf Daten zugreifen können, die sie nicht nicht für ihre Aufgaben benötigen. Das Marktforschungsunternehmen IDC hat errechnet, dass bis zum Jahr 2025 rund 80 Prozent der weltweit gespeicherten Daten unstrukturiert und damit kaum nutzbar sein werden.

Daten klassifizieren

Experten wie der Berater und „Data Doc“ Thomas C. Redman von Data Quality Solutions gehen von drei Kategorien aus, wenn es um Daten in Unternehmen geht. Da sind zunächst die geschäftskritischen Daten, die für das wirtschaftliche Weiterbestehen und Wachstum eines Unternehmens unverzichtbar sind. Sie wurden bereits strukturiert. Das britische Marktforschungsunternehmen Vanson Bourne hat im Auftrag des Software-Herstellers Veritas in einer Studie ermittelt, dass weltweit im Schnitt nur 14 Prozent aller in Unternehmen gespeicherten Daten als geschäftskritisch eingestuft werden können. Die zweite Gruppe sind sogenannte ROT-Daten. Die Abkürzung steht für „redundant, obsolet und trivial“, also für Informationen, die doppelt oder noch öfter vorhanden sind, die aus anderen Gründen nicht (mehr) benötigt werden und die damit wertlos sind.
Diese Daten können meist bedenkenlos gelöscht werden, um Speicherplatz und Kosten zu sparen. Dabei sollte allerdings auf eine sichere Löschung geachtet werden, damit später keine unautorisierte Wiederherstellung mehr möglich ist. Laut Vanson Bourne liegt der Anteil der überflüssigen ROT-Daten in Unternehmen im Durchschnitt bei 32 Prozent aller gespeicherten Informationen. Das bedeutet, dass nahezu jede dritte Datei bekannt überflüssig ist und nur noch Kosten verursacht.
Bleibt noch die dritte Gruppe, die sogenannten „dunklen Daten“ (im englischen Sprachgebrauch „Dark Data“). Diese Gruppe wird laut Vanson Bourne immer größer. Bei Dark Data handelt es sich ebenfalls um bereits gesammelte und gespeicherte Daten. Sie wurden aber noch nicht klassifiziert, sind also unstrukturiert. Ein meist kleiner Teil dieser Informationen hat durchaus einen geschäftlichen Wert für das Unternehmen, sie dürfen daher nicht einfach gelöscht werden. Der große Rest hat aber keine echte Bedeutung und ist damit ebenso wie die ROT-Daten überflüssig. Sie sind also ebenfalls „redundant, obsolet und trivial“.
2. Teil: „Daten strukturieren ist teuer“

Daten strukturieren ist teuer

  • Traurige Spitzenplätze: Deutschland, Großbritannien und Südafrika verzeichnen die größten Vorkommen an "dunklen Daten".
    Quelle:
    Veritas "Value-of-Data-Studie", 2019 (n = 1.500)
Das Problem bei den dunklen Daten ist, dass eine sorgfältige Klassifizierung nicht nur zeitaufwändig, sondern in der Regel auch sehr teuer ist. Mit einem Anteil von 54 Prozent gehört mehr als die Hälfte der weltweit in Unternehmen gespeicherten Daten in diese Gruppe. In Deutschland liegt der Anteil laut Vanson Bourne sogar noch höher. Hierzulande sollen rund 66 Prozent der Daten zu den dunklen Daten gehören. Das ist der weltweite Spitzenwert. Ähnlich hohe Werte erreichen nur Großbritannien mit 59 Prozent und Südafrika mit 58 Prozent.
„Dunkle Daten können die Reputation und den Marktanteil von Unternehmen gefährden - spätestens dann, wenn diese mit Datenschutzbestimmungen wie der DSGVO in Konflikt geraten“, warnt Eric Waltert, Regional Vice President DACH bei Veritas. „Um so wichtiger ist es, Daten effizient zu verwalten und zu schützen.“ Das gefährliche an dunklen Daten sei auch, dass sie in Unternehmen schnell in Vergessenheit geraten. Das mache sie zu einem verlockenden Ziel für Cyber-Kriminelle und Ransomware-Angriffe.
Dazu komme, dass ein Unternehmen die Bestimmungen der DSGVO oder ähnlicher Vorgaben kaum einhalten kann, wenn es gar nicht weiß, welche personenbezogenen Daten es über seine Kunden gespeichert hat. „Je mehr Unternehmen über ihre Daten wissen, desto besser können sie ihren Wert oder das potenzielle Risiko abschätzen“, sagt Waltert.

Probleme bei der Klassifizierung

Das große Problem bei Dark Data ist die Frage, wie man die Spreu vom Weizen trennt? Veritas und Vanson Bourne schätzen, dass allein durch ROT-Daten jedes Jahr weltweit Kosten in Milliardenhöhe entstehen. Unter www.veritas.com/dark-data stellt der Anbieter einen Online-Rechner bereit, mit dem ein Unternehmen die ungefähren Kosten selbst ausrechnen kann, die abhängig von der gespeicherten Datenmenge entstehen. Die Ergebnisse sind durchaus beeindruckend. So entstehen selbst bei einem kleineren Betrieb, der nur etwa 250 TByte an Daten angesammelt hat, Gesamtkosten für die Datenspeicherung in Höhe von 1,25 Millionen US-Dollar. Nur knapp 200.000 Dollar werden für geschäftskritische Daten benötigt, mehr als 400.000 Dollar für ROT-Daten und etwa 650.000 Dollar für dunkle, also noch nicht klassifizierte Daten. Ein Großteil dieser Summe könnte nach Ansicht von Veritas und Vanson Bourne eingespart werden, wenn sich das Unternehmen von seinen nicht benötigten Daten trennen würde.
Der Online-Rechner zeigt zusätzlich, wie viele Dateien ein Unternehmen durchschnittlich zusammengetragen hat. Bei den angenommenen 250 TByte sind dies schon fast 580 Millionen Dateien. Der Inhalt oder die Bedeutung von mehr als der Hälfte, also etwas über 300 Millionen Dateien, ist dabei völlig unbekannt. Viele dieser Dateien enthalten vermutlich auch personenbezogene Informationen. Damit unterliegen sie innerhalb der Europäischen Union besonders hohen Datenschutzauflagen. Aber nicht nur das. Die hohe Zahl dieser Daten führt dazu, dass Mitarbeiter immer länger nach relevanten Informationen suchen müssen, die sie etwa für ein Projekt benötigen. Laut Vanson Bourne gehen bis zu zwei Stunden täglich verloren, weil wichtige Daten nicht schnell genug gefunden werden können. Besonders schwierig sei es, wenn ein Kunde aufgrund der Vorgaben der DSGVO die Löschung der gesamten über ihn gespeicherten Daten verlangt.
97 Prozent der von Vanson Bourne befragten Manager klagen zudem über negative Auswirkungen von Dark Data auf wichtige strategische Entscheidungen, verpasste Chancen sowie Verzögerungen bei der Einführung neuer Produkte oder weil relevante Daten nicht schnell genug gefunden werden konnten. 95 Prozent gaben zudem an, dass es auch zu langfristigen negativen Auswirkungen gekommen sei. Das führe dann zu steigenden Kosten, Einbußen bei Produktivität und Effektivität, mangelnder Beweglichkeit bei wichtigen Entscheidungen, Schwierigkeiten beim Wettbewerb mit anderen Firmen, einer höheren Gefahr durch Cyber-Security-Bedrohungen und einer reduzierten Zufriedenheit der Kunden. „Sogar mittelgroße Unternehmen verfügen bereits über Milliarden von Dateien“, kommentiert Veritas-Manager Waltert. Manuelle Klassifizierungen und Kategorisierungen seien kaum mehr möglich.
Fragenkatalog
Der Software-Anbieter Veritas hat eine Reihe von Fragen zusammengestellt, die Unternehmen dabei helfen sollen, Klarheit über den eigenen Datenbestand zu erlangen. 
  • Wo sind unsere Daten gespeichert?
  • Wie alt sind sie?
  • Wann wurden sie zuletzt aktualisiert?
  • Wer hat Zugriff darauf?
  • Wie lange sind die Aufbewahrungszeiten?
  • Werden die rechtlichen Vorgaben zur Datenspeicherung eingehalten?
  • Wer kann darauf zugreifen?
  • Wie wichtig sind sie?
  • Dürfen die Daten in einem öffentlich zugänglichen Cloud-Speicher abgelegt werden?
3. Teil: „Die Lösung: Datenmanagement“

Die Lösung: Datenmanagement

  • "Plant Ihr Unternehmen in nächster Zeit Investitionen in ein integriertes/umfassendes Dokumentenmanagement bzw. Enterprise Content Management?"
    Quelle:
    Bitkom "Digital Office im Mittelstand 2019" (n = 613)
Nur 29 Prozent der Teilnehmer an der Studie von Vanson Bourne sagten, dass sie bereits eine moderne Strategie zum Umgang mit den Daten im Unternehmen entwickelt haben. Veritas empfiehlt einen langfristig ausgelegten Ansatz zum Management der Daten, der den gesamten Lifecycle umfassen sollte. Bislang werden neu erfasste Daten in den meisten Unternehmen zunächst in einem Speicher abgelegt, auf den verschiedene geschäftliche Anwendungen zugreifen können. Später wird dann oft im Rahmen einer Datensicherung eine Kopie an mindestens einem weiteren Ort erstellt. Außerdem ist es möglich, dass die Daten zur Entwicklung von neuen Anwendungen oder für Software-Tests benötigt, dass sie zur Entscheidungsfindung herangezogen, auf einen günstigeren Speicher übertragen, später ausgemustert und eventuell auch gelöscht werden. Ohne eng miteinander verzahnte Prozesse sei ein umfassendes Management dieser Vorgänge nahezu unmöglich. Im Laufe der Zeit entstünden Redundanzen sowie ineffiziente Abläufe, die auch zu Strafen führen können.
Ein mangelhaftes Datenmanagement führt nach Angaben von Veritas dazu, dass ein Großteil der Daten in einem Unternehmen weitgehend gleich behandelt wird. Das ist jedoch nach Ansicht des Anbieters ein Fehler. Unternehmen benötigten ein tiefergehendes Verständnis ihrer Daten. So mache es etwa einen großen Unterschied, welches die aktuellste Version einer Rechnung ist oder wo alle relevanten Daten über einen Kunden gespeichert sind. Veritas hat daher neun Kernfragen formuliert, die betroffenen Unternehmen helfen sollen, einen Überblick über ihre Daten zu erhalten. Sie sind im nebenstehenden Kasten zu finden.
40 Prozent der von Vanson Bourne befragten Unternehmen gaben an, dass sie zu viele unterschiedliche Managementsysteme für ihre Daten nutzen. Meist mangele es an einer zentralen Strategie zum Umgang mit den gespeicherten Daten. Mehr als fünfte wisse nicht, wo alle Informationen abgelegt wurden. Nicht nur die Kosten durch unerschlossene Datenberge sind ein Problem. Dark Data hat auch Auswirkungen auf die IT-Sicherheit der Unternehmen. So können Cyber-Kriminelle auf die unstrukturierten Daten zugreifen und sie stehlen. Deswegen müssen sie sowohl auf den lokalen Servern, als auch in der Cloud und bei der Übertragung sicher verschlüsselt werden. Zusätzlich sollten Richtlinien für Zugriffe auf unstrukturierte Daten definiert werden. Einfach frei zugänglich dürfen sie allein schon aus regulatorischen Gründen nicht sein.
Eine Lösung für die genannten Probleme versprechen die Anbieter von ECM-Plattformen (Enterprise Content Management). Diese Produkte dienen dazu, unstrukturierte Inhalte zu speichern und zu verwalten, um sie analysieren und den Nutzern jederzeit zur Verfügung stellen zu können. Damit gehen sie weit über reine Dokumentenmanagementsysteme heraus, da sie zum Beispiel auch Funktionen zur Collaboration und für einen optimierten Workflow enthalten. Sie arbeiten dabei in der Regel als eine einzelne, zentrale Plattform, die alle benötigten Content-Dienste offeriert. Die Tabelle zeigt eine Auswahl von ECM-Anbietern. Laut einer Analyse des Bitkom-Verbands plant derzeit jedes vierte Unternehmen einen Einstieg in diese digitale Dokumentenverwaltung.

Fazit & Ausblick

Nach dem Aufräumen der dunklen Daten und dem Entfernen von ROT-Daten sollte auch die bisherige Backup-Strategie auf den Prüfstand gestellt werden. Es liegt auf der Hand, dass überflüssige Daten nicht weiterhin täglich aufwändig gesichert werden sollten. Nur die für das Unternehmen wirklich relevanten Daten müssen besonders geschützt werden. Dazu gehören auch Backups zu entfernten Standorten, um für den Fall eines größeren Datenverlusts gerüstet zu sein. Weniger häufig benötigte Informationen lassen sich in einem günstigen Langzeitspeicher ablegen.
Veritas empfiehlt, einen Kulturwandel im Unternehmen anzustreben. Für die Zukunft müsse sorgfältig geplant werden, wie Daten in das Unternehmen gelangen, wie sie verarbeitet und gespeichert und auch, wie sie das Unternehmen wieder verlassen können. Wichtig sei dabei vor allem die Wahl geeigneter Technologien zum Management der Daten. Heutzutage müsse jede in Betracht gezogene Lösung zudem nicht nur zur Verwaltung lokaler Daten geeignet sein, sondern auch die Cloud unterstützen.
Das Unternehmen rät zu einem dreistufigen Prozess. Zunächst müssten die Daten klassifiziert werden. Dabei sollte geprüft werden, was und wo es gespeichert ist, wer darauf Zugriff hat, wie viele Kopien existieren und wie wertvoll die Daten sind. Im zweiten Schritt können - basierend auf der vorher erfolgten Klassifizierung - neue Richtlinien zum Umgang mit den Daten entwickelt werden. Zuletzt lassen sich auch die Vorteile einer modernen Automatisierung nutzen. Bei den heutzutage gespeicherten Datenmengen sei ein rein menschlicher Eingriff praktisch nicht mehr möglich. Durch Künstliche Intelligenzen und Machine Learning unterstützte Automatisierung könne dagegen Aufgaben erfüllen, um die sich die IT nicht mehr kümmern kann. Dann sind auch die dunklen Daten kein Problem mehr.
Tabelle:


mehr zum Thema