Big Data
28.12.2017
Case-Study
1. Teil: „Deutsche Börse macht sich fit für Big Data“

Deutsche Börse macht sich fit für Big Data

Deutsche BörseDeutsche BörseDeutsche Börse
Deutsche Börse
Ohne Daten läuft an den Börsen nichts mehr. Dafür braucht es die richtige Technik. Die Deutsche Börse in Frankfurt setzt auf Big-Data-Technologie zur effizienten Datenverarbeitung.
Die Deutsche Börse organisiert Märkte für Investoren, die Kapital anlegen, und für Unternehmen, die Kapital aufnehmen. An diesen Märkten kaufen und verkaufen professionelle Händler Aktien, Derivate und andere Finanzinstrumente nach klaren Regeln und unter strenger Aufsicht. Der Service reicht von der überwachten Ausführung der Handels­aufträge über die Verrechnung, Abwicklung und Verwahrung der Wertpapiere im Nachhandel bis zur elektronischen Infrastruktur und der Bereitstellung von Marktinformationen.

Computer dominieren Börsen

Konrad Sippel, Leiter des Content Labs bei der Deutschen Börse, beschreibt den Börsenhandel von heute: „Da erinnert nichts mehr an die bekannten Szenen von früher, mit Maklern und Brokern, die sich in einem Saal gegenseitig an Preisen und an Lautstärke überbieten. Heute geschieht der allergrößte Teil elektronisch, anonymer und voll automatisiert. Die Börsenteilnehmer sitzen in ihren Büros und an ihren Computern, wobei riesige Datenmengen und Datenströme entstehen. Unser Thema ist daher mittlerweile die Big-Data-Technologie: Wie kann man diese Daten in den Griff bekommen, sie sicher transportieren und so auswerten, dass wir als Deutsche Börse einen Mehrwert dabei erzielen können?“
  • Data-Preparation-Tools: Forrester stuft sieben Anbieter als „Leaders“, „Strong Performers“ und „Contenders“ ein.
    Quelle:
    Forrester
Die Daten stammen aus unterschiedlichen Quellen und sind in verschiedenen Formaten in teilweise oder komplett unstrukturierten Dateien abgelegt, sodass eine Zusammenführung komplex ist und viel Handarbeit erfordert.
Um hier mehr Effizienz zu erzielen, sah die Deutsche Börse sich nach einer Automatisierungs-Software um. Die Lösung kam aus der amerikanischen Start-up-Welt: Trifacta Wrangler sorgt für eine beschleunigte Aufbereitung all der granularen und zunächst inkompatiblen Daten und versetzt ein Unternehmen wie die Deutsche Börse in die Lage, neue Daten- und Informationsprodukte für eigene Analysezwecke, aber auch für die Anforderungen von Kunden zu entwickeln.Trifacta führt die beiden Welten von Marktexperten und Data Scientists auf der Grundlage einer gemeinsamen integrierten Datenbasis zusammen.
Zum Auswahlprozess erklärt Konrad Sippel: „Am Anfang haben wir einen Proof of Concept (PoC) durchgeführt und Trifacta an einem Business-Case ausprobiert.“ Hierbei ging es um eine Datenbank, die über die Jahre hinweg gewachsen war, mit vielen Daten, „die von der Qualität her sehr schlecht waren – mit vielen Lücken, abweichenden Formatierungen und so weiter“. Man hatte vor dem PoC von einem externen Consultant eine Bereinigung der Daten durchführen lassen. Dabei mussten über einen Zeitraum von neun Monaten hinweg immer wieder Skripte erstellt werden. Sippel erinnert sich: „Den gleichen Prozess haben wir dann mit Trifacta durchgeführt, das Ergebnis sprach für sich – die Skripte wurden automatisch erstellt, das Ganze dauerte nur wenige Wochen.“
2. Teil: „Börsen hängen von IT ab“

Börsen hängen von IT ab

Laut Sippel verfügt die Deutsche Börse an sich über eine moderne, konkurrenzfähige IT-Infrastruktur. Mainframes und klassische Unix-Rechner spielen in dieser Welt noch immer eine Rolle, wenngleich keine dominierende mehr. Man habe in den letzten Jahren eine brandneue IT-Handelsin­frastruktur ausgerollt, die neben hochverfügbaren Hardware-Systemen viele neue Software-Produkte umfasst.
In puncto Software müsse man, so Sippel, deutlich trennen zwischen den Lösungen, die für den täglichen Betrieb der Börse gebraucht werden, und Programmen, die für weniger aktuelle beziehungsweise zukünftige Zwecke im Unternehmen eingesetzt werden können. Sippel präzisiert: „Im Content Lab geht es hauptsächlich um Research und Development – letztlich um angewandte Data Science. Dazu haben wir eine Reihe hoch qualifizierter Mathematiker, Data Scientists und Data Engineers eingestellt, die beispielsweise Daten aus dem Handel und Clearing exemplarisch untersuchen und neue Modelle entwerfen, um dann einzelne Prozesse im Alltag zu verbessern. Trifacta in Kombination mit Lösungen von Cloudera spielt hier eine große Rolle. Insofern ermöglicht Trifacta der Deutschen Börse, bereichsübergreifend Mehrwert zu generieren.“
Das Content Lab
Der Bereich Market Data + Services gehört seit Jahren zu den zuverlässig wachsenden Geschäftsfeldern der Deutschen Börse. Im Angebot sind Indizes, Marktdaten (auch in Echtzeit), analytische Datenströme und Daten zu regu­latorischen Anforderungen sowie IT-Infrastrukturen und Handelsplattformen. Angesichts der stabilen Nachfrage und der fortschreitenden Digitalisierung könnte man als Anbieter eigentlich sehr zufrieden sein. Allerdings weist gerade dieser Bereich eine besonders intensive Dynamik auf – technische Möglichkeiten und Kundenwünsche ändern sich schnell.
Mitte 2016 wurde bei der Deutschen Börse das Content Lab ins Leben gerufen. In diesem Labor entstehen keine konkreten Produkte: „Wir sind die Forschungsabteilung innerhalb des Segments Market Data + Services bei der Deutschen Börse“, sagt Content-Lab-Leiter Konrad Sippel. „Wir suchen nach Lösungen, die nicht unmittelbar aus konkreten Anfragen unserer Kunden zustande kommen. Darum kümmern sich nämlich andere Abteilungen sehr erfolgreich. Das Lab ist ein Raum, in dem an Neuem gearbeitet werden kann – unabhängig von Detailverbesserungen an bestehenden Lösungen. Kundenwünsche und -anforderungen werden antizipiert und ohne ,Schere im Kopf‘ ausprobiert.“
IT der Deutschen Börse
Die Entscheidungen der Akteure am Finanzmarkt basieren maßgeblich auf Marktdaten. Diese Informationen werden entweder direkt von der Deutschen Börse vermittelt oder über sogenannte Datenvendoren, zum Beispiel Bloomberg oder Thomson Reuters, weiterverteilt. Als unabhängiger Informationsanbieter bedient die Deutsche Börse unterschiedliche Zielgruppen: Privatanleger ebenso wie institu­tionelle Investoren, Vermögensverwalter, Wertpapierhandelshäuser oder Hedgefonds.
Zu den wichtigsten Produktgruppen der Deutschen Börse zählen die über 12.000 Indizes inklusive der STOXX- und DAX-Indexfamilien. Ihr Datenportfolio umfasst ferner Kursdaten aus den Handelssystemen Eurex und Xetra sowie Handelsstatistiken, Analysen, Stammdaten von Unternehmen, Finanznachrichten und Wirtschaftsdaten.
Die Deutsche Börse stellt Kunden zudem Plattformen und Infrastruktur „as a Service“ zur Verfügung, unter anderem die „7 Market Technology“-Serie – das erste globale IT- Infra­strukturangebot seiner Art. Momentan besteht sie aus den Plattformen T7 (Derivate-Handel), C7 (Derivate-Clearing), N7 (Netzwerk), M7 (verschiedene Anlageklassen, etwa Energie und Commodities) und F7 (Handelssystem von Eurex Repo). Mit Systemen wie Creation oder CASCADE bietet die Deutsche Börse auch IT für den Nachhandelsbereich.
3. Teil: „Daten aufräumen mit Trifacta“

Daten aufräumen mit Trifacta

Das Start-up Trifacta hat sich bald nach seiner Gründung 2012 einen Namen gemacht auf dem Gebiet der Integration, Aufbereitung und Auswertung von Rohdaten aus den unterschiedlichsten Quellen. Derzeit kümmern sich Data Scientists bei mehr als 8000 Kunden darum, aus deren Daten mehr herauszuholen. Trifacta unterscheidet sechs Aktivitäten bei diesem Prozess des „Data Wranglings“:
  • Entdecken (Discovering): Eine interaktive Exploration stellt Merkmale von Daten fest und ordnet diese in Tabellen oder Histogramme ein, um den Wert der Daten zu bestimmen.
  • Strukturieren (Structuring): Format und Schema der Daten werden verändert. Mit „Predictive Transformation“ können Datengruppen hervorgehoben werden, um vom Programm Vorschläge für ihre richtige Umwandlung zu erhalten.
  • Säubern (Cleaning): Während dieser Phase bestimmen die Anwender die Werte von Daten und die angemessene Veränderungsmethode, um sie zu korrigieren oder zu löschen. Mit Trifacta lassen sich ungültige Werte per Klick isolieren und ersetzen, ohne die ganze Analyse zu gefährden.
  • Anreicherung (Enriching): Die für geschäftliche Entscheidungen wichtigen Daten sind oft auf verschiedenen Ebenen verteilt. Um alle wesentlichen Aspekte zu erfassen, müssen häufig weitere Datenquellen zur Anreicherung der bestehenden Datensätze herangezogen werden. Trifacta setzt hierzu auch Machine Learning ein.
  • Bestätigen (Validating): In einem finalen Check überprüft Trifacta die Änderungen an den Daten und stellt nicht durchgeführte oder misslungene Transformationen fest. Man muss explizit bestätigen, dass der veränderte Datensatz den ursprünglichen Anforderungen entspricht, bevor er veröffentlicht und weiterverwendet werden kann.
  • Veröffentlichen (Publishing): Die von Trifacta bearbeiteten Daten können mit statistischen und analytischen Programmen sowie Visualisierungs-Tools weiter ausgewertet werden.
Den Nutzen der Trifacta-Verfahren bei der Deutschen Börse umschreibt Content-Lab-Leiter Sippel so: „Um zum Beispiel Marktteilnehmern Vorhersagen für bestimmte Handelskosten zur Verfügung zu stellen, müssen wir verschiedene Datenquellen aus unserem Haus zusammenbringen. Dazu sind viele verschiedene Schritte in einer Prozesskette notwendig. Die Daten stammen aus verschiedenen Systemen, haben unterschiedliche Formate und sind mit jeweils anderen Standards abgespeichert. Um ein übergreifendes Modell bauen zu können, muss man zunächst die Daten harmonisieren – und sie zum Teil auch aufräumen.“
Trifacta zufolge können Anwender im Schnitt 70 Prozent der Zeit einsparen im Vergleich zu bestehenden Ansätzen wie Excel, SQL und anderen Tools, wenn sie ihre disparaten Daten mit den geschilderten Methoden säubern und kombinieren.
Bei der Deutschen Börse hält man sich vornehm bedeckt, wenn es um die Frage geht, welche anderen Tools man neben Trifacta noch in die engere Wahl gezogen oder getestet hat. Aus der Welt der Analysten und Consultants bekommt man hier mehr Informationen. So hat Forrester Research in dem Report „The Forrester Wave: Data Preparation Tools. The Seven Providers That Matter Most And How They Stack Up“ vom März 2017 den Markt für Data-Preparation-Tools näher untersucht und sieben führende Anbieter identifiziert. Es sind Alteryx, Datawatch,
Oracle, Paxata, SAS, Trifacta und Unifi.
Die Forrester-Analysten gehen davon aus, dass dieser Markt weiter zulegen wird, da es in vielen Branchen ein wachsendes Bedürfnis gibt, mehr über die Kunden zu wissen (Customer Insights) – besonders bei Marketing und Angebotsgestaltung in Ladengeschäften oder in Webshops. Dabei soll die Betrachtung und Analyse der Daten möglichst einfach vonstattengehen – ohne dass man geschultes IT-Personal hinzuziehen muss. Machine Learning und Automatisierung der Tools sind denn auch entscheidend für den Markterfolg.
Laut Forrester gehört Trifacta neben Paxata zu den Marktführern, weil man dort eine gute Balance zwischen den Anforderungen von Analysten und Business-Usern gefunden habe. Zur erfolgreichen Strategie von Trifacta gehöre es auch, Interessenten stressfrei mit einer Gratis-Version des Tools experimentieren zu lassen – und so einen sehr großen Korpus an Daten zu erhalten, um seine Programme zu verbessern. Der Report urteilt: „Trifacta verfügt über besonders ausgefeilte Methoden für das Sammeln und für die automatische Umwandlung von Daten. Viele Kunden zeigen sich zufrieden, es gibt aber auch kritische Anmerkungen zu den Such- und Collaboration-Funktionen, die verbessert werden sollten.“
Bei der Deutschen Börse überwiegt die Zufriedenheit mit Trifacta, sogar die wie bei allen Start-ups ungewissen Zukunftsaussichten beunruhigen Lab-Leiter Sippel nicht. Besonders freut er sich über die Anbindung des Projekts an eine Public Cloud, die in dieser Weise bei den Handelssystemen der Deutschen Börse so noch nicht möglich sei: „In unserer cloudbasierten Infrastruktur analysieren wir Daten und entwickeln wir Use-Cases, aus denen am Ende im besten Fall auch produktive Systeme, Produkte oder auch nur neue Erkenntnisse entstehen. Durch die Nutzung der Cloud können wir Speicher- und Rechenkapazitäten dafür entsprechend flexibel abrufen.“

mehr zum Thema