Business-IT
02.07.2018
Analytische Datenbanken zur Miete
1. Teil: „Das Data Warehouse wandert in die Cloud“

Das Data Warehouse wandert in die Cloud

Data WarehouseData WarehouseData Warehouse
cybrain / shutterstock.com
Datenverwaltung und -analyse als Service spart Kosten und bringt Vorteile. Data Warehouses in der Cloud spielen eine immer wichtigere Rolle für Unternehmen.
Es ist ein Traum, den Unternehmen schon seit Jahrzehnten träumen: Alle Firmendaten sind in einem zentralen, konsistenten, vollständigen und normalisierten Datenbestand auf SQL-Basis (Structured Query Language) zusammengefasst und Abfragen lassen sich über eine zentrale Bedienoberfläche erstellen und schnell durchführen.
Ein solches Data Warehouse ist allerdings eine Utopie geblieben, beobachtet Stefan Sexl, Mitgründer der pmOne AG, die sich auf Software-Lösungen im Bereich Business Intelligence spezialisiert hat: „Daten sind zu dynamisch und beweglich, um das Ideal eines Data Warehouse erfüllen zu können.“
Die Idee einer konsolidierten und harmonisierten Datensammlung ist aber noch längst nicht tot, sagt Carsten Bange, Geschäftsführer des Business Application Research Centers (BARC): „Wenn die Definition nicht ganz so eng ausgelegt wird, ist das Data Warehouse nach wie vor ein attraktives Konzept.“ Im Unterschied zum Data Lake, der nur Rohdaten sammelt, sind Abfragen in einem solchen Konstrukt deutlich schneller und komfortabler auszuführen: „Ein Data Ware­house verwaltet Informationen in einer organisierten Weise, die für Berichte und Datenanalysen leichter zugänglich ist“, erklärt Thomas Steinborn, Senior Director Product Management bei Talend, Anbieter von Cloud- und Big-Data-Integrations-Software.

Data Warehouse bleibt beliebt

Entsprechend hoch ist die Nachfrage nach Data-Warehouse-Lösungen. Das Marktforschungsinstitut Market Research Media prognostiziert, dass der Umsatz in diesem Segment von 2017 bis 2022 um 8,3 Prozent steigen wird. Das Marktvolumen soll bis 2022 mehr als 20 Milliarden Dollar betragen. Wie in vielen anderen Bereichen spielen auch hier Cloud-Lösungen eine immer wichtigere Rolle. Laut der BARC-Studie „Cloud BI and Data Management“ nutzen bereits 42 Prozent der befragten Unternehmen ein Data Warehouse in der Cloud. „Mit dem Aufkommen von großen Datenmengen, von Cloud-Systemen sowie von Technologien wie IoT und mobilen Lösungen sind die meisten herkömmlichen lokalen Data Warehouses nicht mehr in der Lage, das Volumen, die Vielfalt und die Komplexität der Anforderungen zu bewältigen“, weiß Talend-Manager Steinborn.
Erschwerend kommt hinzu, dass diese Datenmassen meist nicht in der strukturierten Form einer SQL-Tabelle vorliegen. „Moderne Anwendungen nutzen semistrukturierte Datenformate wie JSON, Apache Parquet oder ORC“, erklärt Artin Avanes, Director Product Management beim Cloud-Data-Warehouse-Anbieter Snowflake. „Für die Verarbeitung solcher Dateien sind traditionelle Data-Warehouse-Systeme nicht ausgelegt.“ Während sich für transaktionale OLTP-Aufgaben (Online Transaction Processing) nicht relationale No-SQL-Systeme als Alternative anbieten, sind sie für OLAP (Online Analytical Processing) und Business Intelligence (BI) meist nicht performant genug. „Wir haben immer wieder Kunden, die aus der NoSQL-Welt zu uns kommen, weil sie mit der Abfragegeschwindigkeit nicht zufrieden waren“, berichtet Avanes, „für analytische Zwecke bleiben relationale Datenbanken das Mittel der Wahl.“
Ein weiteres Argument, das für ein cloudbasiertes Data Warehouse spricht, ist laut Avanes die Unterstützung vieler paralleler Zugriffe: „In modernen Unternehmen sollte jeder Mitarbeiter Zugang zu den für ihn relevanten Daten haben und Analysen durchführen können.“ Traditionelle Systeme könnten jedoch mit vielen gleichzeitig aktiven Anwendern nicht umgehen, so Avanes weiter. „Das kann zu erheblichen Performance-Einbußen führen.“
2. Teil: „Flexible Nutzung“

Flexible Nutzung

Auch der Kostenaspekt spielt wie bei den Entscheidungen für Cloud-Computing eine wichtige Rolle, sagt Carsten Bange: „Die Idee, flexibler abrechnen zu können und nur für die tatsächliche Nutzung bezahlen zu müssen, ist für viele Unternehmen ein wichtiges Argument für ein Cloud-Data- Warehouse.“ Selbst betriebene Lösungen seien oft überdimensioniert, um Lastspitzen abdecken zu können: „Monatsreports oder Quartalsabschlüsse sind typische Nutzungsszenarien, die für kurze Zeit sehr hohe Lasten auf das System bringen.“ Der Big-Data-Trend und die zunehmende Verbreitung anspruchsvoller Analyseverfahren erschwert laut Stefan Sexl von pmOne die Ressourcenplanung zusätzlich: „Wenn ich Machine-Learning-Algorithmen auf die Kundendaten der letzten zehn Jahre anwenden möchte, erzeugt das einen gewaltigen Rechenbedarf.“ Bei vielen selbst gehosteten Systemen bricht dann die Leistung ein, Abfragen dauern zu lange – das am häufigsten von den Nutzern genannte Problem, wie der von BARC durchgeführte BI Survey zeigt: „Lange Antwortzeiten stören die Nutzer massiv“, sagt Bange, „das geht so weit, dass sie langsame Systeme für nicht mehr bedienbar halten, auch wenn die Daten und die Analysen eigentlich in Ordnung sind.“ Viele Unternehmen versuchten das Problem nach dem „KIWI“-Prinzip (Kill it With Iron) mit noch mehr Hardware zu lösen: „Das hat weiter steigende Kosten in der Anschaffung, beim Betrieb und in der Wartung zur Folge.“
Doch nicht nur Flexibilität und Einsparungen sprechen laut Jens Bussmann, Regional Sales Lead DACH bei Google, für ein Cloud-Data-Warehouse. „Kunden erhalten ein System, das sie meist in der Qualität nicht selbst hätten entwickeln können, gesichert und ständig weiterentwickelt von Experten.“ Dem Anwender steht nicht nur die aktuellste Hardware zur Verfügung, er kann auch neue Analysemethoden sofort nutzen.

Sicherheit und Kosten

Natürlich bringt die Datenhaltung in der Cloud auch Nachteile mit sich. „Viele Unternehmen haben Angst dass ihre Daten zweckentfremdet werden“, berichtet Stephan Grotz, Systems Engineering Manager Central beim Hadoop-Spezialisten Cloudera. „Sie wissen nicht zu hundert Prozent, wer Zugriff auf die Daten hat und welche Datenschutzrichtlinien in einer Cloud gelten, die sich über mehrere Kontinente erstreckt.“ Hinzu kommt, dass Einsparungseffekte schnell ins Gegenteil umschlagen. „Anwender können mit wenigen Klicks viel Kapazität bekommen“, so Grotz: „Diese Erweiterungen schlagen sich auch in den Kosten nieder. Viele Unternehmen geben oft bereits während der Testphase das Budget für das gesamte Jahr aus.“
Wer seine Daten aus dem eigenen Data Warehouse in die Cloud überführen will, sollte den Aufwand nicht unterschätzen, warnt Carsten Bange: „In der Regel lassen sich das Datenmodell und die Prozesse für die Datenintegration bei der Migration in die Cloud nicht eins zu eins übernehmen.“ Zudem fehlten den Anwendern oft die Erfahrung und das Know-how im Umgang mit Cloud-Providern: „Es ist nicht klar, welche rechtlichen und technischen Aspekte man in den Verträgen beachten muss.“ Auch die Spezialisten, die man für den Betrieb einer Cloud brauche, seien Mangelware: „Ein solcher Schritt hängt auch vom vorhandenen Wissen und der Lernbereitschaft der Mitarbeiter ab.“
Lösungen aus der Cloud kommen daher vor allem dann infrage, wenn sich die Daten ebenfalls schon in der Cloud befinden. „Dann fällt vielen der Schritt zu einem cloudbasierten Data Warehouse leichter“, sagt Bange. Auch Prototypen und Testsysteme werden gern in der Cloud aufgebaut: „Wenn ich einen Proof of Concept machen soll, kann ich häufig nicht wochenlang auf Hardware warten.“ Bei neuen Anwendungsszenarien oder Geschäftsmodellen griffen Anwender ebenfalls vermehrt zur Cloud: „In solchen Fällen ist die Hemmschwelle niedriger.“ Laut Stefan Sexl von pmOne sind es vor allem Fachabteilungen, die eine Datennutzung und -analyse in der Cloud vorantreiben: „Anwender wollen sehr schnell Dinge ausprobieren, statt Investitionsanträge zu stellen und auf die Hardware-Beschaffung zu warten. Ein Cloud-Data-Ware­house bietet hier enorme Flexibilitätsvorteile.“
3. Teil: „Die richtige Lösung finden“

Die richtige Lösung finden

Vor der Entscheidung für oder gegen eine Data-Warehouse-Lösung sollten sich Unternehmen vor allem über ihre Ziele klar werden, rät Jens Bussmann von Google: „Ist die Entscheidung an Kosten gebunden oder geht es eher um Performance? Sollen besonders große Datenmengen verarbeitet werden oder geht es um Geschwindigkeit bei der Verarbeitung?“
Carsten Bange rät, alle Komponenten im Blick zu behalten: „Wie kommen die Daten in das Ware­house, wie teuer ist der Datentransfer, wie wirkt sich die Übertragung auf die Gesamt-Performance aus, wie greift das Front­end auf die Daten zu?“ Vor allem Multi-Cloud-Szenarien, in denen Data Warehouse und BI-Tools in unterschied­lichen Umgebungen laufen, können zu Problemen führen. „Das funktioniert nach unseren Erfahrungen nicht immer zufriedenstellend“, so Bange. „Man muss sich das komplette Szenario anschauen, gerade wenn andere Komponenten wie BI und Integrationsservices auch aus der Cloud kommen.“

AWS, Microsoft, Google

Bei der Wahl einer cloudbasierten Data-Warehouse-Lösung sind Unternehmen nicht notwendigerweise auf die klassischen Datenbankanbieter angewiesen. Die drei führenden Cloud-Provider Amazon Web Services (AWS), Microsoft und Google haben jeweils eine eigene Data-Warehouse-Lösung im Portfolio.
Das AWS-Produkt Amazon Redshift ist eine relativ klassische relationale Datenbank. Der 2013 eingeführte Service beruht auf PostgreSQL 8.0.2 und damit auf einer ziemlich alten Version des Open-Source-Datenbanksystems. Aktuell ist bereits Version 10 von PostgreSQL verfügbar. „Den Vorwurf von Oracle, Redshift basiere auf einer älteren Technologie und habe daher noch Aufholbedarf bei anspruchsvollen Datenbank-Features, kann man nicht ganz von der Hand weisen“, meint BARC-Geschäftsführer Bange.
Neben Standardabfragen auf strukturierten Daten bietet AWS mit Redshift Spectrum die Möglichkeit, SQL-Abfragen auf unstrukturierten Daten durchzuführen, die sich im Amazon-Objektspeicher S3 befinden. Redshift Spectrum unterstützt eine Vielzahl von Datenformaten.
Das Marktforschungsunternehmen GigaOm bemängelt neben den fehlenden seit Postgre-SQL 9 zur Verfügung stehenden zusätzlichen SQL-Funktionen die eingeschränkte Elastizität von Redshift. Cluster lassen sich demnach nicht im laufenden Betrieb erweitern.
Das 2016 eingeführte Microsoft Azure SQL Data Warehouse basiert ebenso wie Redshift auf einer Massivparallelrechner-Architektur (Massively Parallel Processing, MPP) mit un­abhängigen Knoten (Shared Nothing), deren Code-Basis (Azure SQL Database) stark der von Microsoft SQL Server ähnelt. Beide verwenden mit Transact SQL (T-SQL) denselben Microsoft-eigenen SQL-Dialekt und lassen sich von bekannten Tools wie dem SQL Server Management Studio (SSMS) aus bedienen. Das Microsoft-Angebot lässt sich im laufenden Betrieb skalieren und bei Bedarf pausieren. Allerdings gehen alle Abfragen verloren, die während einer Skalierung oder Pausierung abgesetzt werden.
Das Google-Data-Warehouse BigQuery basiert auf dem Abfragedienst Dremel, den das Unternehmen für seine eigenen Datenanalysen entwickelt hat. Nach Angaben des Anbieters liegt die Abfragezeit selbst bei Milliarden von Reihen bei kaum mehr als 10 oder 20 Sekunden, ohne dass eine Indizierung notwendig wäre. BigQuery unterstützt laut Google-Mitarbeiter Bussmann den SQL-Standarddialekt und ist leicht zu verwalten. „Daneben ist die von Google entwickelte KI führend in der Analyse und Nutzbarmachung der Daten“, erklärt der Regional Sales Lead DACH. BARC-Geschäftsführer Bange findet vor allem die Kombination von BigQuery mit dem Datenvorbereitungsdienst Cloud Dataprep interessant, der von dem Anbieter Trifacta betrieben wird.
Kriterien für die Wahl einer cloudbasierten Data-Warehouse-Lösung
Das Marktforschungsunternehmen GigaOm rät, bei Cloud-Analytics-Lösungen vor allem auf diese Aspekte zu achten:
  • SQL-Support: Das Data Warehouse sollte kompatibel zu Standard-SQL sein. Erweiterungen der Query-Funktionen oder die Unterstützung zusätzlicher Array- und Strukturtypen sind von Vorteil, sollten aber nicht zulasten der Kompatibilität gehen.
  • Integrierte Optimierung: Eine Cloud-Lösung sollte Datenbankabfragen selbstständig und automatisiert beschleunigen. Die Optimierungsfunktionen sollten die cloudspezifischen Eigenheiten berücksichtigen und auch bei verteilten Daten funktionieren.
  • Skalierbarkeit: Ein cloudbasiertes Data Warehouse sollte sich unterbrechungsfrei und unbegrenzt erweitern und auch zurückfahren lassen, ohne dass der Nutzer vorab Instanzen definieren oder reservieren muss. Je granularer die Ressourcenbereitstellung ist, desto besser.
  • Parallele Nutzung: Die Verfügbarkeit in der Cloud erweitert in der Regel den Kreis an Nutzern erheblich. Ein cloudbasiertes Data Warehouse sollte deshalb eine hohe Zahl gleichzeitiger Zugriffe ermöglichen, ohne dass es zu Leistungseinbußen oder Inkonsistenzen kommt.
  • Trennung von Speicher- und Rechenressourcen: Um die Kostenvorteile und die Flexibilität der Cloud optimal nutzen zu können, sollte die Abrechnung für Speicherplatz und Rechenleistung getrennt erfolgen. So zahlt der Anwender nur dann für Compute-Instanzen, wenn er sie wirklich braucht, während in der übrigen Zeit nur geringe Aufwände für die Datenhaltung anfallen.
  • Unterstützung semistrukturierter Datenformate: Neben SQL sollte die Lösung Formate wie JSON, XML, Avro oder Parquet unterstützen und diese ohne zusätzliche Transformationsschritte verwenden können.
4. Teil: „Provider-unabhängig“

Provider-unabhängig

Anders als Redshift, BigQuery oder das Azure SQL Data Warehouse ist der Elastic Data Warehouse Service von Snowflake Computing nicht an einen bestimmten Provider gebunden, auch wenn er derzeit nur auf Amazon Web Services genutzt werden kann. „Wir werden unser Angebot demnächst auch auf anderen Cloud-Plattformen zur Verfügung stellen“, verspricht Snowflake-Manager Avanes. Im Unterschied zu klassischen Shared-Nothing-Architekturen, in denen jeder Knoten Rechen- und Speicherkapazität haben muss, trennt Snowflake beide Komponenten. „Das ist genau die Flexibilität, die ich bei einem Cloud-Service suche“, lobt Carsten Bange von BARC. Als Storage kann Snowflake Objektspeicher (Blob Storage) wie Amazon S3, Azure Blob Storage oder Google Cloud Storage nutzen. Die reine Datenhaltung wird dadurch laut Snowflake sehr preisgünstig. Rechenkapazität bucht der Anwender nur dann flexibel zu, wenn er sie tatsächlich benötigt.
Ebenfalls Provider-unabhängig funktioniert der Enterprise Data Hub von Cloudera, der nicht nur auf Amazon Web Services, Microsoft Azure und der Google Cloud Platform, sondern auch im eigenen Rechenzentrum betrieben werden kann. Cloudera unterstützt Objektspeicher wie S3 und kann Cluster komplett herunterfahren, ohne dass die Daten verloren gehen. Über den Platform-as-a-Service-Dienst Cloudera Altus können Anwender direkt im Selfservice Abfragen durchführen.

Cloud-Traditionalisten

Neben den cloud-nativen Angeboten gibt es eine Reihe von Lösungen der traditionellen Data-Warehouse-Anbieter, die sich zusätzlich oder alternativ zum Einsatz im eigenen Rechenzentrum auch in einer Cloud-Umgebung betreiben lassen. Unternehmen können so hybride Data-Warehouse-Umgebungen aufbauen, ein Szenario, das laut BARC-Analyst Bange viele Anwender bevorzugen: „Die komplette Mi­gration eines Data Warehouse in die Cloud sehen wir eher selten.“ Cloudera-Manager Grotz ist allerdings skeptisch, was die Umsetzung einer solchen Strategie betrifft: „Es ist sicher nicht unmöglich, bringt aber sehr viel zusätzliche Komplexität mit sich.“
Zu den Lösungen, die sowohl On-Premise wie in der Cloud verfügbar sind, gehört beispielsweise die Vertica Analytics Platform von HPE. Der Hersteller bietet sie auch auf AWS, Azure, der Google Cloud Platform und in VMware-Cloud-Umgebungen an. Das Db2 Warehouse on Cloud von IBM – bisher als „dashDB for Analytics“ vertrieben, ist ein gemanagter Service, der auf der IBM-Cloud-Plattform Bluemix, aber auch auf AWS und Azure betrieben werden kann. Der Database Exadata Cloud Service von Oracle wird lediglich über die herstellereigene Cloud angeboten. SAP BW/4HANA lässt sich auf AWS, Azure und der Google Cloud Platform installieren, allerdings muss der Kunde eine eigene Lizenz mitbringen.
Tabelle:

5. Teil: „Im Gespräch mit Tristan Woerth, Head of Data Scientce bei Siroop“

Im Gespräch mit Tristan Woerth, Head of Data Scientce bei Siroop

Der Schweizer Online-Marktplatz Siroop setzt auf das cloudbasierte Data Ware­house von Snowflake Computing, um seine Daten schneller, gründlicher und einfacher analysieren zu können.
  • Tristan Woerth: Head of Data Science bei Siroop
    Quelle:
    Siroop
Tristan Woerth, Head of Data Science bei Siroop, erklärt die Gründe für diese Entscheidung.
com! professional: Herr Woerth, worin bestehen für einen E-Commerce-Anbieter wie Siroop die größten Herausforderungen bei der Datenanalyse?
Tristan Woerth: Für uns war vor allem die Frage entscheidend, wie wir unsere Daten schneller auswerten können. Je früher wir Informationen erhalten, desto wertvoller sind sie für uns. Das spielt in vielen Bereichen unseres Geschäfts eine wesentliche Rolle. Der Warenbestand unserer Händler verändert sich beispielsweise sehr schnell, wir müssen daher möglichst genau und zeitnah über Nachfrage und Verfügbarkeit Bescheid wissen, damit keine Lieferengpässe entstehen. Auch in einem Betrugsfall ist es entscheidend, ob der Täuschungsversuch eine Stunde nach Eingang der Bestellung erkannt wird oder erst am nächsten Tag, wenn die Ware bereits das Lager verlassen hat.
Hinzu kommt, dass Daten bei uns in vielen verschiedenen Formaten vorliegen, die wir möglichst direkt lesen wollen, ohne sie vorher transformieren zu müssen.
com! professional: Sie haben für die Analyse ein cloudbasiertes Data Warehouse gewählt. Aus welchem Grund bevorzugen Sie eine Cloud-Lösung?
Woerth: Ich betrachte Siroop als cloud-native. Wir betreiben keine eigenen Server, eine Lösung, die die Anschaffung von Hardware erfordert hätte, kam daher gar nicht infrage.
Selbst ein Konzept wie EC2 von AWS sehe ich für Siroop nicht als zielführend an, da bei solchen Lösungen Überlegungen zu In­stanzen, Containern oder Server notwendig sind. Ich möchte Services nutzen können und mich nicht um die Systemadministra­tion kümmern.
com! professional: Das heißt, eine der traditionellen Data-Warehouse-Lösungen kam prinzipiell nicht in Betracht?
Woerth: Doch, diese Möglichkeit wurde zu Beginn des Projekts ebenfalls diskutiert. Viele der herkömmlichen Data-Warehouse-Lösungen lassen sich ja auch auf Cloud-In­stanzen migrieren. Unserem Business-Intelligence-Team wurde aber schnell klar, dass eine solche Lösung für Siroop nicht sinnvoll ist.
Wer ein traditionelles Data Warehouse in die Cloud migriert, löst keines der eigentlichen Probleme und hat am Ende dieselben Beschränkungen wie zuvor im eigenen Rechenzentrum.
com! professional: Und warum haben Sie sich für Snowflake entschieden?
Woerth: Das hatte mehrere Gründe. Erstens ist der Einstieg äußerst einfach. Ich konnte anhand der angebotenen Tutorials und Dokumente in einer Stunde produktiv damit arbeiten, ohne einen Snowflake-Mitarbeiter kontaktieren zu müssen. Jeder Neukunde erhält Credits im Wert von 400 Dollar, die er für sein erstes Projekt verwenden kann.
Zweitens lässt sich das Data Warehouse von Snowflake sehr gut skalieren. Ich kann die Datenbank von null aus hochfahren und bei Bedarf auch wieder zurückführen. Ich muss mir keine Gedanken über Server-Zahlen oder Clustergrößen machen.
Drittens unterstützt die Lösung nativ aktuelle Datenformate wie JSON oder XML.
com! professional: Welches Data Warehouse hatten Sie bisher im Einsatz?
Woerth: Wir haben bisher vornehmlich Databricks und Spark für Datenanalysen verwendet. Snowflake ersetzt diese Lösung aber nicht, sondern ergänzt sie. Wir sparen durch Snowflake eine Menge Programmieraufwand auf unserem Data Lake, den wir bei Daten­abfragen früher hatten.
com! professional: Welche anderen Data-Warehouse-Lösungen haben Sie evaluiert?
Woerth: Wir haben uns auch die anderen beiden reinen Cloud-Data-Warehouse-Lösungen Amazon Redshift und Google BigQuery angesehen. Gegen Redshift sprach, dass wir uns vorab über die Größe der Infrastruktur hätten Gedanken machen müssen. Es gibt zwar eine gewisse Flexibilität, aber dennoch kommt man um eine Provisionierung nicht herum.
com! professional: Und BigQuery?
Woerth: Das ist eine wirklich gute Lösung, aber sie adressiert eher Ingenieure und Programmierer als Datenanalysten und Data Scientists und war deshalb nicht unsere erste Wahl.
com! professional: Wie verlief das Projekt? Konnten Sie Budgetziele und Termine einhalten?
Woerth: Als agiles Unternehmen gibt es bei uns zwar einen Projekt­anfang, aber oft kein definiertes Ende. Daher kann ich Ihre Fragen nicht so einfach beantworten.
Zu Beginn des Projekts hatten wir mit dem BI-Team vereinbart, einen Proof of Concept für eine Fragestellung bei unseren Sales Reports zu entwickeln. Wir hatten ziemlich schnell eine hinreichend gut funktionierende Lösung und fügen nun weiter Daten hinzu.
com! professional: Gab es im Projekt Überraschungen positiver oder negativer Art?
Woerth: Man muss ein paar Eigenheiten von Snowflake berücksichtigen. Beispielsweise gibt es keinen Index und es gibt auch kein Backup-Konzept im herkömmlichen Sinn. Stattdessen speichert man Referenzen auf einer Zeitachse. Hier muss man zum Teil deutlich umdenken.
com! professional: Gibt es Dinge, die Sie vermissen?
Woerth: Noch sind die meisten Datenmodellierungswerkzeuge nicht kompatibel zu Snowflake.
com! professional: Haben Sie einen Return on Invest (ROI) berechnet? Falls ja, wurde dieser eingehalten?
Woerth: Wir haben uns gegen eine solche Rechnung entschieden, weil es ja keine wirklichen Investitionen gibt. Wir mussten keine Server oder Lizenzen kaufen, die Abrechnung erfolgt im Wesent­lichen nutzungsbasiert.
com! professional: Was würden Sie mit dem Wissen von heute bei diesem Projekt anders machen?
Woerth: Ich würde besser auf unseren Account-Manager bei Snowflake hören. Er empfahl mir für ETL-Aufgaben die Cloud-Integrations-Software Cloud Matillion. Ich habe diesen Tipp zunächst
ignoriert, was ich nicht wieder tun würde. Mit Matillion lassen sich Abfragen nämlich sehr effizient planen und durchführen.
Außerdem würde ich von Beginn an mehr Ressourcen in das Projekt investieren. Nach heutiger Erfahrung wissen wir, dass die Vorteile der Snowflake-Lösung um so größer sind, je intensiver man das Data Warehouse nutzt – zumal mehrere Mitarbeiter problemlos parallel an einem Projekt arbeiten können.

mehr zum Thema