Business-IT
27.05.2019
Start-up-Porträt: Snowflake
1. Teil: „Ein Data Warehouse für die Cloud“

Ein Data Warehouse für die Cloud

CloudCloudCloud
fullvector / shutterstock.com
Snowflake läuft den etablierten Anbietern mit einem elastischen Data Warehouse as a Service den Rang ab. Das Start-up befindet sich laut Garnter zwar noch in der Wachstumsphase, habe aber beste Zukunftsaussichten.
  • Vorteile Snowflake: Der Einsatz der Data-Warehouse-Lösung hat den Snowflake-Kunden laut Forrester Millionen Dollar gespart.
    Quelle:
    Forrester "The Total Economic Impa<t of Snowflake Data Warehouse-As-A-Service" (2018)
Start-ups zählen zu den wichtigsten Treibern der Digitalisierung. Aber oft ist schwer abzuschätzen, wie viel Sub­stanz hinter einem vielversprechenden Konzept wirklich steckt.
Ein junges Unternehmen, das es im Start-up-Wunderland USA in relativ kurzer Zeit geschafft zu haben scheint, ist Snowflake mit einem Data Warehouse as a Service. Das 2012 von drei Franzosen gegründete Start-up mit Sitz im kalifornischen San Mateo hat sehr schnell die Aufmerksamkeit vieler Anwender und Investoren auf sich gezogen. Das zeigt sich überdeutlich an den 450 Millionen Dollar an Funding-Geldern, die Snowflake bisher erhalten hat, unter anderem von renommierten Venture Capitalists wie Altimeter Capital, Capital One, ICONIQ Capital, Redpoint Ventures, Sequoia Capital, Sutter Hill und Wing Venture Capital. Die Marktkapitalisierung (also der geschätzte Unternehmenswert) soll inzwischen bei 3,9 Milliarden Dollar liegen, ein extrem hoher  Wert für ein so junges Unternehmen. Damit gehört Snowflake zu den 25 am höchsten bewerteten nicht börsennotierten Technologie-Unternehmen der USA. Snowflake hat bereits über 1000 Kunden und will bis Ende 2019 in 20 Ländern präsent sein. Doch was macht Snowflake so besonders?

Von Grund auf neu

Snowflake wurde von Benoît Dageville, Thierry Cruanes und Marcin Zukowski gegründet, um eine einfache und sichere Alternative zu den komplex einzurichtenden, schwierig zu verwaltenden und sehr teuren traditionellen Data Warehouses zu bieten - allen voran Teradata, der einst unbestrittenen Nummer eins auf diesem Gebiet. Firmengründer Dageville hat in einem Blog-Beitrag die Philosophie von Snowflake so beschrieben: „In einer Industrie, in der die Veränderung eigentlich die Normalität darstellt, ist es bemerkenswert, wie wenig Fortschritte das Data Warehousing im letzten Jahrzehnt gemacht hat. In dieser Zeit hat es größere Veränderungen gegeben: vom Aufkommen der Cloud bis zur gegenwärtigen Big-Data-Explosion. Doch die Datenbanken - und Data Warehouses - sind im letzten Jahrhundert steckengeblieben.“ Dann kommt er zu der grundsätzlichen Frage, die er und seine Mitstreiter sich vor der Gründung von Snowflake gestellt haben: „Wenn man heute eine Datenbank für ein Data Warehousing von Grund neu auf bauen würde, wie müsste sie dann aussehen?“
Und er stellt die Grundprinzipien dar, die eine solche neue Technologie seiner Meinung nach berücksichtigen müsste:
Zuallererst sollten Anwender - und nicht Daten - im Fokus stehen. Die Anwender brauchen nur ihre Daten einzugeben und Queries laufen zu lassen. Das System muss den Rest erledigen, und das sehr schnell.
Das System sollte alle Daten speichern, die man ablegen will. Es sollte unbegrenzte Speicherkapazität haben, zu so niedrigen Kosten, dass niemand mehr auf die Idee käme, Daten wegzuwerfen.
Das Design sollte so optimiert werden, dass Daten jeder Art darin Platz finden und bearbeitet werden können - von einfachen relationalen Strukturen wie CSV bis zu semi-strukturierten Daten wie JSON, Avro und XML.
Das System sollte schnell liefern und einen einfachen Zugang zu allen relevanten Daten innerhalb und außerhalb des Unternehmens bieten.
Das System sollte wirklich elastisch sein - seine Compute- und Storage-Ressourcen sollten in der Lage sein, on-the-fly je nach Bedarf zu wachsen oder kleiner zu werden. Es müsste sich kontinuierlich fortentwickeln können.
Und schließlich müsste so ein „dream warehouse“ immer verfügbar sein: ohne Auszeiten, ohne Datenverlust, von überall voll zugänglich. Und komplett sicher. Ohne dass Administratoren und User sich darum kümmern müssen.
Dageville resümiert: „Geht man von diesen Anforderungen aus, dann stellt sich die Frage: Wie kommt man dahin? Traditionelle Datenbanken sind nicht die Antwort: Sie liegen einfach so weit zurück, dass sie nicht mehr aufholen können. Sie sind zu unflexibel, um mit neuen Datentypen und Anwendungsfällen zurechtzukommen, sie sind unglaublich komplex zu managen, weder effizient noch elastisch und einfach zu teuer angesichts der allgemeinen Datenexplosion. Verbesserungen der bestehenden Technologie werden nicht funktionieren - es braucht revolutionäre Veränderungen.“
2. Teil: „Cloud statt Hadoop “

Cloud statt Hadoop

  • Führende Rolle: Gartner hat Snowflake im jüngst veröffentlichten „Magic Quadrant for Data Management Solutions for Analytics“ unter den „Leaders“ eingestuft.
    Quelle:
    Gartner (Januar 2019)
Viele Leute in der IT und in den Unternehmen hofften, dass Hadoop diese Revolution einleiten könnte. Die Hadoop-Technologie basiert auf Open Source und Commodity-Hardware und stellt so relativ kostengünstigen Storage zur Ver­fügung, der für die Aufnahme und Verwaltung großer Datenmengen geeignet ist.
Benoît Dageville aber hält von Hadoop nicht sehr viel. Er führt gegen das freie Framework gleich eine ganze Reihe von Argumenten ins Feld: „Hadoop-Systeme sind oft weit weniger effizient als traditionelle Warehouse-Systeme. Die Schnittstellen sind für Spezialisten gemacht und lassen Millionen von Anwendern und Administratoren unberücksichtigt. Außerdem ist Hadoop kein Produkt, sondern ein kompliziert zugängliches Ökosystem.“ Und das bedeutet, so der Snowflake-Gründer, dass es nicht nur sehr komplex sei, sondern letztlich auch sehr teuer.
Für Dageville stellt einzig und allein die Cloud die Computing-Plattform für das „ideale“ Data Warehouse dar. Die Cloud sei mehr als nur ein anderer Weg, um an Hardware-Ressourcen heranzukommen. Sie sorge für virtuell unendliche Speicher- und Compute-Ressourcen, die on demand angefordert, aber auch wieder abbestellt werden könnten. Und sie befreie die Anwender von allen Managementaufgaben bei Software und Infrastruktur. Auf dieser Basis sei wirklich elastische Software aufzubauen, die die Unternehmen als Service beziehen können. Dageville räumt aber ein: „Um die erstaunlichen Fähigkeiten der Cloud voll auszuschöpfen, muss die Software neu erfunden und von Grund auf neu aufgebaut werden.“
Genau das nimmt Snowflake für sich in Anspruch. Es bezeichnet sich als „das für die Cloud gebaute Data Warehouse“. Dessen besondere Merkmale sind: analytische relationale Datenbank speziell für die Cloud; SQL-Kompatibilität mit Datenbanken und Data Warehouses wie Oracle, Teradata, Netezza, SQL Server und Vertica; komplettes Self-Management, wodurch alle Extra-Ausgaben auf Kundenseite für den Betrieb der Datenbank wegfallen; unbegrenzte Größe der Daten; unbegrenzter gleichzeitiger Zugriff der Mitarbeiter auf der Kundenseite; Unterstützung von strukturierten und maschinell erzeugten halb strukturierten Daten; wesentlich niedrigere Kosten als traditionelle SQL-basierte Data Warehouses.
3. Teil: „Liebling der Analysten“

Liebling der Analysten

  • Vollgas: Zu den rund 1000 Kunden, die Snowflake seit 2014 gewonnen hat, zählen Adobe, Akamai, Deliveroo, Sony und das  Formel-1-Team von Red Bull.
    Quelle:
    Mark Thompson / Getty Images
Mit diesem Konzept hat Snowflake seit 2014 seine Kunden gewinnen können, darunter viele namhafte Unternehmen. Nicht zufällig ist es um klassische Anbieter von Data Warehouses wie Teradata in dieser Zeit ziemlich still geworden. Forrester Research veröffentlichte im Juni 2018 den Report „The Total Economic Impact Of Snowflake Data Ware­house-As-A-Service“ und attestiert darin der Snowflake-Technologie ein erhebliches Potenzial für Kosteneinsparungen und geschäftliche Vorteile.
Vor allem im Vergleich mit den klassischen Ansätzen von Data Warehousing schneidet das junge Unternehmen laut Forrester sehr gut ab: „Vor dem Einsatz von Snowflake mussten Kunden Einschränkungen bei der Skalierbarkeit und Performance der Datenbank in Kauf nehmen, wodurch Innovationen und geschäftliches Wachstum behindert wurden. Die Unternehmen hatten Schwierigkeiten, Zugang zu relevanten Daten zu bekommen, sie zu verarbeiten und zu speichern. Datenanalysen waren häufig nur nach langen Wartezeiten zu bekommen, da die Systeme komplex, langsam und nicht stabil waren. Die IT-Teams waren mit der Pflege der Datenbanken und der Sicherstellung eines akzepta­blen Leistungs­niveaus überlastet. Personal- und Upgrade-Kosten für die Systeme summierten sich beständig.“
Lockin-Situationen auf Kundenseite waren sprichwörtlich, wie umgekehrt die Gewinnsituation der relativ wenigen Anbieter von Data Warehouses. In der Blütezeit der CEBIT zum Beispiel gehörten die Ausstellungsstände der Data-Ware­house-Anbieter in der legendären Halle 2 mit zu den größten und vornehmsten der ganzen Messe.
Neben Oracle hat nur ein Hersteller wie Teradata seine Position vor allem bei sehr großen Kunden noch halten können und nimmt im Gartner-Quadranten für Data Warehouses (siehe Abbildung auf Seite 91) weiterhin einen prominenten Platz ein. Gartner schreibt zu Teradata in seiner Studie „Magic Quadrant for Data Management Solutions for Analytics“: „Teradata hat jahrelang führende Technologien auf diesem Sektor entwickelt und bietet immer noch eine der ausgefeiltesten Lösungen. Funktionsumfang, Service und Support sowie die hohe Zuverlässigkeit des Systems sorgen dafür, dass das ausgereifte Produkt weiterhin einen führenden Platz in unserem Quadranten einnimmt.“
Darüber hinaus befinde sich Teradata in einem vielversprechenden Prozess eines „Rebrandings“ des Portfolios und des Unternehmens, nachdem es in den letzten Jahren an Popularität verloren habe. Die Produkte seien heute für interne Rechenzentren verfügbar, aber auch über Cloud-Provider wie AWS oder Microsoft Azure. Damit habe Teradata in gewisser Weise mit dem Newcomer Snowflake gleichgezogen.
Noch vor Kurzem hatten die Analysten von Forrester als Besonderheit von Snowflake hervorgehoben, dass das Unternehmen auch die Kostenproblematik bei Data Warehouses neu angegangen sei: „Das Snowflake-Data-Warehouse wurde so gebaut, dass es in einer Public-Cloud-Infrastruktur läuft.“ Das bedeutet, dass die Kunden von den Vorteilen einer Infrastructure as a Service wie Mandantenfähigkeit (der Cloud-Kunde kann den Dienst seinerseits für Kunden benutzen), gemeinsam nutzbaren sowie skalierbaren Ressourcen und niedrigeren Kosten profitieren. Das gilt inzwischen jedoch auch für ein klassisches Data Warehouse wie Teradata.

Fazit & Ausblick

Snowflake bietet ein komplett verwaltetes Data Warehouse as a Service, das eigens für AWS- und Microsoft-Azure-Infrastrukturen gebaut wurde. Die Lösung unterstützt sequenzielles relationales Processing sowie Speicherformate wie JSON, Avro, ORC, Parquet und XML. Außerdem werden viele weitere Funktionen auf dem Datenbanksektor unterstützt, da­runter Apache Spark Connector oder R-Integration, und es gibt eine Reihe von Partnerschaften mit Spezialisten wie Qubole oder Databricks, um die Anwendungsfelder für die Kunden zu vergrößern.
Snowflake befinde sich zwar - so Gartner - noch in einem starken Entwicklungsprozess, weshalb manche Funktionen des Data Warehousings wie Stored Procedures oder webbasierte Bedienoberflächen erst mit Verspätung angeboten wurden. Zudem sei das Start-up in einer extremen Wachstumsphase, mit der der Organisationsausbau manchmal nicht Schritt halten könne. Doch insgesamt spricht Gartner Snowflake beste Zukunftsaussichten zu.
Als besonderen Pluspunkt für Snowflake wertet Gartner die zahlreichen positiven Kundenreferenzen, in denen die Produkt-Features, der finanzielle Gegenwert, die Preis- und Vertragskonditionen, die Flexibilität der Snowflake-Mitarbeiter und vor allem die einfache Implementierung hervorgehoben werden. Durch die Cloud-Infrastruktur hätten die Kunden darüber hinaus gute Skalierungsmöglichkeiten, was sich vorteilhaft von früher eingesetzten Programmen abhebe, bei denen vielfältige (und teure) Ressourcen zum Einsatz kamen.
4. Teil: „Im Gespräch mit Bob Muglia, CEO von Snowflake“

Im Gespräch mit Bob Muglia, CEO von Snowflake

  • Bob Muglia: CEO von Snowflake
    Quelle:
    Snowflake
Mit Bob Muglia haben die Gründer von Snowflake einen Mann an die operative Spitze ihres Unternehmens gestellt, der viele Jahre im Top-Management von Microsoft unter Steve Ballmer beschäftigt war und etwa die Entwicklung von SQL Server lei­tete. Vor seinem Wechsel zu Snowflake im Juni 2014 verantwortete er drei Jahre die Software Division von Juniper Networks.
com! professional: Was hat Sie an Snowflake gereizt?
Bob Muglia: Die Gründer des Start-ups gefielen mir wegen ihres Engagements und ihrem hohen Wissensstand. Sie überzeugten mich schnell von der Idee, ein Data Warehouse von Grund auf neu für die Cloud zu konzipieren, eine Datenbank auf Basis von Open Source zu entwerfen und diese für Data Warehousing zu nutzen, weil ihre Elastizität und Skalierbarkeit das ermöglichen.
com! professional: Welche Zielgruppen wollte Snowflake damit ansprechen?
Muglia: Im Vordergrund standen kleine und mittlere Kunden, nicht die ganz großen Unternehmen, die sich ein traditionelles Data Warehouse mit all seiner Komplexität leisten konnten. Um die Analogie zu T-Shirt-Größen zu gebrauchen: Interessenten können unsere Datenbank online in der Mindestausstattung schon für zwei Dollar kaufen. Viele unserer Kunden haben mit diesem „Extra Small“-Data Warehouse angefangen.
com! professional: Und damit konnte sich Snowflake gegen die Marktführer wie Teradata oder Oracle durchsetzen?
Muglia: Der größere Teil unserer über 1000 Kunden gehört sicherlich ins KMU-Segment, wobei aber 20 Prozent unserer Kunden 80 Prozent unseres Umsatzes bringen. Wir konzentrieren uns jetzt neben Asien stark auf den europäischen Markt, um dieses Verhältnis zu unseren Gunsten zu ändern.
com! professional: Worin besteht der große Unterschied zur klassischen Data-Warehouse-Technologie etwa von Teradata?
Muglia: Bei Teradata war es nicht üblich, dass die Kunden einen direkten Kontakt zu den Inhalten und Methoden des Warehouse hatten. Es galt die Devise:  „Don’t touch it!“ Unser Ansatz besteht in einer Demokratisierung der Daten. Wir machen sie zugänglich. Es ist so etwas wie eine kulturelle Transformation. Menschen sind in der Regel nicht so sehr datengetrieben in ihrem Denken und Verhalten. Wenn man den operativen Umgang mit den Daten ändert, kommt dies den Geschäftsprozessen zugute. Mit der Cloud ist das möglich.
com! professional: Welche Cloud-Techniken nutzt Snowflake?
Muglia: Wir haben uns Hadoop genauer angesehen, aber dann gesehen, dass viele Anwender nicht gerade glücklich damit waren. Hadoop konnte viele Workloads hochladen in einem Cluster, aber nicht parallel, sondern nur nacheinander. Wir haben aus den Fehlern von Hadoop gelernt. Wir hosten unsere Datenbank auf S3 von Amazon, und Microsoft Azure steht als Nächstes an. Wir nutzen deren fortgeschrittene Möglichkeiten. Große Unternehmen brauchen diese Gleichzeitigkeit, um mit ihren vielen Tausenden von Mitarbeitern effektiv arbeiten zu können.
com! professional: Warum diese Cloud-Dienstleister?
Muglia: Drei Technologien waren für uns wichtig: Erstens Blob Storage, wie ihn Amazon S3 anbietet. S3 ist bewundernswert schnell, skalierbar und beständig. Ohne Amazon wäre Snowflake nicht möglich gewesen. Zweitens Virtual Compute on Demand, wie es VMware, aber auch Amazon zur Verfūgung stellen. Statt Personen verwaltet der Computer, wo die Daten sitzen. Drittens 10 Gigabit Ethernet bei den Verbindungen: Es ist inzwischen ausreichend schnell und skaliert kostengünstig. InfiniBand ist dagegen ein Desaster, es skaliert weder besonders schnell noch kostengünstig. Mit diesen Technologien kann Snowflake den Kunden ein Software-as-a-Service-Angebot für ihre In­frastruktur liefern. Im Kern ist es eine transaktionale, relationale SQL-Datenbank, die von uns gemanagt wird und die kompatibel mit der bestehenden Infrastruktur aufseiten des Kunden ist. Sie kann als Data Warehouse eingesetzt werden, auch wenn dieser Begriff durch seine Legacy-Vergangenheit belastet ist.
com! professional: Wo liegt der Hauptvorteil für die Kunden?
Muglia: Unsere Technologie funktioniert ohne sein Zutun: Der Kunde kann sich seinen eigentlichen Aufgaben, dem Geschäft, zuwenden. Wir kümmern uns sogar um die Auswirkungen der DSGVO in den Heimatländern unserer Kunden und die Privacy der gespeicherten Daten.

mehr zum Thema