Cloud
23.03.2018
Bewölkt mit möglichen Ausfällen
1. Teil: „Cloud-Desaster können jeden treffen“

Cloud-Desaster können jeden treffen

Autor:
SturmSturmSturm
Mihai Simonia / Shutterstock.com
Auch Cloud-Dienste sehen sich dem Fehlerteufel gegenüber oder sind von Naturereignissen bedroht. Kurze oder längere Aussetzer sind die Folge. Doch wer die Dienste redundant bezieht, übersteht die Wolkenkapriolen.
Immer mehr IT-Kapazität wandert in die Cloud. Nach einer kürzlich veröffentlichten Studie von Cisco sollen bis 2021 sogar 94 Prozent aller Workloads in Cloud-Umgebungen verarbeitet werden. Doch auch Clouds sind nicht unfehlbar, wie unser Blick zurück zeigt. Kaum ein Provider oder größerer Online-Dienst, der nicht schon einmal offline war oder Datenverluste beklagen musste. Umso wichtiger ist es, dass aus den Desastern der Vergangenheit die richtigen Lehren gezogen werden.

Auch als Kunde an Redundanz denken

Amazons AWS ist nicht nur der größte Cloud-Betreiber, sondern auch von den großen Providern am längsten im Geschäft. Entsprechend häufig sind die Fälle von kleineren und größeren Ausfällen. Da mittlerweile viele Online- Dienste auf der Infrastruktur von AWS basieren, kann ein Fehler dort große Auswirkungen auf diverse namhafte Services haben. Vergangenes Jahr kam es denn auch bei Amazon zu einem mittleren GAU als an der US-Ostküste der Speicherdienst S3 während drei Stunden nicht zur Verfügung stand. Die Folge war deshalb so verheerend, weil zahlreiche Internet- Dienste ihre Daten dort gespeichert haben. Zu den berühmtesten gehören Docker, GitHub, Signal, Slack, Adobes Cloud-Dienste, Citrix, Expedia, Salesforce und Nest. Sogar die Service-Status-Seite von Amazon selbst war betroffen.
Klar, der Hauptfehler lag bei AWS. Dieser war zudem manuell: Ein Mitarbeiter hatte sich beim routinemäßigen Austausch von Servern bei der Konfiguration vertippt und so wichtige Speichergruppen außer Betrieb gesetzt.
Dass so viele Anwenderfirmen von diesem Vorfall betroffen waren, geht aber auch teilweise auf deren eigenes Konto. Denn sie haben aus Kostengründen darauf verzichtet, den Storage-Dienst redundant zu beziehen und in einer weiteren Region zu spiegeln – was beim weltweiten Anbieter AWS kein Problem wäre. Zu allem Übel kam hinzu, dass die betroffene Region (US-East-1) jeweils standardmäßig gewählt wird, wenn ein neuer Dienst beantragt wird.
Was lernen wir? Auch Cloud-Dienste sollten – zumindest, wenn sie eigene, geschäftskritische Produkte betreiben – ebenfalls redundant bezogen werden. Im genannten Beispiel hätten viele Unternehmen ihre Online-Dienste aufrechterhalten können, wenn sie dies beherzigt hätten. Wie etwa Netflix: Die Video-Streaming-Plattform hat eine Cloud- Architektur aufgebaut, die zwölf AWS-Regionen nutzt. Sollte ein Dienst ausfallen, werden die Ressourcen einfach anderweitig angezapft. Für Netflix lohnen sich wohl die dadurch entstehenden zusätzlichen Cloud-Kosten. Entsprechende Untersuchungen haben gezeigt, dass eine Stunde Ausfall den Provider 200.000 Dollar kostet, ganz abgesehen von den Reputationsschäden, wenn die Zuschauer ihre Lieblingsserie gerade nicht anschauen können.

Krepierter Neustart und Jahrhundertblitze

Auch die Google-Cloud ist vor Ausfällen nicht gefeit. Der jüngste ist gerade erst im Januar 2018 passiert. In gleich zwei Zonen in den USA und in Europa ging beim wichtigen Service "Compute Engine" während neunzig Minuten nichts mehr. Ärgerlich für Google: Es handelte sich um einen recht normalen Fehler, der durch einen Neustart des betroffenen Systems eigentlich in kürzester Zeit behoben worden wäre. Doch der Neustart blieb hängen, eine Situation, mit der routinierte User souverän umzugehen wissen, indem sie das betroffene Gerät – etwa den eigenen PC – einfach aus- und wieder einschalten. Doch die automatisierten Routinen beim Cloud-Riesen kannten diesen einfachen Trick nicht. Noch schlimmer: Sie gaben auch keine Meldung vom misslichen Neustarthänger, was mit ein Grund dafür war, dass die Störung so lange dauerte.
Allzu große Ausmaße hatte der Fehler derweil nicht. Er betraf die Kommunikationsfähigkeit neu gestarteter virtueller Maschinen. Da war der Aussetzer, den die Google-Cloud 2015 hatte, schon gewichtiger, denn hier gingen auch Kundendaten verloren. Diesmal war wohl die dritte bekannte Ursache von Störung neben Mensch und Maschine verantwortlich, nämlich die Natur. In Belgien führte ein kräftiges Gewitter dazu, dass gleich vier Blitze im Rechenzentrum des Suchmaschinenriesen einschlugen. Ein Lottogewinn hat wohl eine größere Wahrscheinlichkeit! Jedenfalls bewirkte das Naturereignis einen kurzen Stromausfall bei ein paar Speichersystemen. Obwohl dank Batterien der Betrieb bald wieder lief, hatten einige Kundendatensätze des Dienstes Compute Engine die Unterbrechung nicht so einfach wegstecken können und mussten von Google in tagelanger Arbeit wiederhergestellt werden. Einige Kunden hatten Pech: Bei einem Millionstel Prozent der Zone "Europe-West1-b" war die komplette Wiederherstellung nicht mehr möglich.
2. Teil: „Kampf mit Zertifikaten und Webmail-Probleme“

Kampf mit Zertifikaten und Webmail-Probleme

Abgelaufene Zertifikate können die besten und redundantesten Clouds in die Knie zwingen. Dies musste Microsoft im Februar 2013 bitter erfahren. Der Speicherbetrieb von Azure fiel ganze zwanzig Stunden weltweit aus, weil es zu Fehlern beim Einspielen erneuerter SSL-Zertifikate kam. Insgesamt zweiundfünfzig Services, die auf die verschlüsselte Datenübertragung in die Azure Storage Cloud angewiesen sind, waren während dieser Zeit nicht verfügbar. Auch hier war schlussendlich menschliches Versagen die Ursache. Die SSL-Zertifikate waren zwar rechtzeitig erneuert worden, die zuständigen Systemadministratoren vergaßen aber, die betroffenen Systeme für das nötige Update zu kennzeichnen. Zu allem Übel funktionierten die Warnsysteme nicht richtig, sodass die Systemverwalter nicht auf die noch ausstehenden Updates hingewiesen wurden.
Speziell an diesem Ausfall war darüber hinaus, dass genau ein Jahr zuvor Azure bereits schon einmal einen zwölf Stunden dauernden Ausfall hatte, der auf Zertifikate zurückzuführen war. Bei diesem war das Problem offenbar auf den Schalttag am 29. Februar zurückzuführen.

Wenn das Webmail-Konto plötzlich leer ist

Wer denkt, Mails sind in der Cloud besonders gut aufgehoben, wird gleich eines Besseren belehrt. Denn praktisch alle größere Webmaildienste hatten in der Vergangenheit mit verlorener oder verlegter elektronischer Post zu kämpfen.
Das krasseste Beispiel lieferte dabei wohl Yahoo anno 2013. Nach einem größeren Redesign beklagten sich Nutzer über fehlende Mails. Yahoo gab später bekannt, dass gut ein Prozent der Mailkonten von der Störung betroffen seien. Bei einem Dienst wie Yahoo Mail handelte es sich dabei aber um gut eine Million Anwender. Schlussendlich führte der Fehler dazu, dass Mails nie mehr oder erst nach Monaten ausgeliefert wurden.
Vor einem leeren Mailkonto fanden sich auch gut 150.000 Gmail-Anwender im Jahr 2011 wieder. Alle persönlichen Mails und Ordner waren plötzlich aus der Cloud verschwunden. Erst nach gut vier Tagen gelang es den Googlern, die Mails zu bergen. Allerdings fanden sie sich mit mehreren Problemen konfrontiert. So hatte ein Software-Fehler nicht nur eine Kopie der Daten vernichtet, sondern gleich mehrere, in unterschiedlichen Rechenzentren gespeicherte Versionen. Zuletzt mussten sie auf physikalische Sicherungen zurückgreifen, um die Daten wiederherzustellen.
Die Liste wäre nicht vollständig, wenn Hotmail unerwähnt bliebe. Der Webmaildienst von Microsoft bescherte Ende 2010 Zehntausenden von Anwendern leere Posteingänge. Laut Microsoft war ein fehlerhaftes Skript Grund für den Ausfall, der bei einigen Benutzern ganze sechs Tage dauerte. Die Skripts waren für interne Testkonten gedacht und sollten diese nach einer gewissen Zeit automatisch löschen. Dummerweise machten sich die Skripts an gut 17.000 Mail-Accounts von echten Benutzern zu schaffen.

mehr zum Thema