Cloud
21.02.2023
Netzwerk unter Kontrolle
1. Teil: „Transparenz bei Anwendungen und Infrastruktur“

Transparenz bei Anwendungen und Infrastruktur

 Shutterstock/ Gorodenkoff
IT- und Cloud-Umgebungen werden immer komplexer. Konzepte wie Observability sollen sicherstellen, dass IT-Fachleute, Entwickler und Security-Spezialisten den Überblick behalten.
Manchmal drängt sich der Eindruck auf, dass die Anbieter von IT-Lösungen und Beratungsfirmen ständig neue Hype-Themen erfinden, um den Nutzern von IT-Systemen, Anwendungen und Cloud-Ressourcen neue Produkte und Dienstleistungen verkaufen zu können. Auf den ersten Blick gilt das auch für das Thema Observability. Dieser Ansatz wird als Erweiterung von Lösungen für das Logging und Monitoring gehandelt, mit denen IT-Fachleute die Performance, Verfügbarkeit und Sicherheit von Anwendungen, IT-Infrastrukturen und Cloud-Services überwachen. Doch Observability hat sehr wohl seine Berechtigung. Ein Grund: „Die Komplexität moderner IT-Infrastrukturen steigt ständig an. Damit wächst die Zahl der Stellen, an denen es zu Problemen kommen kann“, sagt Frederik Bijlsma, Senior Director Central EMEA von VMware Tanzu.
Dass Infrastruktur- und Anwendungsumgebungen immer komplizierter werden, ist auf mehrere Faktoren zuzuführen. Vereinfacht gesagt, haben sich monolithische IT-Umgebungen zu Mechanismen weiterentwickelt, in denen immer mehr Räder ineinandergreifen, so Klaus Kurz, Senior Director Solution Consulting Central Europe bei New Relic, einem Anbieter von Observability-Lösungen: „Cloudnative Technologien, hybride Infrastrukturen, die Verwendung von Microservices, Container-Services und DevOps-Konzepte lassen komplexe Systeme entstehen. Services ändern sich nun laufend. Außerdem verkürzen sich die Implementierungszyklen.“
Weil Anwendungen sich gegenseitig beeinflussen, können laut Kurz zudem neue oder weiterentwickelte Services Auswirkungen auf andere Systembereiche haben. Die Folgen bekommen Unternehmen täglich zu spüren. Laut der Studie „Observability Forecast 2022“ von New Relic gaben 63 Prozent der Unternehmen in der DACH-Region an, dass sie mindesten einmal pro Woche von IT-Ausfällen betroffen sind, die signifikante wirtschaftliche Folgen haben.

Monitoring reicht nicht

Allein mithilfe der Daten, die Monitoring-Tools bereitstellen, lassen sich solche negativen Effekte nicht vermeiden: „Etliche Unternehmen betreiben Multi-Cloud-Infrastrukturen mit Tausenden von Anwendungen und Millionen von Microservices. Jeder Tipp-, Klick- oder Wischvorgang eines Benutzers, jede neue Code-Implementierung oder Architekturänderung und jeder versuchte Cyberangriff erzeugt Daten, die erfasst und analysiert werden können. Hinzu kommen kontinuierliche Software-Release-Zyklen. Dies hat eine Datenexplosion zur Folge, die von Menschen nicht mehr zu bewältigen ist“, betont Alexander Zachow, Regional Vice President EMEA Central bei Dynatrace.
Monitoring stößt zudem aus einem weiteren Grund an Grenzen: Solche Lösungen überwachen ein IT-System anhand von vorab definierten Parametern wie Auslastung der Prozessoren, Netzwerkbandbreite und Ausfallzeiten. Die Grundlage bilden somit planbare und erfassbare Anforderungen und Fragen, etwa „Wie hoch ist die Auslastung der CPUs und des Arbeitsspeichers von Server A?“ oder „Hält die Anwendung B die vorgegebenen Antwortzeiten ein?“. Solche Fragen geben die IT-Fachleute eines Unternehmens vor. Das heißt, sie stützen sich auf „bekannte Unbekannte“ wie CPU-Leistung und Antwortzeiten. Eine Monitoring-Software zeigt auf, ob Fehler in einer bestimmten IT-Komponente auftreten beziehungsweise ob ein Grenzwert überschritten wurde.
Dieses Konzept weist Defizite auf, wenn zu viele Variablen vorhanden sind, etwa Microservices, verteilte Anwendungen, IT-Umgebungen, die Cloud- und On-Premises-Ressourcen kombinieren und möglicherweise über mehrere Standorte verteilt sind. Dann muss die IT-Abteilung auch Antworten auf Fragen erhalten, die sie im Vorfeld nicht definiert hat. Wenn eine Anwendung nicht die gewünschte Performance aufweist, kann dies an IT-Systemen im eigenen Rechenzentrum, an Public-Cloud-Services oder einem Update von System- oder Anwendungs-Software liegen. Auch Netzwerkverbindungen, ein Microservice und eventuell ein Cyberangriff kommen als Ursachen infrage.
2. Teil: „Durchblick durch Observability“

Durchblick durch Observability

Hier kommt Observability ins Spiel. „Neben dem Monitoring-Part umfasst ein solches Konzept auch Log-Daten, das Tracing sowie Metriken. Dieser ganzheitliche Ansatz hat den Vorteil, dass Probleme effizient identifiziert und gelöst werden können“, sagt Martin Bauer, Partner beim IT-Dienstleister Cluster Reply.
Ganzheitlich bedeutet, dass Observability den gesamten IT-Stack einbezieht: „Dazu zählen beispielsweise die Analyse von Anwendungen, Speicher, Dienste sowie Netzwerke – und das in Echtzeit“, erläutert Tommy Ziegler, Leader Sales Engineering bei Cisco Appdynamics. „Mit Observability verschaffen sich Unternehmen einen umfassenden Einblick in das Verhalten, die Leistung und den Zustand ihrer Applikationen. Dies schließt essenzielle Telemetriedaten mit ein, etwa Metriken, Ereignisse, Logs und Traces, die in IT-Umgebungen gesammelt werden“, so der Fachmann weiter. Im Unterschied zu Monitoring sind Anwender dadurch in der Lage, im Vorfeld mögliche Engpässe und Ursachen von Performance-Einbußen zu erkennen und Vorkehrungen zu treffen.
Eine immer wichtigere Rolle spielen dabei Künstliche Intelligenz und maschinelles Lernen: „Moderne Observability-Lösungen wie Alluvio IQ nutzen KI und Machine Learning, um Daten aus dem Monitoring der Network Performance und der Digital Experience zu korrelieren. Dadurch liefern sie verwertbare Erkenntnisse über geschäftsrelevante Ereignisse“, verdeutlicht Oliver Oehlenberg, Field Chief Technology Office EMEA bei Riverbed Technology. Idealerweise werden durch den Einsatz von KI, ML und weiteren datenwissenschaftlichen Ansätzen Muster, Trends, Korrelationen und Anomalien sichtbar.
Ein weiterer Vorzug von KI und ML im Zusammenhang mit Observability ist, dass beide Technologien die Zahl der fehlerhaften Meldungen und Daten verringern, ergänzt Frederik Bijlsma von VMware Tanzu: „Ein entscheidender Vorteil, den Observability bieten kann, sind intelligente Alarme. Sie unterscheiden Fehlalarme von Ernstfällen und filtern das ‚Grundrauschen‘ heraus. Lösungen wie VMware AI Genie nutzen KI und maschinelles Lernen, um Alarme noch smarter zu machen und Vorhersagen über die Performance zu treffen.“
Observability-Varianten
Bei Observability haben sich mehrere Spielarten entwickelt. Die Lösungen der führenden Anbieter decken in der Regel all diese Varianten ab.
Data Observability: Dieser Ansatz fokussiert sich auf die Datenebene, nicht die gesamte IT-Umgebung. Das Ziel ist, die Qualitätssicherung von Daten zu optimieren und Fehlern durch unzureichende oder mangelhafte Daten vorzubeugen. Ein weiteres Element ist ein zentrales Datenmanagement, und zwar während ihres gesamten Lebenszyklus.
Model Observability: Diese Variante zielt darauf ab, hochwertige und fehlerfreie Modelle im Bereich Machine Learning zu erstellen. Ein Mittel ist die automatisierte Analyse von Problempunkten, die im Zusammenhang mit Faktoren wie Bias und einer mangelnden Datenintegrität stehen.
Network Observability: Entsprechende Lösungen nutzen die Daten von Network-Monitoring-Tools, Deep Packet Inspection und Telemetrie-Software, um eine ganzheitliche Sicht auf das Netzwerk zu erstellen. Dies erfolgt aus Sicht der Nutzer und deren Erfahrungen (User Experience) sowie der Anwendungen und Systeme, die das Netzwerk verwenden. Ebenso wie bei allen Observability-Spielarten spielen KI und Machine Learning eine wichtige Rolle, um die Analysen und das Beheben von Fehlern zu beschleunigen und zu automatisieren.
Security Observability: „Security Observability geht über das Logging und Monitoring hinaus und nutzt umfassende Daten der Umgebung sowie Applikationen, um unerwünschte Zustände und potenzielle Angriffe frühzeitig zu erkennen“, erläutert Martin Bauer, Partner von Cluster Reply. Im Idealfall lassen sich dann Angriffe unterbinden, bevor es zu einem Schaden kommt. Dies setzt voraus, dass zu jedem Zeitpunkt Informationen über den Zustand von Systemen und Applikationen vorliegen. Das reicht weiter als Security-Events in Log-Daten.
3. Teil: „Entlastung der IT-Abteilungen“

Entlastung der IT-Abteilungen

Observability-Lösungen mit KI-Funktionen entlasten außerdem die IT-Abteilungen. Das ist vor dem Hintergrund des nach wie vor gravierenden Mangels an IT-Fachkräften ein wichtiger Faktor. Denn nach einer Studie des Digitalverbands Bitkom vom November 2022 fehlen in Deutschland 137.000 IT-Fachkräfte – ein neuer Rekordwert.
„KI-Funktionen übernehmen mühsame, zeit- und konzentrationsintensive Arbeiten – und nehmen dadurch viel Druck von den Mitarbeitenden“, sagt beispielsweise Klaus Kurz von New Relic. Eine KI-Instanz könne beispielsweise eigenständig Lösungsvorschläge und Handlungsempfehlungen erarbeiten sowie neuartige Fehler erkennen, an die Entwickler beim System-Roll-out noch gar nicht dachten. Es ist absehbar, dass eine KI im Rahmen von Observability-Aufgaben künftig verstärkt automatisiert Entscheidungen treffen und umsetzen wird – unter Aufsicht von IT-Experten.
Zentrale Funktionen von Observability-Lösungen
Das Beratungshaus Gartner hat im Juni 2022 im „Magic Quadrant for Applica­tion Performance Monitoring and Observability“ folgende Kernfunktionen für Observability- und APM-Lösungen definiert:
  • „Beobachtung“ des Transaktionsverhaltens von Anwendungen
  • Automatische Identifizieren und Mapping von Applikationen sowie deren Infra- strukturkomponenten inklusive Cloud-Services
  • Monitoring von Anwendungen, die auf mobilen Endgeräten und im Browser ausgeführt werden
  • Identifizierung und Analyse von Performance-Problemen und deren Aus­wirkungen auf das Geschäftsergebnis
  • Integration in Automatisierungs- und Servicemanagement-Werkzeuge sowie Zusammenarbeit mit Cloud-Plattformen
  • Möglichkeit, Telemetriedaten auszuwerten, etwa Log-Files, Traces und Metriken
  • Sicherheitsfunktionen und Analyse von sicherheitsrelevanten Vorkommnissen
Herauskristallisiert hat sich allerdings, dass weitere Funktionen erforderlich sind: „Es sind Observability-Lösungen erforderlich, die mit AIOps-Funktionen kombiniert werden und weitreichende Insights in Performance-Probleme ermöglichen“, sagt Tommy Ziegler, Leader Sales Engineering bei Cisco Appdynamics. Störungen und Anomalien müssten sich mithilfe von Machine Learning identifizieren lassen. Außerdem ist es Ziegler zufolge wichtig, dass die Beseitigung von Performance-Engpässen oder Störungen automatisiert abläuft.
4. Teil: „„Performance wird von ‚unbekannten Unbekannten‘ bestimmt““

„Performance wird von ‚unbekannten Unbekannten‘ bestimmt“

Je mehr IT-Infrastrukturkomponenten, Cloud-Dienste, Microservices und verteilte Anwendungen zusammenspielen, desto schwerer fällt es, die Performance und Verfügbarkeit einer IT-Umgebung sicherzustellen. Wie Observability den Einfluss von „unbekannten Unbekannten“ transparent macht, erläutert Stéphane Estevez, EMEA Director of Product Marketing Observability & IT Markets bei Splunk.
com! professional: Herr Estevez, es gibt mittlerweile ja zig Definitionen von Observability. Was versteht Splunk darunter?
  • Stéphane Estevez EMEA Director, Splunk
    Quelle:
    Splunk
Stéphane Estevez:
Der Begriff tauchte auf, als Unternehmen damit begannen, in großem Maßstab Microservices und Container einzusetzen. Zuvor haben wir monolithische Anwendungen immer auf die gleiche Weise überwacht und Fehler behoben. Aber jetzt, da Anwendungen hochgradig verteilt sind, gibt es viele „unbekannte Unbekannte“, die sich auf die Gesamtleistung und Verfügbarkeit auswirken. Diese verteilten Dienste, die oft nur kurzfristig bestehen, lassen sich mit traditionellen Tools schwer beobachten.
com! professional: Was ist dazu nötig?
Estevez: Es fehlen wichtige Daten wie Logs, Metriken und Traces. Wir müssen diese auf eine neue Art sammeln, und zwar in Echtzeit unter Verwendung von Streaming-Technologien und in voller Wiedergabetreue. Um Observability zu verstehen, können wir die Analogie des Survivorship Bias verwenden (Verzerrung zugunsten der Überlebenden). Sie beschreibt einen logischen Fehler, den Menschen begehen, wenn sie sich auf das konzentrieren, was sie sehen können, statt nach dem zu suchen, was sie nicht sehen können.
com! professional: Observability soll also Zusammenhänge transparent machen, die sich mit klassischen Mitteln nicht erkennen lassen?
Estevez: Ja, Observability ist ein Datenproblem. Ich muss mich fragen: „Verfüge ich über alle erforderlichen Daten, um mein System beobachtbar zu machen und es dann auf die richtige Weise zu überwachen?“ Die meisten Tools für das Application Performance Management verwendeten vor Observability beispielsweise Stichproben von Daten. Das heißt, sie analysierten nur ein Prozent der Transaktionen, um Schwachstellen zu finden. Doch damals waren die Erwartungen der Benutzer niedriger. Heute müssen Unternehmen jede Transaktion jedes Benutzers verstehen, um sicherzustellen, dass die Ursache eines Problems schneller gefunden und der bestmögliche Service geboten werden kann.
com! professional: Können Sie ein Beispiel nennen, welche weiteren Daten nötig sind?
Estevez: Nehmen Sie ein Unternehmen, das seine virtuellen Maschinen bisher jede Minute überwacht hat. Daher wird das IT-Betriebsteam dies auch bei Containern tun. Doch das bedeutet, dass in den Zeitintervallen zwischen jeder Minute die Container unbeobachtet bleiben. Da Container allerdings oft sehr kurzlebig sind, kann es sein, dass ein Speicherleck oder ein anderes Problem in einem Zeitsegment von wenigen Millisekunden auftritt. Wenn die Überwachung nicht im selben Intervall stattfindet, kann ein Anwender daher Probleme bekommen und vielleicht nicht einmal bemerken, was zwischen beiden Messungen passiert ist. Werden dagegen Daten in Echtzeit erfasst, lassen sich Container besser und engmaschiger beobachten, Stichwort Observability.
com! professional: Das heißt, IT-Abteilungen müssen umdenken?
Estevez: Ja, Observability ist eine Denkweise. Wie auch immer künftige IT-Technologien und Codierungstechniken aussehen, müssen wir uns vor Augen halten, dass wir derzeit nur wissen, dass wir eben nicht alles wissen. Daher sollten wir weiter nach den unbekannten Daten suchen, die erforderlich sind, um Systeme beobachtbar zu machen. Denn ein immer größerer Teil der Interaktionen zwischen Kunden und Unternehmen findet digital statt. Daher können es sich Firmen nicht leisten, blind zu sein und dies zu bleiben, wenn es um die tatsächliche Leistung von Anwendungen aus Sicht der Endnutzer geht.
5. Teil: „Drei Säulen – oder mehr“

Drei Säulen – oder mehr

Der klassische Observability-Ansatz beruht auf den folgenden drei Säulen:
  • Logging: Klassische Log-Daten, die in großer Zahl anfallen und erfasst, konsolidiert und visualisiert werden müssen.
  • Metriken: Sie sind wichtig, damit sich die Performance von Anwendungen und IT-Umgebungen über einen längeren Zeitraum hinweg kontrollieren lässt. Diese Metriken erstellt das Observability-Tool. Beispiele sind klassische Wert wie CPU-Auslastung und Latenzzeiten, aber auch die Zahl der Instanzen von Microservices und die „Readiness“ von Containern.
  • Tracing/Traces: Die Zahl und Wege der Anfragen der Services, aus denen moderne Anwendungen aufgebaut sind. Diese Anfragen zielen unter anderem auf externe IT-Ressourcen. Bei Applikationen verfolgen Traces die gesamte „Reise“ einer Anfrage eines Nutzers, vom Start einer Anwendung auf einem Endgerät bis hin zu den Prozessen, die im Back-End ausgelöst werden.
Allerdings sind Diskussionen darüber entbrannt, ob nicht weitere Elemente berücksichtigt werden müssten. Dazu zählen die Abhängigkeiten (Dependencies) von Anwendungen von anderen Applikationen, IT-Komponenten und Ressourcen in Unternehmensrechenzentren und Cloud-Data-Centern.
Data Scientists und DevOps-Teams wiederum wollen die Herkunft und Qualität von Daten (Data Lineage) als weitere Säule in das Modell aufnehmen. Diese Überle­gungen stellen sie auch vor dem Hintergrund an, dass
das Management von Daten und die Kontrolle über solche Informationsbestände für viele Unternehmen eine zentrale Rolle spielt.
Wichtig ist angesichts dieser Tendenzen, dass sich keine spezialisierten Observability-Lösungen herausbilden, die nicht mehr mit anderen Lösungen Daten austauschen können. Dies würde dem Ansatz zuwiderlaufen, Datensilos zu vermeiden. Stattdessen sollten Lösungen zur Wahl stehen, die sich durch einen großen Funktionsumfang, offene Schnittstellen, eine Vielzahl von Integrationen mit anderen Tools und IT-Lösungen sowie zentrale Dashboards auszeichnen.
6. Teil: „Do it Yourself oder Komplettlösung“

Do it Yourself oder Komplettlösung

Auf welche Art von Observability-Lösungen ein Unternehmen zurückgreift, hängt davon ab, welche Anforderungen es hat und wie es um die Ressourcen der IT-Abteilung bestellt ist. Unternehmen mit einer hohen IT-Affinität und einer personell gut bestückten IT-Abteilung haben die Option, mithilfe von Open-Source-Tools und Frameworks wie Open Telemetry selbst eine Observability-Umgebung aufzubauen.
IT-Dienstleister wie etwa Consol Software aus München favorisieren ebenfalls quellenoffene Werkzeuge, wenn sie entsprechende Projekte bei Kunden umsetzen. Zu diesen Tools zählen beispielsweise Grafana, Prometheus, Loki und Jaeger.
Die einfachere Wahl sind Komplettlösungen. Sie stehen je nach Anbieter als Cloud-Service (SaaS), als Hosted Services oder als Software für den Einsatz im Unternehmensrechenzentrum bereit. Mittlerweile haben so gut wie alle führenden Anbieter von Lösungen für Application Performance Monitoring (APM), Monitoring und Logging ihre Produkte in Richtung Observability weiterentwickelt. Dies erfolgt teilweise durch die Übernahme von kleineren Anbietern, etwa im Fall von IBM durch den Kauf von Instana sowie bei Servicenow, das Lightstep und Era Software übernahm. Wichtig ist jedenfalls, dass die Lösung Standards wie Open Telemetry unterstützt und nicht dazu führt, dass sich der Nutzer mit einem Vendor-Lock-in konfrontiert sieht.
Außerdem sollten Observability-Lösungen Automatisierungsfunktionen bereitstellen. Das Gleiche gilt für die Option, Telemetriedaten mithilfe von Zeitreihenuntersuchungen zu analysieren, so Oliver Oehlenberg von Riverbed. „Das System sollte zudem eine Plattform nutzen, die alle Beteiligten möglichst einfach konfigurieren können“, ergänzt Martin Bauer von Cluster Reply.
Tabelle:
Monitoring vs. Observability

7. Teil: „Fazit & Ausblick“

Fazit & Ausblick

„Ein umfassender Observability-Ansatz kann IT- und Dev­Ops-Teams dabei helfen, hybride und Multi-Cloud-Umgebungen kontinuierlich zu analysieren, anzupassen und zu automatisieren. Das Ergebnis: Diese Teams agieren nicht mehr reaktiv, sondern optimieren proaktiv die IT-Strukturen“, fasst Alexander Zachow von Dynatrace die Vorteile von Observability zusammen.
Doch diese Botschaft scheint in vielen Unternehmen in Deutschland noch nicht angekommen zu sein, wie Martin Bauer von Cluster Reply bemängelt: „Aufgrund der späten Adaption der Cloud-Technologie ist Observability für deutsche Unternehmen noch ein neues Thema. Häufig wird es als ‚Beifang‘ bei der Transformation zu agilen Prozessen, DevOps oder cloudnativen Applikationen eingestuft.“
Doch ein „Abfallprodukt“ ist Observability in keinem Fall. Wer die Kontrolle über eine moderne IT-Umgebung mit On-Premises- und Cloud-Komponenten, Microservices und Containern behalten möchte, wird nicht umhinkommen, sich mit dem Thema zu beschäftigen. Sonst riskiert er, dass die Reise ins digitale Zeitalter zu einem Blindflug wird.
Tabelle:


mehr zum Thema