Industrie 4.0, Internet of Things (IoT) und Cyber-Physikalische Systeme (CPS) sind nur einige der aktuellen Schlagworte der fortschreitenden Digitalisierung. Systeme, die zuvor lokal abgegrenzte Funktionalität hatten, werden nun Teil eines heterogenen, vielschichtigen und globalen Netzwerks.
IoT-Komponenten wie Sensoren, Aggregatoren, Kommunikationskanäle, externe Versorgungseinrichtungen oder Entscheidungsauslöser werden zudem häufig in Legacy-Systeme und -Prozesse integriert.
Durch diese zunehmende Vernetzung werden individuelle Systeme (stand alone-Systeme) zu einem hypervernetzen Verbundsystem (system-of-systems), dessen Folgen für die Gesellschaft meist nicht weiter hinterfragt werden.
Es ist jedoch mit einer Reihe an Folgewirkungen und Risiken bei solch hochkomplexen Systemen zu rechnen:
Dass dies keine theoretischen Risiken sind, zeigte sich bei der jüngsten Störung des US-Amazon Cloud-Dienstes AWS im November 2020, der einen Ausfall von unzähligen IoT-Geräten nach sich zog. Ohne Cloud saugen Staubsaugerroboter nicht mehr, Mietautos sind weder sperr- noch startbar und, wahrscheinlich noch das geringste Übel von allen, Entertainment-Systeme funktionieren nicht mehr.
Abseits dieses Debakels ist auch der Fall einer Heimautomatisierungslösung, deren cloud-basierte Infrastruktur vom Hersteller aus internen, strategischen Gründen abgedreht wurde, bekannt. Den Nutzer/innen blieb funktionsloser Elektroschrott.
Das ordentliche Zusammenspiel der einzelnen Komponenten ist ein komplexes, vielschichtiges Problem und kann nur durch integrierte Betrachtung aller Systemebenen – also die Menschen, Prozesse und Technologien inkludierend – bewerkstelligt werden. In komplexen Systemen, wie dies in der IoT-Landschaft der Fall ist, lassen sich viele systemische Risiken dennoch, wie das folgende Beispiel zeigt, nicht vorhersagen.
Mirai, ein Botnet aus IoT-Geräten, legte im Jahr 2016 nicht nur einzelne Internet-Services lahm, sondern auch das dynamische DNS-Service DynDNS, wodurch eine wesentlich höhere Anzahl an Services nicht mehr erreichbar war. Ein solches Botnet kann durch konzertierte Lastschwankungen aber auch das Stromnetz destabilisieren und flächendeckende Blackouts verursachen.
Die Ausnahmesituation der Corona-Pandemie führte zu einem geringerem Gesamtverbrauch, ein Zustand, der solche Angriffe nur noch einfacher macht. Um die Gesamtheit dieser Problemlagen zu adressieren, muss die Gestaltung resilienter IoT-Systeme in den Vordergrund gerückt werden.
Resilienz meint dabei die Fähigkeit eines Systems, auf Störungen reagieren zu können, wichtige Systemeigenschaften wiederherzustellen und eine fortlaufende Entwicklung voranzutreiben.
Aus Kosten- und Effizienzgründen sollte dieser Prozess bereits in der Design-Phase beginnen. Der Fokus liegt dabei nicht auf der Vermeidung von einzelnen, spezifischen Vorfällen oder Angriffen, sondern im Aufbau adaptiver Kapazitäten.
Dies kann sowohl durch die Beachtung von Modularität (Microservices, Cloud-Auslagerung etc.), Entkoppelung (Container-Lösungen, Rechte-Management etc.) als auch die Bereitstellung von horizontaler und vertikaler Diversität und Redundanz (mit automatischer Konsensbildung, Virtualisierung von Prozessen und Daten, N-varianten Systeme usw.) begünstigt werden.
Darüber hinaus muss das Verhalten solcher Systeme jederzeit beobachtbar bleiben, weshalb automatisierte Monitoring-Systeme (Gesundheitschecks, Legacy Code-Analysen, Prüfsummen etc.) sowie Resilienzmetriken ebenfalls vorab einzurichten sind.
Diese architektonischen Prinzipien ermöglichen es, (1) Abweichungen vom gewünschten Systemverhalten zu erkennen und (2) entsprechende Gegenmaßnahmen ergreifen zu können, um den Funktionsverlust von Ressourcen, Applikationen und Services so gering wie möglich zu halten.
Autonome Rekonfigurationsmechanismen können Angriffe abwehren oder deren Schaden begrenzen, Ressourcen verteilen und Lücken schließen. Dabei können ganze Systembereiche abgekapselt (z. B. dynamische Isolierung, Terminierung von Prozessen), Angreifer in die Irre geführt (z. B. Honeypots) oder zusätzliche Ressourcen akquiriert werden (z. B. Autoscaling).
Zeitgleich zur Reaktion vorgestellter Probleme wird der Prozess zur Wiederherstellung der ursprünglichen Funktionalität gestartet. Dabei werden verlorene Aufgaben neu zugeteilt (z. B. Änderung der Prozess- und Speicherstrukturen), angegriffene Bereiche repariert (z. B. automatische Laufzeit-Fehlerbehebung) und sichere Prozessabschnitte neu gestartet (z. B. Checkpointing).
In einem kontinuierlichen (Resilienz-)Verbesserungsprozess werden dann die als kritisch erkannten Systemteile und deren Abhängigkeiten evaluiert, das Risikopotenzial neu eingestuft und notwendige architektonische Veränderungen vorgenommen.
Die Implementierung dieses zyklischen Prozesses scheitert oft an den zusätzlichen Aufwänden zu Projektstart beziehungsweise in der Wartung. Schon eine mittelfristige Betrachtung zeigt aber, dass mit vergleichsweise geringen Investitionen sehr hohe mittel- und langfristige Kosten, die aus komplexen Wartungsarbeiten, Datenverlusten, Privacy-Problemen oder gar kompletten Ausfällen resultieren, vermieden werden können.
Darüber hinaus ermöglichen modulare und multifunktionale Systeme auch eine agilere Weiterentwicklung und das Wachstum der Infrastruktur auf höherem Qualitätsniveau. Das führt zu weniger Stress bei Mitarbeiter/innen und höherer Zufriedenheit der Kund/innen, was ebenfalls ökonomische Vorteile verspricht. Es gilt also auch wie in so vielen anderen Bereichen: Vorsorge ist besser (und günstiger) als Nachsorge.
Weitere Autoren
Johanna Ullrich
Head of Networks and Critical Infrastructures Security Research Group
SBA Research
Alexander Schatten
Senior Scientist
TU Wien