Notfallmanagement

Aus ISMS-Ratgeber WiKi
Zur Navigation springenZur Suche springen

Einleitung

Notfallmanagement oder "Business Continuity Management" (BCM), auch als Krisenmanagement oder Emergency Management bekannt, beinhaltet die Planung, Organisation, Koordination und Durchführung aller Maßnahmen zur Vorbereitung auf, Reaktion auf und Erholung von Notfällen und Krisensituationen. Das Ziel des Notfallmanagements ist es, die Auswirkungen von unerwarteten Ereignissen zu minimieren und so schnell wie möglich zur Normalität zurückzukehren.

Dies kann beinhalten, aber ist nicht beschränkt auf:

  • Die Erstellung von Notfallplänen und -verfahren für IT-Systeme
  • Die Durchführung von Übungen und Tests, um die Wirksamkeit der Notfallpläne zu überprüfen
  • Die Dokumentation von IT-Systemen und -Prozessen, um eine schnelle Wiederherstellung zu ermöglichen
  • Die Überwachung und Überprüfung der IT-Infrastruktur, um potentielle Ausfälle zu erkennen und zu verhindern
  • Die Sicherung wichtiger Daten und Anwendungen, um Verluste im Falle eines Ausfalls zu vermeiden.

Das BCM im Bereich der IT ist ein wichtiger Bestandteil des Gesamt-BCM eines Unternehmens und muss in enger Zusammenarbeit mit anderen Bereichen wie Finanzen, Personalwesen und Produktion durchgeführt werden, um eine integrierte und umfassende Notfallvorsorge zu gewährleisten.

Das Ziel des Notfallmanagements besteht darin, sicherzustellen, dass die Organisation in der Lage ist, ihre Geschäftstätigkeit vor, während und nach einem Notfall aufrechtzuerhalten. Die Organisation muss in der Lage sein, ihre IT-Systeme und -Prozesse schnell und effektiv wiederherzustellen, um die Geschäftskontinuität zu gewährleisten. Die Richtlinie Notfallmanagement legt den organisatorischen Rahmen sowie den Geltungsbereich fest und beschreibt die Notfallprozesse und -verfahren, die Verantwortlichkeiten, Kommunikationspläne, Business Impact Analyse (BIA), Wiederherstellungspläne, Übungen und Tests sowie die Dokumentation und Revision.

Das in diesem Artikel beschriebene Notfallmanagement behandelt Notfälle und Krisen gleich. Das Notfallmanagement befasst sich jedoch nicht mit Störungen. In sehr großen Organisationen kann es sinnvoll sein, getrennte Strukturen für Notfälle und Krisen einzurichten, die jedoch in ihrer Funktion und Arbeitsweise ähnlich sind, jedoch deutlich unterschiedliche Ressourcen zur Bewältigung benötigen (siehe Definition).

Begriffsdefinitionen

Störung

Eine Störung ist ein Schadensereignis, das im Normalbetrieb, d.h. innerhalb der maximal tolerierbaren Ausfallzeit behoben werden kann. Störungen werden im Rahmen des Incident-Managements im Regelbetrieb behoben und sind nicht Bestandteil eines Notfallmanagements. Dennoch kann es sinnvoll sein, auch Störungen im Rahmen des Notfallmanagements im Blick zu behalten, da ein gehäuftes Auftreten von Störungen auf ein strukturelles Problem hinweisen und damit das Risiko für einen Notfall erhöhen kann.

Notfall

Wenn die Auswirkungen einer Störung zu einem längeren Ausfall wichtiger Ressourcen führen und der reguläre Geschäftsbetrieb nicht innerhalb eines vereinbarten Zeitraums wiederhergestellt werden kann, spricht man von einem Notfall.

Krise

Ein Notfall, bei dem die Existenz der Organisation oder das Leben und die Gesundheit von Personen gefährdet sind, wird als Krise bezeichnet. Eine Krise ist ein langfristiges und ernstes Ereignis. Eine IT-Krise erfordert eine umfassende und strategische Reaktion, um die Auswirkungen auf die Organisation zu minimieren und den Betrieb wiederherzustellen.Auflistung der rechtlichen und vertraglichen Rahmenbedingungen der Organisation.

Bedrohungen

Bedrohungen für die Informationssicherheit können vielfältig sein und reichen von natürlichen Katastrophen bis hin zu menschlichen Aktivitäten, die die Umgebung beeinträchtigen. Hier sind einige Beispiele:

Naturkatastrophen

  • Erdbeben: Erdbeben können Gebäude zerstören, Straßen beschädigen und zu erheblichen Verlusten führen.
  • Hochwasser: Starke Regenfälle, Sturmfluten oder Schneeschmelze können zu Überschwemmungen führen, die Gebäude und Infrastruktur beeinträchtigen.
  • Stürme und Wirbelstürme: Starkwinde, Regen und Sturmfluten durch Hurrikane, Taifune oder Tornados können schwere Schäden anrichten.
  • Erdrutsche: Schwere Regenfälle oder Erdbeben können Erdrutsche auslösen, die Gebäude und Straßen bedrohen.
  • Trockenheit: Lang anhaltende Trockenheit kann zu Wasserknappheit (Kühlwasser) und Waldbränden (Rauch und Hitze) führen.

Umweltverschmutzung

  • Luftverschmutzung: Schadstoffe in der Luft können die Gesundheit der Mitarbeitenden und die Funktion sensibler Technik beeinträgigen.
  • Wasserverschmutzung: Giftige Chemikalien oder Abfälle können Gewässer verschmutzen, die Trinkwasserversorgung gefährden.
  • Bodenverschmutzung: Chemikalien und Giftstoffe im Boden können durch nötige umfangreiche Entgiftung und Entsorgung den Betrieb von Gebäuden oder die Arbeit von Mitarbeitenden beeinträchtigen.

Klimawandel

  • Anstieg des Meeresspiegels: Der Klimawandel führt zu einem Anstieg des Meeresspiegels, der Standorte in Küstenregionen gefährdet.
  • Extremwetterereignisse: Der Klimawandel verstärkt die Intensität und Häufigkeit von Stürmen, Hitzewellen und anderen extremen Wetterereignissen, was bei der Planung von Standorten, Gebäuden und Infrastruktur berücksichtigt werden sollte.
  • Gletscherschmelze: Das Schmelzen von Gletschern kann zu Wasserknappheit in Regionen führen, die von Gletscherwasser abhängig sind.

Industrielle Unfälle

  • Chemieunfälle: Industrielle Chemieunfälle (z.B. bei benachtbarten Chemieunternehmen) können giftige Gase freisetzen oder Boden- und Wasserverschmutzung verursachen, die zu Betriebseinschränkungen führen können.
  • Großbrand: Großbrände in Industrieanlagen, Gewerbegebieten, oder auf Ölfeldern können durch chemische Reaktionen, Fahrlässigkeit oder Brandstiftung ausgelöst werden und führen oft zu umfangreichen Schäden und langfristigen Betriebsunterbrechungen.
  • Explosion: Explosionen können schwere Verletzungen verursachen und kritische Infrastrukturen zerstören.
  • Verseuchung/Verstrahlung: Radioaktive oder chemische Kontamination kann weite Landstriche unbewohnbar machen, was zu erheblichen Betriebseinschränkungen und Ausfällen führend kann.

Technische Ausfälle

  • Hardwarefehler: Ausfälle von wichtigen Hardwarekomponenten wie Servern können die IT-Infrastruktur lahmlegen.
  • Softwarefehler: Bugs oder Fehlfunktionen in Software können zu Datenverlust oder Betriebsunterbrechungen führen. Insbesondere in stark vernetzten Systemen kann dies erhebliche Auswirkungen haben.
  • Netzausfälle: Ausfälle in der Netzinfrastruktur können die Kommunikation und den Datenzugriff lägerfristig unterbrechen.

Menschliche Faktoren

  • Fahrlässigkeit: Unachtsames Verhalten kann zu schweren Sicherheitslücken oder Unfällen führen.
  • Vorsätzliche Sabotage: Böswillige Handlungen, um Schaden anzurichten, können die Sicherheit und den Betrieb erheblich beeinträchtigen.
  • Fehlerhafte Handlungen: Irrtümer oder Missverständnisse in der Bedienung von Maschinen oder Systemen können zu kritischen Situationen führen.

Cyberangriffe

  • Ransomware: Die Verschlüsselung von Daten durch Angreifer und darauffolgende Lösegeldforderungen führen zu Betriebsunterbrechungen, finanziellen Verlusten und Datenverlust. Dies kann die Reputation schädigen und rechtliche Konsequenzen nach sich ziehen.
  • Viren und Malware: Schädliche Software, die Daten beschädigt oder stiehlt, führt zu Produktivitätsverlusten, beeinträchtigt die IT-Infrastruktur und erfordert oft umfangreiche und kostspielige Wiederherstellungsmaßnahmen.
  • Phishing: Versuche, durch gefälschte E-Mails an sensible Daten zu gelangen, können zu Datenverlusten, Identitätsdiebstahl und einem Vertrauensverlust bei Kunden und Partnern führen.
  • DDoS-Angriffe: Die Überlastung von Diensten durch massenhaft generierten Datenverkehr kann kritische Online-Services lahmlegen, was zu Umsatzeinbußen und Beeinträchtigung der Kundenbeziehungen führt.
  • Datenlecks: Unbefugter Zugriff auf sensible oder geschützte Daten kann Compliance-Verstöße, finanzielle Strafen und einen erheblichen Vertrauensverlust in der Öffentlichkeit nach sich ziehen.

Stromversorgung

  • Unterbrechung der Stromversorgung: Ausfälle können zu einem sofortigen Stillstand von Produktionsanlagen und kritischen Geschäftsprozessen führen, was direkte finanzielle Verluste und Beeinträchtigungen der Lieferketten verursacht.
  • Schwankungen in der Stromversorgung: Instabile Stromversorgung kann zu Schäden an empfindlichen Geräten und Datenverlusten führen, die teure Reparaturen und Betriebsausfälle nach sich ziehen.
  • Überlast: Überlastung des Stromnetzes kann zu Schäden an der elektrischen Infrastruktur führen und erfordert Investitionen in robustere Backup-Systeme oder redundante Energieversorgungen, um die Betriebssicherheit zu gewährleisten.

Versorgungskettenstörungen

  • Engpässe bei Lieferanten und Dienstleistern: Störungen können zu Produktionsverzögerungen, Erhöhung der Betriebskosten und Verlust von Marktanteilen führen, da die rechtzeitige Lieferung von Endprodukten an Kunden beeinträchtigt wird.
  • Transportunterbrechungen: Blockaden, Streiks oder logistische Probleme können den Transport von benötigten IT-Systemen und Produkten behindern.
  • Ausfall von Schlüssellieferanten: Der Ausfall von wichtigen Lieferanten durch Insolvenz oder Produktionsprobleme kann zu erheblichen Einschränkungen in Lieferung und Support führen.

Politische Ereignisse

  • Gesetzesänderungen: Änderungen in der Gesetzgebung können umfangreiche Anpassungen in Betriebsabläufen und zusätzliche Kosten für Compliance-Maßnahmen erfordern.
  • Regulatorische Anforderungen: Neue Vorschriften können zu Betriebsunterbrechungen führen, wenn Anpassungen oder Zertifizierungen erforderlich sind, und erhöhen den Druck auf die Einhaltung gesetzlicher Standards.
  • Politische Instabilität, Konflikte und Sanktionen: Instabilität in wichtigen Märkten oder Produktionsländern, sowie Sanktionen können zu plötzlichen Änderungen in Geschäftsbedingungen führen.

Kommunikationsstörungen

  • Ausfall von Kommunikationssystemen: Unterbrechungen in der Kommunikation können die Koordination und Reaktionsfähigkeit in Krisensituationen stark beeinträchtigen. Dies führt zu Verzögerungen in Entscheidungsprozessen und kann im Extremfall zu einer Eskalation von Notfällen oder Krisen führen, wenn schnelle Kommunikation essenziell ist.
  • Überlastung von Kommunikationssystemen: In Krisenzeiten kann eine Überlastung der Kommunikationssysteme auftreten, da alle Beteiligten gleichzeitig Informationen suchen und kommunizieren wollen, was zu Verzögerungen und Informationsverlust führen kann.


Nicht alle Bedohungen sind für jede Organisation relevant. Um auf die relevanten Bedrohungen vorbereitet zu sein, ist es wichtig, eine umfassende Bedrohungsanalyse durchzuführen und ein angemessens Notfallmanagementkonzept zu entwickeln und regelmäßig zu aktualisieren. Dies sollte Risikobewertungen, klare Handlungspläne und Schulungen für das Personal umfassen.

Notfallprozesse und -verfahren

Das umfassende Notfallmanagement verläuft als Teil des Informationssicherheitsmanagements in einem eigenen integrierten Managementsystem, dem Bunisess Continuity Management System (BCMS). Wie jedes Managementsystem folgt auch das BCMS dem PDCA-Zyklus (Plan-Do-Check-Act):

PLAN

Leitlinie des BCMS

Entwicklung einer BCM Strategie.

Die Leitlinie definiert die Ziele und den Umfang des BCMS, einschließlich der Verantwortlichkeiten und Ressourcen. Sie stellt sicher, dass alle Beteiligten die Bedeutung des BCM verstehen und nach einem einheitlichen Rahmen handeln.

Buniness Impact Analyse (BIA)

Analyse der Rahmenbedingungen.

Die Buniness Impact Analyse (BIA) identifiziert kritische Geschäftsprozesse und die Auswirkungen eines Ausfalls auf die Organisation. Sie hilft bei der Priorisierung der Wiederherstellungsstrategien und legt die maximal tolerierbare Ausfallzeit (MTD) und die Wiederherstellungsziele (RTO/RPO) fest.

Dokumentation des BCMS

Analyse der Rahmenbedingungen: Die BIA identifiziert kritische Geschäftsprozesse und die Auswirkungen eines Ausfalls auf die Organisation. Sie hilft bei der Priorisierung der Wiederherstellungsstrategien und legt die maximal tolerierbare Ausfallzeit (MTD) und die Wiederherstellungsziele (RTO/RPO) fest.

DO

Detektion und Alarmierung

Die Detektion und Alarmierung umfasst die Einrichtung von Systemen und Prozessen, die bei einem Notfall frühzeitig Warnsignale geben und die zuständigen Personen oder den Krisenstab alarmieren. Dies kann über automatisierte Überwachungssysteme erfolgen, die auf Anomalien prüfen und entsprechende Alarmierungen auslösen.

Krisenstab

Der Krisenstab ist ein Team aus Schlüsselpersonen, das die Leitung im Notfall übernimmt und strategische Entscheidungen trifft. Die Mitglieder des Krisenstabs sollten klar definiert und regelmäßig in ihren Aufgaben und Verantwortlichkeiten geschult werden, um im Ernstfall effektiv agieren zu können.

Krisenkommunikation

Die Regelung zur Krisenkommunikation sollte die Kommunikationskanäle und Verfahren beschreiben, die im Notfall genutzt werden, um sicherzustellen, dass alle relevanten Personen informiert werden.

Es ist wichtig, dass der Krisenkommunikationsplan klare Anweisungen enthält, wer, wann und wie informiert wird, um Gerüchte und Fehlinformationen zu vermeiden. Dazu gehören interne Kommunikationswege zu Mitarbeitenden und externe zu Kunden, Lieferanten und der Öffentlichkeit.

Notfallbetrieb

Der Notfallbetrieb beschreibt die Aufrechterhaltung der kritischsten Geschäftsprozesse während eines Notfalls. Dies beinhaltet die Vorbereitung von alternativen Arbeitsplätzen, die Nutzung von Ausweich-IT-Systemen und die Etablierung von Kommunikationskanälen für die Dauer der Störung.

Geschäftsforführungsplan/Wiederanlaufplan

Dieser Plan legt fest, wie die Geschäftstätigkeit nach einem Notfall schrittweise in einem Notbetrieb wieder aufgenommen werden kann. Er enthält Zeitpläne, Verantwortlichkeiten und detaillierte Anweisungen zur Wiederaufnahme der Geschäftsprozesse und zur Minimierung der Ausfallzeiten.

Wiederherstellungsplan

Der Wiederherstellungsplan definiert die Schritte zur vollständigen Wiederherstellung der betroffenen Systeme und Prozesse nach einem Notfall. Er umfasst die Reihenfolge der Wiederherstellung, die notwendigen Ressourcen und die beteiligten Teams oder Personen.

BCM Risikoanalyse

Die BCM Risikoanalyse dient als Krisenprävention dazu, potenzielle Risiken für die Geschäftstätigkeit zu identifizieren und zu bewerten, um präventive Maßnahmen und Pläne zur Risikominderung zu entwickeln. Diese Analyse sollte regelmäßig durchgeführt werden, um auf neue Bedrohungen und Veränderungen im Umfeld der Organisation zu reagieren.

CHECK

Notfallübungen

Es sollte regelmäßig Übungen und Tests durchgeführt werden, um sicherzustellen, dass das Notfallkonzept funktioniert und alle beteiligten Personen wissen, was sie im Falle eines Notfalls tun müssen.

Diese Übungen helfen auch, Schwachstellen im Plan zu identifizieren und zu korrigieren und die Reaktionsfähigkeit und das Bewusstsein der Teammitglieder zu stärken.

Überwachung und Kennzahlen

Die Leistung des BCMS sollte anhand von Kennzahlen und regelmäßigen Reviews überwacht werden. Diese Metriken können die Zeit bis zur Wiederherstellung, die Effektivität von Kommunikationsplänen und die Zufriedenheit der Stakeholder umfassen, um Bereiche für Verbesserungen zu identifizieren.

ACT

Regelmäßige Überarbeitung und Anpassung des BCMS

Das BCMS sollte regelmäßig überprüft und an neue Bedrohungen, technologische Entwicklungen und organisatorische Änderungen angepasst werden. Dies stellt sicher, dass die Strategien und Pläne aktuell bleiben und die Organisation resilient gegenüber neuen Herausforderungen ist.

Diese Überarbeitung sollte auch das Einbeziehen von Feedback aus Übungen und tatsächlichen Notfällen beinhalten, um kontinuierliche Verbesserungen zu fördern.

Weiterführende Quellen

BSI-Standard 200-4 Business Continuity Management

Hilfsmittel zum BSI Standard 200-4 (BCMS)

ISO/TS 22317:2021 Security and resilience - Business continuity management systems - Guidelines for business impact analysis