「CrowdStrike」によるWindows大規模障害から得たい「教訓」

全世界850万台のWindowsマシンに障害、そしてその影響

今日はDX絡みというか、セキュリティ関係の話です。

米国のセキュリティソフト会社「クラウドストライク(CrowdStrike)」のセキュリティソフトにバグがあって、そのせいで世界中のWindows PCで「ブルースクリーン」になって起動しなくなるという事件がありました。

世界中で約850万台のWindowsマシンに影響が出たということです。

  • 世界中で5,078の航空便、予定の4.6%がキャンセル
  • 世界中の金融機関で障害
  • 北米の多くの病院で、緊急ではない手術すべて中止
  • 世界中の多くの大手テレビ局で放送障害

と、かなりの事件でした。

日本でも、報じられているところではたとえば以下のとおり。

  • ユニバーサル・スタジオでPOS障害で営業停止
  • 日本航空で予約管理システムに障害
  • ジェットスターでチケット発券システムに障害
  • セブンイレブンのPOSシステムに影響

参考: Wikipedia 「クラウドストライク事件」
https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%82%B9%E3%83%88%E3%83%A9%E3%82%A4%E3%82%AF%E4%BA%8B%E4%BB%B6

「約850万台のWindowsマシン」というのは世界中のWindowsマシンの1%にも満たない数だそうですが...。
それでも、これだけの事件になります。

Windows大規模障害から得たい「教訓」

IT系障害を「物理的インフラ障害」と比較してみる

今回の件で影響を受けた方も、なんともなかった方もいらっしゃると思います。

「人が作ったシステム」を使っている限り、どうしてもある程度の割合でこういう事件は起こります。
1990年代から「Windows Update」を配布してきてノウハウ蓄積しているマイクロソフトですら、いまだに、「アップデートしたら動かなくなった」ということで障害を起こすことがちょこちょこあります。

民間で起きるとニュースバリューもあって実生活や多くの方の実務に直接影響があるので話題になりますが...。

正直、「Amazon AWS」や「GitHub」、「OpenAI (ChatGPT)」のような名のしれたシステムでもちょこちょこ障害は起きますし、普段からIT技術に触って慣れていると、「ああ、いつものあれの大きめの事件か」くらいの印象です。

ちょうど、一昨日(7月22日)は、「東海道新幹線が半日まるまる動かなくなる」といった事件もありました。保守車両同士の接触事故が原因だっだそうです。

こういうニュースがあったときに、「地元のローカル線でも起きることが、新幹線で起きたんだな」と思うのと同じような感覚です。

鉄道のような物流装置だと実感湧きやすいし範囲は限定的ですが、IT系だと、見えないですし、世界中に飛び火してしまうということが違いです。

インフラの稼働率は100%ではない

「インフラの稼働率は100%ではない」というのが基本の考え方です。

Windowsもいつ故障するか分からない。
基幹システムもいつダウンするか分からない。
インターネットへの接続もいつトラブルに見舞われるか分からない。
自社サービスを紹介しているウェブサーバも、いつ止まるか分からない。

以下の過去記事でも、日頃の「心構え」と「イメージトレーニング」が大切ということを書きました。

Microsoft アカウントの「不正サインイン履歴」と、「不正アクセス対策」
https://forum.pc5bai.com/article/essentials-for-security-practices/#practice

「新幹線が止まる」ということと同様に、「起きて当然のこと」というスタンスで準備をすることが大切です。

「4つのリスク対応」

情報セキュリティ分野で「4つのリスク対応」というリスク管理方法のフレームワークがあります。
次の機会に解説したいと思っています。

公開日時: 2024/07/24 16:00