クラウドストライク、大規模障害に至る経緯を報告--原因は振る舞い検知の更新に不具合

AI要約

製品の不具合によりWindowsシステムに障害が発生

障害の原因や経緯、および今後の対策に関する詳細

同社の対応策や再発防止に向けた取り組みについて

クラウドストライク、大規模障害に至る経緯を報告--原因は振る舞い検知の更新に不具合

 CrowdStrikeは米国時間7月24日、同19日に同社製品「Falcon Platform」の不具合が原因でWindowsシステムに障害を引き起こした経緯をブログで明らかにした。

 今回は、製品内の「Rapid Response Content」と呼ぶサイバー攻撃者などの行動を高度に監視する機能の設定更新の内容に不備があったとした。障害は、同社の事前テストで不備を発見できないまま設定更新を一部の本番環境に配信した結果、「Windows」でメモリー境界外読み取りが例外として発生し、ブルースクリーン状態を誘発したという。

 同社が「事後調査の予備的な報告」として明らかにした内容によると、Falcon Platformでは、さまざまな脅威を検知するセンサーのセキュリティコンテンツ構成を更新する際に、センサーに同梱している「Sensor Content」とRapid Response Contentの2つを配信しているという。今回の障害は、Rapid Response Content側のデータの不備が原因になった。

 まずSensor Contentは、サイバー攻撃者などに対応するための幅広い機能を提供しており、AI/機械学習モデルを含む同社の脅威検出担当エンジニアがRapid Response Contentで利用するための「Template Types」を搭載しているという。

 Sensor Contentの品質検査では、同社のコードベースにマージする前後で、単体テストや統合テスト、性能テスト、負荷テストなどの各種テストを自動と手動で行っているという。リリースプロセスは、社内環境での検証後に先行提供、一般提供と段階的にリリースする。ユーザーはインストール時にポリシーで最新バージョン、1つ前のバージョン、2つ前のバージョンの3種類を任意で選択できるという。

 同社は、Sensor ContentやTemplate Typesを含むセンサーの更新をユーザー側が完全に制御できるとし、Sensor Contentは今回の障害の原因ではないと説明している。

 一方のRapid Response Contentは、センサーでの高度な行動パターンマッチングに使用し、上述のSensor Contentに含まれるTemplate Typesのインスタンスとして提供されるという。

 Rapid Response Contentの更新は、上述のセンサーのセキュリティコンテンツ構成で検証チェックを行うとのこと。また、新たにTemplate Typesをリリースする際には、リソースの使用率やシステム性能への影響、イベント量などのさまざまな負荷テストを実施しているとする。コンテンツ構成の仕組みにおいて、システムへの悪影響など問題を引き起こす可能性のあるコンテンツの例外を適切に処理するようにしているという。

 同社によれば、今回の障害が発生するまでに次の経過があったとする。

 まず2月28日に、Sensor Contentのバージョン7.11が一般提供され、ここでは、新たな攻撃手法を検出するための「InterProcessCommunication」という新しいTemplate Typesが導入されたという。この提供では、上述した各種のテストや検証が手順に従って行われたとしている。

 次に、3月5日には、さまざまなOSとワークロードで構成された同社内の環境でInterProcessCommunicationの負荷テストを行い合格したことから、使用を検証して、セキュリティコンテンツ構成の更新の一環として、InterProcessCommunicationを本番環境にリリースしたという。その後4月8~24日に、さらに3つのInterProcessCommunicationを展開し、これらは同社の期待通りに本番環境で機能したとしている。

 その上で7月19日に、さらに2つのInterProcessCommunicationを追加導入したという。同社によれば、1つは検証に合格していたものの、もう1つはコンテンツデリバリーデータにバグがあり、問題のあるデータが含まれたまま本番環境に展開されてしまったという。同社は、3月5日時点での各種テストの結果や事前のInterProcessCommunicationのリリースでの成功に基づいて、7月19日のリリースも本番環境に展開されたと説明している。

 こうした結果、問題のあるデータが含むInterProcessCommunicationのコンテンツがWindows上でメモリー境界外読み取りによる例外を発生させ、Windows側がこの例外を適切の処理することができずブルースクリーン状態が誘発されてしまったという。

 同社によると、障害が発生したシステムは、世界協定時間(UTC)の7月19日午前4時~5時27分の間にオンライン状態にあり、上記の更新を受信したSensor Contentのバージョン7.11以上のWindowsホストになる。MacとLinuxのホストには影響がなく、7月19日午前4時~5時27分の間に同社に接続しなかったWindowsのシステムにも影響はなかったとしている。

 同社は今後に根本原因分析した詳細結果を報告するとし、再発防止に向けて今回の障害の原因となったRapid Response Contentのリリースに関するテストや検証、品質保証などを強化し、本番環境に問題なく展開できるようさらに厳密な検査の仕組みを導入する作業を進めているとした。