Windowsの大規模障害、JR東日本情報システムが得た教訓とは?

AI要約

PagerDutyが都内で開催したイベント「PagerDuty on Tour」で、JR東日本情報システムとPagerDuty CEOの対談が行われた。インシデント対応やPagerDuty導入の背景、今後の展望などが話題になった。

世界的なシステム障害からJR東日本の影響、PagerDutyの役割、およびインフラ運用の未来について、対談によって明らかにされた内容。

PagerDuty Advanceの紹介やAI活用についても触れられ、最新テクノロジーが運用・インシデント管理にどのように貢献するかが示された。

Windowsの大規模障害、JR東日本情報システムが得た教訓とは?

PagerDutyは、年次イベント「PagerDuty on Tour」を都内で開催。同イベントにおける、JR東日本情報システムとPagerDuty CEOの対談を紹介する。

 PagerDutyは、2024年8月6日、年次イベント「PagerDuty on Tour」を都内で開催した。

 

 7月19日に発生した、クラウドストライクのEDRツールが引き起こした世界的なシステム障害。影響を受けたWindows端末は世界で約850万台と言われ、米保険会社はFortune 500企業全体の損失額を54億ドルと推計している。

 

 PagerDutyはインシデント管理の自動化プラットフォームを展開しており、7月19日には、通常の約2倍のインシデントが発生し、約3倍の通知が発生したという。一方で、同社のユーザー企業の障害対応時間は29%しか増えなかった。「このようなインシデントはもはや防ぐことが困難。不足の事態にいかに備えるかが大事というのを世界規模で気づかされた」と語るのは、PagerDuty日本法人の代表取締役社長である山根伸行氏だ。

 

 それでは、ミッションクリティカルな社会インフラであるJR東日本のシステムは、障害発生時に影響を受けたのだろうか。PagerDuty on Tourにおける、JR東日本情報システムの取締役 Suica・駅サービスソリューション本部長 駅サービスシステム部長である吉川眞之氏と、米PagerDutyのCEOであるジェニファー・テハダ(Jennifer Tejada)氏の対談を紹介する。

 

7月19日に発生した世界規模の障害、JR東日本のシステムは?

 JR東日本情報システムは、JR東日本の基幹サービス、顧客向けサービスの開発や運用を担う企業だ。鉄道事業のソリューションからSuicaを主軸としたサービス、さらには駅ビルやコンビニなどの運営を支えるシステムも手掛ける。

 

 Windowsのシステム障害でどのような影響があったか、というテハダ氏の質問に対して、「JR東日本というブランドを狙うDDoS攻撃が増えていたため、最初はサイバー攻撃を疑った」と吉川氏。そして、グループ全体でいうと、一部のホテル事業や小売事業で、チェックインや仕入れができない時間があったものの「JR東日本の主だったサービスにはほぼインパクトはなかった」という。

 

 大規模なサービスを数多く展開している中で、なぜ大きな影響が出なかったかについては、「色々な仕組みで備えている」と述べるにとどまり、詳細までは語られなかった。

 

 また、吉川氏は今回のシステム障害の教訓として、「(Windowsだけで構成、といった具合に)プラットフォームが集中しすぎていると、回避策が取りづらいリスクが発生する。クラウドやオンプレミスのサービスをいかに分散させるかが非常に重要なテーマだと痛感した」と語った。

 

 テハダCEOも、「今回の原因がサイバー攻撃ではなく良かったという考え方もあるが、ユーザーにとっては関係ない。セキュリティやテクノロジー、人為的なミス、自然災害など、何が原因であってもシステムが止まるということは同じ」と強調した。

 

「えきねっと」にPagerDutyを導入、ミッションクリティカルなインフラでの“NoOps”を目指す

 JR東日本のITインフラにおいて、“インシデントへの備え”のひとつとなっているのが、PagerDutyのプラットフォームだ。

 

 PagerDuty導入のきっかけは、日本法人社長の山根氏からの紹介。ただし「最初は半信半疑」(吉川氏)だったという。その後、米国本社を訪問して、いわゆる“NoOps”(システム運用の自動化と省人化)を目指す欧米での運用のスタンダードモデルについて議論する中で、ミッションクリティカルなJR東日本のサービスに合うのではと確信して、採用に至っている。2023年にPoCを始め、まずは、約20年前にスタートしたチケット予約サービス「えきねっと」での運用に向けて検証を進めている。

 

 そもそも、JR東日本が中心となって運用するシステムやサービスは200から300にも上り、24時間体制でこれらを監視するオペレーションセンターと各サービスのメンテナンスチームには、多くのコストが発生している。一方で、ダウンタイムが長くなるほど、ユーザーに対する影響も増大するため、インシデントをいかに早く検知して復旧させるかは、最優先事項だ。吉川氏は、これらの2つの要素を解決できるのがPagerDutyだと評価する。

 

 特に「えきねっと」では、お盆や年末年始など一部の期間にトラフィックが集中する。「トラフィックがスパイク(急増)した時にインシデントが発生すると、分刻みで大きな損失が発生する。それをいかに修復するかにおいてPagerDutyの効果は大きい」と吉川氏。オペレーションセンターがインシデントを発見して、運用担当者に連絡し、技術者と調整しながら対応するという一連のプロセスを短縮することができ、さらには人的コストも削減できる。

 

 今後は、いかにPagerDutyやAIなどのテクノロジーを活用しながら、NoOpsをスタンダードモデルにできるかが課題だという。それに伴いPagerDutyの適用範囲を拡げていき、運用の改善や自動化によって生まれたコストを、サービス価値の向上に費やしていく意向だ。

 

 テハダ氏は、「ワークフローをインテリジェントにオーケストレーションして、効率化する。そして、問題の発生を予測して未然に防ぐ。このようなAIOpsの取り組みをPagerDutyは10年以上続けてきた。それによってインシデントの影響範囲を縮小させ、無駄を省き、ビジネスの売上を向上させる。今後、ユーザーのプロダクトやサービスに対する要求が高まるにつれ、こうしたイノベーションが重要になっていく」と強調した。

 

運用・インシデント管理に生成AIの力を組み込む「PagerDuty Advance」が間もなく日本語対応

 また、PagerDuty on Tourでは、同社の「PagerDuty Operations Cloud」に生成AIを組み込み、インシデント対応全体を支援する「PagerDuty Advance」も紹介された。

 

 例えば、インシデント発生時には、PagerDuty Advanceと連携したSlackのチャンネル内に情報が集約され、AIアシスタントを介してインシデントに対する疑問を解消できる。社外や経営層、技術者向けのステータスアップデートや、インシデントに関する所見や今後の回避策などが盛り込まれたポストモーテム(事後検証)を自動生成する機能も備えている。

 

 オペレーションセンターでの活用でも、トリアージを支援してくれたり、ランブック(手順書)を作成してくれたりと、更なるモダン化を進められる。

 

 PagerDuty Advanceは、グローバルで正式版の提供を開始しており、日本語対応についても、8月28日にベータ版が、9月30日に正式版がリリースされる予定だ。

 

文● 福澤陽介/TECH.ASCII.jp