PagerDutyに聞く、クラウドストライク障害の影響を最小限にした舞台裏

AI要約

PagerDutyは、システムのインシデント対応を一元化するプラットフォームであり、運用監視ツールやオブザーバビリティ製品と組み合わせて運用される。

PagerDutyの名称は、ポケベルから由来しており、システム障害時に運用管理担当者に通知を送る自動対応機能が特徴的である。

PagerDutyはAI機能を活用した高度な自動化機能を提供し、トラブル解決の時間を短縮する役割を果たしている。

PagerDutyに聞く、クラウドストライク障害の影響を最小限にした舞台裏

 PagerDuty(ペイジャーデューティ)は、都内でプライベートカンファレンス「PagerDuty on Tour TOKYO 2024」を開催した。「AIと自動化の新時代におけるオペレーショナル・レジリエンスの再構築」というテーマを掲げた同イベントには米本社 最高経営責任者(CEO)のJennifer Tejada氏も登壇し、ユーザー事例としてJR東日本情報システム 取締役 Suica・駅サービスソリューション本部長の吉川眞之氏との対談を通じて同社のサービス概要を紹介した。

 基調講演終了後にはTejada氏とのインタビューも実現し、2024年7月19日に発生した世界規模のシステム障害で同社が行った対応についても詳しく聞くことができたので、改めて同社の事業概要やインタビューの内容について紹介したい。

PagerDutyの事業

 PagerDutyは「システムのインシデント対応を一元化するプラットフォームです。システム障害対応に費やす時間を軽減し、貴重なエンジニアリソースをビジネス拡大に充てることができます」と自社のプラットフォームを説明している。一見するとシステム運用監視ツールや最近注目が高まっているオブザーバビリティ製品をイメージしたが、実際にはPagerDutyはシステム運用監視ツールやオブザーバビリティ製品と組み合わせて運用する形になる。

 システムやサービスが何らかの障害を起こした場合、まずは当該システムやその周辺からエラーメッセージやアラートが発報され、これを受け取ったシステム運用監視ツールなどがユーザーに通知してインシデント対応が開始される、というのが一般的な流れだ。

 PagerDutyはエラーを検出する機能を搭載しておらず、運用監視ツールやオブザーバビリティ製品から情報を受け取って、その後のインシデント対応作業を支援する。システムのどの部分で障害が発生したのかによってその後の状況は大きく変わってくるが、一般的には障害箇所からピンポイントでエラーが出るわけではなく、周辺から一斉に大量のエラーが報告されることになる。

 例えば、あるサーバーがダウンした場合、そのサーバーと通信しているさまざまなシステムからそれぞれエラーが出てくるというイメージだ。そこで、運用担当者はまず大量のエラーメッセージを精査して根本原因を追及する必要があるが、現在の運用監視ツールやオブザーバビリティ製品では、システム側で自動的に根本原因の追及やエラーメッセージの整理を行い、担当者が対応すべき箇所をピンポイントで指摘してくれるように進化している。

 こうした製品機能の紹介を見ると、運用監視ツールやオブザーバビリティ製品があればインシデント対応の負担は大幅に軽減され、機能的には充分だろうと思ってしまうが、実際の運用管理の現場ではその後の対応作業の負荷も重く、そこでPagerDutyが活用されているのだという。

 PagerDutyの“Pager”とは、日本語で言うところの「ポケベル」のことだ。ポケベルは、スマートフォンはもちろん携帯電話もまだ普及していなかった時代に活用された無線デバイスで、電話の着信を通知し、簡単なテキストメッセージを表示できた。

 システムに何か障害が発生すると運用管理担当者にポケベル(Pager)を通じて連絡が入り、急いでオフィスやデータセンターに向かって対応する、という運用を長らく行っていたことを踏まえての命名だという。大規模なシステムの運用管理では特定の担当者が終始対応するわけにもいかないため、チームを組んで交代制で対応するような体制を構築することになる。

 こうした場合、技術力の水準を高レベルでそろえるのは極めて難しいため、技術力の高いスタッフを各チームに配置しつつ、多くはそこそこの人材でカバーする形にならざるを得ないだろう。そこで重要となるのが「手順書」であり、担当者は何か起こった場合は手順書の該当箇所を参照しながらその後の対応を進める。

 こうした対応だけで解決できる軽微な障害であればよいが、解決が難しい複雑なトラブルの場合は技術力の高いスタッフに連絡して対応を依頼する必要があり、そうした対応についても手順書に指定されているのが普通だ。

 担当者は障害の内容を手順書に従って確認し、技術力の高いスタッフに連絡する必要があるケースであることが分かったら指定の連絡手段を使って連絡するが、これには少なくとも10~15分程度は掛かり、複雑な問題の場合はもっと時間を要することも珍しくはないだろう。

 PagerDutyの基本的な機能は手順書の内容を踏まえた自動対応であり、対応時間が数秒~数分程度に短縮できる。同社の関係者が「いまだにPagerDutyは『電話を掛けてくれるツール』というイメージで見られている」と語っていたが、まさに必要な場合に適切な担当者へ即座に通知を送ってくれる、という部分が多くの運用管理担当者に評価された部分であり、PagerDutyの根幹部分なのだろう。

 現在ではAI機能を活用したより高度な自動化機能が豊富に提供されており、PagerDutyだけで自動対応してトラブルを解決できる領域も着実に拡大している。