課題
オンコールチームは、ユーザーに影響が及ぶ前にインシデントを確認して対応し、解決しなければならないという大きなプレッシャーにさらされています。しかも今日ではサービスがかつてないほど複雑化し、コンテキストの把握が困難であるため、アラートの優先順位付け、ルーティング、解決が一層難しくなっています。これらの要因がインシデント対応(レスポンス)担当者にさらなる負担をもたらし、ときには燃え尽き症候群を引き起こします。
解決策
適切な担当者に適切なアラートを届けることで、確認と解決にかかる時間を短縮
ITスタックやインシデントレポートを統合することで、包括的なChatOpsエクスペリエンスを実現
モバイルでのオンコール対応を容易にして、インシデント対応担当者の負担を軽減
オンコールスケジュールを効率化し、エスカレーションポリシーを効果的に管理できます。また、ローテーションから優先度の変更まで、インシデント管理のあらゆる基本作業を自動化できます。
Splunk On-Call は、私がこれまで経験した中で最も持続可能なオンコールスケジュールです。
エスカレーションポリシー、対応者の提案、チームビュー、ウォールーム(作戦司令室)のセットアップを自動化します。それにより、問題をすばやく解決するインシデント管理体制を整備できます。
製品
アラートの発生から通知までの時間を短縮し継続的に改善でき、セキュリティ対策を強化する環境を構築できます。また、柔軟性を高めることによってオンコールのウェルビーイングを向上させることもできます。
インシデント対応とは、インシデントレスポンスとも呼ばれ、ITインシデントをリアルタイムで検出し、分析、解決するプロセスです。システムと人手で調査と分析を行い、ビジネスへの悪影響を最小限にとどめることを目指します。
インシデントの一般的な防止策には、ソフトウェアの定期的なアップデートやイベントの監視などがあります。理想的には、インシデント対応計画を作成して、インシデントの解決と根本原因の特定を迅速化し、再発を防止します。
ITサービス管理(ITSM)における一般的な定義では、インシデントは、ITサービスの予定外の中断、または中断につながる事象を指します。この定義に従うと、ネットワーク品質の低下から、ディスク領域の不足、サイバー攻撃まで、幅広い問題がインシデントに該当します。
セキュリティインシデントはインシデントの一種で、現在発生している脅威から、すでに起きてしまったデータ漏えいまで、幅広い問題を含みます。その発生元は外部だけでなく組織内部の場合もあります。セキュリティインシデントには以下のようなものがあります。
インシデント対応は、包括的なインシデント管理プラクティスの一部です。インシデント管理とは、ビジネスサービスを脅かしたり妨害したりするITインシデントを検出して修正するプロセスを指します。その目的は、サービスの可用性を維持し、サービスが停止した場合はビジネスへの影響を最小限に抑えながらすみやかに復旧させることです。
インシデント対応では、発生したインシデントへの対応のみが対象になりますが、インシデント管理は、インシデント対策の計画から、早期検出、継続的な分析、再発防止、文書化まで、幅広い作業を含みます。