クラウドでもオンプレミスでも、ITシステムを適切に機能させるには、ITサービスとインフラの内部の動作を可視化することが不可欠です。
多くの先進的企業がデジタルトランスフォーメーションを中核的な戦略目標として推進している今、ITシステムを適切に機能させ、セキュリティを確保し、投資に見合った価値を提供することが喫緊の課題となっています。特に以下については、ITの状態とパフォーマンスの監視が極めて重要です。
Uptime Institute社の『Annual Outage Analysis』によれば、システム停止の3分の2以上(67%)で10万ドルを超える損害が発生しています。つまり、システムの異常を迅速に検出して対応できる能力が必要なのです。
この記事では、監視対象、監視プロセス、そして将来の動向についてご説明します。
Splunk IT Service Intelligence (ITSI)は、顧客に影響が及ぶ前にインシデントを予測して対応するための、AIOps、分析、IT管理ソリューションです。
AIと機械学習を活用して、監視対象のさまざまなソースから収集したデータを相関付け、関連するITサービスやビジネスサービスの状況を1つの画面にリアルタイムで表示します。これにより、アラートのノイズを低減し、障害を未然に防ぐことができます。
簡単に言えば、「IT監視」とは、組織のIT機器やデジタルサービスが適切に機能しているかどうかを判断するために使用するプロセスとツールのことです。監視は、あらゆる種類の問題の検出と解決に役立ちます。
今日、監視が複雑化しています。これはシステムやアーキテクチャーが複雑化しているためであり、ITシステムの分散化がその一因です。(一緒に仕事をする人々がさまざまな場所に散らばっているのと同様です。)
公式の定義をいくつか見てみましょう。
Google社のSREブックでは、監視とは「システムに関するリアルタイムの量的データを収集、処理、集約、表示すること」と定義されています。このデータには、クエリーの数と種類、エラーの数と種類、処理に要した時間、サーバーの寿命が含まれます。
ITIL® 4では、「監視とイベント管理」の項目にサービスの健全性とパフォーマンスに関する情報が含まれています。ここでは、監視とは以下を実現する能力であると定義されています。
監視は、インシデント管理、問題管理、可用性管理、容量とパフォーマンスの管理、情報セキュリティ管理、サービス継続性管理、構成管理、導入管理、変更の有効化など、多くのITサービス管理(ITSM)手法と密接に関連しています。
監視にはさまざまな種類があります。この記事ではITシステム管理全般について説明しますが、以下のように監視を分類することもできます。
(Splunkはこれらすべてに対応します。また、アマゾン ウェブ サービス(AWS)、SAP、GCPなど、特定のベンダー向けの監視製品も提供しています。)
例:Splunk Infrastructure Monitoringで表示されるAWSサービスのダッシュボード
すぐに利用できるメトリクスとディスク容量に関する重大な問題が表示されたEC2ダッシュボード
ITシステム監視の目的は、何が起きているのか、なぜ起きているのかという2つの基本的な疑問に対する答えを見つけることです。
そのためには、システム内の要素を継続的に監視して、異常、問題、またはメンテナンス作業のアラートがないか確認し、合意されたパフォーマンスレベルに従ってサービスが動作し、利用可能な状態にあることを確認する必要があります。
メトリクスとは、監視システムによって収集、集約、分析される生の測定データのソースのことです。ITシステムのメトリクスは、以下の複数のレイヤーにまたがります。
低レベルのインフラメトリクスに基づく監視は、「ブラックボックス監視」と呼ばれます。これは通常、システム管理者とDevOpsエンジニアの業務となります。アプリケーションレベルの監視は「ホワイトボックス監視」と呼ばれ、開発者やアプリケーションサポートエンジニアが担当するのが普通です。
ITシステム監視メトリクスは通常、監視対象のITコンポーネント内で設計および構築されたネイティブの監視機能から抽出されます。
さらに、IT監視システムによっては、軽量のソフトウェアエージェントのような独自のインストルメンテーション(計装)を使用して、高度なサービスレベルメトリクスを抽出できるものもあります。
Google社によると、ITシステムの監視にあたっては、優先すべき4つのゴールデンシグナルが存在します。具体的には以下のとおりです。
監視システムを設定してより多くのデータを取得できるようになると、システム管理者は以下の対応に忙殺される可能性があります。
そこで推奨されるのが、シンプルかつ予測可能で信頼性の高いルールを設定し、真の問題をより頻繁に把握できるようにすることです。
また、しきい値の設定(情報、警告、例外)の定期的な見直しや、AIOpsなどによる自動相関エンジンの効果的な設定も、過剰なアラートの抑制に役立ちます。
(よりスマートな監視を実現する動的しきい値について詳しくは、こちらをご覧ください。)
ここからは、コンテキストセットを使用して、ITシステム監視の6つの主要なアクティビティを見ていきましょう。
監視するITシステムの選択にあたっては、いくつかの計画を立てる必要があります。具体的には、優先度の定義、監視する機能の選択、イベント分類のメトリクスとしきい値の設定、サービスの「健全性モデル」(エンドツーエンドイベント)の定義、イベントの相関関係とルールセットの定義です。また、イベントをアクションプランと対応チームにマッピングすることも必要になります。
計画の主な成果物は以下のとおりです。
これはイベント処理の最初の段階です。設定したしきい値と基準を超えると、ITシステムのアラートが検出されます。アラートはIT監視システムによって取得され、表示、集約、分析が可能になります。
監視システムは、設定されたルールに基づいて、取得したアラートのフィルタリングと相関付けを行います。フィルタリングは、以下の条件に基づいて実行できます。
相関付けでは、他のアラートのパターンがチェックされ、異常なソースや潜在的な影響が特定されます。
このフェーズでは、イベントへの適切な対応を促すために、設定された基準(種類や優先順位など)に従ってイベントがグループ化されます。たとえば、侵入やランサムウェアに関するアラートはセキュリティイベントとして分類され、対応のためにSOCチームに通知されます。
前のフェーズで定義したアクションプランと役割分担表に基づき、メール、テキスト、オンラインコラボレーションシステムなど、あらかじめ決められたチャネルを介して、関連するチームに通知が届きます。
IT環境によっては、イベント対応が自動化されている場合もあります。そうした環境では、インスタンスの再起動やトラフィックのフェイルオーバーといったアクションを人間の介在なしに実行できます。
イベントの処理と、その処理がITシステムの品質にもたらした影響に基づいて、監視計画を定期的に見直し、メトリクスとしきい値が引き続き要件を満たすようにする必要があります。また、この見直しで以下の作業も行う必要があります。
ITシステムが複雑化するにつれて、テクノロジーの進化や大規模な変更への対応に欠かせない機能を提供するITシステム監視ツールへの投資が必要になるでしょう。
451 Research社の調査によると、アプリケーション、インフラ、クラウド環境を監視するために、39%の企業が11〜30種類ものツールに投資しています。このようなツールの分散は、すぐに以下のような結果をもたらします。
投資に見合う価値を求める組織は必然的に、テクノロジー環境全体をカバーし、無数のシステムや環境をまたいでイベントを統合できるツールに目を向けることになります。
この数年間のお客様との仕事や、年次調査の結果から、2つの主要な動向が明らかになっています。
大規模言語モデル(LLM)の能力が高まっていることから、AIとMLがITシステム監視に与える影響は今後も拡大し続けるでしょう。AIを統合した最新のツールは、今や検出から対応に至るプロセスライフサイクル全体を処理できるようになっており、大量のイベントデータを分析するだけでなく、分散システム間のイベント相関付けやログ分析といった面倒なアクティビティを処理することができます。
適切なトレーニングを施せば、こうしたツールは人間のチームよりも迅速かつ効果的に、アラートの「ノイズ」や「誤検知/検出漏れ」を選別できるようになります。ただし、ITシステムの監視から人間が完全に排除されるわけではなく、今後は、アラートに対応して問題を解決するためのより優れたオーケストレーションツールと自動化ツールの構築に焦点が移ることになります。
ITシステムの監視に影響を与えるもう1つの動向は、統合型のオブザーバビリティの登場です。ログ、メトリクス、トレースを分析してインフラ、アプリケーション、ユーザーエクスペリエンスを一元的に可視化できるプラットフォームの出現により、まるで拡大鏡で見るようにアラートを詳細に分析し、複雑な環境でユーザーが直面している問題を正確に特定できるようになりました。
(Splunkは統合型のオブザーバビリティをサイバーセキュリティと組み合わせた初のプラットフォームです。詳しくはこちらをご覧ください。)
あらゆる規模の企業にとって、ITシステムの監視は、ITサービスの機能、パフォーマンス、セキュリティを保証するための重要な手段です。テクノロジーが成長し続ける限り、ITシステム監視の分野も進化を続け、新たな課題に対応し、より多くのメリットを提供していくでしょう。
継続的な改善の重要性は、いくら強調してもしすぎることはありません。組織は、ITシステム監視に対してプロアクティブなデータドリブンアプローチを採用することによってのみ、提供するサービスの価値を保証できるのです。
このブログはこちらの英語ブログの翻訳です。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。