ITイベントの相関付けとは、ITインフラのイベントを自動的に分析してイベント間の関係を特定するプロセスを指します。その結果に基づいて、問題を検出したり、根本原因を突き止めたりできます。イベントの相関付けツールを使えば、システムやアプリケーションの監視効果を高め、可用性とパフォーマンスを向上させることができます。
企業のITインフラでは、サーバー、データベース、仮想マシン、モバイルデバイス、オペレーティングシステム、アプリケーション、センサー、ネットワークデバイスなどによって、さまざまな形式の膨大な量のデータが生成されます。その中で、インフラ内の状態の変化(ユーザーログインなど)を示すデータがイベントです。イベントの多くは正常な状態を示す害のないものですが、一部のイベントはインフラで問題が発生していることを示します。一般的な企業では、毎日大量のイベントが生成されるため、それらをすべて相関付けて関連するイベントをまとめることはITチームにとって大きな課題です。
その解決策の1つが、ITイベントの相関付けツールを使って、インフラのデータを集約し、機械学習によって有意義なパターンや関係を識別することです。これにより、インシデントや障害の検出と解決を容易にし、パフォーマンス監視を効率化して、インフラの可用性と安定性の向上につなげることができます。
以下のセクションでは、イベントの相関付けの仕組み、メリット、課題、インフラをより深く理解するためのデータの活用方法について説明します。
ITイベントの相関付けでは、自動化機能とイベントの相関付けツールを使用します。相関付けツールではまず、管理環境全体で自動的に生成される監視データやイベント管理データのストリームを受け取ります。その後、AIアルゴリズムに基づいて、監視アラートを分析し、イベントをグループ分けして相関付けてから、システムの変化やネットワークトポロジーに関するデータと比較して、問題の原因や最適な解決策を特定します。このような仕組みのため、イベントの相関付けでは、依存関係マッピング、サービスマッピング、イベント抑制などの関連タスクに使用する場合は特に、データの品質を高く保ち、適切な相関ルールを設定することが非常に重要になります。
イベントの相関付けプロセス全体は、通常、以下のステップで行われます。
- 集約:さまざまなデバイス、アプリケーション、監視ツール、トラブルチケットシステムからインフラ監視データを収集してツールに取り込みます。
- フィルタリング:ユーザー定義の条件(ソース、期間、イベントレベルなど)に基づいてイベントをフィルタリングします。このステップは集約の前に行われることもあります。
- 重複排除:同じ問題によって生成された重複するイベントを特定します。イベントが重複する原因はさまざまです(100人のユーザーに同じエラーメッセージが表示され、100人分のアラートがそれぞれ生成されるなど)。アラートが複数発生していても、対処すべき問題は1つということはよくあります。
- 正規化:ツールのAIアルゴリズムでデータがソースに関係なく一貫した方法で解釈されるように、データを一定の形式に変換します。
- 根本原因分析:プロセスの中でもっとも複雑なステップで、イベントの相互依存関係を最終分析してイベントの根本原因を特定します。たとえば、あるデバイスで発生したイベントを調査して、ネットワーク内の他の各デバイスでの影響を判断できます。
大量にあったイベントは、相関付けのプロセスが完了した時点で、何らかのアクションが必要な少数のイベントに絞り込まれます。イベントの相関付けツールによっては、この結果から、より詳細な調査の提案、エスカレーション、自動修復など、IT管理者のトラブルシューティングを支援する対応が実行されます。
相関付けの対象となるイベントタイプは組織のIT環境やビジネスニーズによってさまざまですが、一般的なイベントタイプには以下のものがあります。
- システムイベント:システムのリソースや健全性に関する異常な変化を示します。ディスクの空き領域不足やCPU負荷の増大などが該当します。
- ネットワークイベント:スイッチ、ルーター、ポートなどのネットワークコンポーネントの健全性やパフォーマンスを示します。ネットワークトラフィックが、定義済みのしきい値を超えたときにも生成されます。
- オペレーティングシステムイベント:Windows、Linux、Android、iOSなどのオペレーティングシステムによって生成され、ハードウェアとソフトウェア間のインターフェイスでの変化を示します。
- データベースイベント:データベース内のデータの読み取り、保存、更新状況を管理、分析するために役立ちます。
- アプリケーションイベント:ソフトウェアアプリケーションによって生成され、アプリケーションのパフォーマンスを示します。
- Webサーバーイベント:Webページコンテンツを配信するハードウェアとソフトウェアでのアクティビティを示します。
- ユーザーイベント:外形監視システムやリアルユーザー監視システムによって生成され、ユーザー視点でのインフラのパフォーマンスを示します。
ITイベントの相関付けツールは、さまざまなタイプのイベントからインサイトを引き出して、対応やアクションを促します。
イベントの相関付けでは、イベントデータ間の関係を特定して問題の原因を突き止めるために、さまざまな技法が使われます。このプロセスを支えるのが、大量のデータの中からパターンや問題の因果関係を識別するのに優れた機械学習アルゴリズムです。
イベントの相関付けで使われる一般的な技法には以下のものがあります。
- 時間ベース:イベントの発生直前または発生中に何が起こったのかを調べて、イベントのタイミングや順序の関係を特定します。ユーザーは、相関付ける時間範囲または遅延の条件を定義します。
- ルールベース:イベントを特定の変数(タイムスタンプ、トランザクションタイプ、顧客の位置情報など)と比較します。変数ごとに新しいルールを設定する必要があるため、多くの組織にとってあまり現実的なアプローチではありません。
- パターンベース:時間ベースとルールベースの技法を組み合わせたアプローチで、定義されたパターンと一致するイベント間の関係を特定します。ルールベースのアプローチよりも効率的ですが、機械学習を内蔵した相関付けツールが必要です。
- トポロジーベース:関連するネットワークデバイスやアプリケーションのトポロジーにイベントをマッピングします。ユーザーは、組織のIT環境のコンテキスト内でインシデントを簡単に可視化できます。
- ドメインベース:IT運用の個々の領域(ネットワークパフォーマンス、Webアプリケーションなど)から監視データを取り込み、イベントを相関付けます。ツールによっては、すべてのドメインからデータを収集して、ドメイン間の相関付けができるものもあります。
- 履歴ベース:イベント履歴を利用し、新しいイベントを過去のイベントと比較して、一致するものを検出します。パターンベースの相関付けと似ていますが、履歴ベースでは同一のイベントのみが検出されるのに対して、パターンベースではそのような制約はありません。
イベントの相関付け技法では、機械学習アルゴリズムを使って大量のデータからパターンや問題が特定されます。
イベントの相関付けツールを使えば、ITイベントのパターンを簡単に識別して異常を検出できます。イベントデータの初期サーチ後、ツールを使って結果をイベントパターンごとにグループ分けします。イベントのパターンを分析すれば、共通するタイプのイベントを明らかにできるため、サーチで幅広いイベントが返ってくる場合に役立ちます。
イベントの相関付けツールでは、通常、アノマリ検出などのパターン識別機能を利用できます。たとえば、アノマリ検出機能を実行すると、現在のサーチ結果に対して再度サーチが実行され、その結果が分析されて、共通のパターンが抽出されます。パターンの識別では、精度を保つためにイベントが大きなグループに分けられ、出現頻度の高い順に並べられます。イベントの相関付けツールでは、イベントタイプなどのパターンサーチを保存することも、パターンに異常や逸脱が検出された際にアラートを生成することもできます。
ITイベントの相関付けには、さまざまな用途とメリットがあります。
- サイバーセキュリティ/リアルタイムでのマルウェアの可視化と検出:ウイルス対策ソフトウェアやファイアウォールなどのセキュリティ管理ツールから収集した監視ログを相関付けて、実用的な脅威インテリジェンスを引き出し、セキュリティ違反や脅威のリアルタイム検出に役立てることができます。
- IT運用コストの削減:必要であるが時間のかかるネットワーク管理プロセスを自動化して、繰り返し起こるアラートへの対応に費やす時間を節約し、脅威や問題の解決に集中できます。
- 効率の向上:手動でのイベントの相関付けには専門知識が必要で、多くの時間と労力がかかります。さらに、インフラの拡大とともにその状況は厳しさを増します。しかし、自動化ツールを使えば、この作業の効率を向上させ、SLAの厳格化やインフラの拡大にも簡単に対応できます。
- コンプライアンスの強化:すべてのITインフラを継続的に監視して、セキュリティ脅威や規制コンプライアンスへの対応に関するレポートを生成できます。
- ノイズの低減:毎日大量のネットワークイベントが発生しますが、その中で深刻なものはごく一部です。イベントの相関付けツールを使えば、大量のインシデントやイベントをすばやく調査して、重要なものを特定し、優先順位付けできます。
ITイベントの相関付けは基本的に、ITインフラの信頼性の確保に役立ちます。ITに関する問題はいずれも、収益を生む顧客向けサービスの可用性を低下させる原因になります。2020年に行われたグローバル調査では、25%の組織が、サーバーの1時間あたりのダウンタイムコストが40万米ドルに達すると回答しています。イベントの相関付けは、インフラの信頼性を向上させることでダウンタイムコストを抑制するのに有効です。
イベントの相関付けにより、大量のイベントデータを分析して、セキュリティ脅威を示す関係やパターンを識別することで、ネットワークのセキュリティを確保できます。
たとえば、何年も使われていなかったアカウントを使って短時間で複数回のログイン試行があり、ログインの成功後、不審なコマンドが実行され始めたとします。イベントの相関付けを行っていれば、侵入検知システムで検出されたこれらの関連イベントをサイバー攻撃の兆候と判断して、適切なチームにアラートを送信できます。
イベントの相関付けツールでは、インフラソースから収集したデータに基づいてマップを作成し、コンテキストを付加して、不審なパターンをリアルタイムで把握できます。ツールによっては、ユーザーアカウントへの脅威、データベースへの脅威、WindowsやLinuxへの脅威、ランサムウェアなど、一般的なタイプの攻撃に関する相関関係レポートを生成することも可能です。
イベントの相関付けを活用することにより、セキュリティ脅威への対応を強化し、より厳重な防止策を立てることができます。
企業でIT活用が始まって以来、イベントの相関付けは、ビジネスに悪影響を及ぼす可能性のあるITの問題を検出、解決するための基本的な手段として使われてきました。
かつて、ネットワークがもっとシンプルで、大部分が組織内で運用されていた時代には、イベントの相関付けはITチームが手動で行えるレベルの作業でした。しかし、今日の動的なネットワーク環境では、1日だけで数万~数千万ものイベントが生成されます。最新のインフラで生成される大量のイベントを分析して実用的なインサイトを引き出すことはもちろん、それらを滞りなく処理することすら、もはや人手では不可能です。この問題を解決するのがイベントの相関付けツールです。ツールによってこれらの作業をよりすばやく低コストで行うことで、ITチームは問題の検出よりも解決に集中できます。
ITイベントの相関付けは、受信したログを相関付け、正規化して、環境内のセキュリティの問題を検出しやすくするという形で、SIEM (セキュリティ情報/イベント管理)に統合できます。この統合を実現するには、SIEMソフトウェアと、イベントの相関付けのための独立したエンジンが必要です。そのため、それぞれの仕組みを理解したうえで両者を統合するメリットを考えることが重要です。
Splunk SIEMによるエンタープライズセキュリティの強化については、こちらを参照してください。
SIEMの基本的な機能は、組織のITインフラで生成されるすべてのログデータを集約することです。ネットワークデバイス、サーバー、アプリケーション、ドメインコントローラーなど、さまざまなソースから異なる形式のデータが収集されます。ソースが多様化する一方で、データを相関付けて傾向やパターンを識別する方法は限られるため、通常とは異なるイベントがセキュリティ脅威を示すのか単なる逸脱であるのかを判断するのが難しくなっています。
イベントの相関付けでは、システムに取り込まれたすべてのログを、一貫した読み取り可能な形式に変換します。正規化されたログを分析することで、異なるタイプのログに記録された情報をつなぎ合わせて、インシデントやセキュリティイベントをリアルタイムで検出できます。また、イベントの相関付けではログのソースが明示されるため、それに基づいてイベントの傾向を把握することもできます。
イベントの相関付けを導入するときは、組織のニーズに合ったソリューションを選ぶことが大切です。製品を評価する際は以下の点を検討します。
- ユーザーエクスペリエンス:新しいソフトウェアを導入するときは常に、ユーザーが習得、理解、利用しやすいかどうかを考えることが重要です。直感的に操作できる最新のインターフェイスを備え、既存のITインフラと統合できる管理コンソールが用意されているかどうかを確認しましょう。また、内蔵の分析機能が設定および理解しやすく、サードパーティの主要な分析システムと簡単に統合できる必要もあります。
- 機能と仕組み:取り込めるデータソースとデータ形式を確認することが重要です。また、相関付けできるイベントタイプ(監視イベント、オブザーバビリティイベント、変更イベントなど)とイベントデータの処理手順(正規化、重複排除、根本原因分析など)も確認しましょう。適切な対応アクション(自動修復など)を実行できる機能があればさらに便利です。
- 機械学習とアノマリ検出機能:イベントの相関付けツールはデータサイエンティストでなくても使えますが、機械学習についての基礎知識があると製品の評価に役立ちます。機械学習には基本的に、教師ありと教師なしの2種類があります。
- 教師あり機械学習では、例題とその既知の結果を含む構造化されたデータセットを使ってアルゴリズムをトレーニングします。分析すべき変数をアルゴリズムに伝え、予測後、その精度に関するフィードバックを与えます。このように既知のデータに基づいて未知のデータで結果を予測できるようにアルゴリズムを「教育」します。
- 教師なし機械学習では、既知の結果を与えずにデータを探索させます。これにより、非構造化データ内で未知のパターンを識別し、類似性に応じてデータを分類(クラスタリング)できるようにします。マシンデータの形式は、syslogのような構造化データから、複数行からなるアプリケーションログのような非構造化データまで幅広いため、イベントの相関付けツールは教師ありと教師なしの両方の機械学習に対応していることが重要です。
上記以外に、現在利用している他のツールやベンダーと統合できるかどうかも確認しておきましょう。また、組織や業界のコンプライアンス要件への対応に役立つかどうか、顧客サポートが充実しているかどうかも重要なチェックポイントです。
導入後は、イベントの相関付けのベストプラクティスに合わせてプロセスを最適化しましょう。
最新のインフラは複雑化の一途をたどり、セキュリティ脅威はますます過激化、巧妙化しています。この2つの要因により、ITチームにとって、パフォーマンスの問題やセキュリティインシデントの検出と解決はかつてないほど難しくなっています。その点を踏まえると、イベントの相関付けは今後、ITサービスの信頼性を維持するための手段として重要性が高まっていくでしょう。さらに、ネットワークの自己修復機能をサポート、最適化するように進化していくと考えられます。
また、変化の激しいビジネス環境に対応するために、分析とAIの進化を取り込んでいくことも求められます。この点は特に、AIOpsを導入して、大量のアラートをリアルタイムで処理、分析し、サービスの中断やネットワークの障害を未然に防ぐことを目指す場合に不可欠です。
環境内でのパフォーマンスの問題やセキュリティ脅威を検出する鍵はイベントデータの中にあります。しかし、ITシステムから毎日テラバイト単位のデータが生成されるようになった今日、対応が必要なイベントと不要なイベントを識別するのは困難です。イベントの相関付けは、各アラートの重要性を判断し、対応のスピードと効果を向上させるために重要な役割を果たします。イベントの相関付けを活用すれば、IT環境の状況を正しく把握して、顧客と組織内のユーザーに信頼できるサービスを提供し続けることができます。
IT/オブザーバビリティに関する予測
驚きに勝るものはありません。すべてを受け止める準備を整えておきましょう。Splunkのエキスパートが予測する、来年の重要なトレンドをご確認ください。