AIOpsとは、人工知能(AI)や機械学習(ML)にIT業務で利用するビッグデータを学習させることで、IT業務の自動化、効率化を図るITの運用手法を指します。AIOpsを導入することで、大量のネットワークデータやマシンデータを自動的に分析し、パターンを検出することが可能です。また、既存の問題の原因を特定したり、将来の問題を予測できるので、様々な脅威に対する予防や運用監視の効率化に役立ちます。
この言葉は、2016年にガートナー社によって提唱されました。ガートナー社は、『ガートナー社によるAIOpsプラットフォームマーケットガイド』の中で、AIOpsプラットフォームを、「ビッグデータと人工知能 (AI) または機械学習(ML)機能を組み合わせて、可用性やパフォーマンスの監視、イベントの相関付けと分析、ITサービスの管理と自動化といったIT運用のさまざまなプロセスやタスクを改善または部分的に刷新するようなソフトウェアシステム」と説明しています。
運用管理で人工知能をどのように使用するか?
AIOpsの目的は、AIの特徴である処理の速さと正確さをIT運用に取り入れることです。ネットワークの拡大と複雑化が進む今日、IT運用管理は一段と難しいものになってきています。従来の運用管理ツールや手法ではもはや、多様化した複雑なネットワーク内のさまざまなソースから発生する未曾有の量のデータに対応できません。AIOpsは、以下の機能によってこの課題を解消します。
- 複数のソースからデータを取り込む:あらゆるものがつながる今日の複雑なIT環境で生成されるデータの量、速度、多様性は、従来のアプローチ、ツール、ソリューションで想定されていたものではありません。これらの目的は、データを統合、集約して、平均化することであり、データの再現性は考慮されません。一方、AIOpsプラットフォームでは、環境内のあらゆるタイプの大規模データセットを取り込むと同時に包括的な分析のためにデータの再現性を維持することが重視されています。
- データ分析を簡素化する:AIOpsプラットフォームの大きな特徴の1つは、速度も量も異なるあらゆる形式のデータを収集できることです。収集したデータは自動的に分析され、将来の問題の予測と予防、および既存の問題の原因究明に役立てられます。
機械学習とビッグデータを活用するAIプラットフォームは、ITがより大きなビジネス価値を提供する一助となります。
AIOpsプラットフォームとは?
ガートナー社によると、AIOpsプラットフォームとは、ビッグデータと機械学習を組み合わせて、生成されるデータをスケーラブルに取り込み、分析することにより、IT運用を支援するシステムを指します。AIOpsプラットフォームでは、複数のデータソース、データ収集方法、分析技法、表示方法を同時に使用できます。
ガートナー社は、『AIOpsプラットフォームのマーケットガイド』の中で、「AIOpsプラットフォームは、監視ツールにAIOps機能を組み込んだよりも多くの重要機能を提供する」と述べています。真のAIOpsプラットフォームは、「ビッグデータと機械学習機能を組み合わせて、IT環境で生成されるかつてない量、多様性、速度のデータをスケーラブルに取り込み、分析することにより、あらゆる主要なIT運用業務を支援できる」システムだと説明しています。
AIOpsプラットフォームには、保存されたデータの分析と、データの取り込み時点でのリアルタイム分析の両方の機能が求められます。
ガートナー社の定義によるAIOpsプラットフォームの主要機能は以下のとおりです。
- ソースやベンダーを問わず複数のソースからデータを取り込む
- 取り込み時点でリアルタイム分析を実行する
- 保存されたデータの履歴分析を実行する
- 機械学習を活用する
- インサイトと分析に基づいてアクションまたは次のステップを開始する
AIOpsの主なユースケース
ガートナー社によると、AIOpsの主なユースケースには以下の5つがあります。それぞれについて以下で詳しく説明します。
- ビッグデータ管理 (量、多様性、変化、速度)
- パフォーマンス分析
- 異常検出
- イベントの相関付けと分析
- ITサービス管理
- パフォーマンス分析:AIOpsの主なユースケースの1つがパフォーマンス分析です。AIと機械学習を活用して、大量のイベントデータをすばやく収集、分析し、問題の根本原因を特定します。IT部門の主要業務の1つであるパフォーマンス分析は、今日、データの増加と多様化によって複雑さを増しています。そのため、従来の手法では、たとえ機械学習テクノロジー内蔵のツールを使っても、データの分析が困難になりつつあります。AIOpsは、より高度なAI技法を取り入れて大規模データセットを分析することで、データの増加と複雑化の問題に対応します。将来起こりうる問題を予測し、根本原因分析をすばやく実行できるため、問題を未然に防ぐことも可能です。
- 異常検知:ITの異常検知(「外れ値検知」とも呼ばれます) では、データの中から、問題があることを示唆する異常値、つまり、データセット内で履歴データと比較して突出しているイベントやアクティビティを特定します。これらの異常値は、異常イベントとも呼ばれます。
異常検知は、アルゴリズムに基づいて行われます。トレンド分析アルゴリズムでは、単一のKPIについて、現在と過去を比較して動作が監視されます。スコアが異常なほど高くなると、アラートが生成されます。凝集分析アルゴリズムでは、動作が類似する一連のKPIが監視され、1つ以上がほかと異なる動作をすると、アラートが生成されます。
AIOpsでは、より迅速で効果的な異常検知が可能です。対象のKPIの動作が識別された後、その実際の値と機械学習モデルの予測値との差が異常に大きくなっていないかが自動的に監視されます。 - イベントの相関付けと分析:イベントの相関付けと分析では、関連する複数の警告によって生成される大量のイベントを解析して、その基となる原因を究明し、修復方法を特定します。従来のITツールでは警告が大量に発生するだけで、問題に関するインサイトは得られません。
AIOpsでは、AIアルゴリズムにより、類似性に基づいて重要なイベントが自動的に分類されます。これによって、イベントを常時管理する負担を減らし、不要で煩わしいイベントトラフィックやノイズを削減できます。AIOpsでは、イベントの受信時にAIによって関連イベントがまとめられ、主要なイベントグループを中心にルールベースのアクション (重複イベントの統合、アラートの抑制、重要イベントの解決など) が実行されます。 - ITサービス管理:ITサービス管理 (ITSM) は、社内ITサービスの設計、構築、提供、サポート、管理に関するすべての作業を包括する用語です。ITサービスを社内のエンドユーザーに提供するためのポリシー、プロセス、手順の設定もITSMに含まれます。
ほかのITユースケースと同じように、ITSMでもAIOpsを利用するメリットがあります。AIでデータを分析してすばやく問題を特定し、解決につなげることで、IT部門の作業効率と効果を向上させることができるのです。ITSMのユースケースでは、ITサービスデスクからデバイスまで、さまざまな監視データを分析対象にできます。
ITSMにAIOpsを取り入れると、以下のメリットがあります。- マルチクラウド環境でインフラストラクチャのパフォーマンスを管理する
- 容量計画で予測精度を上げる
- 容量を自動的に調整してストレージリソースを最大限に活用する
- 履歴データと予測に基づいてリソースの利用率を向上させる
- ITサービスに関する問題を特定、予測、予防する
- ネットワークに接続されたデバイスを管理する
- 自動化:従来のツールでは、インシデントを理解し、対応、解決するために複数のソースの情報を手動でまとめなければならないことがよくあります。AIOpsでは、データが複数のソースから自動的に収集されて相関付けられるため、迅速さと正確さを大幅に向上させることができるという大きなメリットがあります。社内の以下のIT運用作業で、このAIOpsによる自動化機能を活用できます。
- サーバー、OS、ネットワーク:複数のサーバーのすべてのログ、メトリクス、設定データ、メッセージ、トラップを収集して、検索、相関付け、アラート生成、レポート作成に使用できます。
- コンテナ:コンテナデータを収集、検索し、ほかのインフラストラクチャのデータと相関付けして、サービスのコンテキスト、監視、レポートの精度を向上させることができます。
- クラウド監視:クラウドインフラストラクチャのパフォーマンス、使用率、可用性を監視できます。
- 仮想環境の監視:仮想スタックを可視化したり、イベントの相関付けを高速化したり、仮想コンポーネントと物理コンポーネントでトランザクションを横断的に検索したりできます。
- ストレージ監視:ストレージシステムの状況を、関連するアプリケーションのパフォーマンス、サーバーの応答時間、仮想化のオーバーヘッドと関連付けて把握できます。
AIOpsのビジネス面での主なメリットとは
AIOpsでIT運用業務を自動化し、AIを活用してシステムのパフォーマンスを向上させることで、企業はビジネス面で大きなメリットを得ることができます。たとえば、以下のメリットがあります。
IT基盤とアプリケーションのパフォーマンス改善により、AIOpsは、ビジネスの成功を評価するKPIを高めます。
- システム停止を回避して、顧客満足度を向上させる
- サイロ化したデータソースを統合して、分析とインサイトの精度を向上させる
- 根本原因分析と修復を高速化して、時間、コスト、リソースを節約する
- サービス提供の応答時間を短縮し、応答の一貫性を高めて、品質を向上させる
- 冗長で対応に時間のかかるエラーを自動で検出および修復して、担当者の仕事満足度を高め、ITチームがより付加価値の高い作業 (分析や最適化など) に集中できるようにする
- IT部門のリーダーが業務部門のリーダーとコラボレーションする時間を増やして、IT部門の戦略的価値を証明する
IT運用に関する課題の多くはすべての業界に共通であり、AIOpsはその解消に役立ちます。もちろん、医療、小売、製造、金融サービスなど、業界によって特に直面しやすい課題や重要性の高い課題もあります。
医療IT (HIT) でのAIOpsの用途とは:
AIOpsでIT運用業務を自動化し、AIを活用してシステムのパフォーマンスを向上させることで、企業はビジネス面で大きなメリットを得ることができます。たとえば、以下のメリットがあります。
- HIPAA (医療保険の相互運用性と説明責任に関する法律) に従って、電子保存された個人医療情報 (ePHI) を保護する
- 医療従事者によるモバイルネットワークの利用や個人デバイスの持ち込み (BYOD) のリスクを低減する
- 医療機関を標的とするランサムウェア攻撃を防ぐ
- 内部と外部のビッグデータを研究や診断に利用できるようになる
小売業向けITでのAIOpsの用途とは:
- 実店舗のモバイルPOSやモバイル決済
- 実店舗、モバイルショップ、オンラインショップを含むすべての小売チャネルおよび小売プラットフォームのデータを同期する
- 顧客データと個人情報を保護しながら、それらを利用してカスタマーエクスペリエンスをパーソナライズする
- 事業の成長や変化に応じて新しいテクノロジーを簡単に追加できるようにインフラストラクチャの柔軟性を保つ
- 小売業界が一般に直面する経済的な圧力に対応して、運用効果を維持しながらコストを削減する
- 店舗で増加し続けるネットワーク接続デバイスを保守する
- 新しいスマートテクノロジー (スマートホームデバイスなど)、AR/VR (拡張現実/仮想現実) ツール、レジなし決済ツール (顧客がスマートフォンアプリでバーコードをスキャンして支払いを完了するためのツール) を導入する
製造業向けITでのAIOpsの用途とは:
- サプライチェーン、プラントオペレーション、製品/サービスライフサイクル管理の統合によって生まれた多種多様なデータソースのデータ収集と分析を自動化する
- リアルタイム監視によって工場内のすべての機械を追跡して、製造サイクルタイム、機械および生産工程ごとの歩留まり率、設備稼働率、サプライヤーの品質レベルなどのデータを統合する
- 履歴データとAIの予測分析を組み合わせて生産の低下を防ぐことで、収益源を確保し、顧客満足度を向上させる
- マシンデータを活用して予測的メンテナンスを実現し、機械が故障する前に保守する
- データを有効活用して、より効率的なサプライチェーン管理システムを構築する
金融サービス向けITでのAIOpsの用途とは:
- 巧妙化するセキュリティ侵害やサイバー犯罪を防ぐ
- 顧客データを活用してマーケティングを促進し、成長機会を創出する
- 顧客の履歴データを分析して、収益成長予測の精度を向上させる
- データセキュリティと規制コンプライアンスを確保する
- 複数の大規模データセットを統合するためのフレームワークを提供して、ブロックチェーンなどの最新テクノロジーに対応できるようになる
- モバイルバンキングやデジタルバンキングのカスタマーエクスペリエンスに対する消費者の期待に対応する
- ネットワークの速度とパフォーマンスを向上させる
自社に最適なAIOpsツールや製品を選ぶには?
AIOps製品の選定で注意したいのは、従来の各種IT運用ツールをまとめて基本的なAI機能を付け加えたものを「AIOpsプラットフォーム」と呼んでいるベンダーがあることです。真のAIOpsプラットフォームは、単なるツールの寄せ集めではありません。プラットフォームの選択が導入の成功を左右するため、この点はよく理解しておくことが重要です。ガートナー社は選定について、「データの取り込み、保存、アクセス機能をその他のAIOpsコンポーネントとは別に実装できるベンダーを優先する」ことを推奨しています。
また、機能一覧以外に、成功事例やAIOpsのユースケースを調べることも大切です。候補のAIOpsプラットフォームが自社のニーズに合っているかどうかを確認する最も簡単な方法は、自社と似たビジネス課題を抱える企業のAIOps成功事例を確かめることです。ベンダーのWebサイトで成功事例を探したり、そのベンダーを推薦する顧客に問い合わせたりしてみましょう。AIOpsツールやプラットフォームのメリットを強調していても、その実例を紹介していないベンダーは、避けた方が無難です。
AIOpsを使い始めるには?
AIOpsを使い始める最善の方法は、段階的に導入することです。ITドメインをデータソースごとに再編して、スモールスタートで着手するのがベストプラクティスです。各種のソースから取り込まれる大規模で持続的なデータセットの処理方法を学んでIT運用チームに、AIOpsでのビッグデータの扱いに慣れてもらいましょう。履歴データのデータセットから始めて、新しいデータソースを徐々に追加しながら、適用範囲を広げていくことをお勧めします。
まずはデータの取り込みに重点を置く:AIOpsを活用するには、マシンデータやメトリクスのような非構造化データから、情報補強のためのリレーショナルデータまで、あらゆるタイプのデータにアクセスする必要があります。異なるタイプのデータを取り込むことで、サイロを横断した包括的な視点を確立し、状況やデータタイプに応じた有意義な対応を取ることができるようになります。
取り込みと分析をすばやく効果的に行うには、いきなりすべてのデータを対象にしないことです。まずは、過去の未加工 (Raw) のマシンデータやメトリクスデータを取り込み、分析して、基本を理解し、クラスタリングアルゴリズムとクラスター分析を用いて、トレンドやパターンを特定してみましょう。リアルタイム検出を実現したいならば、Rawデータがデータタイプとして最適です。その後、ストリーミングデータを分析対象に加えて機械学習によるAIを取り入れれば、検出したパターンとどのように適合するかを調べ、自動化を実現して、最終的には予測分析につなげることができます。
予測分析について詳しくは、『IT のための AI:予測分析による障害防止』をご覧ください。
できるだけ多くのタイプのデータを取り込んで分析する:AIOpsの導入当初は、履歴データが非常に役立ちます。システムの過去の状態を分析し、理解すれば、現在の状態と相関付けて状況を把握できます。
それを実現するには、履歴データとストリーミングデータを広範囲に取り込み、これらのデータへのアクセスを可能にする必要があります。ログ、メトリクス、テキスト、ワイヤー、ソーシャルメディアなど、どのタイプのデータを取り込むかは、解決したい課題によります。たとえば、インフラストラクチャの容量を監視したい場合は、そのメトリクスデータを取り込み、カスタマーエクスペリエンスを向上させたい場合は、アプリケーションログを取り込みます。
メトリクス分析について詳しくは、メトリクス分析をやってみた :「IT運用者目線で分析」シリーズをご覧ください。
AIOpsプラットフォームの多くはもともと、単一のデータソースをターゲットにしていました。データタイプを1つに限定すると、IT管理者とアルゴリズムのどちらが分析するにしても、システムの動作について得られるインサイトも限定されます。そのため、AIOpsプラットフォームを選定するときは、複数のソースからデータを取り込んで分析できるかどうかを確認することをお勧めします。
すべてを一度にやろうとしない:まずは、優先度が最も高い課題について、その根本原因を見つけることに集中しましょう。その後、データの監視を開始します。それからがAIの出番です。さらにそこでも、段階を踏むことが重要です。
- 最初に、優れたインサイトを生む大量データを整備するために効果的な基盤と、パターンを検出する監視機能の両方を備えたAIOpsプラットフォームを導入します。
- 次に、検出したパターンに基づいてインシデントをどの程度予測できるか、ITチームがどのくらいプロアクティブに対応して、MTTR(平均修復時間)を短縮するだけでなく業務に影響を与えるインシデントの数を抑えることができるかを探ります。
- 最後に、機械学習を取り入れて根本原因分析を行い、予測環境を整備して、主要なビジネスサービスやカスタマーエクスペリエンスに影響を与えるインシデントとその影響を特定し未然に防ぐ体制を確立します。
効率的なインシデント調査について詳しくは、Splunkを使った超速インシデントレスポンスをご覧ください。
導入するなら今
ITやネットワークの担当者であれば、データは企業にとって最も重要な資産であり、ビッグデータは世界を一変させるほどの可能性を持つという言葉を何度も聞いているでしょう。AIは革新的なテクノロジーであり、すでに普及段階にあります。また、AIOpsは、AIやビッグデータに対する大きな期待を現実のものにするための具体的な方法を提供します。セキュリティの強化から、業務の効率化、生産性向上まで、AIOpsは、IT運用を成長、発展させ、将来の課題に対応できる体制を整えて、IT部門の役割を事業拡大の戦略的促進要因として定着させるための実践的な手段を目の前に提示しているのです。