コロナ禍により、多くの企業のシステム環境がクラウドネイティブのアーキテクチャを採用し、早いサイクルでサービスを開発し提供しています。複雑化し動的に変化するシステムでは、全体の状況把握が困難になり、障害への対応が遅れがちになります。今回は、こうした課題を解決するオブザーバビリティと、それを実現するSplunk Observability Cloudを紹介します。
Splunkでは、現在そしてこれからのITやビジネスにもたらすメリットの大きさから、オブザーバビリティに注力しています。オブザーバビリティ(Observability)とは、「Observe(観察する)」と「ability(能力)」を組み合わせた造語で、観察する能力、「可観測性」の意味で訳されます。
Splunkがオブザーバビリティに注力する背景には、世界的な市場の流れの変化があります。例えば、PwC社が2019年に発表した「第22回世界CEO意識調査」によると、世界の経済成長が「減速する」と考えるCEOが急増していました。そして、成長へのアプローチの施策には「業務の効率化」「本業の成長」「新しい製品やサービスの投入」といった「内向き」の志向が強くありました。
それがコロナで大きく変化しています。2020年にマッキンゼー社が発表した「COVID-19が企業にテクノロジーの転換点をもたらし、ビジネスを変えた理由(英語のみ)」という調査によると、リモートワークが急激に進展し、企業と顧客間の取引にデジタルチャネルを活用する割合は3年間で2倍へと大幅に増加しています。インターネット利用やeコマース利用も急増しました。
こうした状況を受けて、企業は生き残りをかけてワークロードのクラウド移行や既存のアプリケーションをクラウドネイティブのアーキテクチャで再構成して、今までにない速さで新たなサービスを開発、提供しています。テクノロジー視点では、コンテナ、Kubernetes、マイクロサービス、サーバーレスアーキテクチャといった技術が台頭しており、ガートナー社のレポートではコンテナ化されたアプリケーションが2022年までに約70%拡大するとしています。
変動する市場に迅速に対応していくために、開発チームと運用チームが密接に連携してインフラ環境やアプリケーション環境が動的に変化していくDevOpsも浸透してきています。一方で、そういった環境下では、全体の状況を細部まで把握することが非常に困難になるという課題があります。そこでオブザーバビリティは、動的に変化していく環境を運用していく要となるのです。
また、現在はワークロードのクラウドへの移行が加速している状況ですが、必ずしもこの状況が続くとも限りません。IHS Markitによる「双方向のクラウドへの最適経路」によると、何らかの課題に直面した場合には、アプリケーション環境をクラウドから自社データセンターに戻るという選択肢を考えているIT部門のマネジメント層が約74%存在します。これは、クラウドとオンプレミス間の双方向の移行を行う可能性があることを意味しています。
お客様へサービスを提供していく視点では、クラウドだけでなくオンプレミスに至るまで、サービスを実行するために必要な環境、全てのデータパスへのオブザーバビリティ、可観測性が求められるということが重要になるのです。
オブザーバビリティが必要な理由
現在のIT環境とビジネスは、クラウドネイティブの技術によるスピードが享受できる一方で、複雑さももたらします。従来の環境との大きな違いは3つあります。それは「自身で構築し運用すること」「複雑な相互依存関係」「柔軟で短命なインフラ」です。
「自身で構築し運用すること」では、これまでシステムなどの監視は運用チームだけが行っていました。あるいはアウトソースが主流でした。しかし、DevOpsが一般的になると、サービスリリースの頻度と速度を高めると同時に安定して稼働させることが重要になり、開発者と運用者がより密接に連携する必要が出てきます。
「複雑な相互依存関係」では、開発のスピードと効率性を追求する結果、アプリケーションが細分化され、言語やフレームワークが個別最適で採用されていきます。常に変化し続ける中で、アプリケーション間の依存関係や全体の挙動を可視化することは、従来の方法では追いつかなくなってきます。
「柔軟で短命なインフラ」では、コンテナなどの新しいテクノロジーの活用によって、リソースが必ずしも同じ場所に固定されていない状況になっています。動的に変化する環境で結果的に全体としてサービスが維持されている場合、分散している数だけ監視ポイントが増加します。また、分析にはリアルタイム性という新しい要件が求められます。
この3つの従来の環境との大きな違いは、課題でもあります。Splunkでは、オブザーバビリティがこれらの課題の解決に有効であると考えています。状況の把握というと、モニタリングが一般的です。しかし、モニタリングでは既知の問題にしか対応できません。例えばCPUやメモリの使用率、ディスクの使用状況などをモニタリングし、あるしきい値を超えると障害が発生する可能性が高くなるという、従来型の監視であるといえます。
オブザーバビリティはそこから一歩進んで、既知の未知あるいは未知の未知を監視するものです。想定外、予想外の障害の発生を検知するために、オブザーバビリティでは全ての状況を把握します。オブザーバビリティの意味の説明には、よく第二次世界大戦時の爆撃機への対策が例にあげられます。これは、爆撃機のどこを守れば損失を抑えられるかという話です。
ある研究者は、帰還した機体の被弾状態を調べ、損傷の多い場所を補強する提案をしました。それに対し、ある統計学者は「帰還した機体は致命的な損害を受けていないから帰還できたのだから、帰還した機体の被弾していない場所を補強するべき」と指摘したのです。つまり、見る部分だけを分析するのではなく、見えていない場所も判断材料にすべきということです。
これをシステムに置き換えると、必要な要件は3つあります。一つ目は、見えない場所をなくすという意味で「すべてのデータを安全に収集して監視すること」。2つ目は、常に監視するという意味で「リアルタイム性とスケーラビリティ」。監視が5分に1回では、障害が発生したときに5分間の停止が発生してしまいます。秒単位で監視して対応を自動化することが重要です。
そして3つ目は、膨大なデータを分析するためのテクノロジーです。これは機械学習などで分析モデルを構築することになります。この3つの要件を満たすことで、結果的に顧客体験の向上、リリースの品質と速度の向上、開発の生産性の向上、ビジネスへの適用性などを実現することができるのです。
また、オブザーバビリティには「3本柱」という考え方もあります。まず、秒単位で異常を検知する「メトリックス」、複雑な依存関係の中で問題が発生している場所を特定する「トレース」、そして問題が発生した原因を特定する「ログ」です。この3つのデータタイプのすべてを効果的に相関付けて分析していくことで、オブザーバビリティを実現できるのです。
オブザーバビリティの「3本柱」
Splunkでは、オブザーバビリティを実現するソリューション群「Splunk Observability Cloud」を発表しました(日本では2021年後半に提供予定)。なぜ早期にこれらのソリューションをご提供できるかというと、他社のソリューションは例えばセキュリティにおけるSIEMのように、特定の利用に特化したツールをベースに機能拡張をしてきました。
しかし、Splunkは汎用的なデータ処理プラットフォームからスタートして、さまざまな用途に広がってきたという背景があります。そしてモバイル対応やクラウド対応などを進めていき、オブザーバビリティを実現するためにデータを集める足回り、そしてデータを分析する頭、これらを機能拡張してきました。こうした経緯によって、他社に先んじてオブザーバビリティのソリューションをご提供できたのです。
「Splunk Observability Cloud」は、6つの製品が統合されたスイート製品となっています。このうち、「Splunk APM」「Splunk Infrastructure Monitoring」「Splunk On-Call」はすでに日本を含め世界でご提供しています。新たに追加された「Splunk RUM(Real User Monitoring)」は、Webアプリケーションのモニタリング、「Splunk Synthetic Monitoring」はユーザートランザクションのエミュレーター、「Splunk Log Observer」は、DevOpsに最適化されたログ監視を行うものです。
そして、これらの基盤となる「OpenTelemetry」は、データを収集するオープンソースの規格で、Splunkはコントリビュータとして深く関わっています。これにより、環境にベンダー固有のエージェントを導入することなくデータの収集が可能になります。
「Splunk Observability Cloud」は、データを100%収集し、リアルタイムストリーミングのアーキテクチャによって、重要なパターンに対して数秒でアラートを発することが可能です。また、例えば1日あたり数PBクラスのデータの取り込みや、1秒あたり数百万の検知ポイントまで拡張できるスケーラビリティも特徴となっています。エンタープライズ規模でも、オブザーバビリティにおけるメトリックス、トレース、ログの3本柱を実現できるソリューションとなっています。
----------------------------------------------------
Thanks!
三船 亜由美
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。