予期せぬインシデントでシステムがダウンすることがある。アプリやWebサイトに問題が発生している。読み込みに時間がかかりすぎているために、興味や関心を持つ層に製品やサービスを届けられていない。
このいずれかに当てはまるなら、監視とオブザーバビリティ(可観測性)、そしてテレメトリに関心がおありなのではないでしょうか。
この記事では、そのすべてについて触れます。まず監視、オブザーバビリティ、テレメトリの概念と仕組みについて説明してから、ビジネスを支えるすべてのシステムの信頼性を確保できるよう、実際に利用できるツールと事例の紹介に進みたいと思います。長くなりますが、ぜひ最後までお付き合いください。
短くまとめると次のようになります。
では、より専門的な詳しい話に移っていきましょう。
概念としては単純ながら、実践するとなると難しい側面もあるIT監視には、デジタル機器やサービスが適切に機能するようサポートし、確認するためのあらゆるアクティビティが含まれます。監視はIT担当者にとって問題を検出する助けとなり、さらにはその解決にも役立つことがあります。システムの観点からは、監視は「このシステム(またはアプリ、ネットワークなど)は正しく機能しているか」といった質問に答えるのに有用です。
IT監視が包括的な言葉であるのに対し、監視アクティビティはより具体的な言葉であり、その指す内容は、監視する必要がある具体的なユースケース(領域)によって異なります。総じて、IT監視はデジタルサービスとITサービスにおいて領域を問わず、次のようなさまざまな役割を果たします。
監視の定義については、監視対象の領域に常に左右されますが、問題を示す可能性のある異常な動作を検出するために、事前定義されたデータタイプ(ネットワーク帯域幅、CPU使用率など)を収集および分析すること、と要約できるでしょう。
ITの領域は、実質的にすべて監視できます。Webサイトが稼働しているかどうかを確認する。インフラにすべてのワークロードに対応できるキャパシティがあることを確認する。APIの応答性を確保する。セキュリティリスクを特定する。こうした特定の領域の監視に加えて、ほかにも多くの領域を監視できます。以下にいくつか例を挙げます。
さらには、こうした監視方法やメトリクスを使用して、アマゾン ウェブ サービスの環境やKubernetes環境を監視することもできます。
監視用ツールは、主に3つの種類に分けられます。
(Splunkはさまざまな監視ツールを提供しています。どのようなツールがあるのか今すぐご覧いただくことも、オブザーバビリティのセクションを読み進めて理解を深めることもできます)
監視は何十年も前から行われてきており、今日でも依然として重要です。しかし、システムが(そして働く人も)分散したことから、従来の監視には明らかに限界が生じています。
今日、多くの企業が何らかの形で使用しているコンテナ、マイクロサービス、Kubernetesといったクラウドネイティブテクノロジーは、柔軟性と俊敏性をもたらし、市場投入までの時間を短縮します。しかし、クラウドネイティブテクノロジーは、当然ながら、従来の監視アプローチには複雑すぎます。これにはいくつかの理由があり、Spiros Xanthosは次のように説明しています。
では続いて、こうした従来の課題に対処することに主眼を置いたオブザーバビリティに目を向けてみましょう。
「監視」が実行するアクションを指すのに対し、オブザーバビリティはシステム全体の機能や特性を捉えることを表します。システムを観測すればするほど、複雑な仕組みを深く理解できるようになり、さまざまな統合サービスに対して、中身を見ることのできない「ブラックボックス」と当然のように思う必要がなくなります。
しかし、これは何を意味するのでしょうか。Splunkでオブザーバビリティの責任者を務めるGreg Lefflerの次の言葉に、オブザーバビリティについて従来の枠にとらわれずに考えるヒントがあるかもしれません。
“オブザーバビリティとは、ビジネスに関するあらゆる疑問の答えを明らかにしようとするマインドセットを指します”
監視は、システムの全体的なオブザーバビリティに貢献します。監視における関心事は「個々の要素(ネットワーク、Webサイト、アプリケーション、またはその他のサービス)が期待どおりに稼働しているか」であるのに対し、オブザーバビリティでは「すべてがどの程度うまく機能しているか」という観点でシステム全体に注目します。
従来は、監視によってサーバーのCPU使用率の急上昇が警告されることがあっても、どのポッドやコンテナを確認すべきかまではわからず、ましてその急上昇を心配する必要があるかどうかなど、到底知り得ませんでした。しかし、オブザーバビリティを導入すれば、「このシステムは複雑すぎて理解できない」などと嘆く必要はなくなり、はるかに多くのことを理解することができます。
この違いをまさに示す実例をひとつご紹介しましょう。PUMA社はSplunkを活用して、単にサイトが稼働しているかどうかを把握するだけではなく、さまざまな取り組みを行っています。結局のところ、アップタイムは出発点にすぎず、アップタイムを維持するだけではWebサイトやビジネスは成功しません。
“Splunkを導入する前、PUMA社の基本的な監視機能では、eコマースサイトが稼働しているかダウンしているかがわかるだけでした。DevOpsチームとビジネスチームは、在庫システムの応答停止やクレジットカードの拒否など、注文失敗の原因となった重要な問題を検出できず、相当数の販売機会を逃していました”
オブザーバビリティは外部出力に依存します。そのため、確かに監視方法や選択したメトリクスにある程度左右されますが、一方で、オブザーバビリティは監視では発見できない「未知の未知」も検出することができます。こうした機能はどのような経緯で登場してきたのでしょうか。
監視と同様に、オブザーバビリティという概念は以前からあり、1960年代の学術研究にまでさかのぼることができますが、オブザーバビリティがITという広い世界で使われるようになったのはごく最近のことです。この10年ほどの間にオブザーバビリティが「突然」関心を集めるようになった要因として、主に次の2点を挙げることができるでしょう。
オブザーバビリティは、現代の企業が採用する分散システムにおいてよく直面する予測不可能な状況をシステム管理者が把握できるよう支援するもの、といってよいでしょう。
システムを観測可能にするには、大量のデータと、そのデータを集約して処理するためのツールの2つが必要です。
オブザーバビリティには、メトリクス、ログ、トレースという3種類のテレメトリデータが欠かせません。この3種類のテレメトリデータにより、複雑なシステムを深く把握でき、多数ある問題の根本原因を調査できるようになります(監視だけでは、問題を特定することすらできません)。システムのオブザーバビリティを確保できれば、次のことが可能になります。
オブザーバビリティや監視に関連して「テレメトリ」という言葉をよく耳にされることでしょう。テレメトリは個別の概念ではなく、柱となる概念であり、テレメトリデータとは、システムのオブザーバビリティを実現するものです。オブザーバビリティにおいてテレメトリデータとは、ログ、メトリクス、トレースのことを指し、オブザーバビリティの3つの柱と呼ばれることもあります。
システムはテレメトリデータによって観測可能になる、と押さえておくことは重要ですが、ログ、メトリクス、トレースの3つがあるだけではオブザーバビリティは実現できません。そこで、次は3つの柱とあわせて使えるさまざまな機能について見ていきましょう。
監視からオブザーバビリティに移行するにあたって、すべてを壊してゼロから始める必要はありません。運用中のものを社内開発またはオープンソースのソフトウェアで補完して観測可能な状態にする、と決断することもできるでしょう。もちろん、エンドツーエンドのオブザーバビリティソリューションを検討することもできます(これについては後で詳しく説明します)。では、観測可能なシステムの実現には何が必要なのでしょうか。
真のオブザーバビリティを実現するには、通常、4つのコンポーネントが必要です。
オブザーバビリティのすべてのメリットを要約した一文を選ぶとするならば、それは「真のオブザーバビリティがあれば、複雑なクラウドが扱いやすくなる」でしょう。企業は今日、いくつものクラウドにまたがるハイブリッドアーキテクチャに加えて、マイクロサービスベースのアプリを数多く運用しています。複雑なシステムがほとんど可視化されていなければ、それはIT担当者全員を燃え尽き症候群に追い込むようなものです。
Splunkは、国別のオブザーバビリティの状況を毎年調査しています。2022年の調査によると、オブザーバビリティをリードしている企業は次のようなメリットを実感しています。
こうした領域での改善は、真のデジタルトランスフォーメーションの達成、レジリエンスの構築、優秀な人材を引き付けて定着させることができる、といった波及効果も生みます。
オブザーバビリティは、1つの領域しか改善できないものでもなければ、特定の関係者しかメリットを得られないといったものでもありません。真のオブザーバビリティを備えたIT組織へと成熟すれば、次をはじめとする、あらゆる領域でメリットを実感できます。
オブザーバビリティ製品は、開発者、ITチーム、その他の関係者が複雑なシステムやアプリ、インフラの監視と管理を行えるように設計されています。
次に挙げる企業は今日特によく知られているオブザーバビリティソリューションを提供していますが、それぞれに独自の機能や固有の制限があります。たとえば、クラウドネイティブ環境のみに焦点を当てたソリューションもあれば、分散トレーシングやログ分析のみを提供するソリューションもあります。また、すべての企業がリアルタイムストリーミングに対応しているわけではありません。現在市場で提供されている一般的なオブザーバビリティツールには、次のようなものがあります。
各組織の具体的なニーズや要件によりますが、ここに挙げたオブザーバビリティ製品の1つ以上が、可視性の向上とソフトウェアシステムの管理に役立つでしょう。
Splunk Observabilityなら、問題を数秒で解決できます。現在、Splunkのオブザーバビリティソリューション以外に、フルスタックかつOpenTelemetryネイティブで、分析を活用するソリューションは他にありません。
Splunk Observabilityには、インストルメンテーション、データの相関付け、根本原因分析、自動化、機械学習など、オブザーバビリティに必要なものがすべて揃っています。また、他の多くのソリューションにはない機能もいくつか備えています。
リアルタイムストリーミング:今日では、遅延が数分か、数秒かという違いが大きな意味を持つことがあります。Splunk Observabilityは、リアルタイムのストリーミングアーキテクチャを基盤としているため、データの形式や構造に関係なく、重要なパターンをわずか数秒で検出し、アラートを生成することができます。
卓越した拡張性:大企業やグローバル企業にとって、スケーラビリティは必須です。Splunk Observabilityは、お客様のニーズをその規模や複雑さに関係なく満たします。たとえ毎日ペタバイト規模のログを取り込み、毎秒数百万のメトリクスとトレースを扱わなければならないような企業であっても、パフォーマンスや応答性が低下することはありません。
Splunkのオブザーバビリティソリューションを導入すると、以下のことが可能になります。
Splunk Observability Cloudを無料で試す
OpenTelemetryフレームワークについては、すでに簡単に触れました。OpenTelemetryは、すべてのアプリケーションからデータを収集できる単一のプラットフォームを提供するベンダーがいない、という問題を解決するために開発されました。このフレームワークは、テレメトリデータを収集してSplunkなどのデータプラットフォームに転送する方法を標準化します。
この大きな問題を解決するほかにも、OpenTelemetryはいくつかのメリットを連鎖的にもたらします。
オブザーバビリティが監視をはるかに超えるものであることを示すよい例として、オブザーバビリティを最大限に活用することに成功したRappi社をご紹介します。世界規模でパンデミックが発生する中、ラテンアメリカの250以上の都市で、Rappi社のオンデマンド注文は300%の急増を示しました。現在同社は週に750万人のアクティブユーザーにサービスを提供しています。
顧客向けのモバイルアプリ、インフラ、バックエンドサービスの可用性と信頼性を確実に維持するためにRappi社はSplunk Observability Suiteを選び、次のような成果を上げました。
この事例からおわかりいただけるように、オブザーバビリティへの移行は、ビジネス全体に成長とレジリエンスをもたらす取り組みだといえます。
Splunkの監視とオブザーバビリティソリューションについてご自身で理解を深めたい場合は、次のリソースをご活用ください。
このブログはこちらの英語ブログの翻訳です。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。