Splunk Observability Cloudはオブザーバビリティを実現するための様々な機能が提供されています。当然日々進化をし続けていますが、どの機能がどう役に立ち、どうやって始められるか?を、2024年6月時点でのスナップショットとして、全体像を俯瞰したいと思います。
オブザーバビリティとは、インフラ、アプリ、カスタマーエクスペリエンスのフルスタックにおいて完全な可視性とコンテキストを提供する、モニタリングへの最新のアプローチです。システムの状態をリアルタイムで把握し、問題や障害が発生した場合には探索的に新たに問いかけを続け、根本原因を調査し、トラブルシューティングの迅速化を図ることができます。
Splunk Observability Cloudは、インフラ、アプリ、カスタマーエクスペリエンスについてエンド・ツー・エンドで可視性を得ることができる、フルスタックオブザーバビリティプラットフォームです。
一言で説明するとそうなりますが、各製品について簡単に見ていきたいと思います。
概要 | サービスの利用について、ブラウザーやモバイルアプリからデータを収集し、ユーザーエクスペリエンスを計測します。 同時にユーザー属性(地理情報やOS情報)などを収集するため、問題切り分けも可能になります。 |
対象 | フロントエンド |
何を可視化するか | ユーザーエクスペリエンス ユースケースシナリオはこちら |
関連データ | ・メトリクス ・トレース ・セッションリプレイ(ブラウザ) |
データの取得方法 | ・ブラウザー:HTMLへのJavaScript snippet追加 ・モバイルアプリ:アプリ(iOS / Android)へのコード追加 |
ユーザーエクスペリエンス分析と問題の切り分け
個別セッションの分析。APMと連携することによりフロントエンドとバックエンドの切り分け、シームレスな遷移も可。セッションリプレイによりユーザー挙動の再生もできる
概要 | 事前に定義したテストをSplunkの監視拠点から定期的に実行し、サービスが動作しているかを能動的に監視します。 ユーザー動線をシミュレートするブラウザテスト、APIのレスポンスのテスト、HTTP/TCP/UDPポーリングによるUptimeテストが可能です。 |
対象 | フロントエンド |
何を可視化するか | ユーザー観点でのサービスの可用性 ユースケースシナリオはこちら |
関連データ | ・メトリクス ・スクリーンショット、動画 ・ウォーターフォールチャート |
データの取得方法 | テスト定義(ブラウザテスト、APIテスト、Uptimeテスト) |
テスト結果の過去推移により稼働率も確認できる
各テストの結果。スクリーンショット、動画で状況を確認できる。こちらもAPMと連携しており、問題発生時にアプリ側の問題調査にシームレスに移ることができる
概要 | 内で何が起きているか、サービスの関連性を自動生成し、ボトルネックやエラー発生個所を特定、問題切り分けを支援します。時間を要しているDBクエリやメソッド単位のCPU使用時間なども取得しボトルネックのディープダイブも可能です。 |
対象 | アプリケーション |
何を可視化するか | ・アプリケーションのレイテンシー、エラー、トレース ・DBクエリのレイテンシー ・プロファイリング(メソッドレベルのCPU、Memory使用状況) ユースケースシナリオはこちら |
関連データ | ・メトリクス ・トレース ・プロファイル ・スタックトレース |
データの取得方法 | 各言語に応じたAPM Agentの適用 |
サービスマップによりアプリ間のつながりが自動生成され、問題発生個所を即座に特定できる
トランザクションの分析。処理が発生した各アプリをDBクエリも含めレイテンシーとエラー発生状況を可視化
概要 | マルチ・ハイブリッドクラウド、コンテナ、ホスト、ミドルウェアなどインフラストラクチャレイヤーの健全性をメトリクスを用いて可視化、アラートを発報します。OOTBのダッシュボード、アラート定義も多く用意されているためデータ取込後に即座に可視化が可能です。 その他任意のカスタムメトリクスを取り込むことでインフラに限らず可視化を行えます。 イベント(アラートやDeploy情報など)も重ね合わせ、イベントとの相関分析も可能です。 |
対象 | ・インフラストラクチャー(ホスト、ミドルウェア、コンテナ、OSSなど) ・クラウドサービス |
何を可視化するか | ・インフラストラクチャ―の健全性 ・カスタムメトリクスによるビジネスやその他の状況可視化 ユースケースシナリオはこちら |
関連データ | ・メトリクス ・イベント |
データの取得方法 | ・OpenTelemetry Collector(インテグレーションリストはこちら) ・クラウドのサービス(AWS Cloud Watchなど) ・REST API |
EC2ダッシュボードの例。リソースが悪化しているEC2インスタンスも確認できる
カスタムダッシュボードにより見るべき情報を一つにまとめられる。任意のノートも追加できるので初めて見る人に対してダッシュボードの使い方も提示できる
概要 | Splunk Cloud / Splunk Enterpriseで取得したログをObservability Cloudで表示します。 APMやIMとも組み合わせ、ホストやアプリで発生したログを自動で紐づけ、トラブルシューティングを加速します。 |
対象 | アプリ、インフラ、クラウド、その他あらゆるログ |
何を可視化するか | ・ログの観点での調査 ユースケースシナリオはこちら |
使用するデータ | ・アプリログ ・ミドルウェアログ ・OSログ(Windowsイベントなど) その他あらゆるログ |
データの取得方法 | ・OpenTelemetry Collector (File log receiver) ・Universal Forwarder + Add-on |
Splunk Cloud / Enterprise上に蓄えられたログをSplunk Observability Cloud上で確認。ログはAPMトレースとも紐づけられ、トラブルシューティングを加速する
本記事ではSplunk Observability Cloudの主要機能に対する概要とデータ取込方法についてまとめました。これらの機能がつながっており、フロントエンドからバックエンド、ログまでがコンテキストを共有してつながり、オブザーバビリティを実現します。
機能は日々アップグレードされていきますので最新情報はマニュアルをご覧ください。
オブザーバビリティにご関心のある方は無料トライアルを始めてみませんか?
是非ご連絡ください!
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。