DEVOPS

アプリケーションパフォーマンスを再定義:SignalFx Microservices APMのご紹介

  ※(SignalFx Microservices APMは、Splunk APMに製品名称が変わりました。)

SplunkはSignalFx Microservices APM最新版のリリースを発表しました。このリリースには、異常を見逃さないトレーシング、AIドリブンのインスタントトラブルシューティング、オープンフレームワークのインストルメンテーションをはじめとする革新的な新機能が盛り込まれています。

SignalFx<とOmnitionの買収を完了したSplunkは、飛躍的な進歩を遂げたSignalFx Microservices APM最新版をリリースしました。SignalFxとOmnitionの機能を融合することにより、オープンスタンダードに基づくデータ収集やAIドリブンのインスタントトラブルシューティング機能を備えた革新的かつ高度な分散トレーシングソリューションが誕生しました。これらの新機能は、最高レベルのオブザーバビリティ(可観測性)を提供するというSplunkの目標を大きく前進させます。企業のDevOpsチームやSREチームは、高度なオブザーバビリティを獲得することで、大規模かつ複雑なマイクロサービスベースのアプリケーションでもMTTDとMTTRを短縮し、アプリケーションのアップタイムを向上させて、円滑なカスタマーエクスペリエンスを提供できます。

アプリケーション環境の変化

過去数年間で、アプリケーションの役割は大きく拡大し、ビジネスの一部からビジネスの顔へと変化しています。今日の生活はもはやソフトウェアなしにはほとんど成り立たないほどです。同時に、ソフトウェア開発自体も進化し、クラウド、コンテナ、AIなどの新しいテクノロジー、さらにリリース間隔を数年から数分単位に短縮する新しい方法論が登場しています。そして、このソフトウェア環境の変化はアプリケーションパフォーマンス監視(APM)ソリューションの導入にも次のような影響を及ぼしています。

  1. すべてを観測する。今日、大規模かつエフェメラル(一時的)という環境の特性、かつてないスピードで進むイノベーション、ソフトウェアパフォーマンスの重要性の高まりといった要因が重なって、問題が次にどこで発生するかを予測するのが難しくなり、問題への対処の遅れがユーザーエクスペリエンス、ブランド力、収益に悪影響を及ぼすようになりました。この状況でアプリケーションのパフォーマンスと可用性を高く維持するには、「すべて」のデータを収集する必要があります。
  2. AIドリブンの分析。今日、ソフトウェアで生成されるすべてのデータを処理してその意味を理解するのは、人間の脳にはもはや不可能です。現在の社会では、ソフトウェアのパフォーマンス低下はカスタマーエクスペリエンスの低下に直結し、旧式の手動プロセスによる試行錯誤のトラブルシューティングは通用しません。問題を発生後数秒以内に検出してその根本原因を究明するには、AIドリブンのアプローチが欠かせません。
  3. オープンで柔軟性のあるインストルメンテーション。今日求められるイノベーションのスピードに対応するため、DevOpsチームは、より柔軟かつ軽量なツールとプログラミングフレームワーク、さらには創造性にあふれる広範なソフトウェアコミュニティを必要としています。この要求に応えるには、オープンソースフレームワークが不可欠です。

既存のアプローチの限界

従来のAPMツールは過去の遺産です。シンプルで静的な単一システムを想定した従来のソリューションは今日の環境に適応できず、マイクロサービス、サーバーレス機能、コンテナ化されたワークロードで構成される大規模アプリケーションの監視、調査、トラブルシューティングには不向きです。かつてAPM分野を代表した製品は、最新アプリケーションに対するオブザーバビリティのあらゆる面で力不足です。特に、効果的な監視、調査、トラブルシューティングに重要な3つの領域で十分な機能を持たない点が問題です。

  1. 部分的な情報。従来のAPMソリューションでは、平均値を前提として、ヘッドベースの確率的サンプリングが使用されています。この方法では収集されるデータがごく一部に限られるため、トラブルシューティング実行の契機となる重大な障害や遅延の多くを見落としてしまいます。さらに、従来のソリューションは構造的にサイロ化しているため、メトリクス、トレース、ログを効果的に関連付けることができません。今日の分散アプリケーションに必要なコンテキストが得られなければ、サービスのパフォーマンスがどのインフラに起因し、どのビジネスKPIに影響するかを判断できません。
  2. 手動のトラブルシューティング。従来のAPMソリューションは、クラウドネイティブアプリケーションの規模や複雑さを想定していません。その結果問題が検出されると、オペレーターが手動で抽出されたトレースを一つ一つ分析し、重要と思われるパターンを見付け出す必要があります。このような手動プロセスでは、数百のサービス、数千のコンテナ、数百万のデータポイントで構成される大規模環境に対応できず、MTTR(平均解決時間)が大幅に拡大するか、問題を解決できない可能性すらあります。
  3. 独自のテクノロジー。従来のAPMソリューションでは、ベンダー固有の重量なデータ収集エージェントを使用する必要があります。多くの場合、これらのエージェントはメンテナンスが面倒で、パフォーマンスの低下を招き、相互運用性もありません。また、最新のプログラミング言語やプログラミングフレームワークに対応していないため、アプリケーションの開発オプションが極度に制限され、柔軟性に欠けます。

次世代のAPMと分散トレーシング

SignalFxとOmnitionの機能を融合することで、Splunkはこれまでとはまったく異なる最新のアプローチをAPMに取り入れて、サンプリングを行わないAIドリブン分析とオープンスタンダードに基づくソリューションを構築しました。

前世代のSignalFx Microservices APMでは、当時先駆的だったNoSample™分散トレーシングの導入により、すべてのトランザクションを観測および分析し、トレースとスパンをメトリクス化して、あらゆる外れ値や異常値を捕捉できるようになりました。また、APMソリューションで初めてAIドリブン分析とインスタントトラブルシューティングを採用し、問題となっているサービスや障害の迅速な特定とトラブルシューティングを可能にしました。同時期に、Omnitionの分散トレーシングソリューションでは、完全忠実なデータ取り込みを実現することで、100%のトレースをクラウドで処理および保存し、極めて高い精度(無制限のカーディナリティ調査)であらゆるデータの詳細分析を実行できるようになりました。

SignalFxとOmnitionのどちらのソリューションもすでに、大規模な最新アプリケーションを処理するのに十分なパフォーマンスと拡張性を備えていました。さらに、分散トレースをメトリクスやログとシームレスに関連付けるための豊富なコンテキストを提供し、OpenCensusやOpenTracing (現在はOpenTelemetryに統合)などのオープンスタンダードベースの柔軟なデータ収集をフルサポートしています。

今回の最新リリースでは、この2つの最先端ソリューションの長所を1つのAPMソリューションにまとめて、以下に示す最新のクラウドネイティブアプリケーションの要件に合わせて最適化しました。こうして、市場で最高レベルの柔軟性、包括性、インテリジェンスを備えた、APMを再定義するソリューションが完成しました。

すべてのデータを活用する
完全忠実なNoSample™トレーシングでは、NoSampleの取り込み機能を拡張して、クラウドでの全トレースの分析と保存を可能にしました。この「すべての観測」アプローチを精度の高い情報と組み合わせ、基本となるインフラとの相関関係を明確にすることで、トランザクションのエラーや重大な遅延を見逃すことなく検出できます。

データの意味を数秒で解析する
AIドリブンの高度なインスタントトラブルシューティングによって、問題の間接原因や根本原因を迅速かつ正確に特定できます。また、サービスエンドポイントのアラートにダウンストリームの依存サービスや基本となるインフラコンポーネントがかかわっているかどうかをすばやく分析し、問題の影響範囲を特定することもできます。

コードを開放する
OpenTelemetryの創設メンバーであり主要な貢献者でもあるSplunkは、お客様がベンダーロックインを回避できるようオープンスタンダードのデータ収集機能を100%支持しています。オープンソースコミュニティに対するSplunkの最近の貢献についてはこちらをご覧ください。また、Splunkは、一般的なプログラミング言語やプログラミングフレームワークに対応した自動インストルメンテーションを幅広くサポートしているため、開発者は最小限の労力でこの機能を組み込むことができます。

SignalFx Microservices APMの最新リリースの主な機能とメリットを以下の表にまとめます。

 

機能

メリット

すべてのデータを活用する

完全忠実なNoSampleトレーシング

  • 100%のトレースを収集、処理、保存
  • 外れ値や異常値を見逃さない
  • トレースの全次元を維持
  • 正確なメトリクスを抽出

無限のカーディナリティ

  • 極めて高い精度ですべてのトレースとスパンを調査し、実行コンテナ、バージョン、ユーザー、その他のビジネスロジックごとに詳細分析
  • 問題の根本原因をすばやく究明
  • コードプッシュの影響を容易に把握

インフラのメトリクスとのフルスタックの相関付け

  • インフラ/統合とマイクロサービスをシームレスに相関付け
  • インフラの問題に起因するサービスレベルの問題をすばやく解決

Splunkログによるコンテキストに沿った根本原因分析

  • Splunkのログやイベントをコンテキストに沿って利用することで、より詳細なトラブルシューティングと根本原因分析を実行
  • メトリクス、トレース、ログをコンテキストに沿ったワークフローとして分析することで、パフォーマンスの問題をすばやく解決

データの意味を数秒で解析する

AIドリブンのインスタントトラブルシューティング

  • 依存関係に基づいてインシデントをトリアージするための依存関係分析
  • トレースナビゲーターとウォーターフォールの可視化
  • トレース例
  • リアルタイムのAIドリブン分析と処方的アプローチによるトラブルシューティングによってMTTRを短縮
  • 問題の影響範囲をすばやく把握し、ダウンストリームの依存サービスや基本となるインフラを相関付け

リアルタイムのアプリケーション監視とアラート

  • データを自動的に取り込むサービス/エンドポイント/パフォーマンスダッシュボード
  • 動的なサービスマップ
  • 複数の複雑な状態でも遅延が小さいサービスレベルアラート
  • 問題をすばやく可視化して、インタラクティブかつ視覚的に調査
  • スパンレベルまですばやく簡単にドリルダウン
  • サービスとインフラを相関付け
  • 豊富なコンテキストを提供する高精度なアラートをリアルタイムで受信し、代表的なトレースにアクセスしてMTTDを大幅に短縮
  • 精度の低いアラートやアラートの大量発生を回避

カスタム次元でのトレースとスパンのメトリクス化

  • 個々のトランザクションとすべての詳細分析のためのREDメトリクス
  • 詳細で堅実な履歴ベースラインに基づいて、より高精度のアラートをすばやく受信

コードを開放する

オープンスタンダードベースのデータ収集と自動インストルメンテーション

  • Java、Kotlin、Python、Ruby、Node.js、Go、PHP、.NET Core (ベータ)の自動インストルメンテーション
  • カスタムインストルメンテーション
  • オープンソースおよびオープンスタンダード(OpenTracing、OpenCensus、Zipkin、Jaeger)のサポートと、OpenTelemetryへの積極的な貢献
  • サービスメッシュ(Istio、Envoy)のサポート
  • 一般的な言語やフレームワークのサポートによって価値を早期に実現
  • データの収集方法を柔軟に選択
  • APMのベンダーロックインを回避

Splunk APMの詳細

SignalFx Microservices APMの最新リリースは、オープンスタンダード技術を介してすべてのトレースデータを収集し、AIを活用してその意味を数秒で理解することで、オブザーバビリティを新たなレベルに引き上げます。これによってDevOpsチームは、イノベーションを加速させ、変化の激しい市場にすばやく適応して、優れたユーザーエクスペリエンスを提供できます。

Splunk APMについて詳しくは、SplunkのWebサイトまたはSplunkまでお問い合わせください。

 

このブログはこちらの英語ブログの翻訳です。

----------------------------------------------------
Thanks!
Ori Broit

Splunk
Posted by

Splunk

TAGS
Show All Tags
Show Less Tags