08月 31日, 2023

6 分程度

Splunkの新機能でコストを抑えながらクラウド監視を拡張

Teneil Lawrence

クラウドアプリケーションの開発が増える中でエンジニアリングチームが信頼性とパフォーマンスを確保するには、可視性を向上させる必要があります。しかし、この新しいビジネスニーズに対応するためにオブザーバビリティの範囲を拡大しようとすると、複雑さが増し、管理が行き届かなくなり、コストが急増するという新たな課題に直面します。組織とエンジニアリングチームが直面するこれらの課題を緩和する新機能としてSplunk Observabilityに追加されたのが、Splunk Infrastructure Monitoring (IM)のMetrics Pipeline ManagementとNetwork Explorer、そしてSplunk Observability Cloudのダッシュボードでのログ表示です。

Splunk Observability Cloudの新機能を活用すれば、オブザーバビリティの範囲を拡大しながら、統合ツールでクラウド環境やハイブリッド環境の可視性を向上させ、コストと使用状況の管理を一元化して、新しいビジネスニーズに対応できます。

カーディナリティとコストを抑制しながらオブザーバビリティを統合

収集するデータを増やしたからといって、必ずしも成果が上がるわけではありません。かえって逆効果になる場合もあります。環境内の障害箇所を特定するスピードは変わらないまま、扱うデータが増え、処理時間が長くなるだけかもしれません。さらに、データが増えた結果、クエリーに時間がかかるようになることもあります。もし成果が向上したとしても、データが増えることで管理の負担が重くなるかもしれません。Metrics Pipeline Managementを使えば、エージェントの設定やエッジでのデータ処理を変更することなく、メトリクスデータを取り込み時点で柔軟に処理できます。

必要なデータだけを取り込む

新機能のMetrics Pipeline Managementでは、UIを使って、メトリクスを取り込み前に集約または破棄するように設定できます。これによって必要なメトリクスだけを取り込み、重要度が低く必要のないデータは除外できます。除外するデータのカーディナリティが高い場合、取り込むメトリクスの量を大幅に削減することもできます。また、集約後またはフィルタリング後のメトリクスだけを保存すればよいため、ストレージ料金を節約してTCO (総所有コスト)を削減できます。データの集約とフィルタリングはパイプラインルールを使って管理できるため、ビジネスニーズの変化に応じてルールを調整できます。

Metrics Pipeline Management

オブザーバビリティのメリットを他のチームにも広げる

集約ルールを使って、選択した高カーディナリティのメトリクスデータをストレージ効率が良い新しいメトリクスに統合することで、処理パフォーマンスを向上させることができます。必要なデータだけを取り込んだら、Splunk Infrastructure Monitoringの使い慣れたワークフロー、ディテクター、グラフを引き続き利用できます。環境内のオブザーバビリティの範囲を拡大すれば、そのメリットを他のチームに広げられるだけでなく、使用状況やコストを管理できます。

詳しくはMetrics Pipeline Managementのドキュメント(英語)をご覧ください。

クラウドネットワークの動作を把握してKubernetes環境の問題をすばやく切り分け、クラウドのコストを抑制

クラウド環境やマイクロサービス環境では、アプリケーションやサービスの問題の原因がネットワークにあるのかどうかをSREや開発者が判断するのに時間がかかり、障害が長引いてMTTR (平均解決時間)メトリクスが低下することがよくあります。また、サービスの依存関係やゾーン間のトラフィックパターンを把握できず、クラウドの利用コストが高止まりすることも珍しくありません。これらの環境を管理するには、適切なオブザーバビリティツールを使用して、サービスのすべての依存関係と健全性メトリクスをすばやく追跡し、インフラの動作が分散サービスに及ぼす影響を把握する必要があります。その機能を提供するのがNetwork Explorerです。Network Explorerは、eBPF (extended Berkeley Packet Filter)テクノロジーを利用して詳細なネットワークテレメトリデータを収集し、アプリケーションのメタデータと相関付けます。その結果に基づいて、既知と未知のすべてのサービス依存関係をリアルタイムで表示します。

問題発生から解決までの時間を短縮

Network Explorerは、ストリーミング分析によってネットワークの障害を迅速に検出し、アプリケーションの問題と自動で切り分けます。そのため、サービスやアプリケーションの問題の原因が、その基盤となるネットワークにあるかどうかをすばやく判断して、MTTRを短縮できます。しかも、Network Explorerは、Splunk Observability Cloudの他の機能と同様にOpenTelemetryを基盤としているため、アプリケーションコードやコンテナイメージを変更する必要はありません。

高コストなサービストラフィックフローを排除する

Network Explorerのサービスマップにはトレースを生成しないサービスを含む詳細なサービストポロジーが表示されます。これによって環境全体の状況をすばやく把握できるほか、各サービスをダブルクリックして詳しい状況を確認できます。また、ネットワークエラー、接続のエラーとリセット、DNSデータとHTTPレスポンス、ネットワークトラフィックの量を可視化する新しいグラフも用意されています。さらに、ゾーン間トラフィック、リージョン間トラフィック、送信トラフィックのパターンを時系列で確認できます。この情報に基づいてコスト効率を評価し、トラフィックフローを最適化することでコストを抑制して、クラウドプロバイダーから予想以上に高額な請求が届くといった事態を回避できます。

Network Explorerのサービスマップ

詳しくはNetwork Explorerのドキュメント(英語)をご覧ください。

ログデータを再利用してトラブルシューティングを迅速化しSplunkの活用を最適化

クラウドの活用範囲は広がり続けています。ハイブリッド環境で問題が発生した場合、エンジニアリングチームが根本原因を特定するにはログデータが必要です。単一の統合ソリューションにリアルタイムのメトリクスとログデータを集約すれば、トラブルシューティングと問題解決をスピードアップし、パフォーマンスを最適化して、インシデントを未然に防止できます。しかし、そのために、IT運用やセキュリティのユースケースに利用しているログデータをコピーして使用することで、コストが2倍になるケースがよくあります。

ログ管理にSplunkプラットフォームをすでに利用している場合は、Splunk Observability CloudのLog Observer Connectを使ってSplunk CloudまたはSplunk Enterpriseのログデータをシームレスに統合できます。また、新しいログタイムライン機能とログ表示を使えば、これらのログをSplunk Observability Cloudのダッシュボードやトラブルシューティングワークフローに取り込み、問題をすばやく検出して解決できます。もちろんデータをコピーする必要はありません。

ログとメトリクスを1つの画面で調査する

ログタイムラインでは、Observability Cloudに取り込んだログを時系列で表示して、根本原因をコンテキストに沿ってすばやく特定したり、トレンドを分析したりできます。ログタイムラインとログ表示のいずれもログデータとリアルタイムのメトリクスを共通のUIで同時にフィルタリングできるため、トラブルシューティングを1カ所で行えます。

ログタイムライン

詳しくはログタイムラインとログ表示のドキュメント(英語)をご覧ください。

Splunk Observability Cloudでお客様を強力にサポート

Splunk Observability Cloudは、複雑なハイブリッド/マルチクラウド環境をエンドツーエンドでリアルタイムに可視化することでエンジニアリングチームを支援し、イノベーションの加速、トラブルシューティングの効率化、カスタマーエクスペリエンスの向上に貢献します。Splunk Observability Cloudをお使いのお客様はこれらの新機能をすぐにご利用いただけます。Metrics Pipeline Managementは、Splunk Infrastructure Monitoring Enterprise Editionを使用するすべてのお客様と、Service Bureauアドオンを使用するStandard Editionのお客様にご利用いただけます。Splunk Infrastructure Monitoringを使用するすべてのお客様はNetwork Explorerもご利用いただけます。未使用のカスタムメトリクス利用資格をお持ちの場合は、それを使ってネットワークデータを収集することもできます。

Splunk Observabilityをまだご利用でない場合は、14日無料のトライアルをぜひお試しください。

このブログはこちらの英語ブログの翻訳、山村悟史によるレビューです。

タグ

Splunk Observability Cloud

Teneil Lawrence

Teneil recently joined the Splunk Observability product marketing team as the senior product marketing manager for Splunk’s Digital Experience Monitoring solutions, namely Splunk Synthetic Monitoring and Splunk Real User Monitoring (RUM). Before joining Splunk, Teneil held product, digital, and strategic marketing roles on in-house and agency teams across various industries.

Splunkについて

Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。

Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。

Splunkの詳細はこちら