統合型のオブザーバビリティおよびログ管理をお求めですか?Splunkは、New Relicよりも迅速な対応を可能にし、柔軟性が高く将来を見据えた、コンテナ対応の最新ソリューションの比較が検討できます。
Splunkの最もすばらしい点は、トランザクションをリアルタイムで収集および分析できるカスタマイズ可能な分析ダッシュボードにすべてを集約できることです。これによってお客様にタイムリーに対応すると同時に、エラーや遅延を一目で確認できます
Datadog
予測不可能なコスト
Datadogでは、一元管理できる範囲がきわめて狭く、カーディナリティ管理が不十分であり1、強気の料金体系が提示されるため2、コストの制御と予測が非常に難しく、高額な超過料金が生じる可能性があります。
Splunkの強み
Splunkでは、トークンと割り当て容量に基づいて、複数のチーム間のアクセスと使用量を監視して管理することで、コストの透明性を確保し、IT環境全体をプロアクティブに制御できます。データ管理が統合されており、ユーザーは必要なデータのみを保存できます。また、詳細な使用状況レポートを基にコストを正確に見通し、超過料金を回避することが可能です。
Datadog
盲点が生じる
トレースデータが不完全3で、サードパーティの市販(COTS)アプリケーションに対する可視性がきわめて低いうえ、ポーリングアーキテクチャにより遅延が生じやすく4、5、サーチではタグに依存しすぎる6ことから、緊急時に必要なインサイトを容易に得ることができません。
Splunkの強み
Splunkでは、インシデントの発生前、発生中、発生後に問題を検出して解決するのに必要なすべての情報を収集します。すべてのトレースの収集、内製およびサードパーティ製アプリケーションに関するフォーマットを問わないデータ収集、高速なストリーミングメトリクスアーキテクチャ、包括的なインデックス化、柔軟なSplunkサーチ処理言語により、正確な根本原因を迅速かつ容易に特定できます。
Datadog
OpenTelemetryの実装が不完全
DatadogによるOpenTelemetryの実装は、ほとんどのお客様にとってビジネス目標の達成に足りるものではありません。複数のコレクターが必要である、ドキュメントが更新されていない、データの命名規則が標準に準拠していない、トレースとログの相関付けにデフォルトで対応していない7、スパンイベントやライブプロファイリングのサポートが不十分であるという理由から、必要以上の労力を要し、可視性のギャップが生じて、トラブルシューティングを包括的に行えません。
Splunkの強み
OpenTelemetry CollectorはSplunkがネイティブで提供し、商用でサポートするソリューションです。データポータビリティの向上、ベンダーの切り替えに伴うコストの低減、保存されたテレメトリへのユニバーサルアクセスが実現し、他のエージェントを同時に実行したり、人が操作したりすることなくデータを収集、処理、変換、可視化できるため、OpenTelemetryのビジネス上のメリットが最大限に得られます。
Splunk | Datadog | |
---|---|---|
ログ分析 | Splunkでは、ソースを問わず、人間が読める形式のあらゆるファイルの取り込み、インデックス化、保存を自動で処理できます。メトリクスとすべてのトレースを自動でログと相関付けることで、問題のすばやい特定と解決を実現します。企業のデータセットに幅広く対応する実績のある大規模なインデックス化およびサーチ機能により、既知の要素だけでなく未知の要素も特定できるため、エンジニアリングおよびIT運用チームは必要な情報を必要なタイミングで入手可能です。 | DatadogのデータストアにはSplunkほどの柔軟性がなく、メトリクスの時系列データとアプリケーションログを保存することに最大の重点が置かれています。Splunkと異なり、ユーザーはサーチに関してコストとパフォーマンスの二者択一を迫られるため、想定外の問題が生じたときにMTTRが長期化します。その結果、システム停止が長引いたり、事後にサーチクエリーを改善するためログを再インデックスするとなると、超過コストが発生したりします。 |
検出とアラート生成 | Splunk Observability Cloudのコレクターは、1秒単位の詳細なデータを2~3秒おきにストリーミングするため、ほぼリアルタイムでの可視化、問題検出、アラート通知を行えます。このスピードがMTTRとカスタマーエクスペリエンスの改善につながり、エンジニアとビジネスリーダーの負担を軽減します。 | Datadogのエージェントは、APMのテレメトリデータを60秒に1回ポーリングします。テレメトリの保存、処理、可視化に余計な時間がかかるため、MTTRの長期化や検出とアラート通知の遅れにつながり、エンジニアとビジネスリーダーにとって満足のいく環境を構築できません。 |
データの保持と統合 | SplunkのNoSampleTMによるトレーシングではすべてのトレースを保存し、スパンが重複することもありません。Metrics Pipeline Managementを通じてデータを容易に変換、編集、破棄できるため、最適なコストパフォーマンスが実現します。また、AWS S3での統合サーチがサポートされており、コストを低減しながらサーチ機能を実行できます。そのため、コストを抑えつつ、問題をすばやく容易に特定するのに必要なすべてのデータを入手できます。 | Datadogにすべてのトレースデータが保存されるのは最初の15分間だけで、その後はトレースがサンプリングされます8。これでは、トレースを十分に収集できず、アラート通知が遅れ、トラブルシューティングに時間がかかる可能性があります。また、Datadogのパイプラインには、Splunkのように堅牢なルーティング機能がありません。データ変換の柔軟性が低く、元のソースを修正しない限りデータの編集が困難です。データをリハイドレートすることになれば、コストが増加し、問題のサーチと特定が困難になります。 |
トラブルシューティング環境 | Splunkを使用すると、複数のサービスおよびチームにわたり、パフォーマンスに関連する問題がビジネスにどのような影響をもたらすかを把握できます。メトリクス、ログ、トレースを相関付けることで環境全体をわかりやすく可視化し、AIによる動的なしきい値に基づいてアラートを受け取れます。豊富な提案ライブラリとすべてインデックス化されたログを活用して、任意のデータ要素に基づくサーチクエリーを簡単に構成することもできます。また、Splunk IT Service Intelligenceを使えば、ビジネスの健全性、およびIT資産やサービスの健全性との関係性を把握できます。Splunkなら、問題をより迅速に特定して解決することが可能です。 | 複雑なシナリオにおいて、Datadogのトラブルシューティング機能は堅牢性に欠けます。包括的なトレースの収集に関して制約があり、状況把握に時間がかかるため、アラートに動的なしきい値を設定して想定外の問題を調査することが難しく、根本原因を突き止めるためにアラートを手動で調整せざるを得ません。また、ログサーチでは、自動的に付与されるタグとユーザー定義のタグを組み合わせて活用するため、タグが付いていないと、属性に基づくクエリー処理が長引く可能性があります。ビジネス状況の把握に関しては、サードパーティのデータや高度にカスタマイズされたビューがSplunkのようにはサポートされていません。 |
OpenTelemetryのサポート | Splunk Observability Cloudは、OpenTelemetryをネイティブで全面的に実装しており、このプロジェクトに大きく貢献しています。Splunkユーザーは、例外やOpenTelemetry固有の制約について心配することなく、OpenTelemetryデータの収集、処理、変換、可視化、アラート生成を確実に実施することが可能です。コミュニティに直接寄与するとともに、OpenTelemetryのメリットを最大限に得られます。 | DatadogのOpenTelemetryに関するドキュメントは正確性に欠け、サンプルコードを修正しなければ意味を理解できないため、無駄に時間がかかります。また、OpenTelemetryのトレーシングについてはスパンイベントがサポートされておらず、独自のロギングモジュールやライブラリを手動で調整してもトレースとログを相関付けることができません。ロギングデータとトレースデータは分けて保存されるため相関付けに対応していないうえ、ダッシュボードでスパンデータをメトリクスとして出力することもできません。 |
1https://www.reddit.com/r/sysadmin/comments/12qa7n4/how_on_earth_do_people_deal_with_datadogs_billing/
2https://www.reddit.com/r/devops/comments/i63xxv/datadog_shady_billing_13000_for_1_month_what/
3https://docs.datadoghq.com/tracing/metrics/
4https://docs.datadoghq.com/monitors/configuration/?tab=thresholdalert#evaluation-frequency
5https://docs.datadoghq.com/developers/guide/data-collection-resolution-retention/
6https://docs.datadoghq.com/getting_started/tagging/assigning_tags/?tab=noncontainerizedenvironments#host-tags
7https://signoz.io/blog/is-opentelemetry-a-first-class-citizen-in-your-dashboard-a-datadog-and-newrelic-comparison/
8https://docs.datadoghq.com/tracing/trace_explorer/?tab=listview