エンジニアリングチームとIT運用チームには、ソフトウェアやデジタルシステムのパフォーマンスと信頼性を維持するという重要なミッションがあります。しかし、社会の大きな変化、業界の再編、AIの飛躍的な進展が見込まれる新しい年を迎えた今、環境が複雑化し、テクノロジーの選択肢が増え、新しいツールが次々に登場することで、そのミッションの達成が難しくなっています。こうして、ツールが氾濫し、無駄が増え、負担が増大すれば、問題の検出と解決にかかる時間はどんどん長くなります。
Splunkのオブザーバビリティプラットフォームを利用すれば、幅広い機能を統合して、データ、プロセス、コストを把握し直すことができます。このプラットフォームには、AIを活用した機能からOpenTelemetryまで、トラブルシューティングのワークフローを迅速化し、問題を早期に解決して、運用の課題を軽減するための、エンジニアリングチームおよびIT運用チーム向けのツールがまとめられています。
SplunkソリューションにはさまざまなAIや機械学習機能が組み込まれているため、IT運用チームは、ITサービスに影響する異常を検知し、すばやく修正するだけでなく、予測することもできます。たとえば、Splunk IT Service Intelligenceに組み込まれたAIOps機能を利用すれば、インシデントに発展する前の段階で異常を特定し、パターンを検出して、ガイドに従ってトラブルシューティングできます。また、機械学習ベースの動的しきい値、イベント分析、アノマリや外れ値検出の各機能でも、AIを活用して過剰なアラートを削減し、障害を未然に防いで、トラブルシューティングの精度を向上させることができます。
エンジニアリングチームや開発チームも、Splunk Observability CloudのAutoDetectのアラートやディテクターで機械学習機能を利用して、ワークロードを監視、デバッグできます。AutoDetectでは、Splunk Observability Cloudへのデータ送信を開始してから数分程度でアラートやディテクターを設定して、問題の検出とアラートの生成を自動化できます。AutoDetectのような機能があれば、トラブルシューティングの精度を高めるとともに、負担を軽減できます。
多くのエンジニアリングチーム、ビジネス運用チーム、IT運用チームが、連携してない複数のツールを扱うのに手間取り、時間を取られています。必要なのは、クラウドネイティブのトラブルシューティング、アラートの生成、ビジネス分析、エンドユーザー監視など幅広いユースケースに対応する、柔軟性の高い単一のソリューションです。また、ハイブリッド、オンプレミス、クラウドといった基盤の違いを超えてIT環境を包括的に可視化できるプラットフォームも重要です。
そのニーズに応えるのが、インフラ監視、アプリケーションパフォーマンス監視、デジタルエクスペリエンス監視を1つのソリューションに統合したSplunk Observability Cloudです。オブザーバビリティに対するこのアプローチにより、1カ所から環境全体を監視して、ダウンタイムを短縮できます。ツールを統合すれば、運用保守の手間が省けるだけでなく、チーム間の連携強化、コスト管理の最適化、効率の向上にもつながります。
ある日、自社が運営するアプリケーションサービスで需要が急増したとしましょう。原因はよくわかりません。DDoS攻撃を受けたのかもしれませんし、テイラー・スウィフトがコンサートでこのサービスを勧めたのかもしれません。そこでまず調べるのがログです。ログは、問題の性質や発生元に関係なく原因を究明するために非常に役立ちます。しかし、柔軟で拡張性の高いログ管理ソリューションがなければ、問題の原因特定も、迅速なトラブルシューティングも、効果的で一貫したシステム保護も難しいでしょう。
Splunkプラットフォームなら、強力な管理機能により、ログを最大限に活用して、セキュリティ、IT運用、エンジニアリングのいずれの課題にも対応できます。たとえば、SREや開発者であれば、Log Observer Connectを利用して、調査時にさまざまなコンテキストを確認できます。この機能では、Splunk CloudまたはSplunk Enterpriseからログが取り込まれ、Splunk Observability Cloudで収集されたリアルタイムのメトリクスやトレースとシームレスに関連付けられます。ペタバイト規模のログにも対応するSplunk Observability Cloudを使えば、簡単にログをサーチしてレポートを作成し、本番環境を監視して、トラブルシューティングを実行できます。
ご存じの方もいらっしゃると思いますが、Splunk Observability CloudはOpenTelemetryをベースにしています。OpenTelemetryは、1回のインストルメンテーション(計装)でログ、メトリクス、トレースなどのデータをすべて収集するためのツールとAPIをまとめたものです。OpenTelemetryを使えば、データの取り込みに必要な時間を大幅に短縮するだけでなく、オブザーバビリティに関連するすべてのテレメトリを標準化して、独自エージェントの使用によるベンダーロックインを回避することもできます。
ツールを切り替えるときにも、コードの再インストルメンテーションや新しいエージェントの設定は不要です。Splunk、Grafana、Prometheus、AWSバケットなど、任意のシステムにデータを送信したり、簡単に形式を変換したりできます。OpenTelemetryに対応していれば、データの保管先も形式も自由に選べます。
SplunkはOpenTelemetryプロジェクトに初期から参加し、長年にわたって大きく貢献しています。OpenTelemetry関連の機能も継続的に提供しています。その1つが、最近リリースしたSplunk Add-on for OpenTelemetry Collectorです。このアドオンでは、Splunk Deployment Managerを使ってOpenTelemetry Collectorをデプロイし、既存のインフラから忠実度の高いメトリクスとトレースを簡単に収集できます。今後もさまざまな新機能をリリースする予定です!
この先どのような混乱が待ち受けていても、Splunkは、SRE、ソフトウェア開発者、IT運用担当者の皆様を支援します。
オブザーバビリティの将来の展望にご興味がある方は、『2024年の予測 - オブザーバビリティ編』をぜひご覧ください。このレポートでは、Splunkがオブザーバビリティの分野における今後のトレンドを予測しています。
このブログはこちらの英語ブログの翻訳、大久保 かがりによるレビューです。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。