SLA(サービスレベル契約)への遵守が強く求められる中、オンコール対応のSREなら誰しも、インシデントはいつも最悪のタイミングでやってくると感じているのではないでしょうか。デート中やビデオゲームで新しいレベルに到達しようとしているまさにその瞬間、あるいは宅配ピザが届いたときや就寝中の午前3時など、問題はいつも思いもよらぬタイミングで発生します。そんなとき、手元のデバイスから必要なデータを簡単に取得できたらいいのに...と考えたことがあるはずです。
インシデントの発生時には、お客様に影響が及ぶ前に迅速に対応することが必至です。今日のオンコール対応のDevOpsエンジニアやSREは、常にワークステーションの前に陣取って作業しているわけではないので、SLAを確実に遵守するには、あらゆるデバイスからワークロードのテレメトリにアクセスできることが重要になります。普通、オンコール担当者は、インシデントについての最初の通知をモバイルデバイスで受け取りますが、大半のエンジニアは、それが電子メールであれ、電話であれ、Slackの通知であれ、モバイルデバイスでのインシデントアラートでは、それに関係するリソースへのアクセスが非常に限られていることを痛感させられています。その一方で、2分で簡単にアラートに対応できるか、あるいは家族と過ごす時間をまるまる犠牲にしなければならないかは、まさにその「重要なワークロードのテレメトリにアクセスできるかどうか」という点にかかっているのです。
Splunkでは、エンジニアはモバイルデバイスでアラートを確認するだけでなく、それ以上のことができるようであるべきだと考えています。ですので、Splunk Observability Cloud for Mobileの一般提供を発表できることは非常に喜ばしいことです。Observability Cloud for MobileはiOSとAndroid向けの無料のネイティブモバイルアプリで、このアプリがあれば、いつでもどこからでもSplunk Observability Cloudのダッシュボードやアラートにアクセスできます。
Observability Cloud for Mobileがあれば、オンコール担当者は、緊急事態発生時にはインシデントについて迅速に判断し、平常時にはインフラやサービス、ビジネスの健全性を1日中定期的かつ簡単にチェックして、システムの状態を継続的に監視できます。さらに、トラブル対応時には、このアプリでインシデントの重大度をすばやく評価し、次のような3つの重要な質問の答えを得ることができます。
改めての説明ではありますが、Splunk Observability Cloudは、ログ、メトリクス、トレースなどのデータ形式にかかわらず、アプリケーション、サービス、インフラ全体にわたる監視やアラート、調査、分析を一貫したユーザーエクスペリエンスで提供します。
そして、Splunk Observability Cloud for Mobileは、これと同じユーザーエクスペリエンスをモバイルデバイスで実現します。ユーザーは新しいコンセプトを学んだり、使い慣れないダッシュボードや大きく異なるインターフェイスのせいでトラブルシューティングに手間取ったりすることなしに、馴染みのあるUIでリアルタイムにアラートやメトリクスにアクセスできます。
Splunk Observability Cloud for Mobileでは、次のことができます。
「アラートでは、真夜中の冴えない頭でもどこから着手すべきかすぐに分かるような情報を提供してほしいな」
- Splunk社SRE
あなたがオンコール担当者だとしましょう。モバイルデバイスにアラート通知が届きます。まず行うべきは、インシデントを分類して対応の優先順位を決めることです。Observability Cloud for Mobileの組み込みのアラートビューでは、アラートをすべて表示して、重大度(クリティカル、メジャー、マイナー、警告、情報)に基づいて簡単にフィルタリングできます。アラートは重大度ごとに色分けされているので、真夜中でも難なくアクションの優先順位を判断できます。下の例で見てみましょう。
この例では、直ちに対応すべき重要なアラートが複数あります。アラートをタップすると、アラートの詳細が表示され、即座にインシデントのコンテキストとインサイトが得られます。そして、解決の目途が立ったら「対応済み」としてマークします。すぐに対処する必要があるアラートについては、アラートのデータをドリルダウンして、インシデント発生時に何が起こったのかを詳細に可視化し、どこから取り組むべきかを見極めます。
ラップトップを開かなくても、どんな問題が起きているのか、どこから調査を開始すればいいのか、すぐに対処すべき重大な問題なのかが分かるため、問題の解決に向けて有利なスタートが切れます。
多くの場合、重要なアラートに対応するには共同作業が必要です。Splunk Observability Cloud for Mobileを使えば、Slackでもどこでも、サービスを担当する開発者にメトリクスやアラートの詳細を共有して、一緒にトリアージを行うことができます。
適切に設計されたダッシュボードでは、システムやサービスに関する有益かつ実用的なインサイトを一目で把握できます。Splunk Observability Cloudで閲覧権限のあるダッシュボードであればどのダッシュボードでも、Splunk Observability Cloud for Mobile上でアクセスし、操作、共有、保存できます。また、ダッシュボードにはObservability Cloudのリアルタイムのストリーミングメトリクスが表示されるため、修復の開始やダッシュボードの状態の監視に必要な情報を逐次得ることができます。ダッシュボードにフィルターを追加してアラートに最も関連する情報をドリルダウンできるほか、新しいコードのプッシュなどの変更を行う際にはサービスやインフラの健全性やパフォーマンスを監視するのにも役立ちます。つまり、Observability Cloud for Mobileさえあれば、デスクトップの設置場所に縛られることなく、1日中簡単にダッシュボードを監視できるのです。
ここまででインシデントの重大度を確認し、アラートの詳細をチームメンバーと共有し、ダッシュボードで情報を詳しく掘り下げました。ここでようやくコンピューター上のObservability Cloudの出番です。アクセスして、インシデントの解決に取りかかりましょう。コンテキストはすべて引き継がれているので、すぐにアクションを実行できます。モバイルデバイスで中断したところから始められるため、解決までの平均解決時間が短縮し、SLAの要件が満たされ、カスタマーエクスペリエンスが向上します。
Observability Cloudをすでにご利用いただいているお客様で、Observability Cloud for Mobileでオンコールエクスペリエンスを改善させる方法に関心をお持ちの方は、Apple App StoreまたはGoogle Playストアから今すぐ無料でダウンロードしてください。モバイルからのアクセスは、すべてのSplunk Observabilityライセンスに含まれています。
Splunk Observability Cloudには、Splunk Infrastructure Monitoring、Splunk APM、Splunk RUM、Splunk Log Observerが含まれており、Splunk Synthetic Monitoring、Splunk On-Call、Splunk Cloud Platformと連携して、ビジネスクリティカルなインシデントの監視やトラブルシューティング、解決に向け、比類のない機能を提供します。まだ、利用されていないようであれば、今すぐ無料トライアルで始めましょう。
Splunk Cloudをご利用中のお客様で、オブザーバビリティがどのようにカスタマーエクスペリエンスを向上させ、既存のSplunk投資の価値を高めるかについて詳しく知りたい方は、こちらのドキュメントをご覧ください。
このブログはこちらの英語ブログの翻訳です。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。