DEVOPS

Snowflake DB:クラウド上のSnowflakeをグラフで監視

これまでに、「マネージドサービスであれば、何も心配は要らない」といった言葉を耳にしたことがあるかもしれません。  しかし、本番環境のワークロードとなれば、データベースの監視は不可欠です。Splunk Observability Content Contributionリポジトリに用意された、新しいSnowflakeのダッシュボードディテクターを使えば、Snowflakeに関する詳細情報の監視を始めることができます。

Snowflakeは、プライベートデータだけでなく一般に公開されている多種多様なデータソースに簡単にアクセスできる、人気のマネージドデータベースです。フルマネージド型のソリューションであるため、Snowflakeの運用状況にほとんど注意を払わないユーザーもいるでしょう。しかし、ソフトウェア、IT、サービス提供に携わる人々にとって、データソースとそのパフォーマンスを監視およびトラブルシューティングできる機能は必要不可欠です。

 

現状の把握

サービスオーナー、開発者、IT運用の分析担当者は以下のような疑問を解消しなければならない状況が頻繁に発生します。

  • 「クエリーはブロックされたのか、それともキューに入っているのか」
  • 「Snowflakeウェアハウスのサイズを増やした方がよいか」
  • 「これまでにログインの失敗が大量に発生しているか」
  • 「なぜサービスからデータが返されないのか。クエリーが変更されてエラーが発生するようになったのか」

Splunkのオブザーバビリティソリューションがあれば、このような疑問に対する適切な答えをすばやく探り当てて、アラートを発生させたり、その他の重要な使用状況のトレンドやパフォーマンスメトリクスをグラフ化したりできます。

Snowflakeに関して、どこで何が発生しているかをより詳しく把握できるように、Splunkでは以下を提供しています。

簡単にインポートできるこれらのダッシュボードディテクターを組み合わせることで、Snowflakeの使用状況の概要やトラブルシューティングのための詳細なメトリクスとトレンドを把握し、Snowflakeの重大な障害モードを簡単に検知することができます。

 

集約情報と詳細情報

状況を俯瞰的に把握するには数値が必要です。Snowflakeのホームダッシュボードでは、ウェアハウス数、データベース数、ユーザー数など、Snowflakeの重要な使用状況メトリクスをまとめて把握できるほか、日々のコストやストレージ総使用量の簡単なサマリーも確認できます。これらを一目見るだけで、Snowflake全体の情報をすばやく確認できます。

Snowflakeホームダッシュボードに集約された情報

図1-1. Snowflakeホームダッシュボードに集約された情報

 

さらに詳細な情報が必要な場合は、ウェアハウス、データベース、スキーマに特化したダッシュボードを利用できます。これらを利用することで、Snowflakeの特定の関心領域についての詳細を取得できます。また、関心のある分野ごとにデータをさらに細かく分割するオプションを利用して、最も重視する項目を絞り込むことができます。ダッシュボード内のグラフは時間経過に伴うトレンドの変化にフォーカスしており、クエリー、エラー、スピル、キューイング、データ取り込みにおける変化を追跡できます。さらにSnowflakeクエリーにフォーカスしたダッシュボードでは、エラーの発生しているクエリーの表と関連する詳細情報を確認することもできます。

詳細情報を表示するSnowflake Schemaダッシュボード

図1-2. 詳細情報を表示するSnowflake Schemaダッシュボード

その他にも、コストやセキュリティ/ログイン関連の問題を表示するダッシュボードでは、早急に対応する必要がある異常を示すトレンドを一目で確認できます。

Snowflakeのログインデータ

図1-3. Snowflakeのログインデータ

 

重要な情報を簡単に検出

よく知られているように、ゴールデンシグナルはさまざまなソフトウェアサービスの追跡に役立ちます。Observability Content Contributionリポジトリで提供されているSnowflakeのディテクターも同様に、レイテンシー、エラー、トラフィック、サチュレーション(L.E.T.S.)を監視します。また、その他に請求関連のディテクターもいくつか用意されています。これらは優先的に監視すべき有用なディテクターであり、それぞれの環境に合わせてしきい値を簡単に調整できます。

レイテンシー

  • Small/X-Smallウェアハウスにおけるロングクエリー(通常はウェアハウスのサイズ拡張の必要性を示すサイン)
  • 15分以上経過したクエリーの数 

エラー

  • DBエラーの合計
  • DBエラー率
  • ユーザー別ログイン失敗率

トラフィック

  • ウェアハウス別のブロックされたクエリー
  • 過去X時間にクエリーの発生なし

サチュレーション

  • 負荷の高いクエリー
  • キューに追加されてからX秒以上経過したクエリー

請求

  • ウェアハウスアノマリ検出によって使用されたクレジット
  • クラウドサービスコストが高いウェアハウス

たとえば、これらのディテクターを使用することで、インシデントにどのような問題が発生している可能性があるかが詳しくわかり、それがSnowflake関連の問題かどうかも見極めることができます。

 

クラウド上のSnowflakeをグラフで監視

Snowflakeの使用状況をかつてないほど簡単に把握できるようになりました。大量の情報に押し流されないように、今すぐ詳細情報の監視を始めましょう。

既にSplunkのオブザーバビリティソリューションのユーザーであれば、ご紹介したSnowflakeのダッシュボードディテクターを入手することで、Snowflakeの使用状況を詳しく把握できます。

まだSplunkのオブザーバビリティソリューションのユーザーでない方は、Splunk Observability Cloud製品スイートの無料トライアルをぜひお試しください。


このブログ記事はSplunkのオブザーバビリティフィールドソリューションエンジニアであるJeremy Hicksが執筆しました。ご協力いただいたSam Halpern、Henanksha Sainana、Bill Grantに感謝申し上げます。

このブログはこちらの英語ブログの翻訳、加藤 教克によるレビューです。

Jeremy Hicks
Posted by

Jeremy Hicks

Jeremy Hicks is an observability evangelist and SRE veteran from multiple Fortune 500 E-commerce companies. His enthusiasm for monitoring, resiliency engineering, cloud, and DevOps practices provide a unique perspective on the observability landscape.

TAGS
Show All Tags
Show Less Tags