01月 30日, 2023

4 分程度

Snowflake DB：クラウド上のSnowflakeをグラフで監視

Jeremy Hicks

これまでに、「マネージドサービスであれば、何も心配は要らない」といった言葉を耳にしたことがあるかもしれません。 しかし、本番環境のワークロードとなれば、データベースの監視は不可欠です。Splunk Observability Content Contributionリポジトリに用意された、新しいSnowflakeのダッシュボードとディテクターを使えば、Snowflakeに関する詳細情報の監視を始めることができます。

Snowflakeは、プライベートデータだけでなく一般に公開されている多種多様なデータソースに簡単にアクセスできる、人気のマネージドデータベースです。フルマネージド型のソリューションであるため、Snowflakeの運用状況にほとんど注意を払わないユーザーもいるでしょう。しかし、ソフトウェア、IT、サービス提供に携わる人々にとって、データソースとそのパフォーマンスを監視およびトラブルシューティングできる機能は必要不可欠です。

現状の把握

サービスオーナー、開発者、IT運用の分析担当者は以下のような疑問を解消しなければならない状況が頻繁に発生します。

「クエリーはブロックされたのか、それともキューに入っているのか」
「Snowflakeウェアハウスのサイズを増やした方がよいか」
「これまでにログインの失敗が大量に発生しているか」
「なぜサービスからデータが返されないのか。クエリーが変更されてエラーが発生するようになったのか」

Splunkのオブザーバビリティソリューションがあれば、このような疑問に対する適切な答えをすばやく探り当てて、アラートを発生させたり、その他の重要な使用状況のトレンドやパフォーマンスメトリクスをグラフ化したりできます。

Snowflakeに関して、どこで何が発生しているかをより詳しく把握できるように、Splunkでは以下を提供しています。

ダッシュボードグループ1つ
ダッシュボード7つ
ディテクター11種類：関連する一般的なゴールデンシグナルと請求関連情報
オープンソースのOpenTelemetry Collectorを使ってSnowflakeからSplunk Observabilityにデータを送信するための詳細なインストラクションとサンプル

簡単にインポートできるこれらのダッシュボードとディテクターを組み合わせることで、Snowflakeの使用状況の概要やトラブルシューティングのための詳細なメトリクスとトレンドを把握し、Snowflakeの重大な障害モードを簡単に検知することができます。

集約情報と詳細情報

状況を俯瞰的に把握するには数値が必要です。Snowflakeのホームダッシュボードでは、ウェアハウス数、データベース数、ユーザー数など、Snowflakeの重要な使用状況メトリクスをまとめて把握できるほか、日々のコストやストレージ総使用量の簡単なサマリーも確認できます。これらを一目見るだけで、Snowflake全体の情報をすばやく確認できます。

Snowflakeホームダッシュボードに集約された情報

^{図1-1. Snowflakeホームダッシュボードに集約された情報}

さらに詳細な情報が必要な場合は、ウェアハウス、データベース、スキーマに特化したダッシュボードを利用できます。これらを利用することで、Snowflakeの特定の関心領域についての詳細を取得できます。また、関心のある分野ごとにデータをさらに細かく分割するオプションを利用して、最も重視する項目を絞り込むことができます。ダッシュボード内のグラフは時間経過に伴うトレンドの変化にフォーカスしており、クエリー、エラー、スピル、キューイング、データ取り込みにおける変化を追跡できます。さらにSnowflakeクエリーにフォーカスしたダッシュボードでは、エラーの発生しているクエリーの表と関連する詳細情報を確認することもできます。

詳細情報を表示するSnowflake Schemaダッシュボード

^{図1-2. 詳細情報を表示するSnowflake Schemaダッシュボード}

その他にも、コストやセキュリティ/ログイン関連の問題を表示するダッシュボードでは、早急に対応する必要がある異常を示すトレンドを一目で確認できます。

Snowflakeのログインデータ

^{図1-3. Snowflakeのログインデータ}

重要な情報を簡単に検出

よく知られているように、ゴールデンシグナルはさまざまなソフトウェアサービスの追跡に役立ちます。Observability Content Contributionリポジトリで提供されているSnowflakeのディテクターも同様に、レイテンシー、エラー、トラフィック、サチュレーション(L.E.T.S.)を監視します。また、その他に請求関連のディテクターもいくつか用意されています。これらは優先的に監視すべき有用なディテクターであり、それぞれの環境に合わせてしきい値を簡単に調整できます。

レイテンシー

Small/X-Smallウェアハウスにおけるロングクエリー(通常はウェアハウスのサイズ拡張の必要性を示すサイン)
15分以上経過したクエリーの数

エラー

DBエラーの合計
DBエラー率
ユーザー別ログイン失敗率

トラフィック

ウェアハウス別のブロックされたクエリー
過去X時間にクエリーの発生なし

サチュレーション

負荷の高いクエリー
キューに追加されてからX秒以上経過したクエリー

請求

ウェアハウスアノマリ検出によって使用されたクレジット
クラウドサービスコストが高いウェアハウス

たとえば、これらのディテクターを使用することで、インシデントにどのような問題が発生している可能性があるかが詳しくわかり、それがSnowflake関連の問題かどうかも見極めることができます。

クラウド上のSnowflakeをグラフで監視

Snowflakeの使用状況をかつてないほど簡単に把握できるようになりました。大量の情報に押し流されないように、今すぐ詳細情報の監視を始めましょう。

既にSplunkのオブザーバビリティソリューションのユーザーであれば、ご紹介したSnowflakeのダッシュボードとディテクターを入手することで、Snowflakeの使用状況を詳しく把握できます。

まだSplunkのオブザーバビリティソリューションのユーザーでない方は、Splunk Observability Cloud製品スイートの無料トライアルをぜひお試しください。

このブログ記事はSplunkのオブザーバビリティフィールドソリューションエンジニアであるJeremy Hicksが執筆しました。ご協力いただいたSam Halpern、Henanksha Sainana、Bill Grantに感謝申し上げます。

このブログはこちらの英語ブログの翻訳、加藤教克によるレビューです。

タグ

Observability Splunk Observability Cloud

Jeremy Hicks

Jeremy Hicks is an observability evangelist and SRE veteran from multiple Fortune 500 E-commerce companies. His enthusiasm for monitoring, resiliency engineering, cloud, and DevOps practices provide a unique perspective on the observability landscape.

オブザーバビリティ 5 分程度

ネイティブモバイルアプリに対応したSplunk Mobile RUMの一般提供を発表

Splunk RUMは、カスタマーエクスペリエンスの監視対象を従来のWebブラウザからネイティブモバイルアプリまで拡大します。これにより、モバイルアプリ開発者やSREは、iOSアプリやAndroidアプリのパフォーマンスを改善し、顧客に影響する問題を特定できます。

オブザーバビリティ 6 分程度

オブザーバビリティのコストコントロール - 予期せぬ課金・請求に困らないように

クラウドネイティブなシステム環境においてオブザーバビリティは欠かせませんが、一方で、そのコストに関する議論も多くの方々にとっての関心事です。特にクラウドネイティブな環境では予期せぬ課金が発生してしまう懸念を多くの方々が持っています。Splunk Observability Cloudを使う場合に、こういった事態をどのように防ぐことができるかをご紹介します。

オブザーバビリティ 4 分程度

Splunk APMのAlwaysOn Profilingの一般提供を開始

Splunk APMに、Javaアプリケーション向けのAlwaysOn Profilingが追加されました。この機能を使用すれば、アプリケーション開発者やサービスオーナーは、パフォーマンスをコードレベルで可視化して、本番環境の問題のトラブルシューティングを迅速化できます。

Splunkについて

世界をリードする多くの企業が、デジタルレジリエンスを継続的に強化するために、シスコの一員であるSplunkを利用しています。業界屈指のAIを活用したセキュリティとオブザーバビリティの統合プラットフォームです。

Splunkの実績あるセキュリティ製品とオブザーバビリティ製品は、あらゆる規模の複雑なデジタル環境のセキュリティと信頼性を向上させるソリューションとして、お客様から高い評価を得ています。

Splunkの詳細はこちら