ストレージ監視とは、物理ストレージまたは仮想ストレージデバイスのパフォーマンス、可用性、全体的な健全性を監視することを表し、「ストレージパフォーマンス監視」とも呼ばれます。データストレージは、スプレッドシートの操作からメールのチェック、インターネットを使用したXboxでのビデオゲームのプレイまで、あらゆるタイプのコンピューター処理を支え、Dell社、EMC社、Microsoft社をはじめとする多数のベンダーが提供しています。実際、主なコンピューター処理の中で、ストレージへのアクセスを一切必要としないものは存在しないといっても過言ではありません。
ストレージは、ITインフラに欠かせないテクノロジーコンポーネントである一方で、問題の原因にもなりがちです。たとえば、ネットワークストレージは、コンピューターやサーバーの処理の中で最も低速で、使用されているハードウェア技術によっては重大なボトルネックになることもあります。特に、多数のユーザーが同じデータに同時にアクセスしようとするときにその傾向が顕著で、こうした過負荷はDDoS(分散型サービス妨害)攻撃でよく悪用されます。ストレージデバイス、特に昔から使われているハードディスクドライブは、部品の消耗が故障につながり、障害が発生しやすいという性質があります。また、ディスクがいっぱいになれば拡張やアップグレードが必要になり、データが増え続ける限り拡張やアップグレードを続けていかなければなりません。つまり、コンピューティング環境に常に高いパフォーマンスと可用性が求められる中で、ストレージ監視ソフトウェアやツールの導入は、それを実現するためのベストプラクティスの1つと言えます。
また、今日の企業ではストレージの仮想化が進み、クラウドプラットフォームによってデータの物理的な場所がユーザーから離れた場所に抽象化されていることにも注意が必要です。仮想ストレージは、データのアーカイブやバックアップ、Webサービスやアプリケーションサービス、そして最近ではWebベースのメールサービスやオフィススイート(Googleドキュメントなど)によく使用されます。
この記事では、さまざまなタイプの企業向けストレージ、ストレージ監視の仕組み、ストレージ監視ソリューションを選ぶときのポイントについて説明します。
NAS (Network-Attached Storage)とSAN (Storage Area Network)は、いずれもオンプレミスの代表的なネットワーク接続ストレージです。名前が似ていて混同されがちですが、2つは異なる技術です。
NASは、組織のLANに接続するハードウェアデバイスです。一般的にNASデバイスは、Ethernetなどの有線接続を使用し、設定が簡単でコスト効果が高いのが特徴です。ストレージの空き領域が少なくなったときは、新しいNASデバイスを調達してネットワークに接続するだけで、すぐに組織内で利用できるようになります。NASデバイスには、複数のドライブベイを搭載してミラーリングやRAIDなどのフェイルオーバーを実現できるものから、家庭でも使えるシンプルなものまであります。
SANは、単一のデバイスではなく、ストレージデバイスで構成されるネットワークを指します。SANに含まれるデバイスは、組織のEthernet LANから切り離された専用ネットワークに、通常はストレージ用のファイバーチャネルを介して接続し、クライアントコンピューターにデータを提供します。SANはNASに比べて高価で複雑であるため、低遅延とダウンタイムゼロが求められる用途でのみ使用するのが一般的です。たとえば動画編集や監視カメラの録画では、転送されるデータが大量であると同時に高スループットと低遅延が求められるため、SANがよく使用されます。また、SANではデータが独自のプライベートネットワーク内で転送されるため、LANでの輻輳を避け、高速で安定したデータ転送を維持できます。
要約すると、SANは高速で拡張性が高く、ハイエンドな用途に適していますが、コストが高く、プライベートファイバーチャネルネットワークも含めて管理に高度な専門知識が必要です。一方、NASは、コストが低くシンプルで、LANに接続するPCから簡単に設定できます。
AWSストレージ監視などのクラウドストレージ監視とは、クラウドインフラ内のストレージシステムを観察、調査、管理することです。一般的には自動化された監視ソフトウェアによって1カ所からクラウドインフラにアクセスしてインフラ全体を制御します。自動パフォーマンス監視では、ユーザーの数とタイプ、データベースのパフォーマンス、サーバーの応答時間、リソースの使用量、システムやプロセスのパフォーマンス、セキュリティやその他の問題などに関するメトリクスを追跡して、可用性を測定し、パフォーマンスを分析できます。管理者は、クラウドのサーバーやコンポーネントの運用状況と健全性を確認し、システムの問題や不審なアクティビティを調査できます。これらのメトリクスを継続的に評価すれば、ストレージシステムの問題や脆弱性が大きな問題に発展して損害をもたらす前に、その兆候を捉えることができます。
ストレージのパフォーマンスを評価するときは、ストレージデバイスの実行状況、ネットワークのパフォーマンス、その他のパフォーマンスの問題について確認すべき重要なポイントがいくつかあります。たとえば、以下のようなポイントがあります。
- ストレージデバイスに対するデータの読み書きに時間がかかりすぎて、ユーザーを待たせていないか(SANは十分な速度が出ているか)
- 輻輳やエラーによるデータの損失が発生していないか
- ストレージデバイスが制約なしに動作できるだけの十分なリソースがあるか
- 問題が起きたときに、その根本原因と適切な解決策を簡単に見付けることができるか
- システムが能力の限界に近付いていないか
ストレージのパフォーマンスを監視するときは、上記のポイントを確認するためのメトリクスを使用します。ストレージで監視すべき主なパフォーマンスメトリクスには以下のものがあります。
- 遅延(読み取り/書き込み):遅延は、リクエストに対するストレージデバイスのレスポンスを測定するための最も重要なメトリクスです。通常は、ディスクに対するデータの読み書きにかかる時間をミリ秒単位で測定します。
- スループット(読み取り/書き込み):スループットは遅延とよく似たメトリクスで、デバイスに対して1秒あたりに読み書きされるデータのバイト数を測定します。データの読み取り/書き込みリクエストの数に左右されますが、スループットを監視する目的は、スループットが最高値のまま下がらない状態になっていないかを確認することです。
- IOPS (1秒あたりの入出力操作数):IOPSは、スループットと深く関係し、広く参照されるメトリクスで、デバイスで1秒あたりに正しく完了した読み書き操作数を測定します。アナリストはIOPSメトリクスを検証して、デバイスの理論値に対して十分な実測値が得られているかどうかや、深刻な問題の兆候として値の継続的な低下がないかを確認します。
- 使用率:SANのCPU使用率を示すメトリクスで、ストレージに対するさまざまなリクエストの処理にかかった時間を測定します。使用率が約50%以上の状態が数秒以上続く場合は、SANに問題がある可能性があります。
- キューの長さ(読み取り/書き込み):ストレージデバイスのキューの長さ(「キューの深さ」とも呼ばれる)は、任意の時点で保留中になっている入力/出力リクエスト数を指します。ディスクでは通常、一度に1つの操作しか処理できないため、キューにはリクエストがある程度たまるものですが、常に3つ以下であるのが正常な状態です。キューの長さは遅延とも関係します。キューが長めでも遅延が小さければ、ストレージデバイスは大量のリクエストを円滑に処理できていることになります。
- 使用可能な容量:ストレージリソースを評価するためのシンプルなメトリクスで、ストレージデバイスの空き領域を測定します。理想とされる空き領域に明確な基準はありませんが、一般的には20%を下回ったらSANのアップグレードを検討する時期と考えてよいでしょう。
これらのメトリクスはいずれもリアルタイムでサンプリングされ、特定の時間枠(過去1時間など)の平均値が分析されて、長期的な変化がグラフで表示されます。ITチームはこれらの統計を監視し、大きな問題の兆候と考えられる変化を注視します。既存の管理ソフトウェアスイートに、注意が必要な状況を自動的に判断してアナリストに通知するような優れたストレージ監視ソフトウェアが含まれていれば、監視を効率化できます。
IT環境のストレージ監視に関する一般的なベストプラクティスには以下のものがあります。
- 組織のデータ使用パターンを把握する:小さいファイルを頻繁に読み書きするのか、大きいファイルをときどき読み書きするのかや、ホリデーシーズンなど、トラフィックが急増する時期があるかなどを調べます。データの使用パターンは、ストレージのアーキテクチャを決める際の重要な考慮事項であり、監視対象のメトリクスの分析にも影響します。
- 一元的なダッシュボードを備えたストレージ管理ツールを使用する:これは特に、データが複数の場所に保存されている場合に、使用状況を可視化するために重要です。異なるベンダーの多数のストレージ製品を使用している場合、管理ツールがそれらすべてのストレージに対応しているかを十分に確認する必要があります。
- 監視統計を参照してストレージの使用方法を見直す:ストレージを監視すると、一部のシステムに負荷が偏り、一部のシステムはほとんど使われていないといった状況に気付くことがよくあります。データセットの保存先を最適化して、ワークロードを複数のデバイスに分散させれば、全体のパフォーマンスを向上させることができます。
- 圧縮によってパフォーマンスを向上できるかを検討する:データを圧縮すればストレージの空き領域を増やすこともできます。
- 過去のパフォーマンスを分析するだけでなく将来のトレンドを予測する:ストレージのメトリクスに基づいて将来の使用量を予測し、拡張計画を立てます。
- 将来の容量拡張の計画を立てる:適切なストレージ管理ツールを使用して、トレンドデータからパフォーマンスの低下を検出し、デバイスの障害を予測します。
- バックアップデバイスを監視する:プライマリストレージデバイスと同様にバックアップデバイスも監視する必要があります。
近年、ストレージ監視ツールは成熟し、特に企業向けのツールは幅広い機能を備えています。一般的にはいずれの製品も以下のカテゴリの1つまたは複数に該当します。
- NAS監視:NASデバイスを分析するためのツールで、多くはシンプルで基本的な機能を提供します。
- SAN監視:SAN環境を監視するためのツールで、SAN自体と同様にエンタープライズレベルの機能を備え、通常は複数のベンダーの製品をサポートします。
- 仮想ストレージ監視:リソースをクラウドで管理している場合に必要な、クラウドに対応したストレージ監視ソリューションです。
- ネットワーク監視:多くの物理ストレージ監視ツールにはネットワーク監視機能が統合されています。ネットワーク監視ツールでストレージ監視機能がアドオンとして提供される場合もあります。
- アプリケーション監視:ネットワーク監視ツールと同様に、一部のストレージ監視ツールにはアプリケーションパフォーマンスの分析機能が統合されています。入出力処理のパフォーマンスはアプリケーションに特に影響するためです。
ストレージ監視ソリューションを適切に活用すれば、数多くのメリットが得られます。主なメリットには以下のものがあります。
- 可視性の向上:多くのストレージ監視ツールは、ストレージのリアルタイムの状態と過去一定期間の運用状態を一元的に表示するダッシュボードを備えているため、ITチームは状況をすばやく把握できます。
- パフォーマンスの向上:ストレージシステムを最適化すれば、ユーザーアクセスの遅延を短縮し、パフォーマンスのボトルネックを解消して、スループットを向上させることができます。さらに、ストレージシステムのレスポンスを向上させることで最終的にはユーザーの生産性を向上させることもできます。
- 可用性の向上:ストレージを監視することで、アラートの精度を向上させ、エラーを早期に発見して重大な問題に発展するのを防ぐことができます。
- データ損失のリスク軽減:定期バックアップの実行状況によっては、機器の障害がデータの損失につながることがあります。こうした障害を防ぐことで、データ損失のリスクを軽減できます。
- キャパシティプランニングの強化:ストレージの空き領域をリアルタイムで把握することで、ストレージ容量の追加を早期に検討できます。
- TCOの削減:ストレージが円滑に機能し、緊急事態の発生を防ぐことができれば、ITスタッフの残業やハードウェアの緊急調達を減らして、ストレージシステム全体のコストを低減できます。
複雑な環境ではストレージ監視も複雑になりがちです。ハードドライブが十分な性能を発揮し、空き領域に余裕があることを確認するだけでは十分ではありません。ストレージ監視で直面する可能性のある課題には以下のものがあります。
- データの増大:無秩序に拡大したストレージシステムでテラバイト単位の非構造化データを管理しなければならなくなると、帯域幅や可用性の確保が難しくなります。その一方で、高い信頼性も要求されます。
- リモートユーザーの増加:新型コロナウイルスの感染拡大によってリモートワークに移行する従業員が増えたことで、難しい問題が新たに生じています。その1つは、リモートユーザーのノートPCやスマートフォンのストレージをどのように監視および管理すべきかです。また、リモートユーザーが増えるにつれて、データアクセスの信頼性も大きな課題になります。
- セキュリティ対策:深刻な被害をもたらすサイバー攻撃が急増し、包括的なデータセキュリティがこれまで以上に必要になっています。データを暗号化すると安全性は高まりますが、パフォーマンスが低下するため、レスポンスを向上させるための新たな戦略を考える必要があります。
- クラウド:オンプレミスのストレージデバイスからクラウドの仮想環境にデータを移行すると、ストレージシステムの可視性を確保するのが難しくなります。
IT環境で保存するデータの急増を削減および最小限に抑えるには、以下の方法があります。
- 柔軟なデータ保持ポリシーを策定する:データ保持ポリシーとスケジュールを策定する際にニーズと優先度を考慮し、保存するデータのタイプ、ビジネスニーズ、コンプライアンス、その他の要件に基づいて各データの保持期間を決めます。この柔軟なポリシーを特定のファイルタイプ(MP3や動画など)にも適用すれば、データのバックアップ時に従業員が個人的に保存している音楽ファイルや動画ファイルを対象から除外できます。
- 既存のプラットフォームと統合する:多くのストレージプロバイダーは、自社製品にクラウドストレージを直接統合してストレージを階層化しています。こうした仕組みはネイティブ統合と呼ばれています。ネイティブ統合を利用できれば、ソフトウェアを追加購入して管理する必要がないため、管理するインフラを減らすことができます。また、ソフトウェアを運用するためのサーバーも不要で、必要なものはすべて、ストレージプロバイダーが運用するシステムで提供されます。
- 異なる地域に分散するストレージを一元的に管理できるソリューションを導入する:国内や世界各地に多数の拠点を持つ組織では、分散するシステムのバックアップが課題になります。分散するシステムを1カ所で一元的にバックアップできるソリューションを導入すれば、バックアップを任意の場所から管理し、分散環境を継続的にサポートしながらITチームの時間と労力を節約できます。
- ストレージとバックアップのプロセスを自動化する:ストレージとバックアップのプロセスを自動化するシステムを使えば、データの管理にかかる時間を節約すると同時に、緊急時のデータリストアを迅速化して、IT人材不足を緩和し、人件費と運用コストを削減できます。バックアップ、スナップショット、レプリカの保存にAmazon S3やAzure Blobなどのクラウドストレージソリューションを使用すれば、信頼性を向上させ、保守の負担を軽減できるだけでなく、従量課金のメリットを活かしてコスト効果を高めることもできます。
- ビジネスの成長に合わせて拡張できるストレージを選択する:ストレージソリューションを検討するときは、予算の制約内で組織のニーズに最適なものを選ぶでしょう。しかし、将来を見越して、ビジネスの成長やデータの増加に合わせて拡張できるかどうかも重要なポイントです。今日の備えは、将来、ハードウェアやソフトウェアを追加またはリプレースし、それらを導入するためにかかるコストを節約することにつながります。
重要なストレージ監視パラメーターは、前述のストレージ監視メトリクスと同じで、遅延、スループット、IOPS、使用率、キューの長さ、使用可能な容量などが特に重要です。ストレージインフラには、ストレージアレイ、ストレージプール、ボリューム、LUN (論理ユニット)、ディスクなど、さまざまなレベルがあり、一般的に監視パラメーターはこのレベルごとに測定します。ここに示した5つのレベルはストレージシステムの粒度の大きい順に並んでおり、ストレージアレイが最も単位が大きく広範で、単一ディスクが最も小さく限定的です。
ストレージ環境を監視するときは、これらのレベルの運用パラメーターを個別に確認する必要があります。たとえば、ストレージアレイレベルのメトリクスではアレイ全体が適切に動作していることを示していても、ディスクレベルで詳細を調べると、特定のディスクが過負荷状態で、対応が必要である場合があります。
ストレージインフラの監視を始めるには、以下の手順でストレージ監視ソリューションを導入します。
- ストレージ資産のインベントリを作成する:存在を把握していないシステムは監視できません。そこでまず、ストレージ資産の詳細なインベントリを作成します。NASデバイス、SANデバイス、サーバーベースストレージ、オフサイトのストレージ、クラウドストレージなどが該当します。テープシステムなど、見過ごされがちなバックアップデバイスも、忘れずにインベントリに含めましょう。
- ストレージ監視ソリューションを選定して導入する:対応する環境やその対応レベルはソリューションによって異なります。そのため、組織のすべてのストレージ資産に対応するソリューションを選ぶことが大切です。特に、すべての資産を統合された単一のダッシュボードで一元的に監視できるツールがお勧めです。
- 組織のデータ使用パターンを把握する:ストレージ監視システムの運用を開始したら、組織のデータ使用パターンを調査します。動画編集チームは最大限のパフォーマンスと低遅延を必要とし、経理部門はデータのセキュリティと信頼性を最も重視するといった傾向があるはずです。ストレージ監視ツールでユーザーエクスペリエンスの状態を判断することも重要です。主要なメトリクスを追跡し、求められるエクスペリエンスを提供できているかを確認して、必要であればパフォーマンスの最小しきい値を設定します。
- 問題発生をアナリストに知らせるためのアラートを設定する:ハードドライブの過負荷、パフォーマンスの低下、ダウンタイムの発生、デバイスの障害の兆候発生などの問題を関係者に知らせるために、アラートのしきい値を設定します。しきい値を超えたときに、自動でチケットのオープンやメールの送信など、他の方法で問題を通知することもできます。
ストレージは、組織のITインフラの中で最も重要であると同時に最も信頼性の低いコンポーネントです。そして、そこには不変の真理があります。それは、ストレージの重要性は組織によってさまざまでも、今日のビジネス環境とビジネスユーザーにとって、信頼できるストレージにアクセスできることが必要不可欠だということです。信頼できるストレージがなければ、いかなるレベルのデジタル処理も実現できません。ストレージ監視は、他のITシステムの管理ほど複雑ではありませんが、その重要性は同じです。ストレージでエラー、障害、ダウンタイムの発生は避けられません。問題は、それらがいつ発生するかです。ビジネスを危険にさらさないためには、適切なストレージ監視ソリューションに投資することが何よりも大切です。
IT/オブザーバビリティに関する予測
驚きに勝るものはありません。すべてを受け止める準備を整えておきましょう。Splunkのエキスパートが予測する、来年の重要なトレンドをご確認ください。