今日では、入手できるデータがかつてないほど増加しています。このようなデータを保管することも重要ですが、適切なデータストレージソリューションを選択する基準はそれほど明確ではありません。
このブログ記事では、ビッグデータストレージの主要なタイプであるデータレイクとデータウェアハウスの概要と、それぞれのメリットと主な違いについて説明します。これを参考に、自社のビジネスに最適なアプローチを判断することができます。
その特徴は名前から推測できます。
ではさっそく始めましょう。
データレイクとデータウェアハウスの詳しい説明に入る前に、そのいずれも、いわゆるデータベースではないことに注意すべきです。データベースは構造化されたデータの集合体で、比較的小さいデータセットの保存と分析に最適です。データベースに大量のデータや情報を保存することも確かに可能ですが、ビッグデータストレージソリューションの規模とは比較になりません。
データレイクとデータウェアハウスについて言えば、どちらもデータベースよりはるかに大量のデータを保存できます。また、いずれも包括的なデータ管理をサポートします。しかし、両者の類似点はこれだけで、データレイクとデータウェアハウスは、以下の点で根本的に異なります。
それぞれを詳しく見ていきましょう。
データレイクは、膨大な量の生データを、使用する必要性が生じるまで元の形式のまま格納する巨大なリポジトリです。データレイクのストレージには、これといった制限はありません。つまり、形式、ファイルの種類、具体的な使用目的などを考慮する必要はありません。データレイクには、構造化データ、半構造化データ、非構造化データなど、さまざまなソースから取得したあらゆるタイプのデータを保存できます。
そのため、データレイクは拡張性が非常に高く、膨大な量のデータを収集する大規模な組織に最適です。データレイクでは、保存する前にデータを変換する必要がなく、データを一時的に保存する場所として便利に使用できます。具体的にデータが必要になった時点で、任意の方法でデータレイクに対してクエリーを実行し、分析できます。
制限がないデータレイクとは対照的に、データウェアハウスには構造化データが大量に保存され、具体的な目的に応じてフィルタリングしたり、並べ替えたりできます。
データレイクと同様に、データウェアハウスもさまざまなソースからデータを収集しますが、そのデータは通常、組織内外のシステムから適切に処理された形式で収集します。また、そのデータには、製品、顧客、従業員の情報など、特定の情報が含まれています。
このようにデータウェアハウスのデータは構造が厳密に決まっているため、実行できるクエリーや分析も特定のものに限定されます。これまで、多くの企業はデータウェアハウスを選択してきました。というのも、部門固有のデータやコンテンツを簡単に共有して、経営陣が行う意思決定の質を高めることができるからです。有名なデータウェアハウスであるSnowflake社をはじめ、クラウドサービスプロバイダーのビッグ3からもデータウェアハウスソリューションが提供されています。
データウェアハウスでは一般的に、1層型、2層型、3層型のアーキテクチャが採用されています。1層型の目的は、保存するデータ量を最小限に抑えることです。2層型のアプローチでは、物理的に利用可能なソースをデータウェアハウスから分離します。しかし、このアプローチには拡張性がなく、大量のユーザーをサポートすることが困難であるため、あまり普及していません。
最も一般的なアプローチは3層アーキテクチャです。これには以下の下位層が含まれます。
上記のようなデータを保管している場合、そのシステムとデータのオブザーバビリティについて考えるのは当然です。このアプリケーションの内部やシステム全体で何が起こっているのかという疑問に対してオブザーバビリティは答えをもたらします。
ここまでお読みくださったみなさんはおそらく、データウェアハウスとデータレイクの用途や実用性は大きく異なるだろうとお考えでしょう。データレイクとデータウェアハウスの主な違いについてさらに理解するために、2つのソリューションを6つのポイントに分けて比較してみましょう。
データウェアハウス内のデータは、ログやイベントの管理、販売レポート、セキュリティ分析など、具体的な目的に合わせて利用できるように加工されています。これに対して、データレイク内の生データは特定の利用目的が決まっていないため、今後使用される可能性を考慮して保持されています(ただし、このアプローチでは、収集されたデータのわずか10%しか活用されていないという実態を考えると、長期的にはストレージのコストやサステナビリティに関するリスクが伴います)。
1つの企業のデータパイプラインでこれら2つのソリューションが連携して稼動している状況では、処理に重複が生じる可能性があります。ほとんどの企業データはデータレイクストレージに保存されるだけで終わってしまいますが、明確なビジネスリクエストがあれば、関連するデータを抽出、フィルタリング、調整することができます。そして、処理されたこの新しいデータは、データウェアハウスにエクスポートできます。
データウェアハウスに保存されるのは、構造化された調整済みのデータのみですが、データレイクにはあらゆる形式の生データ(非構造化、構造化、半構造化データ)を保存できます。
もっと具体的に説明しましょう。データレイクでは、スキーマによってデータを整理し、構造化します。しかし、データをデータレイクに格納するだけでは厳格なスキーマは適用されません。データはネイティブ形式のまま保存され、データがクエリーの対象になったり分析されたりする場合にのみ、スキーマが適用されます。これはスキーマオンリード(schema-on-read)と呼ばれ、新しいデータをデータレイクに追加する際に事前定義されたスキーマを必要としないため、データ処理の柔軟性と俊敏性が高まります。
これとは対照的に、データウェアハウスは、事前定義されたスキーマを使用してデータの整理と構造化を行います。これはスキーマオンライト(schema-on-write)と呼ばれます。スキーマは、クエリーのパフォーマンスを最適化し、データの一貫性が保証されるように設計されます。
データは通常、データウェアハウスに読み込まれる前に、スキーマに適合するように変換およびクリーニングされます。このアプローチではデータを強力にコントロールできるため、クエリーのパフォーマンスが向上しますが、取り扱いが厳しくなる分、データ要件の変更を適用しにくくなる可能性があります。基本的に、データ構造については以下のように要約できます。
データレイクとデータウェアハウスのもう1つの違いは、ユーザーです。誰がどのストレージを利用するのでしょうか?
費用対効果は、データレイクのほうがデータウェアハウスよりも高いといえます。データレイクでは固定的なスキーマにデータを合わせる必要がなく、あらゆる構造のデータを大量に保存できるため、柔軟性や拡張性が高まります。膨大な量のデータを1カ所に格納し、フィルタリングの必要がないデータレイクと比較して、データウェアハウスのストレージコストが高くなるのは、このフィルタリングが一因です。
データウェアハウスはコストが高いということと、データウェアハウスの構造化データはデータレイク内のデータより短時間で簡単に分析できるということは、トレードオフの関係にあるのです。
ご存知のとおり、データウェアハウスとデータレイクのもうひとつの相違点は、構造的な違いです。
データレイクの情報量はペタバイト単位で、ユニットあたり1,000テラバイトです。データサイズが非常に大きく、あらゆるデータを格納するデータレイクは、コンパクトで構造化データだけが保存されるデータウェアハウスに比べて本質的にセキュリティが脆弱になります。
これに加えて、データウェアハウスのテクノロジーは、比較的最近のビッグデータテクノロジーよりも技術的に安定しています。つまり、セキュリティはデータウェアハウスのほうが成熟しています。ただし、ビッグデータのセキュリティ対策は急速に進化しているため、データレイクのセキュリティもいずれは向上すると考えられます。
データレイクとデータウェアハウスはその基盤からまったく異なるストレージソリューションであり、それぞれ長所と短所があります。
データレイクとデータウェアハウスをどのように使い分けるかを検討する場合、企業にとっての賢明な戦略は、多くの場合、2つを併用することでしょう。すでに運用中のデータウェアハウスがある場合、新しいデータソースを保存する目的でデータレイクを導入することが、最も価値の高い選択肢であると考えられます。そうすれば、データレイクを情報バンクとしてだけでなく、データウェアハウスから削除したデータのアーカイブリポジトリとしても活用できます。
容量と俊敏性に優れるデータレイクをデータウェアハウスの代わりに導入する企業もありますが、専門家はこのアプローチを推奨していません。データレイクはまだ新しいソリューションであり、以下のような要因のために、データウェアハウスよりも前例のない問題が発生する可能性があります。
どの組織にも、入念に準備されたデータウェアハウスとデータレイクの両方、またはいずれかのソリューションが必要です。ただし、1つのアプローチで何でも解決できるわけではありません。ここで、これらのストレージソリューションがさまざまなタイプのテクノロジー、ツール、プラットフォームとどのように連携するかを見ていきましょう。
テクノロジーは絶えず進化しており、データレイクとデータウェアハウスの役割は今後さらに明確になっていくでしょう。しかし、ソリューションの選択は、現在持ち合わせているスキル、予算、リソース、長期的な目標によって異なります。
最終的に企業がデータから価値を得られるのは、データを使用して賢明な意思決定ができた場合のみです。データストレージ戦略では基本的に、サプライチェーンのすべての段階でデータを検索、保存、整理、集約、変換する方法を検討する必要があります。
データをどのように解釈するのかという問題もあります。スライドやプレゼンで示された数字を信じるのは簡単ですが、いくつか質問をすることで、情報を理解し、それが信頼に値するかどうかを見極めることができます。
データウェアハウスにもデータレイクにも長所と短所があります。これまで説明してきたように、組織に最適なデータストレージソリューションを選ぶには、効率に対してリソースとニーズのバランスを考える必要があります。両方のテクノロジーの動向を常に把握し、組織の具体的な事業にどのモデルが効果的かを注意深く検討すれば、ビジネスの成長と繁栄を実現できるでしょう。
このブログはこちらの英語ブログの翻訳です。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。