データレイクとは、テラバイトからペタバイト規模の生データを元の形式のままで格納できるデータリポジトリです。
データの生成元には、IoTやセンサーデータ、通常のファイル、あるいはビデオ、オーディオ、画像、マルチメディアファイルなどのバイナリラージオブジェクト(BLOB)など、さまざまなデータソースが挙げられます。データをデータパイプラインに取り込んで使用可能にするための操作は、データレイクからデータを抽出する際に行われます。
企業が生成し、取り込み、使用するビッグデータの量は日々急増していますが、データレイクなら受け取ったデータを直ちに格納することができます。データレイクを利用するデータサイエンティストは、オンデマンドでデータセットを使用できるように、データ管理ツールを利用して、データの検出や抽出、ビジネスインテリジェンス、クレンジング、統合を行っています。
データレイクは、シンプルなオブジェクトストレージ方式で構築されているため、さまざまな種類や形式のデータを格納することができます。従来は、オンプレミスにデータレイクを構築するのが一般的でした。まだ、そうしている組織もありますが、現在は、データレイクをリモートサーバーに移行する組織も多く、アマゾン ウェブ サービス(AWS)、Azure、GCPなどの主要プロバイダーのクラウドストレージソリューションがよく使用されています。
データレイクには、構造化データ、半構造化データ、非構造化データのいずれのデータも格納できます。ただし、構造化データであっても、メタデータやその他の情報が付加されていれば使用することはできません。また、データレイク内のデータは、各ユースケースで利用する前に、クレンジング、タグ付け、構造化を行う必要があります。組織がこれを行うには、ETL (抽出、変換、ロード)プロセスに従い、データ形式を標準化します。これによって、価値あるインサイトを引き出すことができます。
この記事では、データレイクのコンポーネントについて詳しく掘り下げ、データレイクの活用方法、そのメリットとデメリットについて説明するほか、企業のデータ保存と管理におけるデータレイクの未来についても考察します。
データレイクでは、構造化データ、半構造化データ、非構造化データを混在させることができ、クレンジング、タグ付け、その他の処理を行うことなくデータを格納できます。
データウェアハウスで扱うことができるのは構造化データのみです。ほとんどのデータウェアハウスやデータセンターでは、ETL (抽出、変換、ロード)プロセスを通じてデータが取り込まれます。その後、整理(ステージング)、クレンジング、変換、カタログ化が行われてデータが使用できるようになります。
データベース(データベース管理システムを含む)は、データの格納、検索、レポート作成に使用されます。データレイクとは異なり、データベースにはスキーマが必要となる場合がほとんどで、半構造化データや非構造化データを含めることはできません。一方、データレイクはあらゆるソースからの生データを格納することができ、データを取り出すときにのみ構造化が行われます。ただし、データレイクでは、データベースと同様のレポート作成機能を使うことはできません。
新たな選択肢として現れたのが、データレイクハウスです。
データレイクハウスは、多くの組織が注目している最新のデータアーキテクチャであり、データレイクとデータウェアハウスの両方の機能を併せ持ちます。データレイクと同様に、データレイクハウスも以下の形式でデータを格納できます。
また、次のようなデータウェアハウスツールも提供します。
こういった機能を組み合わせることで、あらゆる種類のプロジェクトにデータレイクハウスを役立てることができます。
データレイクの主なメリットとして挙げられるのが、速度、拡張性、効率性です。
現代の企業であっても従来型のデータの作成、取り込み、格納は続けられており、その量は増える一方です。低コストでデータをすばやく格納し、アクセス権を持つ人が、必要なときにデータにアクセスして迅速に使用できるようにすることには大きなメリットがあります。データをできるだけ多く蓄積することで、組織は機械学習や予測分析も活用できます。
データレイクはさらに、組織がデータの価値を実現するうえで妨げとなることの多い、データのサイロ化を解消するのにも役立ちます。そういったデータを可視化することで、インサイトに基づいて戦略的な意思決定を行えます。
具体的な例として、過去の販売データやマーケティングデータは、将来のパフォーマンスを予測するために使用できます。利用できるデータ量が増え、機械学習やビッグデータ分析ツールの性能が上がるにつれ、予測の精度も高まります。
データレイクは、利用されるのを待っている単なるデータの蓄積であり、他のデータリポジトリと組み合わせて使用されることが多いため、それ自体にデメリットはありません。
とはいえ、データレイクを維持管理し、データの有用性を保つためには、データサイエンスの専門知識を備えた専門家によるサポートが必要になることが多々あります。
必ずしも公平で的確な比較とは言えないかもしれませんが、構造化されたリレーショナルデータベースと比較すると、データレイクは無秩序に見えるかもしれないということです。
適切に管理されていないデータレイクは「データスワンプ(沼)」と呼ばれることがあります。データスワンプになってしまうとデータの品質だけでなく、組織にとっての有用性や価値も低下し、遅延も増大して会社にとっての負担となります。データスワンプは、やがてどこかの時点でダークデータ(企業が所有していながら、検索、特定、最適化、使用できない保管データやリアルタイムデータ)と同じデメリットと課題をもたらし、機会コストを生むことになります。
これまで説明したとおり、データレイク自体は、オンプレミスまたはクラウド上のサーバーにネイティブ形式で格納されたデータの集合です。いたってシンプルと言えるでしょう。
それでも、組織でデータレイクを構築する際には、なぜデータレイクにするのかを理解することが重要です。ベストプラクティスをいくつか見てみましょう。これらのベストプラクティスは、大規模な組織で実施されている主要なテクノロジープロジェクトと似ています。
機械学習の発展に伴い、データの利用可能性が高まるとともに、データレイクからのデータ抽出も大幅に高速化し容易になりました。機械学習とデータサイエンスを活用すれば、ダークデータも過去のものになります。組織が保有するデータ量が増加するに伴い、データ分析システムはより多くの情報から学習することができるようになるでしょう。データは、組織にとって最も価値ある資産の1つです。データレイクを使用すると、組織は最も効率的な方法でこれらの資産を取得、格納、および利用することができます。
このブログはこちらの英語ブログの翻訳です。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。