01月 17日, 2025

5 分程度

データレイクの考察：メリット、課題、ベストプラクティス

Tyler York

データレイクとは、テラバイトからペタバイト規模の生データを元の形式のままで格納できるデータリポジトリです。

データの生成元には、IoTやセンサーデータ、通常のファイル、あるいはビデオ、オーディオ、画像、マルチメディアファイルなどのバイナリラージオブジェクト(BLOB)など、さまざまなデータソースが挙げられます。データをデータパイプラインに取り込んで使用可能にするための操作は、データレイクからデータを抽出する際に行われます。

企業が生成し、取り込み、使用するビッグデータの量は日々急増していますが、データレイクなら受け取ったデータを直ちに格納することができます。データレイクを利用するデータサイエンティストは、オンデマンドでデータセットを使用できるように、データ管理ツールを利用して、データの検出や抽出、ビジネスインテリジェンス、クレンジング、統合を行っています。

データレイクは、シンプルなオブジェクトストレージ方式で構築されているため、さまざまな種類や形式のデータを格納することができます。従来は、オンプレミスにデータレイクを構築するのが一般的でした。まだ、そうしている組織もありますが、現在は、データレイクをリモートサーバーに移行する組織も多く、アマゾンウェブサービス(AWS)、Azure、GCPなどの主要プロバイダーのクラウドストレージソリューションがよく使用されています。

データレイクには、構造化データ、半構造化データ、非構造化データのいずれのデータも格納できます。ただし、構造化データであっても、メタデータやその他の情報が付加されていれば使用することはできません。また、データレイク内のデータは、各ユースケースで利用する前に、クレンジング、タグ付け、構造化を行う必要があります。組織がこれを行うには、ETL (抽出、変換、ロード)プロセスに従い、データ形式を標準化します。これによって、価値あるインサイトを引き出すことができます。

この記事では、データレイクのコンポーネントについて詳しく掘り下げ、データレイクの活用方法、そのメリットとデメリットについて説明するほか、企業のデータ保存と管理におけるデータレイクの未来についても考察します。

データレイクとその他のデータストレージサービスの違い

データレイクでは、構造化データ、半構造化データ、非構造化データを混在させることができ、クレンジング、タグ付け、その他の処理を行うことなくデータを格納できます。

データウェアハウス

データウェアハウスで扱うことができるのは構造化データのみです。ほとんどのデータウェアハウスやデータセンターでは、ETL (抽出、変換、ロード)プロセスを通じてデータが取り込まれます。その後、整理(ステージング)、クレンジング、変換、カタログ化が行われてデータが使用できるようになります。

データベース

データベース(データベース管理システムを含む)は、データの格納、検索、レポート作成に使用されます。データレイクとは異なり、データベースにはスキーマが必要となる場合がほとんどで、半構造化データや非構造化データを含めることはできません。一方、データレイクはあらゆるソースからの生データを格納することができ、データを取り出すときにのみ構造化が行われます。ただし、データレイクでは、データベースと同様のレポート作成機能を使うことはできません。

データレイクハウス

新たな選択肢として現れたのが、データレイクハウスです。

データレイクハウスは、多くの組織が注目している最新のデータアーキテクチャであり、データレイクとデータウェアハウスの両方の機能を併せ持ちます。データレイクと同様に、データレイクハウスも以下の形式でデータを格納できます。

非構造化
半構造化
構造化

また、次のようなデータウェアハウスツールも提供します。

データ管理
ガバナンス
データ品質管理

こういった機能を組み合わせることで、あらゆる種類のプロジェクトにデータレイクハウスを役立てることができます。

データレイクを使用するメリット

データレイクの主なメリットとして挙げられるのが、速度、拡張性、効率性です。

現代の企業であっても従来型のデータの作成、取り込み、格納は続けられており、その量は増える一方です。低コストでデータをすばやく格納し、アクセス権を持つ人が、必要なときにデータにアクセスして迅速に使用できるようにすることには大きなメリットがあります。データをできるだけ多く蓄積することで、組織は機械学習や予測分析も活用できます。

データレイクはさらに、組織がデータの価値を実現するうえで妨げとなることの多い、データのサイロ化を解消するのにも役立ちます。そういったデータを可視化することで、インサイトに基づいて戦略的な意思決定を行えます。

具体的な例として、過去の販売データやマーケティングデータは、将来のパフォーマンスを予測するために使用できます。利用できるデータ量が増え、機械学習やビッグデータ分析ツールの性能が上がるにつれ、予測の精度も高まります。

データレイクの課題

データレイクは、利用されるのを待っている単なるデータの蓄積であり、他のデータリポジトリと組み合わせて使用されることが多いため、それ自体にデメリットはありません。

とはいえ、データレイクを維持管理し、データの有用性を保つためには、データサイエンスの専門知識を備えた専門家によるサポートが必要になることが多々あります。

必ずしも公平で的確な比較とは言えないかもしれませんが、構造化されたリレーショナルデータベースと比較すると、データレイクは無秩序に見えるかもしれないということです。

適切に管理されていないデータレイクは「データスワンプ(沼)」と呼ばれることがあります。データスワンプになってしまうとデータの品質だけでなく、組織にとっての有用性や価値も低下し、遅延も増大して会社にとっての負担となります。データスワンプは、やがてどこかの時点でダークデータ(企業が所有していながら、検索、特定、最適化、使用できない保管データやリアルタイムデータ)と同じデメリットと課題をもたらし、機会コストを生むことになります。

データレイクとデータレイクプラットフォームを活用する上でのベストプラクティス

これまで説明したとおり、データレイク自体は、オンプレミスまたはクラウド上のサーバーにネイティブ形式で格納されたデータの集合です。いたってシンプルと言えるでしょう。

それでも、組織でデータレイクを構築する際には、なぜデータレイクにするのかを理解することが重要です。ベストプラクティスをいくつか見てみましょう。これらのベストプラクティスは、大規模な組織で実施されている主要なテクノロジープロジェクトと似ています。

関係者を集めて目標を決定する。
アクションプランを作成し、プロジェクトの担当を割り当てる。
利用可能な手法を評価する。
ニーズに最適のサーバーアーキテクチャを選択する。
ベンダーを選定する。
組織のデータガバナンス、セキュリティ、プライバシーの基準が維持されていることを確認する。

企業のデータ保存における未来

機械学習の発展に伴い、データの利用可能性が高まるとともに、データレイクからのデータ抽出も大幅に高速化し容易になりました。機械学習とデータサイエンスを活用すれば、ダークデータも過去のものになります。組織が保有するデータ量が増加するに伴い、データ分析システムはより多くの情報から学習することができるようになるでしょう。データは、組織にとって最も価値ある資産の1つです。データレイクを使用すると、組織は最も効率的な方法でこれらの資産を取得、格納、および利用することができます。

このブログはこちらの英語ブログの翻訳です。

この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。

この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。

Tyler York

Tyler York is a writer, tech nerd and part of the growth marketing team at Splunk. Armed with an English degree, and a lifetime appointment as his family's IT contact, Tyler is interested in all the ways tech can help us — and even frustrate us.

プラットフォーム 1 分程度

包括的データ戦略とは？世界トップレベルのデジタル国家に必要なもの

包括的データ戦略とは、世界がデータ時代に進む中、日本が世界トップレベルのデジタル国家を目指すために策定されたものです。包括的データ戦略の現状、また今後の展望についてご紹介します。

プラットフォーム 6 分程度

Interop Tokyo 2024 - Splunk参加レポート

インターネットテクノロジの国内最大級イベントであるInterop Tokyo 2024～AI社会とインターネット～に参加しました。今年で2年連続の参加となります。本記事では、展示ブースの様子、およびShowNetにおいてSplunk製品がどのような貢献をしたのか、その内容を紹介します。

プラットフォーム 8 分程度

カノニカルデータモデル(CDM)の基本

データのやりとりの混乱を避けたいとお考えなら、カノニカルデータモデルを導入すれば、データに関する作業を軽減できます。その具体的な方法をご覧ください。

Splunkについて

Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。

Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。

Splunkの詳細はこちら

データレイクの考察：メリット、課題、ベストプラクティス