マシンデータの価値を引き出して、セキュリティ運用に役立つ新たなインサイトを獲得しましょう。
データレイクとは、大量のローデータを元の形式のままで格納できるデータリポジトリのことで、Pentaho社の当時の最高技術責任者であったJames Dixon氏による造語です。
企業が生成し、取り込み、使用するビッグデータの量は日々急増していますが、データレイクなら受け取ったデータを直ちに格納することができます。データレイクを利用するデータサイエンティストは、オンデマンドでデータセットを使用できるように、データ管理ツールを利用して、データの検出や抽出、ビジネスインテリジェンス、クレンジング、検索時のデータ統合を行っています。
この記事では、データレイクのコンポーネントについて詳しく掘り下げ、データウェアハウスとの違いやデータレイクの活用方法、メリットとデメリットについて説明するほか、企業のデータ保存と管理におけるデータレイクの未来についても考察します。
「データレイク」という用語は、Pentaho社の元CTOであるJames Dixon氏によって初めて提唱されました。
データレイクとは、テラバイトからペタバイト規模のデータを、分類したりインデックスしたりせずに、ローデータの形式のままで格納できるリポジトリです。データの発生元には、IoTやセンサーデータ、通常のファイル、あるいはビデオ、オーディオ、画像、マルチメディアファイルなどのバイナリラージオブジェクト(BLOB)など、さまざまなデータソースが挙げられます。データをパイプラインに取り込んで使用可能にするための操作は、データレイクからデータを抽出する際に行われます。
データレイクは、シンプルなオブジェクトストレージ方式で構築されているため、さまざまな種類や形式のデータを格納することができます。組織は従来からオンプレミスにデータレイクを構築してきました。これは現在でも多くの組織で行われていますが、データレイクをリモートサーバーに移行する組織も多くなっています。これには、アマゾン ウェブ サービス(AWS)やMicrosoftなどの主要プロバイダーのクラウドストレージソリューションや、Apache Hadoopなどの分散ファイルシステムが使用されています。
データレイクには、構造化データ、半構造化データ、非構造化データのいずれのデータも格納できます。ただし、構造化データであっても、メタデータやその他の情報が付加されていれば使用することはできません。また、データレイク内のデータは、各ユースケースで利用する前に、クレンジング、タグ付け、構造化を行う必要があります。これらの作業は、データを使用可能な状態にするためにデータレイクからデータを抽出する際に実行されます。
データレイク自体は、オンプレミスまたはクラウド上のサーバーにネイティブ形式で格納されたデータの集合です。しかし「データレイクプラットフォーム」に関して広く合意された定義は存在しないようです。
データレイクには、サーバーの管理、セキュリティやストレージサービスの提供、データを抽出して使用可能にするための付随的なサービスが必要になります。つまり、データレイクとはデータそのものであり、データレイクプラットフォームはそれを運用し維持するために使用されるサーバー、その他の機器、ハードウェア、ソフトウェアといえるでしょう。
データレイク開発のベストプラクティスについては多くのリソースで説明されています。その中で、大規模な組織に導入されている主要なテクノロジーについては、以下のようなベストプラクティスが紹介されています。
1. 関係するステークホルダーを集めて目標を決定する。
2. アクションプランを作成し、プロジェクトのオーナーシップを割り当てる。
3. 利用可能な手法を評価する。
4. ニーズに適したサーバーアーキテクチャを選択する。
5. ベンダーを選定する。
6. 組織のデータガバナンス、セキュリティ、プライバシーの基準が維持されていることを確認する。
データレイクとデータウェアハウスの違いは、取り扱うデータにあります。データレイクには構造化データ、半構造化データ、非構造化データを混在させることができます。しかし、データウェアハウスで扱うことができるのは構造化データのみです。
ほとんどのデータウェアハウスやデータセンターでは、ETL(抽出、変換、ロード)プロセスを通じてデータが取り込まれます。その後、整理(ステージング)、クレンジング、変換、カタログ化が行われてデータが使用できるようになります。
データレイクには、構造化データ、半構造化データ、非構造化データを混在させることができ、クレンジング、タグ付け、その他の処理を行うことなく格納されます。
データベース(データベース管理システムを含む)は、データの格納、検索、レポート作成に使用されます。データレイクとは異なり、データベースにはスキーマが必要となる場合があり、半構造化データや非構造化データを含めることはできません。
一方、データレイクはあらゆるソースからの生データを格納することができ、データを取り出すときにのみ構造化が行われます。データレイクでは、データベースと同様のレポート作成機能を使うことはできません。
データレイクとはデータの集合であり、組織内のサーバーもしくはクラウドベースのストレージシステムでホストできます。クラウド、つまりクラウドサービスとは、データやアプリケーションをリモートサーバーに保存するサービスのことです。データレイクはクラウドベースのサーバーに格納することもできます。実際にそのように運用されていることも多く、これはクラウドデータレイクとも呼ばれます。
ぜひ「クラウド戦略にデータ戦略が必要な理由」もご覧ください。
SQL(Structured Query Language)はリレーショナルデータベースを管理するために使用されるプログラミング言語です。また、NoSQLは非SQLまたは非リレーショナルとして定義される別の言語です。データレイクには非構造化データが格納されるため、データレイクに格納されているデータに対してSQLやNoSQLを使用することはできません。データを抽出する際には、データをデータベースで使用できるように、組織のデータネットワークに応じてSQLまたはNoSQLが使用される場合があります。
企業にとって、データが最も価値ある資産であるということは常に言われ続けています。機械学習やその他の高度な分析を活用することで、管理者は組織の過去のデータからインサイトを収集し、それを将来の予測に役立てることができます。これによって、ネットワークに対する外部の脅威から企業を保護したり、ワークロードを合理化して効率を高める方法を探ったり、ネットワークの可用性を維持したりすることができます。過去の販売データやマーケティングデータは、将来のパフォーマンスを予測するために使用できます。利用できるデータ量が増え、機械学習やビッグデータ分析ツールの性能が上がるにつれ、予測の精度も高まります。機械学習と予測分析のメリットを活かすために、企業は可能な限り多くのデータを蓄積し、それを利用できるようにする必要があります。
Azureデータレイクは、成長を続ける組織にとって最適なデータレイク環境の1つです。データのクレンジングや整理に労力や費用をかけることなく、将来役立つデータをリアルタイムで蓄積することができます。また、そのシンプルさゆえに、データレイクは構造化されたデータストレージよりもはるかに簡単に拡張できます。データレイクは、企業がデータの価値を最大限に引き出すための最も重要なツールの1つです。
データレイクの主なメリットとして挙げられるのが、速度、拡張性、効率性です。現代の企業であっても従来型のデータの作成、取り込み、格納は続けられており、その量は増え続けています。低コストでデータをすばやく格納し、アクセス権を持つ人が、必要なときにデータにアクセスし、迅速に使用できることにデータレイクの大きなメリットがあります。
データレイクはデータリポジトリ(貯蔵庫)であり、メタデータを含まない膨大な情報の蓄積ですが、データの検出と処理、取り込みと抽出、データ統合とクレンジングを含む、オンデマンドでの検索が可能です。
データレイクはさらに、組織がデータの価値実現で妨げとなることの多い、データのサイロ化解消にも役立ちます。保険証券、家の鍵、パスポート、ジム用バッグなど、日々の暮らしで使用するアイテムを1つの箱に入れておくことができると想像してみてください。そして、そのアイテムのどれかが必要になったときに、箱に手を入れてすぐに取り出せるとしたらどうでしょうか。機械学習によるオンデマンド検索機能により、データレイクでもこれと同様のことが可能です。
データレイクは、利用されるのを待っている単なるデータの蓄積であるため、それ自体にデメリットはありません。しかし、データレイクを維持管理し、データの有用性を保つためには、データサイエンスの専門家によるサポートが必要になることが多々あります。つまり、必ずしも公平で的確な比較とは言えませんが、構造化されたリレーショナルデータベースと比較すると、データレイクは無秩序に見えるかもしれないということです。
適切に管理されていないデータレイクは「データスワンプ(沼)」と呼ばれることがあります。適切に管理されていればデータレイクにデメリットはありませんが、データスワンプになってしまうとデータの品質だけでなく、組織にとっての有用性や価値も低下し、遅延も増大して会社にとっての負担となります。データスワンプは、やがてどこかの時点でダークデータ(企業が所有していながら、検索、特定、最適化、使用できない保管データやリアルタイムデータ)と同じデメリットと課題をもたらし、機会コストを生じさせることになります。
データレイクには、企業がデータの潜在的な価値を実現できるようにするためのアナリストによるサポートが必要です。
データレイクの未来は、データそのものの未来を映し出しているといえるでしょう。組織が生成し、必要とし、使用するデータの量が増加し続けるにつれ、大量のデータを格納する必要性も急速に高まっていきます。データベースやデータウェアハウスとは異なり、データレイクは、組織が現在または将来において必要とするデータを迅速かつ効率的に格納することができます。
機械学習の発展に伴い、データの利用可能性が高まるとともに、データレイクからのデータ抽出も大幅に高速化し容易になりました。機械学習とデータサイエンスを活用すれば、ダークデータも過去のものになります。組織が保有するデータ量が増加するに伴い、データ分析システムはより多くの情報から学習することができるようになるでしょう。データは、組織にとって最も価値ある資産の1つです。データレイクを使用すると、組織は最も効率的な方法でこれらの資産を取得、格納、および利用することができます。
あらゆる問題解決、意思決定、ビジネス戦略にデータを活用することで、最大限の価値を実現できます。この包括的なデータ活用ガイドでその方法をご確認ください。
仮想化、クラウド、コンテナ、マイクロサービスで構成されるインフラストラクチャでは、常に変更とイベントが大量に発生します。どうしたらITイベントの発生を抑えることができるかを説明しています。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は850を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキスト(把握したい要素) に基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。
日本支社を2012年2月に開設し、東京の丸の内・大手町、大阪および名古屋にオフィスを構えており、すでに多くの日本企業にもご利用いただいています。
© 2005 - 2024 Splunk LLC 無断複写・転載を禁じます。
© 2005 - 2024 Splunk LLC 無断複写・転載を禁じます。