多くの企業がデータ分析の取り組みに乗り出しています。それは、データに埋もれたインサイトを明らかにできると大いに期待しているためです。近年では、クラウドのデータレイクテクノロジーなどでユニファイドストレージの概念が広まりを見せており、特に費用対効果の高いクラウドベースのストレージサービスでは、サービス内容の拡充につながっています。
ビッグデータの入手は簡単で、毎日250京(2.5x10の18乗)バイトものデータが生成されています。しかし、このようなビッグデータの持つ性質が、組織に課題をもたらしています。生成されるビッグデータには、構造化、非構造化、半構造化の3つの形式があります。そのため、データを分析するには、仕様に合わせてデータの前処理を行う必要があるのです。
この記事では、このようなデータ構造がビジネス分析に与える影響を考察します。
構造化データとは、あらかじめ定義された形式に従ったデータのことで、一般的に定量的で体系化されています。顧客の氏名、住所、電話番号、メールID、請求情報などが登録されたデータベースは、構造化データの典型的な例です。
構造化データには明らかなメリットがあります。それは、分析ツールで直接利用でき、形式変換が不要なことです。ただし、このデータを本来の目的で使用するには、データのスキーマ形式に対応したツールが必須です。
半構造化データは、構造化データと非構造化データの「中間」に位置するデータではありません。データベースの構造(スキーマ)に準拠していない構造化データの一種です。
同じクラスに属するデータエンティティをメタデータタグなどのセマンティックタグで記述することでデータ資産を構造化するため、非構造化データ形式とは完全に異なります。たとえば、次のように区別できます。
非構造化データは定性データで、一般的に分析ツールで利用するために前処理が必要です。たとえば、次のようなものがあります。
非構造化データは、統合ストレージリポジトリであるデータレイクにネイティブ形式で保存できます。非構造化データは蓄積と拡張が進んでおり、ほとんどのリアルタイムデータストリームは非構造化形式で生成されています。非構造化データを利用するには専用のツールが必要で、データを適切に構造(スキーマ)化するには専門知識が欠かせません。
ビッグデータの構造がデータ分析の取り組みにもたらす影響を探ってみましょう。
構造化データとは、あらかじめ定義された形式に従ったデータのことで、一般的に定量的で体系化されています。顧客の氏名、住所、電話番号、メールID、請求情報などが登録されたデータベースは、構造化データの典型的な例です。構造化データは通常、リレーショナルデータベースやエンタープライズシステムなど、体系化されたデータソースから取得されます。
メリット
デメリット
非構造化データは定性データで、一般的に分析ツールで利用するために前処理が必要です。たとえば、生のIoTデータ、ネットワークログ、音声および動画データ、ソーシャルメディアの投稿、マシンレベルで生成されたデータなどが挙げられます。このようなデータは、センサー、ソーシャルメディアプラットフォーム、マルチメディアファイル、マシンログなどのソースから生成されることがほとんどです。
メリット
デメリット
半構造化データは、データベースの厳格なスキーマに準拠していない構造化データの一種です。同じクラスに属するデータエンティティは、メタデータタグなどのセマンティックタグで記述されます。たとえば、タブ区切りのファイル、XML、JSON文書、メールシステムなどのデータがあります。
メリット
デメリット
データパイプラインをデータレイクで構築している場合は、そのフラットなストレージアーキテクチャを活用してあらゆる形式のデータを入手できます。使用時までスキーマを定義する必要はなく、必要に応じて何らかの構造を定義する(スキーマオンリード)か、決められた指示に従ってデータを取得することで、後からデータに対してクエリーを実行できます。クエリーの処理にはメタデータタグがよく使用されるため、厳格なメタデータ管理戦略が欠かせません。
データプラットフォームの拡張性のニーズを満たすには、データのETL (抽出、変換、ロード)プロセスを自動化および効率化する必要があります。この前処理のステップは分析アプリケーションがデータに対してクエリーを実行するときにのみ行われるため、データレイクでは書き込みや読み取りの負荷が高いスキーマ要件を持つワークロードを処理できます。したがって、低コストのクラウドストレージサービスの普及と相まって、データプラットフォームの柔軟性、拡張性、費用対効果を高めることができます。
このようなパイプラインワークフローのおかげで、組織はあらゆる構造や形式のデータを活用しやすくなるだけでなく、リアルタイムデータストリームが急増しても、リソースを大量に消費するスキーマオンライトの処理を回避できます。
これまでの説明だけでは、特定の仕様に対応したツールが必要な構造化データだけに絞るべきではない理由や、必要に応じて保存前に全データを前処理するスキーマオンライト方式を採用した従来のデータウェアハウスシステムのみを利用すべきではない理由が十分に伝わらなかったかもしれません。
考慮すべき点がいくつかあります。
データレイクは、データ分析プロセスを加速させ、データを一切排除しないという考え方を具現化したテクノロジーです。データレイクでは、すべてのデータがリーフレベルでソースシステムから直接読み込まれます。
このアプローチにより、分析チームは、増え続けるリアルタイムデータストリームに自由にアクセスし、ツールに必要な一部のデータを処理すれば済むようになります(ほとんどの場合、そのようなデータの割合は10%をはるかに下回ります)。
データウェアハウスシステムの厳格なスキーマベースのモデルと異なり、データレイクでは次のような柔軟性の高い分析が可能です。
データタイプとデータソースが絶えず変化している最新の分析環境では、このような柔軟性が特に重要となります。
構造化データ資産と非構造化データ資産の拡張性が異なるため、さまざまな種類が混在するデータ資産のモデリングを単一のスキーマフレームワークで実行しようとしても、一貫したアプローチがないことがあります。
データレイクは、生データをネイティブ形式で保存することでソリューションの費用対効果と効率を高めるため、大規模な前処理や変換作業の必要性が軽減されます。利用するうえでの考慮事項
データ管理戦略を効果的に進めるには、構造化、非構造化、半構造化データ資産のセキュリティ、監査のしやすさ、透明性に注意を払う必要があります。
データを管理し、分類することで、関係するデータ利用者とデータ作成者間のアクセスを安全に管理できます。こうすることで、セルフサービス機能が実現し、複数のサードパーティ分析ツールを柔軟に統合することが可能です。ツールによってスキーマや構造の要件が異なっていても構いません。
構造化データは利用しやすく、一貫性がありますが、データレイクも、その柔軟性、拡張性、費用対効果の高さから、多様なデータタイプを処理するための優れた選択肢であることに間違いはありません。データレイクのアプローチにより、組織はあらゆるデータ構造のメリットを活用し、包括的で効果的なデータ分析を実行できるようになります。
このブログはこちらの英語ブログの翻訳です。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。