データプラットフォームは、組織のあらゆるデータに対応する包括的なエンドツーエンドのソリューションです。真のデータプラットフォームは、組織内のすべてのシステムとインフラストラクチャで生成されたデータを取り込んで処理し、分析して表示することができます。
このトピックでは、理解すべきことや考慮すべきことがたくさんあります。定義や関連用語、メリットやユースケース、データ戦略の構築を始める方法など、データプラットフォームについて詳しく見ていきましょう。
市場には数え切れないほどのデータソリューションがあります。中にはすぐに名前が思い浮かぶ製品もあるでしょう。しかし、そのほとんどは、包括的なデータソリューションにはほど遠い製品です。なぜなら、ほとんどのデータ製品がポイントソリューションや特定用途のアプリケーションであり、データライフサイクルの1つまたは2つの段階にしか対応できないからです。
これに対し、真のデータプラットフォームは、セキュリティやオブザーバビリティなどのビジネスクリティカルな機能を搭載し、環境全体でエンドツーエンドのデータ管理を実現します。そして、ビジネスインテリジェンスプラットフォームをはるかに超える機能を備えています。
では、データプラットフォームとは、具体的にどのようなものなのでしょうか。データプラットフォームは複数の機能レイヤーで構成されていると考えることができ、すべてのレイヤーが一体となって組織全体の意思決定を改善します。データプラットフォームの各機能は、おおむね次のカテゴリに分類できます。
データが保存のレイヤーからより上位のレイヤーに移動するにつれて、情報とインサイトが重視されるようになります。
用語に関する注意:この記事では、「データプラットフォーム」という用語を使用します。同じテクノロジーを表す用語として、「顧客データプラットフォーム」や「エンタープライズデータプラットフォーム」といった表現もあります。
(Splunkのデータプラットフォームの概要や実行できる機能については、こちらをご覧ください。)
今日の組織は、独自のニーズに合わせて、膨大な数のアプリやサービスなどのデータソースを組み合わせることで、インフラストラクチャをカスタマイズすることができます。もちろん、これは簡単なことではありません。しかも、こうした大量のポイントソリューションをネットワークインフラストラクチャの他の部分と統合できなければ、問題が発生することになります。
統合されていないと、往々にしてデータサイロ(他のチームとの共有や他の目的のための共有ができないデータセット)を生み出し、脅威の特定、インシデントの解決、稼働の確保、在庫と需要の比較、非効率性の把握など、さまざまな重要なタスクを実行できなくなります。どれもビジネス上の重要な意思決定を下すために欠かせないものと言えます。
データプラットフォームによってデータを一元管理できます。つまり、単一のプラットフォームから組織全体を可視化できるようになります。(これによってサイロが解消され、組織のデータの全体像に基づいた実用的なインサイトが提供されます。)
データプラットフォームが最大限効果を発揮するには、新たな非効率性や複雑さを生み出すことなく、ほぼすべてのソースからデータを取り込むことが必要です。最終的には、データプラットフォームを既存のインフラストラクチャと統合し、すべてのデータに対してアクションを実行できるようにする必要があります。
実際、ポイントソリューションに代わってエンドツーエンドの機能を組み合わせることにより、真の意味でデータに基づくデータ運用が実現します。
データプラットフォームは、各ソリューションの機能を統合するとともに、すべてのデータを安全かつ共有可能で、最も効率よく使用できる1つの場所に集約します。また、大規模な組織に次のような大きなメリットをもたらします。
効果的なデータプラットフォームでは、あらゆるデータセットを、その内容、保存場所、量に関係なく、信頼性を確保しながら迅速に処理できるため、実用的なインサイトをリアルタイムで獲得できます。
最新のデータプラットフォームの基本的な柱は汎用性、インテリジェンス、セキュリティ、スケーラビリティ
最新のデータプラットフォームは通常、さまざまな種類のデータの取り込みに対応し、多様なデータツールや機能を搭載しています。たとえば、データの取り込み、階層型ストレージ、ビジネスインテリジェンスとアナリティクス、データガバナンス、データセキュリティとプライバシーなどがあります。
プラットフォームの中には、特定のユースケースに特化した機能セットを備えるなど、特定のタイプのワークロードに最適化されているものもあります。データプラットフォームに必要なのは、柔軟性が高いこと、そしてベンダーに依存しないことです。そのようなデータプラットフォームであれば、固有のビジネスニーズやデータニーズに合わせてカスタマイズされたオープンソースのツールや独自のツールを統合できるからです。基本的に、将来の可能性を制限するようなデータプラットフォームはお勧めできません。
データプラットフォームの基盤となる重要な柱として欠かせない要素には、次のようなものがあります。
このような要素をデータプラットフォームに組み込むことで持続可能で柔軟なモデルが構築されます。このモデルでは、デジタルレジリエンスを強化し、ビジネスを将来の変化や成長に対応させながら、データの保護、分析、保存を行うことができます。
データ関連の用語は数多くあります。混乱を避けるために、その違いを説明しましょう。
「ビッグデータプラットフォーム」と「データプラットフォーム」に違いはまったくありません。どちらも大規模なデータを処理するためのものです。「ビッグデータ」には、次の3つの大きな特徴があります。
しかし、今やあらゆるデータが、構造化データと非構造化データの両方を含むビッグデータです。ユーザーは数ペタバイトものストレージが接続されたハードウェアやクラウドシステムにアクセスし、民間企業か公共機関かにかかわらず、あらゆる組織が膨大な量のデータとメタデータを生成しています。
(ビッグデータ分析について詳しくは、こちらをご覧ください。)
データアーキテクチャとは、組織のデータ環境を支えるフレームワークのことです。データアーキテクチャがデータの取り込み、保存、提供に関する設計図であるのに対し、データプラットフォームはエンドユーザーのためにデータにアクセスして、移動や分析、相関付け、検証を行うマシンです。
データアーキテクチャは、既存のデータ要件をサポートしつつデータやインフラストラクチャの膨張に合わせて拡大する堅牢なインフラストラクチャであり、データ志向の組織を支える柱です。データアーキテクチャがしっかりとしたものでなければならない理由はそこにあります。
データレイクとデータウェアハウスは基本的に、エンタープライズデータを中央リポジトリに統合し、その場で処理や分析を実行できるストレージシステムを意味します。データウェアハウスは、クラウドコンピューティングの台頭によって一種のルネサンスを迎え、従来のオンプレミスシステムよりもスケーラブルかつ柔軟で費用対効果の高いモデルを提供しました。
大量のデータを保存できるデータウェアハウスには、Snowflake、BigQuery、Redshift、S3などがあります。ただし、データウェアハウス内のデータ自体には価値がなく、情報やインサイトを引き出すには、作業と分析が別途必要になります。
ここからは、適切なデータプラットフォームを選ぶ上で考慮すべき6つの重要事項について説明していきます。この6つの事項を考慮することで、データのソースや形式、時間尺度に関係なく、組織内のあらゆるデータに対応できるようになります。そうすれば、あらゆる疑問を解決して実用的なインサイトを獲得できます。
データをオンサイトで管理するか、クラウドプロバイダーを利用するか、それとも両者を組み合わせたハイブリッドモデルを利用するかは、複数の要素によって決まります。いずれの場合も、考慮すべき主な要素は次のとおりです。
データプラットフォームは、現行の規模に合った性能を備えていると同時に、将来的に予測されるデータストアの拡大にも適応できる必要があります。実際、スケーラビリティに対するこの要件のために、データプラットフォームを採用する組織が増えています。
Google Trendsによれば、過去20年間で「データプラットフォーム」を検索した人は世界中で増えています。
柔軟性は非常に重要です。さまざまなグループやユースケースに対応できるか、新しい機能やユースケースを容易に追加できるか、新しい機能のサポートという観点でアプリケーションやアドオンのエコシステムが堅牢かなどを検討する必要があります。
検討中のプラットフォームは、さまざまなスキルのユーザーが簡単に導入、設定を行えるものでしょうか。使い方を習得しやすいものでしょうか。データをあらゆる意思決定に活用するには、専門知識を持つIT担当者のみならず、技術的な知識をさほど持たない社員も含め組織内の全員がデータを活用できなければなりません。
(Splunkが提供しているすべてのトレーニングをご確認ください。)
マスコミで大きく取り沙汰され、組織や顧客、ひいては国さえもリスクにさらしかねないデータ侵害は阻止する必要があります。そのためには、データプラットフォームに堅牢なセキュリティ機能が組み込まれていること、または既存のセキュリティソリューションと統合するためのツールがあることが必須です。
コンプライアンスも同様です。国や地域の規制当局によって定められたフレームワークやガイドラインに準拠したデータ管理プラットフォームは、その国や地域におけるビジネスに不可欠です。
データの量があまりに膨大になると、高度な専門知識を持つアナリストであっても、人間の力だけで把握することは不可能です。テクノロジーの変革、とりわけ機械学習(ML)とAI (人工知能)の分野における進歩により、あらゆる規模の企業がデータ主導のインサイトから恩恵を得るチャンスが新たにもたらされています。
多くの選択肢の中から1つのデータプラットフォームを選ぶのは、大変な作業に思えるかもしれません。そこでお勧めするのが、数ある製品、サービス、ソリューションのさまざまな謳い文句はいったん脇に置いて、自社のニーズから検討を始める方法です。
今後、データプラットフォームには、速度、多様性、量において過去を上回るデータセットを処理し、データサイエンティストからビジネスマネージャーまで幅広いユーザーに対して、疑問への回答や意思決定、アクション選択のためのデータをリアルタイムに提供することが求められていくでしょう。データプラットフォームは、ユーザーがデータを調査、監視、分析し、明らかになったインサイトに基づいて効果的なアクションを起こすことを可能にするようなものでなくてはなりません。
新しいテクノロジーによってデータがますます増え、形式も多様化する中で、データプラットフォームも進化を求められていくはずです。将来の課題に対応するには、データプラットフォームに機械学習やAIを組み込むことで、データ関連の目標達成に取り組む組織をプロアクティブにサポートすることが必要になります。
このブログはこちらの英語ブログの翻訳です。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。