PLATFORM

Splunk Machine Learning Toolkit 5.2の新機能

Splunk Machine Learning Toolkit (MLTK)バージョン5.2が公開されました。本日よりSplunkbaseからダウンロードできます。こちらのブログでは、バージョン5.2のリリースによって幅広いユーザーが簡単に機械学習を利用できるようになるとお伝えしました。SplunkのMLTKを使えば、お客様がSplunkですでに活用しているデータに機械学習を適用したり、モデルを開発したり、モデルのアルゴリズムを操作したりして、新しいインサイトを獲得し、意思決定の向上に役立てることができます。MLTKは、Splunk EnterpriseまたはSplunk Cloudに導入できます。

このバージョンのMLTKは、予測、異常検出、クラスタリングなど、一般的なユースケースに合わせて設計されています。新しいスマートアシスタントによってワークフローの詳細な手順が示されるため、幅広いユーザーが「シチズンデータサイエンティスト」(専門職ではない分析担当者)として機械学習を利用できます。たとえば、新しいSmart ClusteringやSmart Predictionなどのスマートアシスタントでは、データサイエンティストとして正式に教育を受けていなくてもデータの高度な分析を実行できます。もちろん、機械学習の知識と経験が豊富なアナリスト向けにも高度な新機能が追加されています。また、お客様のフィードバックや実際のユースケースに基づいて強化された新しいアルゴリズムも導入されています。

MLTKは機械学習に関する知識や経験に関係なくご利用いただけます。ユーザーインターフェイスが新しくなり、ガイドに従ってワークフローを進めることができます。また、スマートアシスタントを使えば、データを読み込み、モデルを調整して、完成したモデルを本番環境に移行するという、定義、学習、レビュー、運用の段階に沿ってモデルを構築できます。さらに、各段階でメトリクス設定の支援機能も充実しているため、データをプレビューおよび視覚化しながらダッシュボードをリアルタイムで組み立てることも可能です。

新機能の概要

スマートアシスタントではそれぞれ、クラスタリング、外れ値の検出、予測など、機械学習やデータサイエンスの一般的なタスクに特化した個別のワークフローが提供されます。たとえば、Smart Prediction Assistantでは、新しいAutoPredictionアルゴリズムを使って、カテゴリフィールドや数値フィールドに入るべき値を予測し、フィールドに入力された値の型を自動的に検証できます。また、Smart Clustering Assistantでは、他のクラスタリングアルゴリズムよりも高速で計算できるK平均法のアルゴリズムを使用できます。

MLTK 5.2には、Splunkのサーチ処理言語(SPL)を使用して取得したデータに対する処理をSplunkに指定するためのアルゴリズムも含まれています。たとえば、外れ値をすばやく検出するための部分適合を新たにサポートした強力なdensityFunctionアルゴリズムや、G平均法によるクラスタリングアルゴリズム、機械学習モデルの結果を表示するための独自の視覚化ヒートマップ機能などがあります。スマートアシスタントを使用すると、それらのSPLが自動的に生成されます。

新しいSmart Clustering Assistantの使い方

Splunkのデータを使ったモデルの作成がどれほど簡単であるかを実感していただくために、Smart Clustering Assistantの使い方を簡単にご紹介します。この例では、データセットに含まれるイベントの類似点を見つけます。従来であればこのタスクには数時間かかりますが、スマートアシスタントとその直感的なインターフェイスを使えば、ボタンを数回クリックするだけで完了します。

1. 定義

定義段階では、クラスタリングするデータを選択してプレビューします。データはSplunkプラットフォームのどこからでも取り込むことができます。Splunkにすでに取り込んだデータでも、Splunk EnterpriseやMachine Learning Toolkitに付属するデータでもかまいません。

選択したデータが[Data Preview]タブと[Visualization]タブに表示されます。

定義の画面

2. 学習

データを選択したら、学習段階に進み、クラスタリングモデルを作成します。この段階では、データにアルゴリズムを適用してモデルをトレーニングします。学習段階には、取り込んだデータが表示されるセクション、データの事前処理ステップを追加するセクション、クラスタリングするフィールドと生成するクラスター数を選択するセクションがあります。

学習の画面
生成するクラスター数を入力し、オプションで[Notes]フィールドを使って、このSmart Clusteringの実験で実行されるパラメーター調整を追跡するか、履歴表示機能を使用します。

次に、[Evaluate]タブで2Dまたは3D散布図の設定を確認します。X、Y、Z軸のドロップダウンリストを使って、散布図のデータを指定します。

散布図の画面

データポイントの図
特定のデータポイントをクリックすると、[New Search]画面が開き、データを詳しく調査できます。

[Evaluate]タブでは、モデルのシルエットスコアが生成および表示されます。シルエットスコアでは、クラスターの中心点からの距離と複数の中心点間の距離の両方が測定されます。スコアの範囲は-1から+1までで、1に近いほどクラスタリング構成が優れていることを示します。スコアがマイナスの場合は、クラスタリングするフィールドの選択が間違っている可能性があります。

モデルのシルエットスコアの画面

3. レビュー

レビュー段階では、本番環境に移行する前に作成したモデルを調査し、クラスタリングの結果を検証します。この段階には以下の3つのパネルがあります。

  • Number of Clusters - 全体または個々のクラスター内のクラスターポイントの詳細を確認できます。
  • Intercluster Distance Matrix - 検出されたクラスター間の関係(平均距離、最長距離、最短距離)を検証します。
  • Intracluster Distance Distribution - クラスター内の中心点からの距離を設定して外れ値を見つけます。

ここから下にスクロールすると、特定された外れ値が下の表に表示されます。

レビュー段階の画面
手動であれば数時間かかるデータサイエンスの作業を、インタラクティブに設定できる簡単なワークフローを使えばほんの数ステップで実行できることがおわかりいただけたと思います。モデルの調整や実験時も、コードを書き直さずにインタラクティブに操作できます。MLTK 5.2は、簡素化を目指すと同時に、より高度なスキルを持つユーザーのニーズにも対応できるだけの包括的な機能を備えています。

今すぐダウンロード

MLTKバージョン5.2なら、機械学習を使ったモデルを簡単に作成できます。最新リリースを今すぐダウンロードしてお試しください。MLTKはSplunkbaseからダウンロードできます。

Machine Learning Toolkitを組織でご利用の場合は、Machine Learning Customer Advisory Programにぜひご参加ください。機械学習を始めるのに役立つリソースが無料で提供されています。

その他のリソース

詳しい情報については、こちらからMLTKユーザーガイドをご覧ください。以下のWebセミナーでもさらに詳しい情報をご紹介しています。

  • 機械学習を始めよう
  • SplunkのMachine Learning Toolkit:技術詳細とデモ(パート1)
  • Splunk's Machine Learning Toolkit:技術詳細とデモ(パート2)
     

このブログはこちらの英語ブログの翻訳です。

ブログ関連情報

毎月1回、Splunkブログの更新情報をメールでお届けします。ぜひマンスリー ダイジェスト をこちらからご登録ください

Mohan Rajagopalan
Posted by

Mohan Rajagopalan

Mohan combines a deeply technical background with a passion to bring new tech to market. Before joining Splunk, he started and led two companies in the big data analytics and data science spaces — one bridging the gap between data stores and visualization, and another looking to bring AI into the enterprise data stack. Mohan started his career at Intel research, followed by a brief stint in McKinsey & Co. He is the recipient of 2005 IEEE/IFIP Dissertation award for his work on compiler techniques to enhance performance and security in distributed systems. In his spare time, Mohan likes to read, bike, and explore neighborhoods in San Francisco.