Splunk Machine Learning Toolkit (MLTK)バージョン5.2が公開されました。本日よりSplunkbaseからダウンロードできます。こちらのブログでは、バージョン5.2のリリースによって幅広いユーザーが簡単に機械学習を利用できるようになるとお伝えしました。SplunkのMLTKを使えば、お客様がSplunkですでに活用しているデータに機械学習を適用したり、モデルを開発したり、モデルのアルゴリズムを操作したりして、新しいインサイトを獲得し、意思決定の向上に役立てることができます。MLTKは、Splunk EnterpriseまたはSplunk Cloudに導入できます。
このバージョンのMLTKは、予測、異常検出、クラスタリングなど、一般的なユースケースに合わせて設計されています。新しいスマートアシスタントによってワークフローの詳細な手順が示されるため、幅広いユーザーが「シチズンデータサイエンティスト」(専門職ではない分析担当者)として機械学習を利用できます。たとえば、新しいSmart ClusteringやSmart Predictionなどのスマートアシスタントでは、データサイエンティストとして正式に教育を受けていなくてもデータの高度な分析を実行できます。もちろん、機械学習の知識と経験が豊富なアナリスト向けにも高度な新機能が追加されています。また、お客様のフィードバックや実際のユースケースに基づいて強化された新しいアルゴリズムも導入されています。
MLTKは機械学習に関する知識や経験に関係なくご利用いただけます。ユーザーインターフェイスが新しくなり、ガイドに従ってワークフローを進めることができます。また、スマートアシスタントを使えば、データを読み込み、モデルを調整して、完成したモデルを本番環境に移行するという、定義、学習、レビュー、運用の段階に沿ってモデルを構築できます。さらに、各段階でメトリクス設定の支援機能も充実しているため、データをプレビューおよび視覚化しながらダッシュボードをリアルタイムで組み立てることも可能です。
スマートアシスタントではそれぞれ、クラスタリング、外れ値の検出、予測など、機械学習やデータサイエンスの一般的なタスクに特化した個別のワークフローが提供されます。たとえば、Smart Prediction Assistantでは、新しいAutoPredictionアルゴリズムを使って、カテゴリフィールドや数値フィールドに入るべき値を予測し、フィールドに入力された値の型を自動的に検証できます。また、Smart Clustering Assistantでは、他のクラスタリングアルゴリズムよりも高速で計算できるK平均法のアルゴリズムを使用できます。
MLTK 5.2には、Splunkのサーチ処理言語(SPL)を使用して取得したデータに対する処理をSplunkに指定するためのアルゴリズムも含まれています。たとえば、外れ値をすばやく検出するための部分適合を新たにサポートした強力なdensityFunctionアルゴリズムや、G平均法によるクラスタリングアルゴリズム、機械学習モデルの結果を表示するための独自の視覚化ヒートマップ機能などがあります。スマートアシスタントを使用すると、それらのSPLが自動的に生成されます。
Splunkのデータを使ったモデルの作成がどれほど簡単であるかを実感していただくために、Smart Clustering Assistantの使い方を簡単にご紹介します。この例では、データセットに含まれるイベントの類似点を見つけます。従来であればこのタスクには数時間かかりますが、スマートアシスタントとその直感的なインターフェイスを使えば、ボタンを数回クリックするだけで完了します。
定義段階では、クラスタリングするデータを選択してプレビューします。データはSplunkプラットフォームのどこからでも取り込むことができます。Splunkにすでに取り込んだデータでも、Splunk EnterpriseやMachine Learning Toolkitに付属するデータでもかまいません。
選択したデータが[Data Preview]タブと[Visualization]タブに表示されます。
データを選択したら、学習段階に進み、クラスタリングモデルを作成します。この段階では、データにアルゴリズムを適用してモデルをトレーニングします。学習段階には、取り込んだデータが表示されるセクション、データの事前処理ステップを追加するセクション、クラスタリングするフィールドと生成するクラスター数を選択するセクションがあります。
生成するクラスター数を入力し、オプションで[Notes]フィールドを使って、このSmart Clusteringの実験で実行されるパラメーター調整を追跡するか、履歴表示機能を使用します。
次に、[Evaluate]タブで2Dまたは3D散布図の設定を確認します。X、Y、Z軸のドロップダウンリストを使って、散布図のデータを指定します。
特定のデータポイントをクリックすると、[New Search]画面が開き、データを詳しく調査できます。
[Evaluate]タブでは、モデルのシルエットスコアが生成および表示されます。シルエットスコアでは、クラスターの中心点からの距離と複数の中心点間の距離の両方が測定されます。スコアの範囲は-1から+1までで、1に近いほどクラスタリング構成が優れていることを示します。スコアがマイナスの場合は、クラスタリングするフィールドの選択が間違っている可能性があります。
レビュー段階では、本番環境に移行する前に作成したモデルを調査し、クラスタリングの結果を検証します。この段階には以下の3つのパネルがあります。
ここから下にスクロールすると、特定された外れ値が下の表に表示されます。
手動であれば数時間かかるデータサイエンスの作業を、インタラクティブに設定できる簡単なワークフローを使えばほんの数ステップで実行できることがおわかりいただけたと思います。モデルの調整や実験時も、コードを書き直さずにインタラクティブに操作できます。MLTK 5.2は、簡素化を目指すと同時に、より高度なスキルを持つユーザーのニーズにも対応できるだけの包括的な機能を備えています。
MLTKバージョン5.2なら、機械学習を使ったモデルを簡単に作成できます。最新リリースを今すぐダウンロードしてお試しください。MLTKはSplunkbaseからダウンロードできます。
Machine Learning Toolkitを組織でご利用の場合は、Machine Learning Customer Advisory Programにぜひご参加ください。機械学習を始めるのに役立つリソースが無料で提供されています。
詳しい情報については、こちらからMLTKユーザーガイドをご覧ください。以下のWebセミナーでもさらに詳しい情報をご紹介しています。
このブログはこちらの英語ブログの翻訳です。
毎月1回、Splunkブログの更新情報をメールでお届けします。ぜひマンスリー ダイジェスト をこちらからご登録ください!
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。