
デジタルレジリエンスを強化するAIの理念
今後の製品戦略にAIを取り入れてサイバーセキュリティとオブザーバビリティの成果を向上させるための、Splunkの3つの戦略をご紹介します。
意思決定に役立つコンテキストをできるだけ多く獲得するには、どうすればよいでしょうか。その答えは、大量かつ多様な情報とデータに目を向けることです。
このところ、AI (人工知能)は急速な進化を見せています。その最新の開発事例が、マルチモーダルAIです。従来のAIと異なり、マルチモーダルAIは複数のデータ入力(モダリティ)を処理できるため、これまでより正確な出力結果を生成します。
この記事では、マルチモーダルAIとその仕組みについて説明します。また、マルチモーダルAIがもたらすメリットと課題、およびさまざまな分野や業界で期待されるユースケースについて取り上げます。そしてもちろん、新たに登場するAIで常に議論となるテーマ、すなわちマルチモーダルAIの利用にあたって考慮すべきプライバシー上の懸念と倫理的な問題について検討します。
マルチモーダルAIについて学ぶ前に、この用語の最初の部分である「マルチモーダル」について取り上げましょう。AIの分野で、モダリティとはデータのタイプ、つまり形式のことです。データのモダリティには、テキスト、画像、オーディオ、ビデオなど、さまざまなタイプが含まれます。
したがって、マルチモーダルAIとは、複数の異なるタイプのデータ入力を統合して処理できるAIシステムを意味します。後述するように、入力できるデータには、テキスト、オーディオ、ビデオ、画像などのモダリティがあります。
さまざまなデータモダリティを組み合わせることで、このAIシステムは他のAIよりも多様で豊富な情報を解釈できます。人間のように正確な予測ができるようになるのも、そう遠い話ではないでしょう。このようなデータ入力の処理を通じて、マルチモーダルAIはコンテキストに基づく複雑な出力を生成します。
この出力は、(単一のデータタイプにしか対応しない)ユニモーダルシステムで生成された出力とは異なるものになります。
マルチモーダルAIはさまざまな分野で進化しており、複数の異なるタイプのデータを組み合わせることで、強力で汎用性の高い出力を生成します。注目すべき例としては、次のようなものがあります。
マルチモーダルAIの強化につながる高度なツールが、すでにいくつか登場しています。
これらのシステムはいずれも、コンテンツ作成やゲーム、実際のシナリオへの対処といった分野でマルチモーダルAIの活用が進んでいることを示しています。
マルチモーダルAIのことを詳しく学ぶ前に、まずユニモーダルAIについて理解しましょう。
多くの生成AIシステムは、テキストなど1つのタイプの入力しか処理できず、そのデータモダリティでのみ出力を生成します(テキストからテキストへの出力など)。このようなシステムは、1つのモダリティにしか対応しないユニモーダルAIと呼ばれます。たとえば、GPT-3はテキストベースのAIで、テキストは処理できても、画像の解釈や生成はできません。当然ながら、ユニモーダルAIでは、適応性とコンテキスト理解の両方において限界があります。
これに対して、マルチモーダルAIでは、複数の異なるモダリティのデータを入力し、それらのモダリティで出力を生成することが可能です。たとえば、マルチモーダルシステムにテキストと画像の両方を与えることで、テキストと画像の両方を生成できます。
ユニモーダルAI | マルチモーダルAI |
1つのタイプのデータのみを処理 | 2つ以上のデータモダリティを処理 |
コンテキストの範囲と解釈に制限あり | コンテキストを考慮した豊富な出力を生成 |
制約があり、同じモダリティで出力を生成 | 複数の形式で出力を生成可能 |
マルチモーダルAIは、データ入力のさまざまなパターンを識別するようにトレーニングされています。このシステムは、主に次の3つの要素で構成されています。
モダリティの話に戻ると、マルチモーダルAIシステムは、実際には多数のユニモーダルニューラルネットワークで構成されています。これらのネットワークが入力モジュールを構成し、さまざまなタイプのデータを受け取ります。
次に、フュージョンモジュールが、各モダリティのデータを結合、整列、処理します。フュージョンモジュールでは、アーリーフュージョン(生データの連結)など、さまざまな手法が活用されます。最後に、出力モジュールが結果を生成します。出力結果は、元の入力によって大きく異なります。
マルチモーダルAIは、ユニモーダルAIと比べてさまざまな目的のタスクを実行できるため、多くのメリットをもたらします。重要なメリットには、次のようなものがあります。
マルチモーダルAIが、ユニモーダルシステムより幅広い問題を解決できることは間違いありません。ただし、初期段階や開発段階にある他のテクノロジーと同じように、次のような固有の課題やデメリットも存在します。
マルチモーダルAIを効果的にトレーニングするには大量かつ多様なデータが必要です。大量かつ多様なデータの収集やラベル付けには、コストと時間がかかります。
複数のモダリティには、発生時間の異なるさまざまな種類や強度のノイズが含まれており、必ずしも時系列に整理されているわけではありません。マルチモーダルデータの多様性は、モダリティの効果的な融合を阻害する方向にも働きます。
データの融合に関してさらに言えば、多様なデータタイプ(モダリティ)が存在する場合、同じ時間と空間に存在する関連データを結び付けることが難しくなります。
異なるモダリティ間や言語間など、複数のモダリティにまたがるコンテンツの変換は、マルチモーダル変換と呼ばれる複雑な作業です。たとえば、テキストの説明に基づいて画像を作成するようにAIシステムに命令した場合、このような変換が実行されます。
マルチモーダル変換の最大の課題の1つは、テキスト、オーディオ、画像間のセマンティック情報や関連性をモデルが理解できるようにすることです。また、このようなマルチモーダルデータを効果的に表現するのにも困難が伴います。
さまざまなノイズレベルの管理、欠損データの管理、さまざまなモダリティのデータの統合も、マルチモーダル表現における困難な作業です。
あらゆるAIテクノロジーと同じく、倫理上およびユーザープライバシー上の懸念が生じるのは当然のことでしょう。
AIを作成しているのは人間であり、その人間にはバイアスがあるため、AIにもバイアスが生じることは避けられません。そのため、性別、セクシュアリティ、宗教、人種などに関して、差別的な出力が生成されることがあります。
さらに、AIはアルゴリズムのトレーニングをデータに依存していますが、このデータに機密性の高い個人情報が含まれている可能性があります。したがって、社会保障番号、名前、住所、金融情報など、安全性の懸念が発生します。
マルチモーダルAIの開発は時間のかかる取り組みですが、大きな期待が寄せられており、ほぼ無限の可能性を秘めています。マルチモーダルAIは、次のような用途に利用できます。
このような複雑なタスクを実行するという課題と、専門家が提起しているプライバシーおよび倫理上の正当な懸念がせめぎ合う中、マルチモーダルAIシステムが日常生活に組み込まれるようになるには、まだかなりの時間がかかるかもしれません。
このブログ記事を通じて、マルチモーダルAIの開発がAIシステムにおける重要な進歩であることをご理解いただけたのではないでしょうか。さらに研究が進めば、この革新的なテクノロジーがAIの能力を強化し、自動運転技術やヘルスケアなどの分野に革命をもたらす可能性があります。
しかし、将来への期待が膨らむ一方で、マルチモーダルAIには、バイアス、プライバシーに関する倫理的な懸念、必要なデータ量の多さといった固有の課題が依然として存在しています。
テクノロジーが進化する中、マルチモーダルAIの可能性を最大限に引き出すには、このような課題に適切に対処する必要があります。普及には時間がかかるかもしれませんが、開発を続けることでマルチモーダルAIがさらに高度になり、さまざまな分野において、複雑な問題を人間のような方法で解決できるようになることが期待されます。
このブログはこちらの英語ブログの翻訳です。
この記事について誤りがある場合やご提案がございましたら、ssg-blogs@splunk.comまでメールでお知らせください。
この記事は必ずしもSplunkの姿勢、戦略、見解を代弁するものではなく、いただいたご連絡に必ず返信をさせていただくものではございません。
Splunkプラットフォームは、データを行動へとつなげる際に立ちはだかる障壁を取り除いて、オブザーバビリティチーム、IT運用チーム、セキュリティチームの能力を引き出し、組織のセキュリティ、レジリエンス(回復力)、イノベーションを強化します。
Splunkは、2003年に設立され、世界の21の地域で事業を展開し、7,500人以上の従業員が働くグローバル企業です。取得した特許数は1,020を超え、あらゆる環境間でデータを共有できるオープンで拡張性の高いプラットフォームを提供しています。Splunkプラットフォームを使用すれば、組織内のすべてのサービス間通信やビジネスプロセスをエンドツーエンドで可視化し、コンテキストに基づいて状況を把握できます。Splunkなら、強力なデータ基盤の構築が可能です。