近年、さまざまな業界でAIの研究が進められ、自動運転技術や動画プラットホームの管理に活用されるようになりました。

自動運転や動画プラットホームの管理に活用されているAIは複数の情報を処理できる「マルチモーダルAI」です。

以前のAIはテキストや画像などの1つの情報を処理することしかできませんでした。

しかし、「マルチモーダルAI」の登場により、より複雑な作業を行えるようになり、研究や開発が進むことで今後はさまざまな業界でAIの活用が期待されています。

この記事の前半では、マルチモーダルAIの概要について、後半ではマルチモーダルAIの現在・今後の活用事例について、詳しく解説します。

|マルチモーダルAIとは

マルチモーダルAIとは、テキストや画像、音声、動画などの複数の種類の情報を一度に処理することが可能なAI技術のことをいいます。

今までのAI技術では、テキストや音声のみといった1種類の情報からでしか処理することができませんでした。

これを、「シングルモーダルAI」といいます。

しかし、マルチモーダルAIへと進化したことで、視覚・聴覚・触覚などの人間の五感のように情報を処理できるようになりました。

そのため、複数の情報を処理することができるため、人間に近い判断ができるAIといえます。

また、マルチモーダルAIを語る上で、「ディープラーニング(深層学習)」も重要な要素であるため、次で詳しく解説します。

|ディープラーニングとは

ディープラーニング(深層学習)とは、人間の脳神経の働き(ニューラルネットワーク)をマネして作られたAIのアルゴリズムのことです。

受け取った情報から規則や共通点を見つけ、学習・分析を行うことができる技術です。

人間が買い物をする時がいい例で、PCを買う時に値段・スペック・使う頻度などさまざまなことを考えますよね。

例えば、使用頻度が少ない人であればスペックよりも値段を重視したり、動画編集などに使う人はスペックを重視したりと違うはずです。

その「〇〇な人は△△を優先的に選ぶ」という複雑な考えをAIでも可能にしたということです。

また、マルチモーダルAIを組み合わせることで、複数の種類の情報を一度に処理・学習・分析が可能となり、人間に近い判断をすることができるようになります。

|マルチモーダルの歴史

マルチモーダルは最近の技術のように感じますが、実は古くから研究が行われていました。

マルチモーダルのはじまりとなる研究は1986年から開始されています。

人間の会話は、周囲の雑音や音が大きい状況でも口の動きと音声、話の流れなどから、より正確に言語を処理・理解しています。

このことから、まずは手始めに「画像と複雑な音声から言語を認識し、テキストへ変換する」という2つの情報を処理する研究から始まりました。

2013年には「テキストを入力すると、喜怒哀楽さまざまな表情で話せる」ことを可能にする研究が進められるようになり、より人間に近づける研究が始まっています。

そして、2023年現在マルチモーダルAIの発展に伴って、さまざまなビジネス用途に合わせて使われるようになりました。

|マルチモーダルAIの活用事例

マルチモーダルAIは、どのような場面で活用されているのでしょうか。

現在、実際に活用されている事例は4つあります。

  • 自動運転
  • 動画プラットフォームの監視
  • フリマアプリの出品物の確認
  • 産業用ロボットでの活用

それでは、以下で1つずつ解説していきます。

自動運転

マルチモーダルAIの活用事例1つ目は「自動運転」です。

自動運転技術は世界で最も有名なマルチモーダルAIと言ってもいいでしょう。

人間が車を運転するとき、人や物の位置を把握・予測、標識の確認、スピードの調整、車間距離などさまざまなことを五感を使って同時に判断し、処理を行っています。

このような人間の行動を再現するために、複数のカメラや車両や人物などの速度を検知するミリ波センサー、加速度センサー、GPS、踏切などの音を聞き取るマイクなどが搭載されています。

このような人間の行動をマルチモーダルAIを使うことで、複数の情報を判断し、処理することが可能となってきています。

動画プラットホームの監視

マルチモーダルAIの活用事例2つ目は「動画プラットホームの監視」です。

現在、YouTubeやTikTokなどの動画コンテンツが多くなってきており、人間がすべての動画を視聴・監視することは不可能と言えるでしょう。

しかし、マルチモーダルAIを使うことによって、すべての動画の視聴・監視を可能としました。

ユーザーが投稿した動画から映像や音声を組み合わせて意味や意図を分析し、不適切な内容が含まれていないかを監視することに使われています。

フリマアプリの出品物の確認

マルチモーダルAIの活用事例3つ目は「フリマアプリの出品の確認」です。

フリマアプリは、誰でも簡単に不要になった商品を販売することができ、利用する人がどんどん増えています。

そんな中マルチモーダルAIを導入することで、写真や説明分などの情報から分析し、違法物やコピー商品などの不適切な商品が販売されていないかの管理ができるようになりました。

また、不適切な商品を販売した人物は法律違反となるため、身元などが調査されて適切な対処がされるようになっています。

産業用ロボットでの活用

マルチモーダルAIの活用事例4つ目は「産業用ロボットでの活用」です。

ロボットに搭載されたカメラやセンサーから、画像・角度・速度・力覚などの複数の情報を組み合わせて判断し、ロボットアームを動かして繊細な作業を行うことができます。

例えば、自動車製造で研磨作業に使われたり、食品製造でお弁当の詰め合わせなどの繊細な作業が可能です。

このような繊細な作業が可能であるため、マルチモーダルAIはさまざまな産業用ロボットとして取り入れられています。

|マルチモーダルAIの今後

今後マルチモーダルAIはどのように広がっていくのでしょうか。

具体的に以下のような場面での活用が期待されています。

  • 医療
  • マーケティング
  • コミュニケーション
  • 工場
  • エンターテイメント
  • スポーツ

それでは、以下で1つずつ解説していきます。

医療

医療において、マルチモーダルAIの活用が期待されています。

なぜなら、診断の精度や患者の診察データや検査結果・症状などから病気の見逃し・早期発見に繋がる可能性があるからです。

実際に、東京大学医学部附属病院とグルーヴノーツの研究チームが、「肝臓の超音波画像と患者情報を統合することで、見つかった腫瘍は良性か悪性かと高精度に判断できるようになった」と発表しています。

また、世界中のさまざまなデータが記憶でき、画像も細かく分析できます。

例えば、「かぜの症状で受診したにも関わらず、内臓の病気が見つかった」なんてこともあるでしょう。

病気の見逃し・早期発見に繋がるため、マルチモーダルAIは医療での活用に期待されていると言っていいでしょう。

マーケティング

マーケティングにおいてもマルチモーダルAIの活用が期待されています。

さまざまな分析を同時に行うことができ、多角面から評価・分析が可能になるためです。

マーケティングには、3C分析やSWOT分析、5フォース分析など、さまざまな分析方法があります。

また、競合調査も必要であるため、他社の情報も集めなければなりません。

そこでマルチモーダルAIを導入することで、さまざまな評価・分析・調査をすぐに行うことができます。

また、実際の店舗における顧客の表情・会話などから顧客満足度の調査を行うことも可能です。

さまざまな分析や顧客満足度を知ることで、会社の売上向上などに貢献することができます。

コミュニケーション

マルチモーダルAIはコミュニケーションを取るうえでも役立つと考えられています。

AIが人とコミュニケーションを取れることで、スタッフがより複雑な業務に当たる時間が増やせることが期待されています。

例えば、受付窓口や案内などです。

実際に、アイシン精機が車内の見守りシステムとしてマルチモーダルエージェントを開発しました。

女子高生CGキャラクターの「Saya」が採用されており、日常会話から忘れ物があったときに警告するなどの機能が備わっています。

今後は相手の表情や心情を読み取って、より複雑な会話が可能となるように研究が進んでいます。

コミュニケーション面でマルチモーダルAIが活用されれば、人間の仕事の負担が減り、より複雑な仕事を行うことが可能となるでしょう。

工場

今後は「工場」でのマルチモーダルAIが積極的に活用されていくと考えられています。

特に、検品作業や単純作業、繊細な作業、管理業務などをマルチモーダルAIが行うことで、人件費をカットすることに期待が寄せられています。

すでにカメラやセンサーを使った検品作業は多くの工場で取り入れられています。

今後は、マルチモーダルAIを使用することで、検品作業に加えて単純作業から自動車部品の研磨作業やお弁当の詰め合わせなどの繊細な作業まで行えるようになります。

また、シフト管理や勤怠管理などの管理業務も行うことができるため、人件費だけでなく時間的コストの削減も見込めるでしょう。

工場の多くで導入されれば大幅な人件費などのコストカットに繋がるため、需要が高くなると考えられます。

エンターテインメント

エンターテイメント分野でもマルチモーダルAIの活用がされていくと考えられます。

なぜなら、マルチモーダルAIは言語や画像などの情報から、アートや映像などの作成ができるからです。

実際に言語を入力するだけでアート作品が作成できたり、複数の画像からアート作品を作り出すものがあります。

人がアート作品や映像などを作成すると、膨大な時間がかかってしまいます。

マルチモーダルAIが作成することで、数時間かかる作業を数分ほどに縮めることができ、人の負担軽減に繋がります。

今後は、その場のシチュエーションなどにあった映像や画像や音楽を組み合わせて映像を作成するなどといった方法で、エンターテイメントに活用されるようになるでしょう。

スポーツ

スポーツ分野でもマルチモーダルAIは活用可能です。

なぜなら、選手のパフォーマンス分析や試合の分析、アスリートの体調管理、トレーニング方法の立案などができるからです。

すでにサッカーなどのチームスポーツで、選手ごとのさまざまなパフォーマンスレベルの分析に使われています。

今後は、選手一人ひとりに合ったトレーニング方法の立案や相手選手・チームの分析を行って戦略の立案に活用することができます。

また、フィギュアスケートや体操、飛び込みなどの採点競技にAIは活用されていくでしょう。

採点競技は審判員によって採点が異なる可能性が高いため、マルチモーダルAIを活用することで、同じ基準で点数をつけることが可能となります。

|まとめ

いかがでしたか?

この記事では、マルチモーダルAIについて詳しく解説しました。

マルチモーダルAIとはテキストや画像、音声、動画などの複数の種類の情報を一度に処理することが可能なAI技術のことです。

今までのシングルモーダルAIでは、テキストや音声のみといった1種類の情報からでしか処理することができませんでした。

しかし、マルチモーダルAIの登場により、現在・今後のAI活用に大きな変化をもたらしています。

すでに自動運転や動画プラットホームの管理、産業用ロボットなどでAIは活用されており、今後は、医療やスポーツなどさまざまな業界での活用が当たり前となっていくでしょう。