フェイクの動画や画像など、AIによる画像生成技術は私たちの生活を脅かす問題とともに、アイデアを加速させる素晴らしい恩恵を与える一面もあります。

画像生成AIが情報を蓄える手法の一つとしてディープラーニングという手法があり、これにより幅広いユーザーからの情報を用いてAIに情報を持たせ、ユーザーのテキストによるイメージから完成度の高いビジュアルデータを生成することが可能になりました。

2023年現在、画像生成AIがさらに発展し、文字以外の視覚的情報から詳細を分析できる技術が誕生しています。

今回は画像から詳細な情報を分析できる最先端技術「Japanese InstructBLIP Alpha」をご紹介致します。

|画像生成AIとは?

画像生成AIはさまざまな形式があります。

画像同士をミックスさせてカスタマイズするような手法から、テキストで自分が思い描いた風景や人物を表現することでAIがそれをイラストとして具現化する方法など多岐にわたります。

例えばスマートフォンアプリでも使えるフォトショップなどは、AIによる画像補正から特殊フレームによる画像加工までさまざま行え、自分が気軽にとったスマホの写真がまるでプロカメラマン、プロイラストレーターが作成した作品のような加工が可能です。

またGoogleのお絵描きソフト「Quick,Draw」などは画像生成、画像認識AIの走りでAIのディープラーニングによる画像認識のシステムを活用したプログラムで、お題で出されるキーワードをプライヤーが制限時間に画面上に描いて、それがAIによって認識されるかどうかで遊ぶゲームです。

これらはお題に対しての正解の基準はユーザーが書いた絵の類似点などデータ化し、その平均値を正解としています。

画像生成自体は目新しい技術ではありませんが、注目されたターニングポイントとしては、文章が画像に変換されるという点です。

これはディープラーニングなどAI技術がないと発展しえなかった技術で、2022年に「Hidjourney」がリリースされ、絵画のテクニックや知識が無くてもイメージを言語化できれば、完成度の高いビジュアル作品になる事で一気に注目を集めました。

|JapaneseInstructBLIP Alphaとは何か?

出典:https://ja.stability.ai/blog/japanese-instructblip-alpha

Stability.AIという企業が開発したAIです。

Stability.AIはStable Diffusionというテキストから画像生成できるAIとして注目を集めました。

入力されたテキストで、ユーザーのイメージをリアルに可視化するシステムで、難しいプログラムや生成に関するアルゴリズムを理解しない状態でも、組み合わせる単語と文章のニュアンスで精度の高いイラストを構築することができます。

また、Stability.AIは画像生成だけではなく音や音楽の生成が可能なStable Audioや、言語を生成すStableLM なども開発しておりますが、すべてのソースが英語の為、パフォーマンスを発揮する為には英語の理解が必要でした。

そして2023年、世間にAIの技術が一気に広まり、欧米諸国に比べて日本がAIに対し受け入れる側の国として規制が柔軟な為か、日本語に対応した言語生成AIが開発されたのがJapaneseInstructBLIP Alphaです。

JapaneseInstructBLIP Alphaはユーザーが指定した画像を読み込み、画像を言語化してくれます。

例えば「リンゴ」のイラストや画像を読み込んだ際に、それが赤リンゴなのか青リンゴなのかなど画像の詳細を言語化してくれるのです。

今まではテキストから画像を生成するAIが主流でしたが、このような画像からテキストを生成するAIの試みは珍しく、人間が視覚から得る情報を会話型チャットボットが具体的にテキスト化する技術は、さまざまな分野で応用が可能なため、注目をあつめています。

|JapaneseInstructBLIP Alphaの特徴

JapaneseInstructBLIP Alphaの特徴は2つあります。

ひとつは日本語で画像から知りたい情報を言語化できる点です。

日本語に対応していることにより、日本語特融のニュアンスが伝わりやすくなり、画像についての解説がわかりやすいです。

また、画像に対しての質問も日本語で行えるためI初心者でも敷居の低いシステムといえます。

もうひとつが画像の言語化です。

言語化の特徴としては2点あります。

ひとつは読み込んだ画像の解説を自動に行ってくれる事と、もうひとつは読み込んだ画像に対してユーザーが任意に質問した内容に答えてくれます。

公式HPにあるようなインコの画像を読み込めば、まずは画像のイメージとしてのキャプションが生成され、インコの背景に何があるのかなど質問すれば、「富士山」や「山がある」など回答してくれる感じです。

|JapaneseInstructBLIP Alphaと他の生成AIとの違い

JapaneseInstructBLIPが他の生成AIと違う点は、やはりビジュアルからの言語化です。

ChatGPTや他の画像生成AIは明確な指示(プロンプト)を人間ができないと、パフォーマンスが発揮できない仕組ですが、JapaneseInstructBLIPに関しては、ビジュアルという具体的な情報を軸に人間がイマジネーションを働かせることができるので、AIに出す指示や質問が具体的であり、手に入る情報も回りくどくなくなることが期待できます。

また、ビジュアルからの言語化で注目したい部分は、絵本のようにストーリーが視覚的にもわかりやすい画像であれば、その画像を言語化してビジュアルから小説や物語が生み出せるのも興味深い技術です。

JapaneseInstructBLIP Alphaはイメージをテキストにより拡張できる性能が、他の生成AIとの違いと言えるでしょう。

|JapaneseInstructBLIPに期待されること

JapaneseInstructBLIP Alphaはまだ開発途中の技術ですが、さまざまな期待がされています。

ここではビジュアルから言語化できるシステムが、どのように私たちに役立つのか考えてみたいと思います。

画像検索エンジンとしての応用

画像からさまざまな情報が読み取れることにより、それに紐付く情報を検索することが考えられます。

Googleレンズも画像検索の一例ですが、Googleレンズは読み取った画像に対してAIが関連情報をピックアップするのでユーザーにとっては受動的な状態です。

JapaneseInstructBLIP Alphaは読み取った画像に対して、解説は出てきますが、ユーザーは画像から知りたい情報だけを指示して能動的に手に入れることができます。

GoogleレンズとJapaneseInstructBLIP Alphaは求められている用途が根本的に違うので、現段階で比較するのは難しいですが、ビジュアルから感覚的に自分の欲しい情報だけを手に入れられることは、今までのテキストからの検索ではできない効率化を手に入れることができるかもしれません。

目の不自由な方に向けたアプリケーション

JapaneseInstructBLIP Alphaは画像からテキストに情報が変換できるため、目に障害があるかたのサポートができるAIになるかもしれません。

読み取ったビジュアルがテキスト化が出来ればテキストを音声として変換し、音声で周りの状況を確認することで、今まで手でわさって確認したものが音声でも確認できるようになるでしょう。

また、視覚障害者用にあらかじめ用意された情報だけでなく自分が欲しい情報を自由に手に入れる事が期待できます。

|JapaneseInstructBLIP Alpha以外の画像認識AIの種類と活用事例

JapaneseInstructBLIP Alpha以外にも画像とAIを利用したさまざまなシステムが存在します。

ここでは3つピックアップして紹介していきます。

SentiSight.ai

出典:https://www.sentisight.ai/

SentiSight.aiは画像をスキャンしてAIによる画像認識、摘出、分類、類似検索などするシステムを開発している会社です。

画像認識機能はさまざまな分野で活躍が期待されており、例えば小売業であれば欲しい画像を写真で撮って類似検索したり、工業系ではパーツの組み合わせや欠陥を検出したりできます。

他にも類似品を探す機能を利用すれば、マーケティングにも活用できユーザーがどのビジュアルの商品やサービスに対して反応しているかなど、感覚的な部分が可視化されて、

より効率的なセールスが可能になるでしょう。

Amazon Rekognition

出典:https://aws.amazon.com/jp/rekognition/

アマゾンが提供するシステムで、AIを利用して画像認識とビデオ分析をすべて自動化して、ECサイトの効率化もできるシステムです。

顔認識からテキスト抽出など高度な機能がさまざま詰まっており、応用次第ではECサイトの効率化だけではなく、自宅の防犯カメラの検出機能をカスタマイズできたりします。

代表的な活用事例としては、画像から不適切なコンテンツを摘出したり、オンライン上での本人確認、動画コンテンツの作成など幅広く活用されています。

Clarifai

出典:https://www.clarifai.com/

ClarifaiはAIを利用して類似する画像をタグをつけてまとめたり、高度な画像認識と検出技術で製造業の保守管理にも使われています。

また読み取ったデータに画像にテキストを自動で反映し、読み取った物体や人物の解説をリアルタイムに表示できるようです。

イメージとしては映画などでよく見るシーンで、大勢の人の中からビデオカメラの画像を通して犯人の特徴を検出してマーキングするような感じです。

実際にClarifaiのシステムは政府機関にも技術提供している様子で、画像認識、検出などの技術はトップクラスでしょう。

|まとめ

今回は読み込んだ画像からテキスト化するAI、JapaneseInstructBLIP Alphaと類似する画像認識AIの紹介をしました。

JapaneseInstructBLIP Alphaは今までのテキスト生成AIとはアプローチの方法が違うため、よりクリエイティブな使い方や、視覚障害を持つかたのサポートが期待できる生成AIです。

ビジュアルからテキストに変換するというシンプルなフローですが、直観的、感覚的に使えるAIは人間にとって身近な存在になるかもしれません。