人の表情や声を正確に模倣するディープフェイクは有名ですが、それらに使われている音声合成技術は生成AIとして提供されています。

Microsoftが新たに発表した音声合成AIモデル「VALL-E」は、たった3秒間の音声サンプルからその人の声を忠実に再現できます。

VALL-Eではこの他、感情の調子を調節したり、録音環境の再現も含んだ合成音声の生成にも対応しています。

|音声合成AIとは

音声合成技術は既に多くの分野で活用されており、アニメーションからパーソナルアシスタントまで合成音声に触れる機会は多くあります。

音声合成の歴史は1950年代から始まり、声道の特徴の研究に始まり近年の目覚ましいAIによる音声合成技術に至っています。

その要因として挙げられるのは①深層学習に端を発するAI技術の進化、②インターネットの普及による学習用データの増加、③コンピューターの性能向上です。

従来の合成音声は機械的で無機質なものでしたが、近年の技術進化により人間とほとんど見分けがつかないレベルの音声生成が可能になっています。

|VALL-Eとは

出典:https://www.microsoft.com/en-us/research/project/vall-e-x/

上記でも述べましたが、VALL-Eの最大の特徴はわずか3秒間の音声からその人の声を再現できる点です。

人の声を正確に再現できる他、一度その人の声の特徴を学習すると、その声の感情的な抑揚や、録音環境も再現した合成音声を生成できます。

おもな特徴として、単なるテキスト読み上げではなく、感情の起伏を取り入れたより自然言語的な音声生成ができることが挙げられます。

基本言語は英語ですが、下記で解説する拡張版のVALL-E-Xは他言語への変換生成が可能で、日本語の話者の音声を英語のそれとして自然な音声を生成できます。

こうした合成音声は様々な分野に活用が見出されており、教育、エンターテイメント、コンテンツ制作、パーソナルアシスタント、チャットボットなど様々です。

|VALL-Eの特徴

VALL-Eは既存の音声圧縮技術やデータセットを用いて、短時間の動画から音声の正確な再現を実現しています。

以下では、VALL-Eの具体的な特徴や技術について解説していきます。

音声を圧縮する技術を採用

VALL-EではMetaの音声圧縮技術を使用して、データを細かい要素に分解することでわずか3秒の音声データから人の声の忠実な再現を実現しています。

3秒の音声データだけで、その人の音声に非常に良く似た発話をAIが生成できるだけでなく、音声に感情を交えたり、眠さなどの様々な調整を加えられます。

また、音声環境を模倣することも可能で、例えばサンプルに電話越しの音声を用いれば電話越しの会話のような音声を生成できます。

膨大な音声データから学習

現在では学習用の音声データライブラリが豊富になり、VALL-Eでは約6万時間分の学習用音声データを用いてAIを訓練しています。

この音声データライブラリはMeta AIが作成した「LibriLight」で、7,000人以上の英語話者による会話データが含まれています。

ほんの数年前まで、AIの学習には膨大なデータセットが必要となるため、十分な学習用データを手に入れるのが困難という状況がありました。

現在ではLibriLightのような、AI学習用の共有データセットが数多く公開されているので、こうした要因も生成AIの進化を大きく後押ししています。


声色や感情、音響までも模倣できる

上記でも述べましたが、VALL-Eの大きな特徴として、人物の声や感情までもリアルに模倣できることが挙げられます。

合成音声は往々にして無機質で機械的なので、電話のオペレーターなどで合成音声が使われているとすぐに分かります。

ですが、VALL-Eの合成音声は人間のそれと極めて近い感情豊かな音声を生成するので、人間の肉声と合成音声との差が無くなりつつあります。

|VALL-Eの危険性とリスク

こうした音声合成技術の進展には目覚ましいものがありますが、一方で音声合成AIを悪用した詐欺や、誤った使い方によるリスクがあります。

特にVALL-Eのような精度の高い合成音声AIはディープフェイクの作成などにも転用できるので、利用には個人のリテラシーが求められます。

こうした悪用のリスクに関して、Microsoftはリスクを認識した上で、音声がVALL-Eで作成されたものかどうかを検出するAIモデルの作成について言及しています。

|現在は「VALL-E X」が公開中

最近ではVALL-Eの拡張版であるVALL-E-Xが公開されたことで、音声の言語変換が容易になりました。

上記でも少し触れましたが、音声データの言語が日本語でも、設定を変えてそれを英語の音声として生成できます。

VALL-Eは人間のような声を生成しますが、オリジナル音声との類似性や音声の自然さは、プロンプトの質や長さ、含まれている雑音などに起因します。

このため、特に他言語への変換を行う場合などはできるだけ尺の長い、雑音の少ないクリアな音源を使うべきでしょう。

|まとめ

合成音声技術には長い歴史がありますが、近年の生成AI技術の発展によってVALL-Eではわずか3秒の音声データからその人の音声を生成できます。

それ以外にも、音声に感情を加えたり声色を変えたりなどできる技術は、教育やアート、エンターテイメントなどの多くの分野で活用されるでしょう。

こうした合成音声AIはディープフェイクの生成に簡単に転用されるので、AIが生成したものかどうかを判定する検出技術などの対策が求められます。

そうした危険性も理解したうえで利用を検討するようにしましょう。