本記事では、音声合成、音声認識について興味関心がある人、ビジネスに活用しようと考えている人に向けて、音声合成技術や、そうした技術を利用した各種サービスの特徴などを紹介します。

本記事をお読みになれば、音声合成の概要を知り、ビジネスに活かせるのか検討できるようになりますので、ぜひ最後までお読みください。

|音声合成とは

音声合成とは、テキストを読み上げる音声を機械的に作り出す技術のことです。

現在メジャーになっている「規則合成方式」は、入力されたテキストから自動的に音声を生成するものです。

近年スマートフォンなどの普及によって、一般のユーザーから大量の学習データを集められるようになったため、急速に進化しています。

関連して、音声認識という技術も近年進化してきています。

こちらは音声合成とは逆に、人の話し声をテキストに変換する技術です。もともとはそれぞれ異なる技術に基づいていたため、別々の発展をしていました。

しかし近年は、音声認識も大量の学習データを用いる方式が一般的になり、音声合成と相乗的に進化するようになりました。

|音声合成が注目される理由

テキストを音声に変換する音声合成は、誤読やイントネーションの不自然さなどをリアルタイムで修正することが難しく、実用化するのが難しい状態でした。

そのため、Webページの読み上げといった、限定的な用途でしか使われていませんでした。

しかし近年はディープラーニング技術の進化によって、従来よりも人間の肉声に近い音声を合成できるようになり、より広い分野で活用されるようになってきています。

音声合成を利用することで、人による情報の読み上げ作業を省略できるようになります。活用できる範囲が非常に広いため、様々な業界から注目されています。

|音声合成の仕組み

ここからは、音声合成の様々な方式をご紹介し、その仕組みをご説明します。

録音編集方式

音声合成技術が登場した当初の方式です。

単語や短い文章などをあらかじめ録音して、それらを必要に応じてつなぎ合わせるものです。

現在でも、駅の構内放送など、読み上げるべき文章のパターンが限定されているような場面で活用されています。

テキスト音声合成方式

テキストを読み上げ音声にする方式です。

録音編集方式とは違い、事前に録音していない単語や文章でも音声を合成することができます。

「規則合成方式」と「コーパスベース合成方式」に分類できます。

規則合成方式

音響的、言語的規則をあらかじめ設定しておき、それに基づいて音声波形を合成する方式です。

この方式で音声を合成すると、人の肉声に聞こえない不自然な声になってしまうという欠点があります。

コーパスベース合成方式

大量のテキストと、それを読み上げた音声録音データをもとに音声コーパスを作り、統計的な手法で音声を合成する方式です。

コンピュータやAIの進歩によって一般的になった手法で、「波形接続型合成方式」と「統計モデル型合成方式」に分類されます。

波形接続型合成方式

あらかじめ録音された声を適切な単位に分割し、それらをテキストに応じて合成する手法です。

統計モデル型音声合成方式

音声コーパスを機械学習を使って分析し、特徴をモデル化したうえで、そのモデルに基づいた予測によって音声を合成する手法です。

波形接続型合成方式に比べて、少ないデータでも安定した音声を合成できるため、近年はこの手法が普及してきています。

この手法には、HMM方式とCNN方式があります。

HMM音声合成

HMMとは隠れマルコフモデル(Hidden Markov Model)のことです。

マルコフモデルとは過去に起きた事象に基づき、時間と共に変化する確率変数を予測できるという特性がありますが、隠れマルコフモデルは、過去の条件がわからないまま出力だけが明らかになっているマルコフモデルを指します。

このモデルを導入することで、自動的に機械学習できるようになり、音声合成技術が大きく発展しました。

DNN音声合成

DNNとはDeep Neural Networkの略で、脳の神経回路を模倣した数理モデルを用いて、より複雑な処理を行えるようにした技術です。

学習データ量を増やせばモデルの精度が上がりますが、一方で音質・安定性を高めるには大規模な学習データが必要です。

HMMより必要な計算量が大きく、また問題が見つかった時の調整が困難などの課題もあります。

|AIによる音声合成の活用例

ここからは、音声合成を実際に活用しているサービスについてご紹介します。

CoeFont CLOUD

出典:https://coefont.cloud/

ユーザーが自分の声を登録でき、登録した人の声で合成音声を作ることができるサービスです。

ウェブブラウザで利用でき、パソコンでアクセントの編集も行えるという手軽さが特徴です。

対話型AI HAL3

出典:https://youtu.be/SmavzNustfA

人とコミュニケーションを取るためのAIシステムであるHAL3には、機械感のない自然な音声にするために音声合成の技術が活用されています。

mobiVOICE

出典:https://mobilus.co.jp/solution/voice

電話での問い合わせに、音声合成を用いて応答するシステムです。音声合成サービス「coestation」を利用することで、文脈に応じた感情を表した声にすることができます。

AI Talk

出典:https://www.ai-j.jp/

音声合成ソフト「AI Talk」は、ディープラーニング技術によって、高性能で自然な音声合成が可能です。駅構内の音声案内や防災行政無線、J-ALERTなど、多くの採用実績があります。

|まとめ

ここまでお読みいただき、ありがとうございました。

合成音声は、スマートフォンの普及やAI技術の発展に伴って、近年大きな進化を遂げています。

ご紹介した通り、ビジネスに取り入れやすい高性能なサービスも多く登場していますので、自社の事業への導入もどうぞご検討ください。