2023年現在、我々の生活にはAI技術が当たり前になりつつあります。

ChatGPTのように人間が書いたような文章を瞬時に生成するAIや、音声を認識した上でテキストに書き起こすAIは日々幅広い現場で活用されています。

さらに、文字情報から適切な画像を生成するといったアート分野に対してもAI技術は進出しているのです。

そしてAI技術は人間が書く「文字」や「絵」といった分野だけではなく、「声」に関しても代替する能力を持ち始めました。

アナウンサーやナレーターがこれまで録音していた音声情報を、AIが対応できるようになったのです。

ここ最近ではテレビ番組におけるニュース原稿を、AIによる自動音声が読み上げることも増えてきました。

これまで発声やアクセントといった専門学習を受けた人が対応する音声分野も、AIによって対応可能になりつつあるのです。

本記事では、音声を出力するAIソフトである「AITalk」について、その特徴から仕組み、さらには活用事例までを一挙解説します。

今後主流になる可能性の高い、音声分野のAIについて本記事を読んで理解を深めましょう。

|音声合成AITalkの特徴

出典:https://www.ai-j.jp/about/

音声エンジンである「AITalk」は、深層学習技術を活用した「DNN音声合成方式」と、「コーパスベース音声合成方式」を選択できます。

利用シーンに合わせた適切な音声を使用できるため、違和感のない自然なナレーションが実現できるのです。

そんな「AITalk」の特徴について、以下の3つに沿ってそれぞれ解説していきます。

自然な音声が生み出せる

これまでのAI音声は、抑揚がない不自然な発音が特徴であり、誰が聞いてもそれが機械による音声だと分かりました。

しかし、「AITalk」によって生み出される音声は違います。

最新の深層学習技術が活用された音声方式によって、より人間らしく豊かな音声が実現しているのです。

実際の会話に近いレベルでの音声を生み出せることは、様々な場面において大きなメリットがあります。

文章をスムーズに読み上げる

「AITalk」には、開発元であるエーアイが独自に研究する日本語解析技術を搭載しています。

そのため、入力されたテキストに応じた最適な読み方、アクセントを自動で分析。

まるでプロのアナウンサーが話しているかのような、自然で流暢な文章読みが可能となるのです。

人間のように文章を噛んでしまう心配もないため、どんな長文でもスムーズに読み上げが可能。

一定の質を保ちながら安定して話せる点は、AIならではの特徴だといえるでしょう。

様々な言語、方言に対応

「AITalk」は日本語だけではなく、40種類以上の言語に対応しております。

さらに、話者も100人以上揃っていることから、読み上げる文章に応じて最適な声質を選択できるのです。

年齢も大人から子供まで対応していますので、フォーマルな文章から子供向けの文章まで幅広い使い方が想定できるでしょう。

また、一般的にプロのアナウンサーやナレーターが話す言葉は、「標準語」と呼ばれる関東圏の方言です。

しかし、「AITalk」では関西弁にも対応しています。

そのため、方言を上手く活用した演出もAIを通しながら可能となるのです。

実際の声を合成可能

「AITalk」には100名以上の話者データが搭載されていますが、自身で声を合成した上で新たな声を生み出すこともできます。

すでに400以上の作成実績を持っており、芸能人や声優といった自身が想定する声から理想の声質を作り出せます。

もちろん自身の声でも短時間での収録で音声合成用のデータに変換可能。

あらゆる声質を自在に生み出せるため、想定通りの文章読み上げが簡単に実現するのです。

|AITalkの仕組み

幅広い声質を搭載しており、自身でも音声合成が可能である「AITalk」。

さらに、その発音についても非常に自然であり、まるで人間が話しているかのような感覚に陥ってしまいます。

その大きな要因は「AITalk」に搭載されている複数の辞書にあります。

「AITalk」にはテキストから日本語を解析し、読みからアクセントまでを付与する多言語辞書を搭載しています。

そこから各単語に応じた適切なアクセントを処理する言語辞書、そして収録した音声特徴を学習する音声辞書が活用されるのです。

使用する声質の高さからパターン、長さを分析し、波形データとして保存。

そこから発声の強弱や抑揚といったパターンを予測し、新総額種に基づいた自然な音声合成が実現するのです。

複数バージョンが開発されてきた

「AITalk」は近年に始まったサービスではなく、実は2007年4月に初期バージョンが提供されました。

そして、2010年6月にはVer.3.2まで改良され、当時にはすでに基本的な文章読み上げ、出力といった機能を備えていました。

Ver.3.0の時点では日本語解析処理のレベルが向上しており、より人間らしい自然な発音が実現。

その後、2012年6月には「AITalkⅡ」の提供が開始されたのです。

ルビ機能が追加されたことによって表記と異なる発音が可能となり、発音に対する抑揚調整も実現しました。

翌年の2013年6月には「AITalk3」によって、フレーズ単位での抑揚調整、さらには関西弁による発声も追加。

しかし関西弁話者はβ版扱いでの提供となり、メインとして使用されることはありませんでした。

そして2015年6月に提供された「AITalk4」では、個別の感情表現に対するパラメータ調整、さらに関西弁話者が製品版としてリリースされることになったのです。

2020年4月には「AITalk5.0」の提供が開始され、前述した深層学習機能を兼ね備えた、最新式の音声AIが登場しました。

この他には個人向けブランドである「A.I.VOICE」や、費用を抑えた「A.I.VOICE Junior」、法人向けサービス「A.I.VOICE Biz」の展開も始まり、様々な分野においてAI音声の活用が広がっているのです。

|AITalkの活用シーン

AIによる自然な読み上げが実現する「AITalk」は幅広いシーンにおいて活用できます。

こちらでは、代表的な以下の事例についてそれぞれ解説します。

  • 音声対話
  • 交通情報
  • 観光案内

音声対話

「AITalk」の音声対話は、人間を相手にしているかと錯覚してしまうほど、自然な会話を通じた情報検索が可能になるシステムです。

分かりやすいインターフェースを実現しており、年配の方や小さなお子様でも利用できる環境を整えています。

まるで専属のコンシェルジュを相手に会話している感覚で、様々な情報を音声を通じて取得できます。

音声による対話システムは「Siri」に代表されるスマホアプリや、各種ロボット、ぬいぐるみといったおもちゃなど様々な分野において活用されています。

「AITalk」では会話内容の認識から内容を理解し、合成した音声による返答までを合わせることが可能。

テキストを超えたコミュニケーションが実現することで、AIと人間の距離がより近くなることが考えられるでしょう。

交通情報

高速道路や一般道は、常に状況が変化し続けることからリアルタイムの状況を瞬時に伝える必要があります。

しかし、夜間や休日といったオペレーターが直接対応しにくいケースでは、なかなか情報を求める人達に対して十分な提供をすることが難しくなります。

そういったケースにおいても、「AITalk」を活用することで音声ガイダンスとして常に最新の情報を音声にて放送可能に。

電話での問い合わせ窓口においても、的確なアナウンスを行うことでスムーズな情報提供を実現します。

事故や渋滞といったトラブルが発生した場合でも、音声によるリアルタイム配信ができることは新たなトラブルを未然に防ぐという意味でも有効でしょう。

また、電話対応が集中した場合にも、あふれた問い合わせへ対応することでクレームの対処にもつながります。

観光案内

2023年現在はコロナ禍も収まりをみせ、日本国内からの旅行者はもちろん、世界各国からの訪日客も増加しつつあります。

各地、観光客による活気を取り戻しつつある一方で、多くの人達に対する観光案内やガイドが不足していることも事実です。

そういったケースにおいても、「AITalk」による音声ガイダンスを利用することで、いつでもどこでも簡単に適切なアナウンスを流せます。

駅や観光地の看板を世界各国の言葉に差し替えることは困難ですが、音声による案内であれば気軽に実施可能。

さらに人間による録音を必要としないため、突発的な内容にも瞬時に対応できます。

テキストだけでは伝えにくい細かな情報を音声によって案内し、大勢の人が集まることによって発生するトラブルを未然に防ぐのです。

|企業での活用事例

「AITalk」は様々な企業においても活用されています。

こちらでは、代表的な以下の企業における活用事例を解説します。

  • アサヒ飲料株式会社
  • WOWOWコミュニケーションズ
  • 株式会社NTTデータユニバーシティ

アサヒ飲料株式会社

アサヒ飲料株式会社では、コロナ禍による在宅勤務による研修において、eラーニングを活用していました。

しかし、在宅勤務において収録に適した環境整備の手配は困難。

さらに、録音による読み間違いがあると再度やり直しになるなど、研修準備に伴う労力に課題を持っていました。

そこで、「AITalk」による合成音声を利用することで、研修準備に伴う課題を解消。

多くの人が理解しやすいナレーションを瞬時に作成できるようになったのです。

WOWOWコミュニケーションズ

WOWOWコミュニケーションズでは、顧客からの問い合わせに対するガイダンスを特定の人間が録音し、流すという対応をとっていました。

しかし、全てのガイダンスを同じ人に統一することは難しく、日によって声のトーンが異なることで聞き取りにくいという課題を持っていました。

そこで、「AITalk」を活用し高品質で統一感のあるガイダンスの作成が実現。

顧客から寄せられていた音声の聞き取りにくさも解消されたといいます。

株式会社NTTデータユニバーシティ

株式会社NTTデータユニバーシティでは、開発手順の研修ナレーションを人が登壇して説明する動画を利用していました。

しかし、特定箇所の修正対応が難しく、長い期間に渡って利用できないという課題を抱えていました。

そこで、「AITalk」による音声ガイダンスに変更させ、より効率的な研修ナレーションの作成に成功したのです。

|まとめ

音声読み上げソフトである「AITalk」について、その概要から仕組み、そして活用事例までを解説してきました。

すでにAIはテキスト、絵画といった分野だけではなく、「声」を使用した音声にも活用され始めています。

音声読み上げAIの活用方法は幅広く、日常でのアナウンスからニュースの読み上げ、電話対応、ナレーション作成など多岐にわたります。

少しでも気になった方は「AITalk」を導入し、日々の業務をより効率化させてみてはいかがでしょうか。