これまで、音楽作成は一定の知識を持っているだけではなく、楽器の演奏技術や理解が必要でした。

しかし、技術が進歩した現在では、これまで一部の人間しかできないとされていた音楽作成のハードルを一気に下げることに成功しています。

複数人の楽器奏者が集まり演奏し、その内容を録音するのではなく、パソコン1台で十分な音楽を生み出せるようになったのです。

そしてAI技術が組み合わさることによって、音楽作成はより簡易なものになりつつあります。

本記事で紹介する「Audio Craft」は、なんとテキスト情報から音楽を作り出すことが可能です。

本来、音楽を表現する方法としては楽譜が一般的でしたが、なんと文字情報が楽譜のような役割を果たしているのです。

本記事を一読いただければ、これまで憧れの対象でしかなかった作曲が自分の手で可能になるかもしれません。

ぜひ最後までご覧ください。

|Audio Craftの概要について

出典:https://audiocraft.metademolab.com/

「Audio Craft」の概要について、以下の項目に沿って解説していきます。

  • テキストから音楽を生成する
  • 3つのモデルで構成される
  • オープンソースでリリースされている
  • デモ音源も公開されている

テキストから音楽を生成する

「Audio Craft」のリリース元は、FacebookやInstagramといったSNS運営で有名なMeta(旧:Facebook)です。

近年はメタバースの開発を進めている中、このような音楽AIの開発も行っているのです。

Metaは、ChatGPTを始めとした言語生成や画像、動画に関するAI技術が大きな進歩を遂げている一方で、音楽に関するAIの開発は後れをとっていると指摘。

これまでGoogleがリリースした「MusicLM」のように、テキストから音楽を自動生成するAIは存在していました。

しかし、それらのAI技術は複雑過ぎる上に、一般的に普及するためには余りに難しいものでした。

このような状況を背景に、テキストからより簡単に音楽を作成できる「Audio Craft」がリリースされました。

ユーザーがテキストベースで情報を入力するだけで、内容に応じた音楽が瞬時に生み出されます。

複雑な専門知識を必要としないことから、「Audio Craft」は音楽作成をより多くの人へ普及させることが期待されるでしょう。

3つのモデルで構成される

「Audio Craft」は、以下3つのモデルで構成されています。

  • AudioGen:テキストから効果音などを作り出す
  • MusicGen:テキストから音楽を作り出す
  • EnCodec:ノイズが削減した音声圧縮デコーダー

このように、「Audio Craft」では単に音楽を作成するだけではなく、効果音といった表現も可能となっています。

効果音は、一般的に広く利用されているデータをベースにトレーニングされているため、自然なサウンドを瞬時に作成可能。

音楽を作り出す「MusicGen」については、Metaが所有する2万時間にものぼるデータ音楽によってトレーニングされており、非常に高い品質が期待できます。

MetaのX(旧:Twitter)上には、様々な効果音が投稿されており、「砂漠の映画シーンに打楽器を使用したもの」や「80年代のエレクトリックなドラム」といった指定サンプルが聞けます。

それらは非常に自然な仕上がりになっており、人間が作成したものであるといわれても疑いにくいでしょう。

オープンソースでリリースされている

「Audio Craft」は全世界にオープンソースでリリースされています。

その理由としては、前述した通り音楽生成に関するAI開発は、他分野と比較して遅れていることがあげられます。

これまでの音楽生成AIの開発は、複雑かつクローズドな環境で進められる傾向にありました。

そのため、一部の研究者以外が触れることができなかったのです。

「Audio Craft」はこういった状況を打破し、一般ユーザーがモデルトレーニングを実施することで、よりスピーディな開発を期待しているのです。

性能を向上、音楽生成AIの発展を加速させ、今後さらに進化できる環境を提示することが目的なのです。

デモ音源も公開されている

前述した通り、MetaのXにはいくつかのサンプル音源が投稿されています。

この他にも、Metaの公式HP上においてもサンプル音源が公開されています。

「テキストから効果音」と「テキストから音楽」の2種類が投稿されており、それぞれ5秒から30秒程度の音源を誰でも確認可能です。

効果音では「風の中口笛を吹く」や「サイレンとエンジン音が近づき遠ざかる」が公開されていますが、いずれも非常にリアルで臨場感あふれる音源に仕上がっています。

また、音楽についても「キャッチーなメロディでトロピカルなリズム、アップテンポなポップダンス」といった抽象的なテキストから、しっかりと内容に応じた音楽が公開されています。

一度サンプル音源を聞くことで、「Audio Craft」はテキスト情報をベースにしっかりと対応した音楽、効果音が作成できることが誰にでも理解できるはずです。

|AIによる音楽制作は普及しつつある

これまで、音楽は作曲家やミュージシャンといった一部の人間によって行われてきました。

今でも音楽チャートを席巻するアーティストは才能あふれる人物ばかりであり、多くの人々は「音楽を生み出す」といった技術を持っていません。

当然、作曲能力を身につけるためには膨大な時間が必要となります。

この状況は画像生成にも同じことが言えるでしょう。

しかし、画像生成AIである「Stable Diffusion」や「Midjourney」の登場によって、素人でもプロに匹敵する絵画を瞬時に生み出すことが可能となりました。

音楽についても「Audio Craft」の登場によって、同様のことが起こりうることが考えられるのです。

すでにAIを使用した音楽制作は普及しつつあり、有名アーティストの作風を用いた楽曲が出回っています。

既存の楽曲やオリジナル曲をベースに、AIが仕上げを担当するなど、作成の幅は広がっています。

このように、近い将来、作曲技術は一部の才能ある人物だけではなく、より多くの人々に普及することが期待されるでしょう。

2万人以上のDiscordコミュニティも

コミュニケーションサービスである「Discord」上には、「AI Hub」と呼ばれるコミュニティが存在しています。

「AI Hub」はAIを利用した楽曲作成を目的として、2023年3月25日からスタートしました。

そして、スタートから1ヶ月後には、なんと2万人を超えるユーザーが参加することになったのです。

「AI Hub」内では「アーティストの歌声を模倣する合成技術」や「作曲に利用できるAIモデル」、さらに「AIを用いた基本的な作曲方法」といった情報が共有されています。

「AI Hub」を立ち上げた人物も、想定していなかった勢いでユーザーを獲得したと話しており、AIを活用した作曲に対する関心が高かったことが伺えます。

AI音楽に対する法整備も進む

楽曲には作曲家自身の著作権が存在しており、アーティストはもちろんレコード会社の利益と直結しています。

そのため音楽業界は、AIが作成した音楽に対して法整備を整えるべく動いています。

すでに、ユニバーサルミュージックグループは音楽のサブスクリプションサービスに対して、「AIアプリがメロディ、歌詞を取得することを禁止」するように要請しています。

加えて、「AIは音楽市場を希薄化し、オリジナル作品の発掘を困難にさせる。作品から利益を受けるアーティストの法的権利を侵害する」とも批判しているのです。

「AI Hub」内では、「著作権で保護された素材を違法に使用しない」、「知的財産を侵害しない」といったルールも設けられています。

しかし、法整備が完全に整っていない現在においては、ユーザーそれぞれが著作権を認識し、侵害しないような配慮が求められているのです。

|まとめ

テキストから音楽作成が実現する「Audio Craft」に関する概要、音楽AIを取り巻く環境について解説しました。

「自分のオリジナルソングを作りたい」

「理想の曲を生み出したい」

上記の様な願望を持っていても、それらを実現できる技術と才能を持ち合わせている人は限られています。

しかし、「Audio Craft」のような音楽生成AIの登場によって、音楽はより多くの人が楽しめるものになるかもしれません。

まだまだ発展途上の分野ではありますが、今後急速に進歩することが想定されます。

少しでも気になるという方は「Audio Craft」を使用して、自身のオリジナル曲を作成してみてはいかがでしょうか。