会議で話した内容を議事録として、手作業で作成した経験がある方は多いのではないでしょうか?

会議の音声を録音し、その音声データを自動でテキストに変換することができたら作業効率はぐっとあがり、大幅な時間の短縮になるはずです。

本記事では、ChatGPTをどのように使用すれば、音声データをテキストに変換できるのか、具体的な手順とコツも併せて解説します。

音楽ライブ、ビジネス展示会、ショッピングモールなど
大規模同時接続可能なメタバース『XR CLOUD』
サービスの特徴や導入事例をまとめた資料をご用意しました。

XR CLOUDの導入事例
プラットフォームの特徴
メタバースイベント開催までの流れ
サービス説明画像

XR CLOUDサービス紹介資料の無料ダウンロードはこちら

資料をダウンロードする

|ChatGPTで文字起こしは可能?

ユーザーが入力した大量のデータを学習しているChatGPTは、ビジネス文章の作成、論文の要約、イラストの作成や多言語の翻訳など様々なシーンで使用されていますが、音声データをテキストに文字起こしすることも可能なのでしょうか?

結論から述べますと、ChatGPT単体でその機能を持っているわけではありません。しかし、Whisperなどの文字起こしツールと連携することで、文字起こしが可能となります。
補足として、ChatGPTは2025年1月現在、音声入力することは可能ですが、音声入力したものをリアルタイムで文字起こしする機能は備わっておらず、音声ファイルか動画ファイルをアップロードする必要があります。

|Whisperとの連携

前述したように、ChatGPTで文字起こしをするには、文字起こしツールとの連携が必要です。

今回は、OpenAI社が提供しているWhisperと連携します。

Whisperは音声を認識するツールであり、音声データをテキスト化できる機能を持っています。

多種多様な音声データを学習しているため、様々なアクセントに対応しており、日本語を含む多言語の翻訳も可能です。

2025年1月時点でサポートしている音声ファイルと動画ファイルのフォーマットは以下の通りです。

音声ファイル

  • MP3
  • WAV
  • M4A
  • AAC
  • FLAC
  • OGG

動画ファイル

  • MP4
  • MOV
  • AVI
  • MKV
  • WMV

|Whisperを使った文字起こしの流れ

ChatGPTを使用して文字起こしするには、3つの方法があります。

・ChatGPTとWhisperを手動で連携する。

・WhisperAPIを利用する。

・音声ファイルを外部ツールで処理する。

今回は1つめの手動連携による方法を紹介します。

主な手順について、解説します。

  1. 音声/動画データを準備する
    会議の録音・録画等の音声/動画データを用意します。
  2. Whisperを使い、音声/動画データをテキストに変換する
    用意したデータをWhisperにアップロードし、テキストを生成します。
  3. ChatGPTで翻訳や校正、要約を行う
    生成されたテキストをChatGPTにアップロードし、必要な編集を指示します。

|ChatGPTで文字起こしを行う際のコツと注意点

実際に文字起こしを実施してみて、出力された結果はいかがでしたか?

思い通りに文字起こしのできている部分があれば、うまくできていない部分もあるかもしれません。

質の高い文字起こしを行うには、いくつかのコツと注意点があります。

それらを理解すれば、より作業効率を上げることが可能になるはずです。

高品質な音声データの準備

正確な文字起こしを行うには、高品質なデータがインプットであることが望ましいため、環境と機器を整えることが大事です。

まず、環境については雑音の少ない部屋を用意しましょう。雑音が多いと音声を正確にテキスト化するのが難しくなります。

機器については、録音専用の機器や性能の高いマイクを使用しましょう。

機器がスマートフォンの場合でも、機種によっては人の声のみを拾うようにする機能がありますので、クリアな音声となるように機器の設定も確認します。

専門用語の明示

専門用語や特定の固有名詞に関連する会話をChatGPTが完璧に理解してくれるのは難しいことがあります。

正確なテキスト生成を促すためには、事前にChatGPTに情報を明示することが重要です。

用語集のようにリスト化されたものがあれば、よりスムーズに学習させることができます。

事前に学習させておくことは、正確なテキスト生成へと繋がります。

プライバシー保護

データの中にプライバシーに関する情報や機密情報が含まれていないことを、事前に確認しましょう。

個人や企業にとって、重要な情報をChatGPTや音声を認識するAIツールに渡してしまうことは、非常に危険なことです。

そういった情報が含まれている場合は、重要な情報の部分を切り取るか、匿名化するなどの対策を講じる必要があります。

|まとめ

ChatGPTとWhisperを使用した文字起こしについて解説しました。

以下、本記事のまとめになります。

・音声・動画データの文字起こしは、ChatGPTとWhisperを連携させることで可能になる。

・正確な文字起こしのコツは、高品質なデータの準備と専門用語を事前に明示すること。

・プライバシー保護や機密情報の取扱いに注意する。

作業時間の大幅な短縮が可能となるAIによる文字起こしは、様々なシーンで使用されることとなるはずです。

ChatGPTを使用した文字起こしを検討する際には、この記事が参考になれば幸いです。

音楽ライブ、ビジネス展示会、ショッピングモールなど
大規模同時接続可能なメタバース『XR CLOUD』
サービスの特徴や導入事例をまとめた資料をご用意しました。

XR CLOUDの導入事例
プラットフォームの特徴
メタバースイベント開催までの流れ
サービス説明画像

XR CLOUDサービス紹介資料の無料ダウンロードはこちら

資料をダウンロードする