音メディア処理研究室

 
Whisperを用いた音声認識による話者別文字起こし

Whisperを用いた音声認識による話者別文字起こし

2024年度のデモ大会で発表した内容です。

背景

音声認識技術に興味を持ち、様々な現場で、音声データの文字起こしの需要があることを知った。
そこで、話者別で文字起こしをするツールを作成してみたいと考えた。

開発環境

使用言語:Python
開発環境:Googole Colab
OS:Windows11
GPU T4

手法

・Whisperによる文字起こし
「Whisper」
・OpenAIの高度な音声認識モデル
・多言語対応
・ディープラーニングを活用
Whisperモデルを使用して、音声ファイルからテキストに変換し、各セグメントに分割する。
各セグメントの開始時間、終了時間、テキストを出力する。

・参照音声と比較して話者を特定
「コサイン類似度」
埋め込みベクトル同士の類似性を評価するために使われる指標として使用する。
2つのベクトルのなす角度のコサイン値を計算し、類似度を測る。
入力された音声と各参照音声の各セグメントの音声に最も似ている話者が特定される。

デモ内容

二人の音声データを録音する
Aの参照音声

Bの参照音声

AとBの会話の音声(29秒)

音源:高道 慎之介, “Japanese versatile speech corpus”

出力結果
出力にかかった時間:31秒

まとめ

・OpenAIのWhisperを用いて、音声ファイルをテキストに変換することができた
・話者を特定し、話者名をラベル付けすることができた

今後の課題

正確な漢字変換ができていなかった。また、同性同士のときの特定ができていない時があった。これらは、参照音声データの不足が原因だと考えられる。
展望として、音源分離を行い、発話が重複した場合の特定を行いたいと考える。

参考文献

« »

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です