ESPnetを利用した自分自身の音声合成モデルの作成

2024年に行われたデモ大会の発表内容です。

2258234 瀬田啓太

背景

現在様々な場面において利用されている音声合成において、自分の声で文章を読み上げるモデルを作成したいと思ったため。

実際の音声

100epoch学習時

実際の音声

100epoch学習時

生成した音声に入るノイズ音について。

→学習した音声の録音環境に問題がある。

生成した音声の音割れや類似度合いについて。

→学習させた音声のデータ量が不足していた。