音メディア処理研究室

 
ESPnetを利用した自分自身の音声合成モデルの作成

ESPnetを利用した自分自身の音声合成モデルの作成

2024年に行われたデモ大会の発表内容です。

2258234 瀬田啓太

背景

現在様々な場面において利用されている音声合成において、自分の声で文章を読み上げるモデルを作成したいと思ったため。

音声合成の仕組み

ESPnetとは

学習結果

学習に利用した文との比較

実際の音声

100epoch学習時

学習に利用していない未知の文との比較

実際の音声

100epoch学習時

検討

生成した音声に入るノイズ音について。

→学習した音声の録音環境に問題がある。

生成した音声の音割れや類似度合いについて。

→学習させた音声のデータ量が不足していた。

まとめと応用

参考文献

« »

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です