2024年に行われたデモ大会の発表内容です。
2258234 瀬田啓太
背景
現在様々な場面において利用されている音声合成において、自分の声で文章を読み上げるモデルを作成したいと思ったため。
音声合成の仕組み
ESPnetとは
学習結果
学習に利用した文との比較
実際の音声
100epoch学習時
学習に利用していない未知の文との比較
実際の音声
100epoch学習時
検討
生成した音声に入るノイズ音について。
→学習した音声の録音環境に問題がある。
生成した音声の音割れや類似度合いについて。
→学習させた音声のデータ量が不足していた。
コメントを残す