はじめに
最近では音声を変換する技術が多く研究開発され変声器のような器械も出来てきましたが
それらはどれだけ性能がよいのか気になりませんか?………そこで!!
今回は音声に関する技術を使って変換した音声が自然で人が喋っているように聞こえるのか評価します。
内容
1. 評価する音声の準備
今回は図のように音声を3つの要素にパラメータ(数値)として分解
それぞれを自らの手で調節し再び1つに戻すことで変換が完了します。
実際に変換した音声がこちら。男性の声を女性の声に変換してみました。
——————————————————————————————————————-
例 ピッチを1.5倍 周波数を1.2倍 話速を1.3倍
男性の声 → 女性の声
———————————————————————————————————————
と、いう風に3つの要素を上手く使うと比較的自然に変換できます
変換方式 は STRAIGHT方式, ピッチシフター(一般的で無料ダウンロードできるもの) の2種類です。
STRAIGHT方式 :人の声の個性、感情等の統計的性質を数値として分析する・・・子音の制御に優れている
2. 評価方法
合成変換を行った音声を主観評価してもらう際の流れですが現在は
という風にしていますが10月3日の卒業研究中間発表会で
などの実験の欠点から正しい評価が出来ていないと判断
反省をふまえ、音声品質評価ソフトウェアを準備しました
音声品質Voice評価ソフトウェア → Voice Quality Assessment Software
頭文字をとって名前はVQAS(ブイキャス)です。言語はC#。
version1.0のシステムの流れ
完成図
機能の追加
2. 実験中の音声の順番を表示
3. 音声の読み込み, 結果の出力場所を固定から指定できるよう変更
4. 被験者の名前を固定から変更可能へ
3.実験システムの構築と評価実験
1,音声の準備
2,ソフトとの組み合わせをして品質評価環境を整え、実施
プレテストでソフトの使用方法、加えて評価基準となる音声の聴取
テストは1回25個の音声を評価 合計100個/1人 の音声を評価してもらった
3,結果
10人に合計1000個の音声を評価
結果を有意水準5%で検定した結果
STRAIGHT-ピッチシフター, ピッチシフター-オリジナル音声の間に
有意がある(性能に違いがある)ということが判明した。このことはピッチシフターは高い品質での
音声の合成変換が出来ないということを表している。
逆にSTRAIGHTで合成変換した音声はオリジナルの生の音声と比較して有意が認められないことから
違いがある言えない, 高い品質を保てている可能性があると判明した。