はじめに
最近では音声を変換する技術が多く研究開発され変声器のような器械も出来てきましたが
それらはどれだけ性能がよいのか気になりませんか?………そこで!!
今回は音声に関する技術を使って変換した音声が自然で人が喋っているように聞こえるのか評価します。
内容
1. 評価する音声の準備
今回は図のように音声を3つの要素にパラメータ(数値)として分解
それぞれを自らの手で調節し再び1つに戻すことで変換が完了します。
実際に変換した音声がこちら。男性の声を女性の声に変換してみました。
——————————————————————————————————————-
例 ピッチを1.5倍 周波数を1.2倍 話速を1.3倍
男性の声 → 女性の声
———————————————————————————————————————
と、いう風に3つの要素を上手く使うと比較的自然に変換できます
変換方式 は STRAIGHT方式, WORLD方式, ピッチシフター(一般的で無料ダウンロードできるもの) の3種類です。
STRAIGHT方式 :人の声の個性、感情等の統計的性質を数値として分析する・・・子音の制御に優れている
WORLD方式 : STRAIGHTの計算コスト削減というコンセプトでの開発・・・歌声の制御に優れている
2. 評価方法
合成変換を行った音声を主観評価してもらう際の流れですが現在は
- 音声を最大2回まで聞く
- 評価用紙に記入(手書き、品質を5 段階で評価するMOSを採用)
- 次の音声へ進む
という風にしていますが10月3日の卒業研究中間発表会で
- 連続で聴取するため主観評価でなく、前の音声との比較評価になる
- 録音した音声にエアコン等の雑音が入っており、イメージが悪くなる
などの実験の欠点から正しい評価が出来ていないと判断
反省をふまえ、音声品質評価システムを準備しました
音声品質評価システム → Voice Quality Assessment System
頭文字をとって名前はVQAS(ブイキャス)です。言語はC#。
version1.0のシステムの流れ
- ホームを立ち上げ3パターンあるテストから1個選択、テスト画面が出てくる
- Playボタンを押して音声を流す(2回まで聞ける、音声の順番は擬似ランダム)
- 評価1~5をチェックして得点を決定
- Nextボタンで次の音声へ進む(得点を決定しないと押せない)
- ピンクノイズが3秒流れる(耳のリセット)
- 2~5までを繰り返す
- 最後の音声を評価後、PlayボタンがENDボタンになりクリックすると終了
- テスト後はテキストに結果が出力される(音声の名前と得点)
完成図
3.卒研終了までの課題
1,音声の準備
・音声の録音のやり直し
・録音した音声の合成変換
2,システムとの組み合わせをして品質評価環境を整え、実施
3,まとめ
コメントを残す