音声合成変換技術で作成した音声の品質評価の研究

はじめに

最近では音声を変換する技術が多く研究開発され変声器のような器械も出来てきましたが

それらはどれだけ性能がよいのか気になりませんか？………そこで！！

今回は音声に関する技術を使って変換した音声が自然で人が喋っているように聞こえるのか評価します。

内容

1. 評価する音声の準備

今回は図のように音声を3つの要素にパラメータ(数値)として分解

それぞれを自らの手で調節し再び1つに戻すことで変換が完了します。

実際に変換した音声がこちら。男性の声を女性の声に変換してみました。

——————————————————————————————————————-

例　　ピッチを1.5倍　　周波数を1.2倍　　話速を1.3倍

男性の声 → 女性の声

———————————————————————————————————————

と、いう風に3つの要素を上手く使うと比較的自然に変換できます

変換方式は　STRAIGHT方式, WORLD方式, ピッチシフター(一般的で無料ダウンロードできるもの)　の3種類です。

STRAIGHT方式 :人の声の個性、感情等の統計的性質を数値として分析する・・・子音の制御に優れている

WORLD方式 : STRAIGHTの計算コスト削減というコンセプトでの開発・・・歌声の制御に優れている

2. 評価方法

合成変換を行った音声を主観評価してもらう際の流れですが現在は

という風にしていますが10月3日の卒業研究中間発表会で

などの実験の欠点から正しい評価が出来ていないと判断

反省をふまえ、音声品質評価システムを準備しました

音声品質評価システム → Voice Quality Assessment System

頭文字をとって名前はVQAS(ブイキャス)です。言語はC#。

version1.0のシステムの流れ

完成図

3.卒研終了までの課題

1,音声の準備

・音声の録音のやり直し

・録音した音声の合成変換

2,システムとの組み合わせをして品質評価環境を整え、実施

3,まとめ

音メディア処理研究室