人工知能第一研究室

 
音声合成変換技術で作成した音声の品質評価の研究

 

はじめに

最近では音声を変換する技術が多く研究開発され変声器のような器械も出来てきましたが

それらはどれだけ性能がよいのか気になりませんか?………そこで!!

今回は音声に関する技術を使って変換した音声が自然で人が喋っているように聞こえるのか評価します。

 


 

 内容

1. 評価する音声の準備

仕組み

 

今回は図のように音声を3つの要素にパラメータ(数値)として分解

それぞれを自らの手で調節し再び1つに戻すことで変換が完了します。

 

実際に変換した音声がこちら。男性の声を女性の声に変換してみました。

——————————————————————————————————————-

例  ピッチを1.5倍  周波数を1.2倍  話速を1.3倍

男性の声   →   女性の声

hello        →     hello_wo

———————————————————————————————————————

と、いう風に3つの要素を上手く使うと比較的自然に変換できます

変換方式 は STRAIGHT方式,  ピッチシフター(一般的で無料ダウンロードできるもの) の2種類です。

STRAIGHT方式 :人の声の個性、感情等の統計的性質を数値として分析する・・・子音の制御に優れている

 


 

2.  評価方法

合成変換を行った音声を主観評価してもらう際の流れですが現在は

  1. 音声を最大2回まで聞く
  2. 評価用紙に記入(手書き、品質を5 段階で評価するMOSを採用)
  3. 次の音声へ進む

という風にしていますが10月3日の卒業研究中間発表会で

  • 連続で聴取するため主観評価でなく、前の音声との比較評価になる
  • 録音した音声にエアコン等の雑音が入っており、イメージが悪くなる
  • ランダマイズが出来てない

などの実験の欠点から正しい評価が出来ていないと判断

 

 反省をふまえ、音声品質評価ソフトウェアを準備しました

音声品質Voice評価ソフトウェア →  Voice Quality Assessment Software

頭文字をとって名前はVQAS(ブイキャス)です。言語はC#。

version1.0のシステムの流れ

  1. ホームを立ち上げ2パターンあるテストから1個選択、テスト画面が出てくる
  2. Playボタンを押して音声を流す(2回まで)
  3. 評価1~5をチェックして得点を決定
  4. Nextボタンで次の音声へ進む(得点を決定しないと押せない)
  5. 2~4までを繰り返す
  6. 最後の音声を評価後、PlayボタンがENDボタンになりクリックすると終了
  7. テスト後はテキストに結果が出力される

 

 

完成図

pic

機能の追加

  1. プレテスト機能の追加とその目的
  • 操作方法の確認
  • 評価の判断基準となる音声の聴取

     2.  実験中の音声の順番を表示

     3.  音声の読み込み, 結果の出力場所を固定から指定できるよう変更

     4.  被験者の名前を固定から変更可能へ

Vpre


3.実験システムの構築と評価実験

    1,音声の準備

  • 音声の録音のやり直し
  • 録音した音声の合成変換

    2,ソフトとの組み合わせをして品質評価環境を整え、実施

  • 被験者 正常な聴覚を持つ男女10人
  • プレテスト1回, テスト4回 計5回

プレテストでソフトの使用方法、加えて評価基準となる音声の聴取

テストは1回25個の音声を評価 合計100個/1人 の音声を評価してもらった

    3,結果

10人に合計1000個の音声を評価

vt

 結果を有意水準5%で検定した結果

 STRAIGHT-ピッチシフター, ピッチシフター-オリジナル音声の間に

有意がある(性能に違いがある)ということが判明した。このことはピッチシフターは高い品質での

音声の合成変換が出来ないということを表している。

 

逆にSTRAIGHTで合成変換した音声はオリジナルの生の音声と比較して有意が認められないことから

違いがある言えない, 高い品質を保てている可能性があると判明した。