個人性を失わない音声合成に向けた短時間録音での音声データ作成法の研究

研究背景・目的

普段は何気なく使っている「自分の声」を病気などで失ってしまうことがあります。

そのように声を失ってしまった方のコミュニケーション手段には、50音ボードや合成音声での発話などが挙げられますが、そのような手段があるとしても自分の声を失ってしまうということは精神的な苦痛も大きいと考えられます。
そこで、声を失ってしまった後も自分の声でコミュニケーションを取る方法として「マイボイス」というものがあります。

本研究では、マイボイスで使用する音声データを短時間で録音することによって、患者さんの負担を軽減することを目的としています。
また、負担軽減だけでなくなるべく個人性を失わないような方法を検討します。

アプローチ方法

音の子音部と母音部に着目して、異なる話者間で子音部と母音部を入れ替えて個人性知覚の実験を行った研究があり、この研究結果から話者の個人性の判断は母音部の影響を受けやすいことが分かっています。そこで・・・

このように考え、研究を進めていきます。

イメージ図

①音声提供者とマイボイス利用者の2種類の音声データを用意し、
話者間で子音部と母音部を入れ替えて音をつなぎ合わせます。
このとき、マイボイス利用者は母音のみ録音しておきます。
入れ替えを行うのは母音・撥音以外の全ての音です。

下の図は「か」の音を作成する際のイメージ図です。

②発話に必要な全ての音に対して①の作業を行い、マイボイス利用者の音声データを作成します。

my2

③作成した音声データを用いて聴取実験を行います。

なお、音声の編集には「Praat(http://www.fon.hum.uva.nl/praat/)」を使用します。

評価実験

実験目的

単語単位で入れ替え音声を聞いた場合も母音部の話者の個人性が保たれるか調査することを目的とします。

実験方法

①話者二名のサンプル音声を聞いて話者の学習を行う

②音声(原音声,入れ替え音声)を聞いてもらい、
どちらの声に聞こえるか二択で答えてもらう

③流した単語がしっかりと聞こえたか3段階(聞こえた・一部聞こえた・聞こえなかった)で評価してもらう

また、このときよく聞こえなかった単語については実際に聞こえた音を手元の紙に記入してもらいます。この結果から、単語・音素ごとに一致率(しっかりとその音に聞こえたかどうか)を算出します。

実験結果

下の図が実験結果です。話者間入れ替え音声で母音部の話者と答えた割合の平均が95％であることから、単語単位で入れ替え音声を聞いた場合にも母音部の話者の個人性が保たれることがわかりました。

また、一致率について見ると、単語ごとの平均一致率は78％、音素ごとの平均一致率は90％であることがわかりました。その中でナ行・マ行・ヤ行・パ行の一致率が平均よりも低かったことについては、一致率の低かった音の多くは有声音(発話の際に声帯の振動を伴う音)であるため、子音と母音の切り分けが困難であり、つなぎ合わせがしづらいといったことが考えられます。

原音声の話者識別正答率

話者間入れ替え音声で母音部の話者と答えた割合

単語一致率

kekka2

まとめ

母音のみ本人の声を使用し、子音は他人のものを使用することによって録音する音の数を減らし、録音時間を短縮する手法を提案しました。

単語単位で入れ替え音声を聞いた場合も母音部の話者の個人性が保たれるか評価実験を行ったところ、単語単位の音声も母音部の話者の個人性が保たれることが分かりました。このことから録音時間の短縮は可能であると考えられます。

今後は単語一致率をあげるために一致率が低かった音の編集方法の見直しを行うこと、また音声データを増やして実験を行っていくことによってつなぎやすい声・つなぎにくい声の検証を行っていくことが課題となります。

« ロボット音声対話における多重言語モデルを用いた語彙獲得の研究音響情報を用いた講義音声の自動要約の研究 »

音メディア処理研究室

ブログ