音メディア処理研究室

 
ブログ

個人性を失わない音声合成に向けた短時間録音での音声データ作成法の研究

研究背景・目的

普段は何気なく使っている「自分の声」を病気などで失ってしまうことがあります。

そのように声を失ってしまった方のコミュニケーション手段には、50音ボードや合成音声での発話などが挙げられますが、そのような手段があるとしても自分の声を失ってしまうということは精神的な苦痛も大きいと考えられます。
そこで、声を失ってしまった後も自分の声でコミュニケーションを取る方法として「マイボイス」というものがあります。

本研究では、マイボイスで使用する音声データを短時間で録音することによって、患者さんの負担を軽減することを目的としています。
また、負担軽減だけでなくなるべく個人性を失わないような方法を検討します。

アプローチ方法

音の子音部と母音部に着目して、異なる話者間で子音部と母音部を入れ替えて個人性知覚の実験を行った研究があり、この研究結果から話者の個人性の判断は母音部の影響を受けやすいことが分かっています。そこで・・・

ap

このように考え、研究を進めていきます。

イメージ図

①音声提供者とマイボイス利用者の2種類の音声データを用意し、
話者間で子音部と母音部を入れ替えて音をつなぎ合わせます。
このとき、マイボイス利用者は母音のみ録音しておきます。
入れ替えを行うのは母音・撥音以外の全ての音です。

下の図は「か」の音を作成する際のイメージ図です。

②発話に必要な全ての音に対して①の作業を行い、マイボイス利用者の音声データを作成します。

my2

③作成した音声データを用いて聴取実験を行います。

img4なお、音声の編集には「Praat(http://www.fon.hum.uva.nl/praat/)」を使用します。

評価実験

実験目的

単語単位で入れ替え音声を聞いた場合も母音部の 話者の個人性が保たれるか調査することを目的とします。

実験方法

①話者二名のサンプル音声を聞いて話者の学習を行う

img5

②音声(原音声,入れ替え音声)を聞いてもらい、
どちらの声に聞こえるか二択で答えてもらう

img6

③流した単語がしっかりと聞こえたか3段階(聞こえた・一部聞こえた・聞こえなかった)で評価してもらう
img7

また、このときよく聞こえなかった単語については実際に聞こえた音を手元の紙に記入してもらいます。この結果から、単語・音素ごとに一致率(しっかりとその音に聞こえたかどうか)を算出します。

実験結果

下の図が実験結果です。話者間入れ替え音声で母音部の話者と答えた割合の平均が95%であることから、単語単位で入れ替え音声を聞いた場合にも母音部の話者の個人性が保たれることがわかりました。

また、一致率について見ると、単語ごとの平均一致率は78%、音素ごとの平均一致率は90%であることがわかりました。その中でナ行・マ行・ヤ行・パ行の一致率が平均よりも低かったことについては、一致率の低かった音の多くは有声音(発話の際に声帯の振動を伴う音)であるため、子音と母音の切り分けが困難であり、つなぎ合わせがしづらいといったことが考えられます。

原音声の話者識別正答率

話者間入れ替え音声で母音部の話者と答えた割合

単語一致率

kekka2

まとめ

母音のみ本人の声を使用し、子音は他人のものを使用することによって録音する音の数を減らし、録音時間を短縮する手法を提案しました。

単語単位で入れ替え音声を聞いた場合も母音部の 話者の個人性が保たれるか評価実験を行ったところ、単語単位の音声も母音部の話者の個人性が保たれることが分かりました。このことから録音時間の短縮は可能であると考えられます。

今後は単語一致率をあげるために一致率が低かった音の編集方法の見直しを行うこと、また音声データを増やして実験を行っていくことによってつなぎやすい声・つなぎにくい声の検証を行っていくことが課題となります。

 

ロボット音声対話における 多重言語モデルを用いた 語彙獲得の研究

研究背景

現在、一般家庭や公共空間など身近なところで、お掃除ロボットのようなロボットが普及してきています。

ロボットが環境が変わっても対応できるようにするためには、新しい知識や概念をロボット自身が自動で獲得する必要があります。

 


研究目的

本研究では、音声対話によってロボットが新しい語彙を獲得することを目的とします。

そこで、ユーザからの発話を複数の音声認識結果を用いて、ユーザの意図に合った語彙を獲得する手法を提案します。

 


従来研究

語彙獲得についての従来研究では「人間と教え合うロボットインターフェース(山本ら、情報処理vol.49 2008)」という論文があります。

簡単に流れを説明します

  • ロボットに知らない信号を教える「教示」を行います。
  1. ユーザがリモコンでニュースをつけると、ロボットがその信号を検知します。
  2. ロボットがそのリモコンの信号を知らなければ「今何をしたの?」と対話をはじめます。
  3. ロボットの発話に対してユーザが「ニュースをつけた」返すことで、ロボットが「ニュースをつけた」ということを覚えます
  • 次に「操作」を行います。
  1. ユーザが 「ニュースをつけて」とロボットに発します。
  2. ロボットがその音声を認識し、リモコンの変わりにロボットが操作を行います。

従来研究

 


解決したい課題

従来研究では、リモコンの信号をロボットが受信し、登録されているか区別を行っていました。

そこで、本研究では音声のみを使いロボットに区別・教示・操作を行いたいと考えました。

しかし、音声のみで行うためには以下の課題があります。

  1. 正しく音声認識をすることができなかった場合、新しく登録する語とすでに登録されている単語を区別する必要性
  2. 非登録語の動作の決定方法

 


アプローチ方法

  • 既にある登録語と非登録語の区別

登録語と非登録語の区別には、複数の言語モデルで音声認識し区別を行います。

  • 言語モデルとは、日本語の文法をコンピュータが扱えるようにしたものです。例えば「大分は晴天」「大分は都会」「大分は素晴らしい」しか文法を扱えない場合、「大分は田舎」と発言したら、文法には存在しないため「大分は都会」など近いものが認識結果になります。
  • 今回用いる言語モデルは、毎日新聞社の新聞3年分のデータの言語モデルとガベージモデルを取り入れた文法を用いた言語モデルを使用します。ガベージモデルについてはページの下のほうを見てください。
  • 獲得した命令の動作獲得方法

命令の動作登録には音声対話を用いて行います。

 


ガベージモデルを取り入れた文法

音声認識するためには、単語と文法を予め登録する必要があります。

しかし、登録されていない命令を発すると、一番近い命令に無理やり当てはめられてしまいます。

そこで非登録語を判断するためにガベージモデルを使用します。

  • ガベージモデルとは平仮名一文字の任意個の繰り返しを受理する文法で、登録されていない命令が発せられた場合、一文字ずつ認識することが可能になります。

 

問題点として登録語をユーザが発した場合であっても、ガベージモデルに入ってしまうことがあります。

そのような事態を減少させるために音素間距離を用います。

  • 音素間距離とは2つの文字列の音素がどの程度異なっているかを示す値のことで、音素間距離の小さい命令かどうかを対話によって確認し、操作率を上げます。

 


システム構図

system2


システムを実行したときの様子

 


 

実験

  • 登録されている命令が、音素間距離を用いることによってどの程度認識率が上がるか
  • 登録していない命令を認識できるか
  • 新たに語彙獲得を行い、どの程度ユーザーの意図に合った命令を獲得できているか
  • 新たに登録した命令で動作を行うことができるか

を目的とし以下の実験を行います。

  1. 既登録の命令に対する実験
    予め登録されている命令を発話してもらい、操作率を検証
  2. 非登録の命令に対する実験
    登録されていない命令を発話してもらい、操作率を検証

非登録の命令に対する実験では、あらかじめ登録している命令と、ユーザが新たに登録した命令を認識することが可能になる。そのため既登録の命令に対する実験と認識できる命令数を合わせるために、ユーザが追加した命令のみでの操作率も確認した。


結果

佐藤実験結果

佐藤実験結果2


 

まとめ

ガベージモデルの追加により、登録語と非登録語の区別を98.9%の確率で行うことができるようになった。また、ユーザが新たに追加した命令でも、あらかじめ命令を登録する場合と同程度の操作率を得ることができた。

このことより、音声対話によって動作を獲得することが可能だが、認識精度や、動作の決定方法に大きく影響を受けることがわかった。

今後は動作の決定方法、音声認識に用いる言語モデルなどをさらに検討していく予定です。

適応フィルタを用いたサブスペース埋め込み型トランスオーラルシステムの研究

研究の概要

  • 原音場で収録された音を、再生音場で立体的に再現する立体音響システムに関する研究です。その中で、原音場での音圧を再現する技術の1つであるトランスオーラルシステムを扱っています。

rittai

立体音響のイメージ


トランスオーラルシステム

  • ダミーヘッドと呼ばれる人の頭を模したマイクにより原音場で収録された音を、再生音場でスピーカを用いて再生する技術です。トランスオーラルシステムでは、再生の際に室内伝達特性と呼ばれる再生音場の特性が入り込むため、フィルタ処理によってその特性を打ち消す必要があります。このとき使用されるフィルタを逆フィルタと呼びます。

だみーへっど

ダミーヘッド

torans

トランスオーラルシステムのイメージ

  • トランスオーラルシステムには、「音圧をそのまま再現するため、精度が高い」という利点と、「逆フィルタ設計のため、耳元での特性の測定が必要」「測定した位置から受聴者が移動すると、再現効果が得られない」という欠点があります。

 

サブスペース埋め込み法

  • Saruwatariらは、逆フィルタに特定の方向のスピーカからの出力を強調するフィルタを組み込むことで、受聴者が移動しても再現効果が得られる手法を提案しました。この手法をサブスペース埋め込み法と呼びます。
  • サブスペース埋め込み法では、受聴者が制御点から移動していない場合には逆フィルタによる高精度な再現、移動した場合には音源方向のスピーカからの出力を強調するターゲットフィルタによる定位感を損なわない再現を行います。

せいぎょてん

制御点での再現

たーげっとふぃるた

制御点以外での再現

ターゲットフィルタの設計

  • ターゲットフィルタTは、以下のような形で設計されます。

tage

mはスピーカ数、nは制御点数、G+(ω)は室内伝達関数のMP一般逆行列、τはスピーカから制御点までの遅延、ωは角周波数、kは強調するスピーカの番号を表します。Frはフロベニウスノルムです。

  • すなわち、ターゲットフィルタは、強調するスピーカには逆フィルタと同じ量のゲインと遅延を持ち、それ以外のスピーカに対しては量を持たないフィルタになります。サブスペース埋め込み法では、このフィルタを逆フィルタに組み込みます。

 

  • サブスペース埋め込み法では、逆フィルタによる音場再現の方向と、ターゲットフィルタによる出力強調の方向が一致している必要があるため、「スピーカの存在する方向しか音場再現ができない」「再現精度を高めるためには数多くのスピーカが必要」といった課題があります。

 


適応フィルタを用いたサブスペース埋め込み法

  • サブスペース埋め込み法の課題を解決するため、適応フィルタを用いてスピーカの存在しない方向の特性を推定し、フィルタ設計に用いる手法を提案します。

 

適応フィルタ

  • 適応フィルタとは、現在の出力と理想の出力の誤差を繰り返し計算し、係数更新によって誤差を最小化することで理想の出力を推定するフィルタです。以下の適応アルゴリズムによって係数更新を行います。

arugo

適応アルゴリズム

 

フィルタ設計

  • 例として、下図のようなスピーカの存在しない受聴者の正面方向からの音の再現を考えます。このとき、正面の左右にあるスピーカから同じ大きさの同じ音を出力すれば、受聴者は正面方向に音を知覚すると考えられます。しかし、音像の方向と実際に音が出力されているスピーカの方向が異なるため、受聴者が動いた場合に不自然さを感じてしまいます。このため、強調するスピーカに音像の方向の特性や遅延を与える必要があります。これを適応フィルタにより推定し、ターゲットフィルタの設計に利用します。

tekioukankyou

環境のイメージ

sekk

特性の推定

スピーカの距離や方向によって遅延が異なるため、得られた係数から遅延を補正し、最終的なフィルタを設計します。

hose


評価実験

  • 提案手法がスピーカの存在しない方向の音を再現できることを確認するため、主観評価実験を行いました。何も処理をしていない原音、通常の逆フィルタ、サブスペース埋め込み法、提案手法を比較しました。

kankyou

実験環境

jou1

実験条件①

jou2

実験条件②

以上の条件で実験を行いました。ダミースピーカは、視覚による結果の変動を防ぐために設置しています。原音とサブスペース埋め込み法では、スピーカの存在する方向しか出力を行えないため、8chのみとなっています。

実験結果

  • まず、実験で設計したフィルタの例を示します。

to

設計したフィルタ特性(右耳)

これは、右耳に入る音に対するフィルタ係数です。1chと8chを強調しているため、この2つが他のチャンネルよりも大きい係数を持っています。

  • 次に、主観評価実験の結果を示します。それぞれ、横軸は音源の方向、縦軸は受聴者の知覚した方向を表しています。円は回答の多さを表し。最大の円は7、最小は1です。

gennonn

原音

原音では、ほぼ正確な回答が得られました。しかし、音源方向が受聴者の後方の場合にばらつきが見られました。これは、無響室という音を聴き慣れていない環境、視覚の情報が得られない、といったことが関係していると考えられます。

tuujou

通常の逆フィルタ

通常の逆フィルタでは、後方に大きなばらつきが見られました。これは、受聴者が動いたことにより、フィルタの効果が得られず、前後の判断が困難になったことがあげられます。また、0度方向では、受聴者の動いた方向に音を知覚してしまう場合がありました。

sabusupe

サブスペース埋め込み法

サブスペース埋め込み法では、通常の逆フィルタに比べて、後方のばらつきが減少しました。ターゲットフィルタの効果により、受聴者が動いた場合でも定位感を損なっていないことがわかります。ただし、0度方向にスピーカが存在しないため、0度方向の回答は存在しませんでした。

teiansyu

提案手法

最後に提案手法です。提案手法では、0度方向以外の強調ではサブスペース埋め込み法と変わりがないため、ばらつきもほぼ同程度でした。0度方向については、通常の逆フィルタと比べて正答率が14%から57%と大きく上昇しており、スピーカの存在しない方向の音の再現ができていることがわかります。


結論と今後の課題

  • 結論として、提案手法により、スピーカの存在しない方向の音の再現が出来ました。
  • 今後の課題として、「実際の室内で同様の実験を行い、無響室での実験と比較すること」「0度以外の方向でも実験を行うこと」「正解のインパルス応答がない状態での推定モデルの検討」があげられます。

演技音声における”間”が与える印象の研究 ―役者ロボットを目指して―

 

 

演技音声における”間”が与える印象の研究

 

本研究の概要

本研究では人間に近い自由度の高い演技ロボットの実現を目指して、演技音声という観点でアプローチしていきます。なかでも、登場人物の感情を役者が表現する際にセリフごとの”間”が重要になってくると考えました。そこで演技中の役者の発話の”間”に注目している研究です。

本研究の内容

本研究に関して私が発表を行った資料(2015/10)を掲載しておきます。ご覧ください。
なお、本研究は現在研究中です。詳しい内容や評価実験の結果を更新いたします。

(2016/3/18 追記)

本研究の最終発表(2016/2)を行いました。その際の発表用資料を掲載しておきます。卒論発表_佐藤龍.pdfというファイルです。中間発表_佐藤龍.pdfとあわせてご覧いただければ幸いです。

中間発表_佐藤龍

卒論発表_佐藤龍

ジェスチャーで演奏するDuoPiano

2015年12月17日に行われた3年生デモ大会での発表内容です。
今回のデモでは二人で演奏することができ、演奏する際に体の一部を触ることで音が鳴るシステムを発表しました。

システムの流れは以下の通りです。

  • Kinectを用いて二人分の骨格検出を行い、関節を取得する
  • 手を関節に近づける
  • 近づけた関節に設定してある音が鳴る

関節に設定してある音階は、
右手で頭、右肩、右腰、右ひざの順でド、レ、ミ、ファとなり、
左手で頭、左肩、左腰、左ひざの順でソ、ラ、シ、ドとなっています。

使用した環境、機材

  • Windous7
  • Visual Stadio 2010
  • Kinect for Windows
  • Kinect for Windows SDK v 1.8

詳しい説明や実際の動作は以下の動画でご覧下さい。

http://www.youtube.com/watch?v=mahbin4yvQ0

 

 

音声で操作ロボットを操作するAndroidアプリ『EV3指令室』

2015年12月17日に行われた3年生デモ大会で発表したアンドロイドアプリについての内容です。

本アプリは、アンドロイド端末から音声入力し、ロボットを動かすアプリです。

使用した環境・ツールなど

  • OS:Windows7
  • Androidバージョン:4.1.1
  • 音声認識:Google音声認識API RecognizerIntent
  • 開発ツール:eclipse + Android SDK
  • 開発言語:Java
  • ロボット:教育版レゴ®マインドストーム®EV3
  • 参考資料:教育版EV3Androidアプリプログラミングガイド

 

詳しい説明や実際の動作は、以下の動画でご覧下さい。

音声認識を用いた音楽プレイヤー

サンプルプログラムを変更し、グーグルが無料で提供している音声認識APIを利用して
Androidの音声認識を用いた音楽プレイヤーアプリを作成しました。
————————————————————
システムの説明

  • テキスト入力または音声認識で文字列を入力
  • 登録してある曲名と一致した曲がある場合その曲を再生
  • 曲順再生
  • ループ再生
  • ランダム再生
  • 一時停止、リセット

また、今回はフリー素材の音源を使用させていただいております。
詳しい動作の様子は以下の動画をご覧ください。

開発環境:androidstudio 1.4.1

使用デバイス:Android 5.0.1

参考文献 : 「Android StudioではじめるAndroidアプリ開発の教科書 ~Android Studio 1.3対応~ (教科書シリーズ)」  松岡 謙治 (著)

加速度センサを用いた音楽演奏アプリ 「Shake Sound」

Android端末を振ることで音を鳴らして演奏するアプリ「Shake Sound」を作成しました。

加速度の値によって音階を設定し、対応する加速度の時にボタンを押すことで、それに応じた音を鳴らすことが出来ます。

よく楽曲で使われる調を実装しており、ボタンで切り替えることが出来ます。

解決すべき課題は多いですが、今後解決していきたいと思います。

https://youtu.be/u9iUBW8oPrU

環境:Android Studio

使用デバイス:Android

声の大きさを検知する障害物ゲーム

2015年12月17日、18日に行われた3年デモ大会で発表した内容です。

マイクを使って声を発すると声の大きさに合わせてジャンプし障害物を飛び越えていくゲームを作成しました。

時間は15秒です。

自動的に障害物が発生するモードと、キーボード操作から障害物を発生させるモードがあります。

キーボード操作での障害物発生は、A → 1段差発生 Q → 大きな段差発生

D → 1段差消滅  E → 大きく段差消滅

となっています。

また、今回は画像、音源ともにフリー素材を使用しました。

動作の詳細は以下の動画をごらんください。

https://youtu.be/nlvO6QdHeKs

開発環境 : Processing2.1.1

実装環境 : Windows x64ビット アプリケーション

参考文献: サウンドの基本(minminライブラリの使用)[http://r-dimension.xsrv.jp/classes_j/minim/]

アラーム・着信音に利用可能な音声変換アプリ

2015年12月17日に行われた3年デモ大会の発表内容です。

録音した音声を変換して再生したり、保存することが出来るアプリを作成しました。

以下の変換機能があります。

  • speed・・・速さを変更
  • pitch・・・ピッチを変更
  • volume・・・音量を変更
  • echo delay・・・エコー、ディレイを行う
  • echo volume・・・エコー、ディレイした音の音量変更
  • reverse・・・逆再生

 

詳細は以下の動画をご覧下さい。

開発環境:androidstudio 1.4.1

使用デバイス:Android 5.0.1

参考文献:Androidアプリサンプル全集