人工知能第一研究室

人工知能第一研究室

 
修士論文

画像処理を用いた複数話者に対するリアルタイム音声強調の研究

マイクロホンアレイを用いて雑音が存在する環境で聞きたい音声のみを強調する研究を行っていました。

音声強調する際に必要な音源方向を画像から取得して音声強調を行うといった手法です。

主にマイク入力からスピーカ出力までをリアルタイムで行えるように取り組んできました。

2016年度修論発表スライドを以下に添付します。

修論発表スライド

適応フィルタを用いたサブスペース埋め込み型トランスオーラルシステムの研究

研究の概要

  • 原音場で収録された音を、再生音場で立体的に再現する立体音響システムに関する研究です。その中で、原音場での音圧を再現する技術の1つであるトランスオーラルシステムを扱っています。

rittai

立体音響のイメージ


トランスオーラルシステム

  • ダミーヘッドと呼ばれる人の頭を模したマイクにより原音場で収録された音を、再生音場でスピーカを用いて再生する技術です。トランスオーラルシステムでは、再生の際に室内伝達特性と呼ばれる再生音場の特性が入り込むため、フィルタ処理によってその特性を打ち消す必要があります。このとき使用されるフィルタを逆フィルタと呼びます。

だみーへっど

ダミーヘッド

torans

トランスオーラルシステムのイメージ

  • トランスオーラルシステムには、「音圧をそのまま再現するため、精度が高い」という利点と、「逆フィルタ設計のため、耳元での特性の測定が必要」「測定した位置から受聴者が移動すると、再現効果が得られない」という欠点があります。

 

サブスペース埋め込み法

  • Saruwatariらは、逆フィルタに特定の方向のスピーカからの出力を強調するフィルタを組み込むことで、受聴者が移動しても再現効果が得られる手法を提案しました。この手法をサブスペース埋め込み法と呼びます。
  • サブスペース埋め込み法では、受聴者が制御点から移動していない場合には逆フィルタによる高精度な再現、移動した場合には音源方向のスピーカからの出力を強調するターゲットフィルタによる定位感を損なわない再現を行います。

せいぎょてん

制御点での再現

たーげっとふぃるた

制御点以外での再現

ターゲットフィルタの設計

  • ターゲットフィルタTは、以下のような形で設計されます。

tage

mはスピーカ数、nは制御点数、G+(ω)は室内伝達関数のMP一般逆行列、τはスピーカから制御点までの遅延、ωは角周波数、kは強調するスピーカの番号を表します。Frはフロベニウスノルムです。

  • すなわち、ターゲットフィルタは、強調するスピーカには逆フィルタと同じ量のゲインと遅延を持ち、それ以外のスピーカに対しては量を持たないフィルタになります。サブスペース埋め込み法では、このフィルタを逆フィルタに組み込みます。

 

  • サブスペース埋め込み法では、逆フィルタによる音場再現の方向と、ターゲットフィルタによる出力強調の方向が一致している必要があるため、「スピーカの存在する方向しか音場再現ができない」「再現精度を高めるためには数多くのスピーカが必要」といった課題があります。

 


適応フィルタを用いたサブスペース埋め込み法

  • サブスペース埋め込み法の課題を解決するため、適応フィルタを用いてスピーカの存在しない方向の特性を推定し、フィルタ設計に用いる手法を提案します。

 

適応フィルタ

  • 適応フィルタとは、現在の出力と理想の出力の誤差を繰り返し計算し、係数更新によって誤差を最小化することで理想の出力を推定するフィルタです。以下の適応アルゴリズムによって係数更新を行います。

arugo

適応アルゴリズム

 

フィルタ設計

  • 例として、下図のようなスピーカの存在しない受聴者の正面方向からの音の再現を考えます。このとき、正面の左右にあるスピーカから同じ大きさの同じ音を出力すれば、受聴者は正面方向に音を知覚すると考えられます。しかし、音像の方向と実際に音が出力されているスピーカの方向が異なるため、受聴者が動いた場合に不自然さを感じてしまいます。このため、強調するスピーカに音像の方向の特性や遅延を与える必要があります。これを適応フィルタにより推定し、ターゲットフィルタの設計に利用します。

tekioukankyou

環境のイメージ

sekk

特性の推定

スピーカの距離や方向によって遅延が異なるため、得られた係数から遅延を補正し、最終的なフィルタを設計します。

hose


評価実験

  • 提案手法がスピーカの存在しない方向の音を再現できることを確認するため、主観評価実験を行いました。何も処理をしていない原音、通常の逆フィルタ、サブスペース埋め込み法、提案手法を比較しました。

kankyou

実験環境

jou1

実験条件①

jou2

実験条件②

以上の条件で実験を行いました。ダミースピーカは、視覚による結果の変動を防ぐために設置しています。原音とサブスペース埋め込み法では、スピーカの存在する方向しか出力を行えないため、8chのみとなっています。

実験結果

  • まず、実験で設計したフィルタの例を示します。

to

設計したフィルタ特性(右耳)

これは、右耳に入る音に対するフィルタ係数です。1chと8chを強調しているため、この2つが他のチャンネルよりも大きい係数を持っています。

  • 次に、主観評価実験の結果を示します。それぞれ、横軸は音源の方向、縦軸は受聴者の知覚した方向を表しています。円は回答の多さを表し。最大の円は7、最小は1です。

gennonn

原音

原音では、ほぼ正確な回答が得られました。しかし、音源方向が受聴者の後方の場合にばらつきが見られました。これは、無響室という音を聴き慣れていない環境、視覚の情報が得られない、といったことが関係していると考えられます。

tuujou

通常の逆フィルタ

通常の逆フィルタでは、後方に大きなばらつきが見られました。これは、受聴者が動いたことにより、フィルタの効果が得られず、前後の判断が困難になったことがあげられます。また、0度方向では、受聴者の動いた方向に音を知覚してしまう場合がありました。

sabusupe

サブスペース埋め込み法

サブスペース埋め込み法では、通常の逆フィルタに比べて、後方のばらつきが減少しました。ターゲットフィルタの効果により、受聴者が動いた場合でも定位感を損なっていないことがわかります。ただし、0度方向にスピーカが存在しないため、0度方向の回答は存在しませんでした。

teiansyu

提案手法

最後に提案手法です。提案手法では、0度方向以外の強調ではサブスペース埋め込み法と変わりがないため、ばらつきもほぼ同程度でした。0度方向については、通常の逆フィルタと比べて正答率が14%から57%と大きく上昇しており、スピーカの存在しない方向の音の再現ができていることがわかります。


結論と今後の課題

  • 結論として、提案手法により、スピーカの存在しない方向の音の再現が出来ました。
  • 今後の課題として、「実際の室内で同様の実験を行い、無響室での実験と比較すること」「0度以外の方向でも実験を行うこと」「正解のインパルス応答がない状態での推定モデルの検討」があげられます。

奏者のための消音ギター楽器音声生成フィルタと頭部運動追従リアルタイムフィルタ

 研究の概要

  • 消音ギターのピックアップ出力に対し,頭部運動に追従した楽器音生成フィルタを適用することで,通常のギター(ボディがあるギター)の音色や音の広がりを再現する研究です.

  •  消音ギターについて
    • 消音ギターとは
      • YAMAHA製の[サイレントギター]やARIA製の[Sinsonido]があります.
        消音ギターは通常のギター(生ギター)のボディー部分を排した楽器です.
        本研究ではYAMAHA製の型番[SLG110N]というサイレントギターを使用します.
    • 利点
      • ボディーによる音の増幅が発生しないことから,場所や時間にとらわれず練習できます.
    • 欠点
      • 通常のギター(生ギター)であれば,ボディーの特性や部屋の響きによって音が変化しますが,消音ギターの場合は,ピックアップでひろった弦の音をヘッドホンから直接聴くことになるため,音の広がりのない無機質な音に聴こえてしまいます.

  • 奏者のための楽器音生成フィルタ
    • 目的
      • 生ギターのボディ特性(放射音周波数特性)・両耳特性(ギターの定位)・空間特性(反射や残響)を再現する楽器音生成フィルタを作成し,消音ギターのピックアップに適用します.消音ギターフィルタのイメージ
    • 測定
      • 生ギターの駒部分に加振機を当て,測定信号を与えます.その時の放射音をダミーヘッドマイクロホンで取得しインパルス応答を取得します.ダミーヘッド測定の様子
      • ダミーヘッドの首を水平方向に回転させながら,左右60度ずつのインパルス応答を測定しました.↓測定したインパルス応答をwavファイルにしたもの
        インパルス応答

  • 頭部運動追従リアルタイムフィルタ
    • 概要
      • 消音ギターを演奏する際の頭部水平回転を取得し,頭部の角度に合わせたフィルタをライン出力に適用し,ヘッドホンから再生します.
      • フィルタを頭部運動に追従させることで頭外定位しやすくなります.
      • 生ギターのボディ放射音周波数特性や部屋の特性(反射や残響)を再現を目指します.
    • 頭部運動の取得
      • Microsoft社製のKinectを使用し,顔の水平角(Yaw角)をリアルタイムに取得し,外部ファイルに出力します.kinectの画面
    • MATLABを使ったリアルタイムフィルタ
      1. 消音ギターのピックアップ出力をオーディオインターフェースを介してMATLAB(数値計算ソフト)に与えます.
      2. Kinectから出力された顔の水平角が入った外部ファイルを読み込み,顔の水平角によってフィルタを切り替えながら消音ギターのライン出力に適用し,計算結果をヘッドホンから出力します.
    • システム図.

頭部追従システム


  • 評価実験
    • 客観評価:倍音スペクトル距離の比較
      • 生ギターで弦を鳴らした音と,消音ギターのピックアップ出力に 提案フィルタを適用した音との周波数の差を計算します.
        計算式は以下のような倍音スペクトル距離を採用しました.
        倍音スペクトル距離
      • 実験結果
        倍音スペクトル距離結果評価の結果,本研究で提案するフィルタを適用したほうが,生ギターの音色に近づくことが確認できました.
    •  主観評価:シェッフェーの一対比較[中屋の変法]
      • 実際に提案システムを用いて被験者に演奏してもらい,音の広がり,ギターの定位感の評価してもらいました.
        被験者は学生19名 (女:5名 男:14名)で,有意水準5%としました.リアルタイムフィルタの入出力サイズは500サンプルとします.
      • 比較フィルタ
        • A=消音ギターのピックアップ出力
        • B=消音ギター搭載のフィルタ(リバーブ)
        • C=提案フィルタ(頭部運動追従):サンプル数500
        • D=提案フィルタ(0度でフィルタを固定):サンプル数4000
      • 設問
        • 「どちらが音の広がりを感じるか」
        • 「どちらがギターの定位感があるか」
      • 実験結果
        シェッフェーの一対比較によって検定を行った結果,音の広がりに関してはフィルタD(提案フィルタ(0度でフィルタを固定))がもっともよく,フィルタDとBの間に有意差がありました.
        ギターの定位感に関しては,フィルタCがもっともよく,それ以外のフィルタに対し有意差がありました.

音の広がり
どちらが音の広がりを感じるか

ギターの定位感どちらがギターの定位感があるか


  • 結論
    • 頭部運動に追従する楽器音生成フィルタを提案しました.実験の結果,フィルタを適用したほうが生ギターらしい音色になり,定位感,音の広がりに効果があることがわかりました.
    • 今後の課題として,頭部運動追従フィルタのフィルタ長を入出力サイズよりも長くするとクリックノイズが発生する問題を解決する必要があると考えます.