音メディア処理研究室

 
修士論文

マルチチャネル非負値行列因子分解を用いた音源分離および音声認識の性能向上に関する研究

背景・目的

近年、スマートフォンやハンズフリーなどの音声を取り扱うオーディオ機器が広く普及しており、様々な音が混在する環境下での利用が想定されます。ただし、周囲の雑音や他話者の音声の影響によって、目的とする音の抽出や認識が困難になるという問題が生じます。この問題の解決には音源分離技術が有効であり、必要とする目的音のみを抽出することが可能となります。そうすることで、通話時における会話音声の明瞭度の向上や音声入力操作時における音声認識性能の向上へと繋がります。

音源分離には様々な手法が提案されていますが、ここではマルチチャネル非負値行列因子分解(MNMF)に着目します。MNMFは劣決定条件(音源数 > 観測マイク数)に有効な手法であり、観測環境下に多くの音源が存在する場合でも、少ないマイク数で分離が可能です。しかし、MNMFは自由度の高いモデルであるため分離性能に対する初期値依存性が大きいといった課題がありました。本研究では、雑音環境下で観測された音声データをMNMFで分離し、得られた分離信号を音声認識実験に適用することで認識性能の向上を図ります。認識性能という観点から、ランダムな初期値を設定する従来手法などを含む複数の手法と提案手法を比較することで、有効性を検証します。MNMFのアルゴリズムや挙動解析、問題点等は過去のページを参照ください。

提案手法

これまでの研究成果により、あらかじめ初期値を与えることで分離性能が向上し、ばらつきの抑制を達成することができました。ただしMNMFの性質上、多少なりともばらつきが生じます。そこで本研究では、この性質を逆手にとって、初期値の設定によって得られた高い分離性能を持つ複数の分離信号の中から新たな分離信号を算出する手法を提案します。

—————————————————————————————————————————————————
なお、本提案手法は雑音環境下音声認識タスクである”CHiME Challenge4″を対象としており、音源方向が既知(正面方向)という条件の下でバイナリマスク法を適用しています。
—————————————————————————————————————————————————

あらかじめバイナリマスク法を用いて生成したマスクに、EMアルゴリズムによる強調処理を適用することで計算した空間相関行列Hの初期値をMNMFに設定します。その他の行列にはランダムな初期値パターンを複数個用意し、複数回の音源分離を実施します。分離後に得られた複数個の空間相関行列Hのパラメータを利用して、階層的クラスタ分析を適用します。クラスタ分析の結果に基づいて、同じクラスタ内に属する信号にアンサンブル平均を適用することで、新たな分離信号を算出します。

バイナリマスク法とは、マイク間の位相差を用いてマスク関数を構築し、雑音を抑圧する手法です。例えば2チャネルで録音された観測信号において、目的音が正面方向(0度)にある場合、マイク間の位相差は0となります。そこで、マイク間の位相差がゼロから離れた時間周波数ビンのパワーをマスキングすることで正面方向の音を取り出すことができます。 そして、バイナリマスク適用後に得られた雑音マスクをEMアルゴリズムを用いて強調処理を行います。強調した雑音マスクからステアリングベクトル(SV)を推定し、観測信号のSVから減算したものを目的信号のSVと定義して、それらの相互相関をとることで空間相関行列Hを計算しています。

階層的クラスタ分析とは、数値分類法の一種であり、異なる集団に属する複数の個体から個体間の距離に基づいて、類似するものを順次集めてクラスタを作成する手法です。その様子をデンドログラムと呼ばれる木構造のグラフで描写することができ、結果として出力されるデンドログラムから任意の数のクラスタに分類することが可能だという特徴があります。なお、クラスタ間の距離計算にはウォード法を使用しています。

アンサンブル平均とは、同一の信号を複数回観測し、それらを加算平均することで雑音を抑圧する手法です。もしも全く同じ目的信号を繰り返し取得することができ、雑音間に相関性が無ければ、それらを加算平均することで不規則に発生する雑音の影響を少なくすることができ、相対的に目的信号が強調されます。

以下に提案手法におけるフローチャートを示します。

提案手法の評価

評価実験では、雑音環境下で観測された信号をMNMFで音源分離し、分離後に得られた目的信号を音声認識実験に適用することで、認識性能が改善するのかどうかを検証します。評価指標には単語誤り率(WER)を用います。4つの雑音環境下(BUS:走行バスの中、CAF:喫茶店、PED:歩行者天国、STR:交差点)において、6つのマイクロホンが装着されたタブレットに向かって人が発話して収音したデータを使用しています。

使用データ:
 4環境×話者4名×3発話×2パターン(SIMU・REAL) 計96発話
 ・SIMU:雑音データと室内で収音した音声データを畳みこんで作成したもの
 ・REAL:実際に雑音環境下で発話したもの

比較手法:
 以下の7つの手法を比較に使用しています。
 ①未処理のまま認識(“Noisy”)
 ②重み付き遅延和アレーにより目的信号強調(“Baseline”)
 ③ランダム初期値(“Random”) ← 従来手法
 ④”Random”に階層的クラスタ分析とアンサンブル平均を適用(“Random+cluster”)
 ⑤EMアルゴリズムから計算した初期値(“EM”)
 ⑥”EM”に階層的クラスタ分析とアンサンブル平均を適用(“EM+cluster”) ← 提案手法
 ⑦室内で収音した音声データを認識(“Clear”) ← 理想データ

以下の図が実験結果となります。これらの結果から、SIMUの場合だと4環境全てにおいて提案手法の認識性能が最も高いことがわかります。ただし、”Clear”にはまだ及ばないということから、まだ性能向上の余地があることが確認できます。REALでは、CAFとSTRにおいて最も高い認識性能が得られていますが、4環境の平均(AVE)に注目すると、全手法の中でも最高の性能が得られていることがわかります。

まとめ

本研究では雑音下における音声認識にMNMFを適用し、初期値設定と階層的クラスタ分析、アンサンブル平均を組みあわせた手法を提案しました。従来のランダム初期値のMNMFには、初期値依存性といった課題がありました。そこで、初期値設定を行うことで、初期値依存性を緩和(分離性能の向上・ばらつきの抑制)することができました。さらに初期値の設定によって性能の向上した分離信号に階層的クラスタ分析を適用することで分類された信号に対し、アンサンブル平均を適用して新たな信号の算出を行いました。評価実験において、提案手法を用いることで音声認識性能が向上したことから、有効性を確認することができました。目的成分が強調された信号を取得することができ、認識性能の向上に繋がったのだと考えられます。

非負値行列因子分解を用いた音源分離における初期値設定の研究

背景・目的

音響分野には様々な研究がありますが、本研究では複数の音源が含まれた観測信号から目的音を取り出す技術である「音源分離」に着目します。下図のように複数の音源が含まれる観測信号に音源分離を適用することで、各音源ごとに抽出することができ、カラオケ音源の作成や自動採譜が可能となります。


音源分離は様々な手法が提案されていますが、ここでは多チャネル非負値行列因子分解(MNMF)に着目します。MNMFはマイク数が音源数より少ない劣決定条件において使用可能な手法であり、高精度に音源分離が可能です。しかし、従来のMNMFは自由度の高いモデルであるので、ランダムな初期値によって分離性能のばらつきが大きな問題となっています。本研究では、あらかじめ初期値を与えることで音源分離性能の向上・安定化を図ります。MNMFのアルゴリズムや挙動解析、問題点等は過去のページを参照ください。

https://www-ai1.csis.oita-u.ac.jp/?page_id=538
https://www-ai1.csis.oita-u.ac.jp/?p=1946

提案手法

提案手法として、他の音源分離手法で得られた分離信号から、基底行列Tと空間相関行列Hを計算して、MNMFの初期値に設定します。ここでは以下の2種類の手法を用います。

—————————————————————————————————————————————————
・音源方向が既知と仮定:バイナリマスク
・音源数とマイク数が同数と仮定:独立低ランク行列分析(ILRMA)
—————————————————————————————————————————————————

バイナリマスクとは、マイク間の位相差を用いてマスク関数を構築し、騒音を抑圧する手法です。例えば2チャネルで録音された観測信号において、目的音が正面方向(0度)にある場合、マイク間の位相差は0となります。そこで、マイク間の位相差がゼロから離れた時間周波数ビンのパワーを削減することで正面方向の音を取り出すことができます。バイナリマスクはMNMFと比べて分離性能が劣りますが、数秒で処理が終わる利点があります。

ILRMAとは、IVAによる空間モデルの学習とNMFによる音源モデルの学習を交互に行うことで、MNMFに比べて安定かつ高速に分離できる手法となっています。ただしIVAの制約から、マイク数が音源数より多い優決定条件(特にマイク数=音源数)となる環境でしか用いることができません。

MNMFの空間相関行列Hは、各手法で得られた分離信号に対してクロススペクトル法を適用することで、計算することができます。バイナリマスクを用いた初期値設定における基底行列Tは、分離信号に対してNNDSVD法を適用することで、計算することができます。また、ILRMAを用いた初期値設定における基底行列Tは、ILRMAで最終的に得られた基底行列TをそのままMNMFの初期値に設定することが可能です(この手法はILRMAを提案した論文に記載されており、従来のMNMFと比べて分離性能が向上することが分かっています)。

以下に本手法におけるフローチャートを示します。

提案法の評価

以下の図のような環境で収録されたインパルス応答に音楽データを畳み込むことで評価用の観測信号を作成しました。Source1にはギター、Source2にはシンセサイザーの音が対応しています。評価値には音声と歪みの比を表すSDRを用います。今回は各手法ごとに10回ずつ分離して平均値を評価値としました。

以下の図が実験結果となります。緑がランダムな初期値である従来のMNMF、青がバイナリマスクの分離結果から各初期値を求めた場合、赤がILRMAの分離結果から各初期値を求めた場合となっています。また、エラーバーは分離結果のばらつきを表しています。この結果から、バイナリマスクを用いた初期値設定では空間相関行列Hを、ILRMAを用いた初期値設定では基底行列Tもしくは空間相関行列Hを計算することで、従来のランダムな初期値より分離性能が良くなっていることが分かります。ただし、ILRMAを用いた初期値設定では、従来の基底行列Tの計算だけで十分な分離性能が得られていることが分かります。

これらのことから、音源方向が既知である場合はバイナリマスクを、マイク数と音源数が同じである場合はILRMAを用いた初期値設定を行うことで、従来のランダムな初期値と比べて分離性能が向上・安定化することが考えられます。今後の課題として、音源数とマイク数を増やしたり、残響時間を長くしたりするなど、難しいタスクにおける評価を行っていく必要があります。

まとめ

本研究ではMNMFの初期値依存性に着目し、あらかじめMNMFの初期値を計算することで、MNMFにおける分離性能の向上・安定化を図りました。初期値設定にはバイナリマスクを用いた手法とILRMAを用いた手法の2種類を提案し、評価実験を行いました。その結果、どちらの手法においてもMNMFの分離性能が向上・安定化することを確認しました。このことから、音源方向が既知である場合はバイナリマスクを、音源数とマイク数が同数であることが既知ならばILRMAを用いて、MNMFの初期値設定することが望ましいと考えられます。

画像処理を用いた複数話者に対するリアルタイム音声強調の研究

マイクロホンアレイを用いて雑音が存在する環境で聞きたい音声のみを強調する研究を行っていました。

音声強調する際に必要な音源方向を画像から取得して音声強調を行うといった手法です。

主にマイク入力からスピーカ出力までをリアルタイムで行えるように取り組んできました。

2016年度修論発表スライドを以下に添付します。

修論発表スライド

適応フィルタを用いたサブスペース埋め込み型トランスオーラルシステムの研究

研究の概要

  • 原音場で収録された音を、再生音場で立体的に再現する立体音響システムに関する研究です。その中で、原音場での音圧を再現する技術の1つであるトランスオーラルシステムを扱っています。

rittai

立体音響のイメージ


トランスオーラルシステム

  • ダミーヘッドと呼ばれる人の頭を模したマイクにより原音場で収録された音を、再生音場でスピーカを用いて再生する技術です。トランスオーラルシステムでは、再生の際に室内伝達特性と呼ばれる再生音場の特性が入り込むため、フィルタ処理によってその特性を打ち消す必要があります。このとき使用されるフィルタを逆フィルタと呼びます。

だみーへっど

ダミーヘッド

torans

トランスオーラルシステムのイメージ

  • トランスオーラルシステムには、「音圧をそのまま再現するため、精度が高い」という利点と、「逆フィルタ設計のため、耳元での特性の測定が必要」「測定した位置から受聴者が移動すると、再現効果が得られない」という欠点があります。

 

サブスペース埋め込み法

  • Saruwatariらは、逆フィルタに特定の方向のスピーカからの出力を強調するフィルタを組み込むことで、受聴者が移動しても再現効果が得られる手法を提案しました。この手法をサブスペース埋め込み法と呼びます。
  • サブスペース埋め込み法では、受聴者が制御点から移動していない場合には逆フィルタによる高精度な再現、移動した場合には音源方向のスピーカからの出力を強調するターゲットフィルタによる定位感を損なわない再現を行います。

せいぎょてん

制御点での再現

たーげっとふぃるた

制御点以外での再現

ターゲットフィルタの設計

  • ターゲットフィルタTは、以下のような形で設計されます。

tage

mはスピーカ数、nは制御点数、G+(ω)は室内伝達関数のMP一般逆行列、τはスピーカから制御点までの遅延、ωは角周波数、kは強調するスピーカの番号を表します。Frはフロベニウスノルムです。

  • すなわち、ターゲットフィルタは、強調するスピーカには逆フィルタと同じ量のゲインと遅延を持ち、それ以外のスピーカに対しては量を持たないフィルタになります。サブスペース埋め込み法では、このフィルタを逆フィルタに組み込みます。

 

  • サブスペース埋め込み法では、逆フィルタによる音場再現の方向と、ターゲットフィルタによる出力強調の方向が一致している必要があるため、「スピーカの存在する方向しか音場再現ができない」「再現精度を高めるためには数多くのスピーカが必要」といった課題があります。

 


適応フィルタを用いたサブスペース埋め込み法

  • サブスペース埋め込み法の課題を解決するため、適応フィルタを用いてスピーカの存在しない方向の特性を推定し、フィルタ設計に用いる手法を提案します。

 

適応フィルタ

  • 適応フィルタとは、現在の出力と理想の出力の誤差を繰り返し計算し、係数更新によって誤差を最小化することで理想の出力を推定するフィルタです。以下の適応アルゴリズムによって係数更新を行います。

arugo

適応アルゴリズム

 

フィルタ設計

  • 例として、下図のようなスピーカの存在しない受聴者の正面方向からの音の再現を考えます。このとき、正面の左右にあるスピーカから同じ大きさの同じ音を出力すれば、受聴者は正面方向に音を知覚すると考えられます。しかし、音像の方向と実際に音が出力されているスピーカの方向が異なるため、受聴者が動いた場合に不自然さを感じてしまいます。このため、強調するスピーカに音像の方向の特性や遅延を与える必要があります。これを適応フィルタにより推定し、ターゲットフィルタの設計に利用します。

tekioukankyou

環境のイメージ

sekk

特性の推定

スピーカの距離や方向によって遅延が異なるため、得られた係数から遅延を補正し、最終的なフィルタを設計します。

hose


評価実験

  • 提案手法がスピーカの存在しない方向の音を再現できることを確認するため、主観評価実験を行いました。何も処理をしていない原音、通常の逆フィルタ、サブスペース埋め込み法、提案手法を比較しました。

kankyou

実験環境

jou1

実験条件①

jou2

実験条件②

以上の条件で実験を行いました。ダミースピーカは、視覚による結果の変動を防ぐために設置しています。原音とサブスペース埋め込み法では、スピーカの存在する方向しか出力を行えないため、8chのみとなっています。

実験結果

  • まず、実験で設計したフィルタの例を示します。

to

設計したフィルタ特性(右耳)

これは、右耳に入る音に対するフィルタ係数です。1chと8chを強調しているため、この2つが他のチャンネルよりも大きい係数を持っています。

  • 次に、主観評価実験の結果を示します。それぞれ、横軸は音源の方向、縦軸は受聴者の知覚した方向を表しています。円は回答の多さを表し。最大の円は7、最小は1です。

gennonn

原音

原音では、ほぼ正確な回答が得られました。しかし、音源方向が受聴者の後方の場合にばらつきが見られました。これは、無響室という音を聴き慣れていない環境、視覚の情報が得られない、といったことが関係していると考えられます。

tuujou

通常の逆フィルタ

通常の逆フィルタでは、後方に大きなばらつきが見られました。これは、受聴者が動いたことにより、フィルタの効果が得られず、前後の判断が困難になったことがあげられます。また、0度方向では、受聴者の動いた方向に音を知覚してしまう場合がありました。

sabusupe

サブスペース埋め込み法

サブスペース埋め込み法では、通常の逆フィルタに比べて、後方のばらつきが減少しました。ターゲットフィルタの効果により、受聴者が動いた場合でも定位感を損なっていないことがわかります。ただし、0度方向にスピーカが存在しないため、0度方向の回答は存在しませんでした。

teiansyu

提案手法

最後に提案手法です。提案手法では、0度方向以外の強調ではサブスペース埋め込み法と変わりがないため、ばらつきもほぼ同程度でした。0度方向については、通常の逆フィルタと比べて正答率が14%から57%と大きく上昇しており、スピーカの存在しない方向の音の再現ができていることがわかります。


結論と今後の課題

  • 結論として、提案手法により、スピーカの存在しない方向の音の再現が出来ました。
  • 今後の課題として、「実際の室内で同様の実験を行い、無響室での実験と比較すること」「0度以外の方向でも実験を行うこと」「正解のインパルス応答がない状態での推定モデルの検討」があげられます。

奏者のための消音ギター楽器音声生成フィルタと頭部運動追従リアルタイムフィルタ

 研究の概要

  • 消音ギターのピックアップ出力に対し,頭部運動に追従した楽器音生成フィルタを適用することで,通常のギター(ボディがあるギター)の音色や音の広がりを再現する研究です.

  •  消音ギターについて
    • 消音ギターとは
      • YAMAHA製の[サイレントギター]やARIA製の[Sinsonido]があります.
        消音ギターは通常のギター(生ギター)のボディー部分を排した楽器です.
        本研究ではYAMAHA製の型番[SLG110N]というサイレントギターを使用します.
    • 利点
      • ボディーによる音の増幅が発生しないことから,場所や時間にとらわれず練習できます.
    • 欠点
      • 通常のギター(生ギター)であれば,ボディーの特性や部屋の響きによって音が変化しますが,消音ギターの場合は,ピックアップでひろった弦の音をヘッドホンから直接聴くことになるため,音の広がりのない無機質な音に聴こえてしまいます.

  • 奏者のための楽器音生成フィルタ
    • 目的
      • 生ギターのボディ特性(放射音周波数特性)・両耳特性(ギターの定位)・空間特性(反射や残響)を再現する楽器音生成フィルタを作成し,消音ギターのピックアップに適用します.消音ギターフィルタのイメージ
    • 測定
      • 生ギターの駒部分に加振機を当て,測定信号を与えます.その時の放射音をダミーヘッドマイクロホンで取得しインパルス応答を取得します.ダミーヘッド測定の様子
      • ダミーヘッドの首を水平方向に回転させながら,左右60度ずつのインパルス応答を測定しました.↓測定したインパルス応答をwavファイルにしたもの
        インパルス応答

  • 頭部運動追従リアルタイムフィルタ
    • 概要
      • 消音ギターを演奏する際の頭部水平回転を取得し,頭部の角度に合わせたフィルタをライン出力に適用し,ヘッドホンから再生します.
      • フィルタを頭部運動に追従させることで頭外定位しやすくなります.
      • 生ギターのボディ放射音周波数特性や部屋の特性(反射や残響)を再現を目指します.
    • 頭部運動の取得
      • Microsoft社製のKinectを使用し,顔の水平角(Yaw角)をリアルタイムに取得し,外部ファイルに出力します.kinectの画面
    • MATLABを使ったリアルタイムフィルタ
      1. 消音ギターのピックアップ出力をオーディオインターフェースを介してMATLAB(数値計算ソフト)に与えます.
      2. Kinectから出力された顔の水平角が入った外部ファイルを読み込み,顔の水平角によってフィルタを切り替えながら消音ギターのライン出力に適用し,計算結果をヘッドホンから出力します.
    • システム図.

頭部追従システム


  • 評価実験
    • 客観評価:倍音スペクトル距離の比較
      • 生ギターで弦を鳴らした音と,消音ギターのピックアップ出力に 提案フィルタを適用した音との周波数の差を計算します.
        計算式は以下のような倍音スペクトル距離を採用しました.
        倍音スペクトル距離
      • 実験結果
        倍音スペクトル距離結果評価の結果,本研究で提案するフィルタを適用したほうが,生ギターの音色に近づくことが確認できました.
    •  主観評価:シェッフェーの一対比較[中屋の変法]
      • 実際に提案システムを用いて被験者に演奏してもらい,音の広がり,ギターの定位感の評価してもらいました.
        被験者は学生19名 (女:5名 男:14名)で,有意水準5%としました.リアルタイムフィルタの入出力サイズは500サンプルとします.
      • 比較フィルタ
        • A=消音ギターのピックアップ出力
        • B=消音ギター搭載のフィルタ(リバーブ)
        • C=提案フィルタ(頭部運動追従):サンプル数500
        • D=提案フィルタ(0度でフィルタを固定):サンプル数4000
      • 設問
        • 「どちらが音の広がりを感じるか」
        • 「どちらがギターの定位感があるか」
      • 実験結果
        シェッフェーの一対比較によって検定を行った結果,音の広がりに関してはフィルタD(提案フィルタ(0度でフィルタを固定))がもっともよく,フィルタDとBの間に有意差がありました.
        ギターの定位感に関しては,フィルタCがもっともよく,それ以外のフィルタに対し有意差がありました.

音の広がり
どちらが音の広がりを感じるか

ギターの定位感どちらがギターの定位感があるか


  • 結論
    • 頭部運動に追従する楽器音生成フィルタを提案しました.実験の結果,フィルタを適用したほうが生ギターらしい音色になり,定位感,音の広がりに効果があることがわかりました.
    • 今後の課題として,頭部運動追従フィルタのフィルタ長を入出力サイズよりも長くするとクリックノイズが発生する問題を解決する必要があると考えます.