人工知能第一研究室

 
修士論文

マルチチャネル非負値行列因子分解を用いた音源分離および音声認識の性能向上に関する研究

背景・目的

近年、スマートフォンやハンズフリーなどの音声を取り扱うオーディオ機器が広く普及しており、様々な音が混在する環境下での利用が想定されます。ただし、周囲の雑音や他話者の音声の影響によって、目的とする音の抽出や認識が困難になるという問題が生じます。この問題の解決には音源分離技術が有効であり、必要とする目的音のみを抽出することが可能となります。そうすることで、通話時における会話音声の明瞭度の向上や音声入力操作時における音声認識性能の向上へと繋がります。

音源分離には様々な手法が提案されていますが、ここではマルチチャネル非負値行列因子分解(MNMF)に着目します。MNMFは劣決定条件(音源数 > 観測マイク数)に有効な手法であり、観測環境下に多くの音源が存在する場合でも、少ないマイク数で分離が可能です。しかし、MNMFは自由度の高いモデルであるため分離性能に対する初期値依存性が大きいといった課題がありました。本研究では、雑音環境下で観測された音声データをMNMFで分離し、得られた分離信号を音声認識実験に適用することで認識性能の向上を図ります。認識性能という観点から、ランダムな初期値を設定する従来手法などを含む複数の手法と提案手法を比較することで、有効性を検証します。MNMFのアルゴリズムや挙動解析、問題点等は過去のページを参照ください。

提案手法

これまでの研究成果により、あらかじめ初期値を与えることで分離性能が向上し、ばらつきの抑制を達成することができました。ただしMNMFの性質上、多少なりともばらつきが生じます。そこで本研究では、この性質を逆手にとって、初期値の設定によって得られた高い分離性能を持つ複数の分離信号の中から新たな分離信号を算出する手法を提案します。

—————————————————————————————————————————————————
なお、本提案手法は雑音環境下音声認識タスクである”CHiME Challenge4″を対象としており、音源方向が既知(正面方向)という条件の下でバイナリマスク法を適用しています。
—————————————————————————————————————————————————

あらかじめバイナリマスク法を用いて生成したマスクに、EMアルゴリズムによる強調処理を適用することで計算した空間相関行列Hの初期値をMNMFに設定します。その他の行列にはランダムな初期値パターンを複数個用意し、複数回の音源分離を実施します。分離後に得られた複数個の空間相関行列Hのパラメータを利用して、階層的クラスタ分析を適用します。クラスタ分析の結果に基づいて、同じクラスタ内に属する信号にアンサンブル平均を適用することで、新たな分離信号を算出します。

バイナリマスク法とは、マイク間の位相差を用いてマスク関数を構築し、雑音を抑圧する手法です。例えば2チャネルで録音された観測信号において、目的音が正面方向(0度)にある場合、マイク間の位相差は0となります。そこで、マイク間の位相差がゼロから離れた時間周波数ビンのパワーをマスキングすることで正面方向の音を取り出すことができます。 そして、バイナリマスク適用後に得られた雑音マスクをEMアルゴリズムを用いて強調処理を行います。強調した雑音マスクからステアリングベクトル(SV)を推定し、観測信号のSVから減算したものを目的信号のSVと定義して、それらの相互相関をとることで空間相関行列Hを計算しています。

階層的クラスタ分析とは、数値分類法の一種であり、異なる集団に属する複数の個体から個体間の距離に基づいて、類似するものを順次集めてクラスタを作成する手法です。その様子をデンドログラムと呼ばれる木構造のグラフで描写することができ、結果として出力されるデンドログラムから任意の数のクラスタに分類することが可能だという特徴があります。なお、クラスタ間の距離計算にはウォード法を使用しています。

アンサンブル平均とは、同一の信号を複数回観測し、それらを加算平均することで雑音を抑圧する手法です。もしも全く同じ目的信号を繰り返し取得することができ、雑音間に相関性が無ければ、それらを加算平均することで不規則に発生する雑音の影響を少なくすることができ、相対的に目的信号が強調されます。

以下に提案手法におけるフローチャートを示します。

提案手法の評価

評価実験では、雑音環境下で観測された信号をMNMFで音源分離し、分離後に得られた目的信号を音声認識実験に適用することで、認識性能が改善するのかどうかを検証します。評価指標には単語誤り率(WER)を用います。4つの雑音環境下(BUS:走行バスの中、CAF:喫茶店、PED:歩行者天国、STR:交差点)において、6つのマイクロホンが装着されたタブレットに向かって人が発話して収音したデータを使用しています。

使用データ:
 4環境×話者4名×3発話×2パターン(SIMU・REAL) 計96発話
 ・SIMU:雑音データと室内で収音した音声データを畳みこんで作成したもの
 ・REAL:実際に雑音環境下で発話したもの

比較手法:
 以下の7つの手法を比較に使用しています。
 ①未処理のまま認識(“Noisy”)
 ②重み付き遅延和アレーにより目的信号強調(“Baseline”)
 ③ランダム初期値(“Random”) ← 従来手法
 ④”Random”に階層的クラスタ分析とアンサンブル平均を適用(“Random+cluster”)
 ⑤EMアルゴリズムから計算した初期値(“EM”)
 ⑥”EM”に階層的クラスタ分析とアンサンブル平均を適用(“EM+cluster”) ← 提案手法
 ⑦室内で収音した音声データを認識(“Clear”) ← 理想データ

以下の図が実験結果となります。これらの結果から、SIMUの場合だと4環境全てにおいて提案手法の認識性能が最も高いことがわかります。ただし、”Clear”にはまだ及ばないということから、まだ性能向上の余地があることが確認できます。REALでは、CAFとSTRにおいて最も高い認識性能が得られていますが、4環境の平均(AVE)に注目すると、全手法の中でも最高の性能が得られていることがわかります。

まとめ

本研究では雑音下における音声認識にMNMFを適用し、初期値設定と階層的クラスタ分析、アンサンブル平均を組みあわせた手法を提案しました。従来のランダム初期値のMNMFには、初期値依存性といった課題がありました。そこで、初期値設定を行うことで、初期値依存性を緩和(分離性能の向上・ばらつきの抑制)することができました。さらに初期値の設定によって性能の向上した分離信号に階層的クラスタ分析を適用することで分類された信号に対し、アンサンブル平均を適用して新たな信号の算出を行いました。評価実験において、提案手法を用いることで音声認識性能が向上したことから、有効性を確認することができました。目的成分が強調された信号を取得することができ、認識性能の向上に繋がったのだと考えられます。

非負値行列因子分解を用いた音源分離における初期値設定の研究

背景・目的

音響分野には様々な研究がありますが、本研究では複数の音源が含まれた観測信号から目的音を取り出す技術である「音源分離」に着目します。下図のように複数の音源が含まれる観測信号に音源分離を適用することで、各音源ごとに抽出することができ、カラオケ音源の作成や自動採譜が可能となります。


音源分離は様々な手法が提案されていますが、ここでは多チャネル非負値行列因子分解(MNMF)に着目します。MNMFはマイク数が音源数より少ない劣決定条件において使用可能な手法であり、高精度に音源分離が可能です。しかし、従来のMNMFは自由度の高いモデルであるので、ランダムな初期値によって分離性能のばらつきが大きな問題となっています。本研究では、あらかじめ初期値を与えることで音源分離性能の向上・安定化を図ります。MNMFのアルゴリズムや挙動解析、問題点等は過去のページを参照ください。

http://www-ai1.csis.oita-u.ac.jp/?page_id=538
http://www-ai1.csis.oita-u.ac.jp/?p=1946

提案手法

提案手法として、他の音源分離手法で得られた分離信号から、基底行列Tと空間相関行列Hを計算して、MNMFの初期値に設定します。ここでは以下の2種類の手法を用います。

—————————————————————————————————————————————————
・音源方向が既知と仮定:バイナリマスク
・音源数とマイク数が同数と仮定:独立低ランク行列分析(ILRMA)
—————————————————————————————————————————————————

バイナリマスクとは、マイク間の位相差を用いてマスク関数を構築し、騒音を抑圧する手法です。例えば2チャネルで録音された観測信号において、目的音が正面方向(0度)にある場合、マイク間の位相差は0となります。そこで、マイク間の位相差がゼロから離れた時間周波数ビンのパワーを削減することで正面方向の音を取り出すことができます。バイナリマスクはMNMFと比べて分離性能が劣りますが、数秒で処理が終わる利点があります。

ILRMAとは、IVAによる空間モデルの学習とNMFによる音源モデルの学習を交互に行うことで、MNMFに比べて安定かつ高速に分離できる手法となっています。ただしIVAの制約から、マイク数が音源数より多い優決定条件(特にマイク数=音源数)となる環境でしか用いることができません。

MNMFの空間相関行列Hは、各手法で得られた分離信号に対してクロススペクトル法を適用することで、計算することができます。バイナリマスクを用いた初期値設定における基底行列Tは、分離信号に対してNNDSVD法を適用することで、計算することができます。また、ILRMAを用いた初期値設定における基底行列Tは、ILRMAで最終的に得られた基底行列TをそのままMNMFの初期値に設定することが可能です(この手法はILRMAを提案した論文に記載されており、従来のMNMFと比べて分離性能が向上することが分かっています)。

以下に本手法におけるフローチャートを示します。

提案法の評価

以下の図のような環境で収録されたインパルス応答に音楽データを畳み込むことで評価用の観測信号を作成しました。Source1にはギター、Source2にはシンセサイザーの音が対応しています。評価値には音声と歪みの比を表すSDRを用います。今回は各手法ごとに10回ずつ分離して平均値を評価値としました。

以下の図が実験結果となります。緑がランダムな初期値である従来のMNMF、青がバイナリマスクの分離結果から各初期値を求めた場合、赤がILRMAの分離結果から各初期値を求めた場合となっています。また、エラーバーは分離結果のばらつきを表しています。この結果から、バイナリマスクを用いた初期値設定では空間相関行列Hを、ILRMAを用いた初期値設定では基底行列Tもしくは空間相関行列Hを計算することで、従来のランダムな初期値より分離性能が良くなっていることが分かります。ただし、ILRMAを用いた初期値設定では、従来の基底行列Tの計算だけで十分な分離性能が得られていることが分かります。

これらのことから、音源方向が既知である場合はバイナリマスクを、マイク数と音源数が同じである場合はILRMAを用いた初期値設定を行うことで、従来のランダムな初期値と比べて分離性能が向上・安定化することが考えられます。今後の課題として、音源数とマイク数を増やしたり、残響時間を長くしたりするなど、難しいタスクにおける評価を行っていく必要があります。

まとめ

本研究ではMNMFの初期値依存性に着目し、あらかじめMNMFの初期値を計算することで、MNMFにおける分離性能の向上・安定化を図りました。初期値設定にはバイナリマスクを用いた手法とILRMAを用いた手法の2種類を提案し、評価実験を行いました。その結果、どちらの手法においてもMNMFの分離性能が向上・安定化することを確認しました。このことから、音源方向が既知である場合はバイナリマスクを、音源数とマイク数が同数であることが既知ならばILRMAを用いて、MNMFの初期値設定することが望ましいと考えられます。