人工知能第一研究室

 
非負値行列因子分解の多チャンネル化による高性能音源分離に関する研究

非負値行列因子分解の多チャンネル化による高性能音源分離に関する研究

研究背景・目的

近年、私達の身の周りにはスマートフォンやハンズフリー、テレビ会議システムなどといった音声を取り扱う機器が広く普及しています。これらを利用する場合に、周囲の雑音や反響音、複数話者の音声がマイクに入ってくると、目的とする音の抽出や認識が難しくなるといった問題が生じます。そこで、用いられる技術として音源分離の研究が盛んに行われており、様々な手法があります。その中でも比較的新しい手法であるマルチチャネルNMFに着目しました。この手法は空間情報を用いることで高精度に音源分離を行うことが出来ます。しかし、初期値にランダムな値を設定する従来のマルチチャネルNMFは自由度の高いモデルであるため局所最適解に陥りやすく、分離性能が初期値に依存してしまうことが課題として挙げられています。

本研究では、従来法でチャネル数を増やした場合におけるマルチチャネルNMFの分離性能の分析を実験的に行い、そこで生じる問題点について提案法によるアプローチで解決を行います。

マルチチャネルNMFおよびシングルチャネルNMFの概要は吉山さん、三浦さんの記事を参考にして下さい。
http://www-ai1.csis.oita-u.ac.jp/?page_id=538
http://www-ai1.csis.oita-u.ac.jp/?page=1946

実験条件

以下の図に示す環境で測定されたインパルス応答を音楽データに畳みこみ、2-6チャネルの評価信号を作成しました。使用マイクロホン番号及び音源位置、分離処理に用いるパラメータは下図参照下さい。ここでは、シード値用意して生成したランダムな初期値パターンを10個用意して、各チャネルで3音源の平均SDRを比較します。SDRとは分離性能を評価するための指標で、数値が高いほど分離性能が良いことを表します。なお、結果のグラフには平均SDRとSDRのばらつきの大きさを表す標準偏差をエラーバーで示します。

チャネル数を増やした場合

以下の図に示すように、従来法でチャネル数を増やして音源分離を行うとチャネル数の増加に伴い分離性能が低下してしまうことが確認されました。原因として、チャネル数が増加すると行列に対する自由度も増加するため、より局所最適解に陥りやすくなると考えられます。そこで、これらの問題を解決するための手法を提案します。

提案手法

これまでの研究でマルチチャネルNMFは空間相関行列Hに対する初期値依存性が大きいことが分かっています。そこで、分離性能が良かった時の分離後の空間相関行列Hは理想に近いパラメータが推定出来ているのではないかと考えました。
mチャネルで分離を行い、mチャネルの空間相関行列Hは、m+1チャネルの空間相関行列Hの部分行列になっていることを利用して、SDRが最も高い時の分離後の空間相関行列Hを次のm+1チャネルの空間相関行列Hの初期値に設定し、音源分離を行います。m = 2, 3, 4, 5 とし、チャネル数増加に伴い逐次的にこの処理を行います。始めに音源分離を行う2チャネルの初期値には従来法と同様にランダムの値を設定しています。

実験結果

以下に示す実験結果から従来法よりも分離性能が向上していることが確認出来ます。また、チャネル数増加に伴い分離性能が向上しているということが見られました。

まとめ

従来のマルチチャネルNMFではチャネル数が増加すると分離性能が低下してしまうという問題点があることを確認しました。この問題を解決するために良いパラメータを推定出来ている行列を逐次的に設定することで局所最適解に陥るのを避け、マイクロホン数の増加に伴う多くの情報量を適切に扱えるために分離性能が向上したと考えられます。
この研究は2017年春に開催される音響学会に提出する予定なので、興味を持った方は是非調べてみて下さい。最後まで読んでいただきありがとうございました。

« »

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です