研究背景・目的
下の左図のように複数話者が存在する場合、目的話者の声を聞き取るのは困難です。そこで音源分離という技術で各話者ごとの声に分離することで、下の右図のように目的話者の声を抽出することが可能となります。
音源分離には独立成分分析や特異値分解などいくつか手法がありますが、その中でも比較的新しい手法であるマルチチャネルNMFに着目します。この手法は、空間情報を使うことで高精度に音源分離をすることが出来ます。しかし、従来のマルチチャネルNMFは自由度の高いモデルであるので、後述する初期値によって分離性能のばらつきが大きな問題となっています。
本研究では、通常ランダムに設定される初期値に対して、どの情報の初期値が分離性能を左右するのか解析を行います。マルチチャネルNMFおよびシングルチャネルNMFの概要は吉山さんの記事を参考にして下さい。
https://www-ai1.csis.oita-u.ac.jp/?page_id=538
初期値依存性の挙動解析
マルチチャネルNMFで観測信号を音源分離することで、観測信号を示す行列Xを「どのような音が含まれるか」を示す行列T、「その音がいつ鳴っているか」を示す行列V、「その音がどの音源から鳴っているか」を示す行列Z、「どの方向に音源が存在するか」を示す行列Hに分解することが出来ます。今回は推定が比較的容易であると考えられる行列Tと行列Hに着目します。下図はマルチチャネルNMFの動作の流れを表します。
この図のように、ランダムに設定された各行列の合成値と入力信号を比較して、各行列の値が入力信号に近づくように更新式を繰り返し適用します。この時、初期値がランダムに与えられるため、同じデータを分離する時でも分離性能に違いに出てしまうのが問題となっています。そこで、どの情報の初期値が分離性能を左右するのか解析を行います。
ここでは、ランダムな初期値パターンを10 個作成し、各パターンで分離を行います。分離結果が良かったパターンの更新後の各行列は、正しく音源分離が出来ている理想的な値であると仮定し、各パターンの他の初期値は変えずに、更新後の最良の行列を初期値として設定することで実験を行います。分離する観測信号は、楽器および音声の3つから構成された音楽データで、4曲分用意しました。以下は分離結果となっています。
横軸は音楽データの種類を、縦軸はSDRと呼ばれる分離性能を表します。SDRの数値が高いほど、分離性能が良いことを表します。また、エラーバーはデータのばらつきである標準偏差を表します。”random”は初期値がランダム、”best_T”は最良の行列Tを使用、”best_H”は最良の行列Hを使用、”bestT&H”は最良の行列Tおよび最良の行列Hを使用したことを示します。
この表から、最良の行列を初期値とすることで分離性能が向上していることが見られます。また、行列Tと行列Hの両方を最良の値にすることで、分離性能のばらつきが大幅に減少しています。このことから、「どのような音が含まれるか」と「どの方向に音源が存在するか」という情報が分離性能を左右するということが考えられます。
まとめ
今回の研究で「どのような音が含まれるか」と「どの方向に音源が存在するか」という情報の初期値に分離性能が左右されるということが分かりました。さて、実際にこれらの情報をどのように取得すれば良いのかということですが、この記事では省略させて頂きます。この研究は2015年春に開催される音響学会に提出予定なので、気になった方は是非調べてみてください。簡単な説明でしたが、ここまで読んで下さりありがとうございました。音源分離に興味を持たれたなら幸いです。