劣決定条件のブラインド音源分離におけるマルチチャネル非負値行列因子分解を用いたアルゴリズムの研究

背景

私たちの生活している環境には様々な音が存在しており、その中から特定の音を抽出する技術、音源分離が求められています。

例）音声認識、雑音抑圧、ユーザによる既存音楽の再編集…etc

従来研究

マルチチャネルNMF(MNMF)

-劣決定条件(音源数＞マイク数)で、マイク間の位相情報を利用して音源分離を行います。

独立低ランク行列分析(ILRMA)

-優決定条件(音源数≦マイク数)で、空間モデルと音源モデルを交互に学習します。

目的

従来研究の２つの手法にはそれぞれ長所と短所があり、MNMF は音源数に関わらず音源分離が可能ですが、計算コストが大きく、処理が遅いという問題があります。一方、ILRMA は計算コストが少なく、処理が速いのですが、音源数とマイク数が同じでなければならないという問題があります。

そこで本研究では、MNMF と ILRMA を組み合わせて、劣決定条件(音源数＞マイク数)で処理が高速なアルゴリズムの作成を提案します。

提案手法

本研究では、まず観測信号に対してMNMF を行い、音源をいくつかに分割します。

その後、分割した音源に対してILRMA を用いて、音源分離を行います。

この手法によって、従来のMNMF より少ない更新回数で分割し、ILRMA で分割した音源を分離することで、従来のMNMF より高速な音源分離ができるのではないかと考えています。

提案手法の有効性

提案手法の有効性を示すために２つの実験を行いました。

これを従来法と比較して、時間は短く、精度は同じになることを目指します。

実験１

実験１の条件は以下のようになっています。

この時、ID１とID２は同じ音源で、６０度と１２０度の配置を入れ替えただけのものになります。同様にID３とID４が同じ音源となっています。

実験結果は以下のとおりです。

従来法の平均よりも提案法の平均が上回り、ID３では高い分離精度となりました。

実験２

実験２の条件は以下のようになっています。

ここで使用した音源は実験１の結果でSDRが高かったものを扱いました。また、分割した音源は正面からみて右側と左側でまとまって分割されたので、図の青の組み合わせと緑の組み合わせをID４つ分、計８個をILRMAで分離しました。

実験結果は以下のとおりです。

実行時間

提案法でMNMFとILRMA全てにかかった時間と、従来のMNMFのみで分離を行った時間を以下の図に示します。

考察

実験２の結果、提案法のSDRは従来法より低くなりました

→実験２のSDRの高さは実験１のSDRの高さに比例しているため、提案法のSDRの低下はMNMFの音源分割が不十分であったと考えられます。

以下の図は実験１と実験２の提案手法の結果となっています。ここで実験１で最もSDRが高くなったID３は実験２でもSDRが高くなっていることから、SDRの高さは比例していることがわかります。

まとめ

MNMF とILRMA を組み合わせたアルゴリズムを提案しました。
従来のMNMFのみの分離に比べ、提案法の分離精度は低くなったが、実行時間は短縮できました。

« 受聴者位置検出による指向性追従スピーカーシステムの研究不随意的嚥下音の統計解析による機能評価の研究 »

音メディア処理研究室

ブログ