背景
私たちの生活している環境には様々な音が存在しており、その中から特定の音を抽出する技術、音源分離が求められています。
例)音声認識、雑音抑圧、ユーザによる既存音楽の再編集…etc
従来研究
- マルチチャネルNMF(MNMF)
-劣決定条件(音源数>マイク数)で、マイク間の位相情報を利用して音源分離を行います。
- 独立低ランク行列分析(ILRMA)
-優決定条件(音源数≦マイク数)で、空間モデルと音源モデルを交互に学習します。
目的
従来研究の2つの手法にはそれぞれ長所と短所があり、MNMF は音源数に関わらず音源分離が可能ですが、計算コストが大きく、処理が遅いという問題があります。一方、ILRMA は計算コストが少なく、処理が速いのですが、音源数とマイク数が同じでなければならないという問題があります。
そこで本研究では、MNMF と ILRMA を組み合わせて、劣決定条件(音源数>マイク数)で処理が高速なアルゴリズムの作成を提案します。
提案手法
本研究では、まず観測信号に対してMNMF を行い、音源をいくつかに分割します。
その後、分割した音源に対してILRMA を用いて、音源分離を行います。
この手法によって、従来のMNMF より少ない更新回数で分割し、ILRMA で分割した音源を分離することで、従来のMNMF より高速な音源分離ができるのではないかと考えています。
提案手法の有効性
提案手法の有効性を示すために2つの実験を行いました。
これを従来法と比較して、時間は短く、精度は同じになることを目指します。
実験1
実験1の条件は以下のようになっています。
この時、ID1とID2は同じ音源で、60度と120度の配置を入れ替えただけのものになります。同様にID3とID4が同じ音源となっています。
実験結果は以下のとおりです。
従来法の平均よりも提案法の平均が上回り、ID3では高い分離精度となりました。
実験2
実験2の条件は以下のようになっています。
ここで使用した音源は実験1の結果でSDRが高かったものを扱いました。また、分割した音源は正面からみて右側と左側でまとまって分割されたので、図の青の組み合わせと緑の組み合わせをID4つ分、計8個をILRMAで分離しました。
実験結果は以下のとおりです。
実行時間
提案法でMNMFとILRMA全てにかかった時間と、従来のMNMFのみで分離を行った時間を以下の図に示します。
考察
実験2の結果、提案法のSDRは従来法より低くなりました
→実験2のSDRの高さは実験1のSDRの高さに比例しているため、提案法のSDRの低下はMNMFの音源分割が不十分であったと考えられます。
以下の図は実験1と実験2の提案手法の結果となっています。ここで実験1で最もSDRが高くなったID3は実験2でもSDRが高くなっていることから、SDRの高さは比例していることがわかります。
まとめ
- MNMF とILRMA を組み合わせたアルゴリズムを提案しました。
- 従来のMNMFのみの分離に比べ、提案法の分離精度は低くなったが、実行時間は短縮できました。
コメントを残す