画像処理を用いた複数話者に対する音声強調の研究

平成26年10月3日に卒業研究の中間発表がありました。

そこで私が発表した内容を簡単に説明します。

・研究背景，目的

　　動画を撮る際に目的の人の声だけを聞きたい。周りの人の声やその他の雑音は聞きたくない。そのように思い、目的音方向の音のみの強調。を研究しています。

・使用デバイス

Kinect

・課題(複数人対応)

　カメラ範囲内の複数人から目的である人を見つけ出すため、骨格検出を行う。

　しかし、現在のKinectのスペックでは骨格検出可能人数は2人まで。

　3人以上いた場合は骨格検出対象者を切り替えていくことで解決させた。

・システムの流れ

　カメラ画像から目的の人のみを見つけ出し、その人の角度情報を取得。

　その角度でマイクロホンアレイで録音した音にMV法を適用し、スピーカーから出力する。

・予備実験①

　目的は

　目的の人を見つけ出せるか。

　角度の取得ができるか。

　の２つ

目的のどちらも成功！！！

・予備実験②

　目的

　角度を先に与えておき、二人画面上にいた場合の音声強調(MV法)の精度はどの程度か。

　実験の環境

　SN比の改善量

　男性方向の音の強調

　1.6949dB　→　5.3013dB　　　　　　　約3.6dBの改善

　女性方向の音の強調

　-1.6949dB　→　3.4998dB　　　　　　約5.2dBの改善

　結果

　有効であると判断。

まとめ

　この予備実験①と②を組み合わせることで画面上に複数人いた場合も目的音方向の音のみを強調することができるはず。

　今後は、この２つを組み合わせることを進めていき、最終的にはリアルタイムで処理できるようにしたい。

音メディア処理研究室