Kinectを用いた頭部追跡によるリアルタイム音声強調の研究

背景
昨今では録画録音デバイスを比較的安価で入手可能
↓
個人でリアルタイムでの音声付き動画を撮影、配信することが普及してきている
例：skype(ビデオ通話)

目的
雑音が存在する環境下での目的音の強調

使用デバイス
Kinect

•カメラ、深度センサ、４つのマイクロホン搭載
•設置型の録画録音デバイス
•プレイヤーの位置、動き、声、顔などを認識可能

研究手法
音声処理＋画像処理を用いた音声強調
　1.骨格検出により話者の頭部を追跡し、位置情報を取得
　2.取り出した位置情報から、マイクの指向性を音源（話者の頭部）に向けて録画録音
↓
話者の声が強調

Kinectを用いた頭部追跡による角度推定手法
頭部追跡によって得られた話者の頭部の座標と深度を利用してKinectから頭部までの角度を求める方法

X：頭部のx座標
Z：Kinectから頭部までの深度（距離）
θ：Kinectから頭部までの角度

予備実験
Kinectから深度1mの点を10cm間隔でダミーヘッドを設置して測定
↓
得られた各データを用いてKinectからダミーヘッドまでの角度を比較することで位置情報の信頼性を評価する

実験結果

ここまでの結論
本研究手法の利点
　・従来法の一つである遅延和法（雑音がない仮想環境）よりも角度誤差が小さい
　・雑音による影響を受けない
↓
雑音に強く、安定した音源位置推定が行える

補足

頭部追跡によって追跡している座標の深度値の求め方
解像度640*480のため、深度値を x[640][480]の配列に格納

例：(100,200)の深度値が1000mmの時
　　 x[100][200] = 1000

Kinectの機能
カメラの視野角度
　・水平方向57度、垂直方向43度

骨格情報
　・全身の 3 次元の関節座標をリアルタイムに追跡
　・20 箇所の関節（頭, 肩の中央, 左肩, 右肩, etc）　
　・2 人同時に骨格追跡（認識そのものは 6 人可能）

深度情報
　・取得できる深度：0.8m~4m

ダミーヘッド