背景
昨今では録画録音デバイスを比較的安価で入手可能
↓
個人でリアルタイムでの音声付き動画を撮影、配信することが普及してきている
例:skype(ビデオ通話)
使用デバイス
Kinect
•カメラ、深度センサ、4つのマイクロホン搭載
•設置型の録画録音デバイス
•プレイヤーの位置、動き、声、顔などを認識可能
研究手法
音声処理+画像処理を用いた音声強調
1.骨格検出により話者の頭部を追跡し、位置情報を取得
2.取り出した位置情報から、マイクの指向性を音源(話者の頭部)に向けて録画録音
↓
話者の声が強調
Kinectを用いた頭部追跡による角度推定手法
頭部追跡によって得られた話者の頭部の座標と深度を利用してKinectから頭部までの角度を求める方法
X:頭部のx座標
Z:Kinectから頭部までの深度(距離)
θ:Kinectから頭部までの角度
予備実験
Kinectから深度1mの点を10cm間隔でダミーヘッドを設置して測定
↓
得られた各データを用いてKinectからダミーヘッドまでの角度を比較することで位置情報の信頼性を評価する
ここまでの結論
本研究手法の利点
・従来法の一つである遅延和法(雑音がない仮想環境)よりも角度誤差が小さい
・雑音による影響を受けない
↓
雑音に強く、安定した音源位置推定が行える
補足
頭部追跡によって追跡している座標の深度値の求め方
解像度640*480のため、深度値を x[640][480]の配列に格納
例:(100,200)の深度値が1000mmの時
x[100][200] = 1000
Kinectの機能
カメラの視野角度
・水平方向57度、垂直方向43度
骨格情報
・全身の 3 次元の関節座標を リアルタイムに追跡
・20 箇所の関節 (頭, 肩の中央, 左肩, 右肩, etc)
・2 人同時に骨格追跡 (認識そのものは 6 人可能)
深度情報
・取得できる深度:0.8m~4m