音メディア処理研究室

 
Kinectを用いた頭部追跡によるリアルタイム音声強調の研究

背景
昨今では録画録音デバイスを比較的安価で入手可能
                                    ↓
個人でリアルタイムでの音声付き動画を撮影、配信することが普及してきている
例:skype(ビデオ通話)

目的
雑音が存在する環境下での目的音の強調
11

使用デバイス
Kinect
1312
•カメラ、深度センサ、4つのマイクロホン搭載
•設置型の録画録音デバイス
•プレイヤーの位置、動き、声、顔などを認識可能

研究手法
音声処理+画像処理を用いた音声強調
 1.骨格検出により話者の頭部を追跡し、位置情報を取得
 2.取り出した位置情報から、マイクの指向性を音源(話者の頭部)に向けて録画録音
                                                  ↓
                                        話者の声が強調
14

Kinectを用いた頭部追跡による角度推定手法
頭部追跡によって得られた話者の頭部の座標と深度を利用してKinectから頭部までの角度を求める方法
15
X:頭部のx座標
Z:Kinectから頭部までの深度(距離)
θ:Kinectから頭部までの角度

予備実験
Kinectから深度1mの点を10cm間隔でダミーヘッドを設置して測定
                                                 ↓
得られた各データを用いてKinectからダミーヘッドまでの角度を比較することで位置情報の信頼性を評価する
16

実験結果
17

ここまでの結論
本研究手法の利点
 ・従来法の一つである遅延和法(雑音がない仮想環境)よりも角度誤差が小さい
 ・雑音による影響を受けない
                                                            ↓
                             雑音に強く、安定した音源位置推定が行える

補足

頭部追跡によって追跡している座標の深度値の求め方
解像度640*480のため、深度値を x[640][480]の配列に格納
18
例:(100,200)の深度値が1000mmの時
        x[100][200] = 1000

Kinectの機能
カメラの視野角度
 ・水平方向57度、垂直方向43度
19

骨格情報
 ・全身の 3 次元の関節座標を リアルタイムに追跡
 ・20 箇所の関節 (頭, 肩の中央, 左肩, 右肩, etc) 
 ・2 人同時に骨格追跡 (認識そのものは 6 人可能)
20

深度情報
 ・取得できる深度:0.8m~4m
21

ダミーヘッド

22