音メディア処理研究室

　

ブログ

音声認識への適用に向けたマルチチャネルNMFの高速化の研究

研究背景

背景音(雑音、騒音、残響、人の声など)がある環境では目的音の抽出、認識性能は低下するといった問題があります。そこで、音源分離により目的音のみを抽出することが可能となります。

研究目的

今回は音源分離技術であるMNMF(マルチチャネルNMF)に着目しました。
音声認識に適用するため、MNMFを高速化することを目的とする

従来手法

解決したい課題

MNMFは高精度な分離が期待できる音源分離手法であるが、計算コストが高いという問題があげられる。よって演算量を減らす必要がある。

提案手法

提案手法１：効率的な更新回数の設定
- 空間相関行列Hに初期値を設定し、性能向上
- 性能向上により更新回数を最低限まで削減(従来手法は基本的に更新回数５００回)
提案手法２：空間相関行列Hの更新を間引く
- 提案手法１によりあらかじめ空間情報が推定できている
いずれも演算量削減による高速化手法

実験

MNMFには6チャネルの録音データを使用
予備実験
- 効率的な更新回数の調査 → 更新回数５０回ごとに性能評価
- 適切な間引く間隔の調査 → 更新を間引く間隔を変更して性能評価
本実験
- 音声認識実験により提案手法の有効性を確認

実験条件

音声認識タスクである CHiME Challenge４のデータを使用
- 雑音環境(バス、カフェ、歩行者天国、道路)
音声データ(仮想環境のもの)
- 話者４人による１２発話×４環境
- 話者４人による４１０発話×４環境
性能評価
- 認識評価指標：WER(単語誤り率) → 値が低いほど良い
- 分離評価指標：SDR(音声対全歪比) → 値が高いほど良い

予備実験結果

更新回数は２００回が適切
- １５０回以下になると性能が低下
間引く間隔は２回に１回が最も効率がいい
- 計算時間の削減率と性能の低下から判断

本実験結果

提案手法１が高速化に有効であり、提案手法２が特定の環境においては有効であることを確認した

考察

雑音環境の種類によって結果にばらつきが出る
- 本来MNMFの更新式で最適化していくべきものとあらかじめ別の方法で推定したものによる差が環境によって現れるのではないかと考えられる

まとめと今後の課題

MNMFによる音声認識率の向上を実用化するために空間相関行列Hの推定を利用した高速化手法を提案した
音声認識実験により提案手法の有効性を確認した
今後さらなるアルゴリズムの改良による高速化が必要だと考える

« 不随意的嚥下音の統計解析による機能評価の研究マルチチャネルインパルス応答の空間的補間の研究 »

コメントを残すコメントをキャンセル