人工知能第一研究室

 
音声認識への適用に向けたマルチチャネルNMFの高速化の研究

音声認識への適用に向けたマルチチャネルNMFの高速化の研究

研究背景

  • 背景音(雑音、騒音、残響、人の声など)がある環境では目的音の抽出、認識性能は低下するといった問題があります。そこで、音源分離により目的音のみを抽出することが可能となります。

研究目的

  • 今回は音源分離技術であるMNMF(マルチチャネルNMF)に着目しました。
  • 音声認識に適用するため、MNMFを高速化することを目的とする

従来手法

解決したい課題

  • MNMFは高精度な分離が期待できる音源分離手法であるが、計算コストが高いという問題があげられる。よって演算量を減らす必要がある。

提案手法

  • 提案手法1:効率的な更新回数の設定
    • 空間相関行列Hに初期値を設定し、性能向上
    • 性能向上により更新回数を最低限まで削減(従来手法は基本的に更新回数500回)
  • 提案手法2:空間相関行列Hの更新を間引く
    • 提案手法1によりあらかじめ空間情報が推定できている
  • いずれも演算量削減による高速化手法

実験

  • MNMFには6チャネルの録音データを使用
  • 予備実験
    • 効率的な更新回数の調査 → 更新回数50回ごとに性能評価
    • 適切な間引く間隔の調査 → 更新を間引く間隔を変更して性能評価
  • 本実験
    • 音声認識実験により提案手法の有効性を確認

実験条件

  • 音声認識タスクである CHiME Challenge4のデータを使用
    • 雑音環境(バス、カフェ、歩行者天国、道路)
  • 音声データ(仮想環境のもの)
    • 話者4人による12発話×4環境
    • 話者4人による410発話×4環境
  • 性能評価
    • 認識評価指標:WER(単語誤り率) → 値が低いほど良い
    • 分離評価指標:SDR(音声対全歪比) → 値が高いほど良い

予備実験結果

  • 更新回数は200回が適切
    • 150回以下になると性能が低下
  • 間引く間隔は2回に1回が最も効率がいい
    • 計算時間の削減率と性能の低下から判断

本実験結果

  • 提案手法1が高速化に有効であり、提案手法2が特定の環境においては有効であることを確認した

考察

  • 雑音環境の種類によって結果にばらつきが出る
    • 本来MNMFの更新式で最適化していくべきものとあらかじめ別の方法で推定したものによる差が環境によって現れるのではないかと考えられる

まとめと今後の課題

  • MNMFによる音声認識率の向上を実用化するために空間相関行列Hの推定を利用した高速化手法を提案した
  • 音声認識実験により提案手法の有効性を確認した
  • 今後さらなるアルゴリズムの改良による高速化が必要だと考える

« »

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です