人工知能第一研究室

 
ブログ

Googleストリートビューへの環境音付加による臨場感の表現

2018年7月30日に行われたデモ大会で発表した内容です。

Googleストリートビュー上の緯度・経度を指定してその地点に音声を配置するシステム(https://www.amplifon.com/web/uk/soundofstreetview/press-kit/index.html)を用いて大分大学内を聴覚的にも表現しました。

工事・人・自転車などの環境音だけでなく建物の解説アナウンス音声も入れています。

詳細は以下の動画をご覧ください。

 

音声からの感情読みとり

2018年7月30日に行われたデモ大会で発表した内容です。

今回はSVMを使って、音声から「平静」「怒り」「喜び」3種類の感情を識別するシステムを作りました。

開発環境:matlab 2013

詳細は以下の動画をご覧ください。

matlabのGUIDEを用いたメロディー暗記ゲーム

2018年7月30日に行われた人工知能第一研究室のデモ大会での発表内容です。

【ゲーム説明】

①8秒間のメロディーが流れます。これを覚えます。

②合図が流れます。

③覚えたメロディーを歌います。

→ 結果として、音程正確率と音程グラフが表示されます。
また、歌ったメロディーが楽譜として表示されます。(音の長さは区別できていません。)

詳細は以下の動画をご覧ください。

【開発環境】 MATLAB

MV法・ウィナーフィルタを用いた雑音抑圧

背景・目的

  • 離れて場所で同時に会議をする手段「テレビ会議」の利用が拡大している
  • しかし、収音時に空調音や電気ノイズなどの雑音が混入し、音声が聞こえづらい

空調音や環境音などの雑音を抑圧し、目的音を強調したい

デモ内容

  1. 実験室でのインパルス応答測定、目的音、方向性雑音を事前に測定
  2. 拡散性雑音をデモでその時に録音
  3. 混合音を作成し、雑音抑圧処理を行う

用いた音源

  • 目的音:女性の声
  • 方向性雑音:男性の声
  • 拡散性雑音:ざわざわ(その場で作成)

開発環境

Matlab R2013b

 

 

非負値行列因子分解を用いた音源分離における初期値設定の研究

背景・目的

音響分野には様々な研究がありますが、本研究では複数の音源が含まれた観測信号から目的音を取り出す技術である「音源分離」に着目します。下図のように複数の音源が含まれる観測信号に音源分離を適用することで、各音源ごとに抽出することができ、カラオケ音源の作成や自動採譜が可能となります。


音源分離は様々な手法が提案されていますが、ここでは多チャネル非負値行列因子分解(MNMF)に着目します。MNMFはマイク数が音源数より少ない劣決定条件において使用可能な手法であり、高精度に音源分離が可能です。しかし、従来のMNMFは自由度の高いモデルであるので、ランダムな初期値によって分離性能のばらつきが大きな問題となっています。本研究では、あらかじめ初期値を与えることで音源分離性能の向上・安定化を図ります。MNMFのアルゴリズムや挙動解析、問題点等は過去のページを参照ください。

http://www-ai1.csis.oita-u.ac.jp/?page_id=538
http://www-ai1.csis.oita-u.ac.jp/?p=1946

提案手法

提案手法として、他の音源分離手法で得られた分離信号から、基底行列Tと空間相関行列Hを計算して、MNMFの初期値に設定します。ここでは以下の2種類の手法を用います。

—————————————————————————————————————————————————
・音源方向が既知と仮定:バイナリマスク
・音源数とマイク数が同数と仮定:独立低ランク行列分析(ILRMA)
—————————————————————————————————————————————————

バイナリマスクとは、マイク間の位相差を用いてマスク関数を構築し、騒音を抑圧する手法です。例えば2チャネルで録音された観測信号において、目的音が正面方向(0度)にある場合、マイク間の位相差は0となります。そこで、マイク間の位相差がゼロから離れた時間周波数ビンのパワーを削減することで正面方向の音を取り出すことができます。バイナリマスクはMNMFと比べて分離性能が劣りますが、数秒で処理が終わる利点があります。

ILRMAとは、IVAによる空間モデルの学習とNMFによる音源モデルの学習を交互に行うことで、MNMFに比べて安定かつ高速に分離できる手法となっています。ただしIVAの制約から、マイク数が音源数より多い優決定条件(特にマイク数=音源数)となる環境でしか用いることができません。

MNMFの空間相関行列Hは、各手法で得られた分離信号に対してクロススペクトル法を適用することで、計算することができます。バイナリマスクを用いた初期値設定における基底行列Tは、分離信号に対してNNDSVD法を適用することで、計算することができます。また、ILRMAを用いた初期値設定における基底行列Tは、ILRMAで最終的に得られた基底行列TをそのままMNMFの初期値に設定することが可能です(この手法はILRMAを提案した論文に記載されており、従来のMNMFと比べて分離性能が向上することが分かっています)。

以下に本手法におけるフローチャートを示します。

提案法の評価

以下の図のような環境で収録されたインパルス応答に音楽データを畳み込むことで評価用の観測信号を作成しました。Source1にはギター、Source2にはシンセサイザーの音が対応しています。評価値には音声と歪みの比を表すSDRを用います。今回は各手法ごとに10回ずつ分離して平均値を評価値としました。

以下の図が実験結果となります。緑がランダムな初期値である従来のMNMF、青がバイナリマスクの分離結果から各初期値を求めた場合、赤がILRMAの分離結果から各初期値を求めた場合となっています。また、エラーバーは分離結果のばらつきを表しています。この結果から、バイナリマスクを用いた初期値設定では空間相関行列Hを、ILRMAを用いた初期値設定では基底行列Tもしくは空間相関行列Hを計算することで、従来のランダムな初期値より分離性能が良くなっていることが分かります。ただし、ILRMAを用いた初期値設定では、従来の基底行列Tの計算だけで十分な分離性能が得られていることが分かります。

これらのことから、音源方向が既知である場合はバイナリマスクを、マイク数と音源数が同じである場合はILRMAを用いた初期値設定を行うことで、従来のランダムな初期値と比べて分離性能が向上・安定化することが考えられます。今後の課題として、音源数とマイク数を増やしたり、残響時間を長くしたりするなど、難しいタスクにおける評価を行っていく必要があります。

まとめ

本研究ではMNMFの初期値依存性に着目し、あらかじめMNMFの初期値を計算することで、MNMFにおける分離性能の向上・安定化を図りました。初期値設定にはバイナリマスクを用いた手法とILRMAを用いた手法の2種類を提案し、評価実験を行いました。その結果、どちらの手法においてもMNMFの分離性能が向上・安定化することを確認しました。このことから、音源方向が既知である場合はバイナリマスクを、音源数とマイク数が同数であることが既知ならばILRMAを用いて、MNMFの初期値設定することが望ましいと考えられます。

マルチチャネルインパルス応答の空間的補間の研究

研究の背景

  • 近年、3Dテレビや3D映画等の視覚的な高臨場感の研究が進んでいるとともに、音の高臨場の研究も進められている。音の高臨場の研究にインパルス応答がある。

研究の目的

  • 高臨場な音場の実現のためには部屋の特性(インパルス応答)の測定が必要である。しかし、測定には時間やコストが掛かるので補間を使って測定することで時間・コストの削減が目的である。

従来研究

  • 水平面上の頭部のインパルス応答に対して、線形二点補間を用いて推定する手法を提案している。
  • マイクロホンH1とマイクロホンH2の測定データから真ん中のマイクロホンを補間する場合、以下で求める。

解決したい課題

  • 線形二点補間は測定角度間隔が増えたり、マイクロホンとスピーカの距離が異なると補間精度が落ちる課題がある。

提案法

  • インパルス応答を球面波と平面波のモデル式を用いて音響モデル化する。
  • インパルス応答を球面波と平面波に分離してそれぞれを補間してから、補間した球面波と平面波を結合して補間したインパルス応答にする。分離の仕方はインパルス応答の遅延時間を求めて数サンプル加えて切り出したものを球面波、切り出した球面波の後ろの波を平面波とした。

  • 球面波のモデル式のパラメータAと平面波のモデル式のパラメータB,cosθ,sinθを最小二乗法を用いて推定する。

  • 推定したモデル式のパラメータと補間したい箇所の座標を代入して補間する。
  • 最後に、補間した球面波と平面波を結合してインパルス応答の補間をする。

実験

  • 実験の目的は実測インパルス応答での補間精度の確認のため行った。
  • スピーカ1つとマイクロホン5つの配置は以下の通りである。

実験結果

  • 補間精度の評価尺度はSD法とSDR法を用いた。

  • 補間はマイクロホン2,3,4を対象に行った。線形二点補間は補間対象の両側に測定データがないといけないため、マイクロホン1,5は補間を行えなかった。
  • 提案法と従来法の線形二点補間の平均SDと平均SDRは以下の通りである。橙色が従来法であり緑色が提案法である。

  • 評価尺度SDでは提案法の方が従来法より少しではあるが値が小さくなり補間精度が良くなった。評価尺度SDRでは提案法の方が従来法より値が大きくなり補間精度が良くなった。

まとめ

  • 部屋の特性の測定による時間・コストの削減のために、インパルス応答の音響モデル式による補間法を提案した。
  • 実験の結果より、提案法は従来法より歪み(SD)は小さくなり誤差(SDR)は大きくなり補間精度が良くなった。

今後の課題

  • 測定したインパルス応答の位相と補間したインパルス応答の位相の誤差が大きかったので、位相の計算の処理の方法を検討する必要がある。
  • マイクロホンの個数の増減(測定データの増減によるパラメータ推定の精度の変化)で補間精度がどうなるかの検証をする必要がある。