音メディア処理研究室

 
ブログ

音声からの感情読みとり

2018年7月30日に行われたデモ大会で発表した内容です。

今回はSVMを使って、音声から「平静」「怒り」「喜び」3種類の感情を識別するシステムを作りました。

開発環境:matlab 2013

詳細は以下の動画をご覧ください。

matlabのGUIDEを用いたメロディー暗記ゲーム

2018年7月30日に行われた人工知能第一研究室のデモ大会での発表内容です。

【ゲーム説明】

①8秒間のメロディーが流れます。これを覚えます。

②合図が流れます。

③覚えたメロディーを歌います。

→ 結果として、音程正確率と音程グラフが表示されます。
また、歌ったメロディーが楽譜として表示されます。(音の長さは区別できていません。)

詳細は以下の動画をご覧ください。

【開発環境】 MATLAB

MV法・ウィナーフィルタを用いた雑音抑圧

背景・目的

  • 離れて場所で同時に会議をする手段「テレビ会議」の利用が拡大している
  • しかし、収音時に空調音や電気ノイズなどの雑音が混入し、音声が聞こえづらい

空調音や環境音などの雑音を抑圧し、目的音を強調したい

デモ内容

  1. 実験室でのインパルス応答測定、目的音、方向性雑音を事前に測定
  2. 拡散性雑音をデモでその時に録音
  3. 混合音を作成し、雑音抑圧処理を行う

用いた音源

  • 目的音:女性の声
  • 方向性雑音:男性の声
  • 拡散性雑音:ざわざわ(その場で作成)

開発環境

Matlab R2013b

 

 

非負値行列因子分解を用いた音源分離における初期値設定の研究

背景・目的

音響分野には様々な研究がありますが、本研究では複数の音源が含まれた観測信号から目的音を取り出す技術である「音源分離」に着目します。下図のように複数の音源が含まれる観測信号に音源分離を適用することで、各音源ごとに抽出することができ、カラオケ音源の作成や自動採譜が可能となります。


音源分離は様々な手法が提案されていますが、ここでは多チャネル非負値行列因子分解(MNMF)に着目します。MNMFはマイク数が音源数より少ない劣決定条件において使用可能な手法であり、高精度に音源分離が可能です。しかし、従来のMNMFは自由度の高いモデルであるので、ランダムな初期値によって分離性能のばらつきが大きな問題となっています。本研究では、あらかじめ初期値を与えることで音源分離性能の向上・安定化を図ります。MNMFのアルゴリズムや挙動解析、問題点等は過去のページを参照ください。

https://www-ai1.csis.oita-u.ac.jp/?page_id=538
https://www-ai1.csis.oita-u.ac.jp/?p=1946

提案手法

提案手法として、他の音源分離手法で得られた分離信号から、基底行列Tと空間相関行列Hを計算して、MNMFの初期値に設定します。ここでは以下の2種類の手法を用います。

—————————————————————————————————————————————————
・音源方向が既知と仮定:バイナリマスク
・音源数とマイク数が同数と仮定:独立低ランク行列分析(ILRMA)
—————————————————————————————————————————————————

バイナリマスクとは、マイク間の位相差を用いてマスク関数を構築し、騒音を抑圧する手法です。例えば2チャネルで録音された観測信号において、目的音が正面方向(0度)にある場合、マイク間の位相差は0となります。そこで、マイク間の位相差がゼロから離れた時間周波数ビンのパワーを削減することで正面方向の音を取り出すことができます。バイナリマスクはMNMFと比べて分離性能が劣りますが、数秒で処理が終わる利点があります。

ILRMAとは、IVAによる空間モデルの学習とNMFによる音源モデルの学習を交互に行うことで、MNMFに比べて安定かつ高速に分離できる手法となっています。ただしIVAの制約から、マイク数が音源数より多い優決定条件(特にマイク数=音源数)となる環境でしか用いることができません。

MNMFの空間相関行列Hは、各手法で得られた分離信号に対してクロススペクトル法を適用することで、計算することができます。バイナリマスクを用いた初期値設定における基底行列Tは、分離信号に対してNNDSVD法を適用することで、計算することができます。また、ILRMAを用いた初期値設定における基底行列Tは、ILRMAで最終的に得られた基底行列TをそのままMNMFの初期値に設定することが可能です(この手法はILRMAを提案した論文に記載されており、従来のMNMFと比べて分離性能が向上することが分かっています)。

以下に本手法におけるフローチャートを示します。

提案法の評価

以下の図のような環境で収録されたインパルス応答に音楽データを畳み込むことで評価用の観測信号を作成しました。Source1にはギター、Source2にはシンセサイザーの音が対応しています。評価値には音声と歪みの比を表すSDRを用います。今回は各手法ごとに10回ずつ分離して平均値を評価値としました。

以下の図が実験結果となります。緑がランダムな初期値である従来のMNMF、青がバイナリマスクの分離結果から各初期値を求めた場合、赤がILRMAの分離結果から各初期値を求めた場合となっています。また、エラーバーは分離結果のばらつきを表しています。この結果から、バイナリマスクを用いた初期値設定では空間相関行列Hを、ILRMAを用いた初期値設定では基底行列Tもしくは空間相関行列Hを計算することで、従来のランダムな初期値より分離性能が良くなっていることが分かります。ただし、ILRMAを用いた初期値設定では、従来の基底行列Tの計算だけで十分な分離性能が得られていることが分かります。

これらのことから、音源方向が既知である場合はバイナリマスクを、マイク数と音源数が同じである場合はILRMAを用いた初期値設定を行うことで、従来のランダムな初期値と比べて分離性能が向上・安定化することが考えられます。今後の課題として、音源数とマイク数を増やしたり、残響時間を長くしたりするなど、難しいタスクにおける評価を行っていく必要があります。

まとめ

本研究ではMNMFの初期値依存性に着目し、あらかじめMNMFの初期値を計算することで、MNMFにおける分離性能の向上・安定化を図りました。初期値設定にはバイナリマスクを用いた手法とILRMAを用いた手法の2種類を提案し、評価実験を行いました。その結果、どちらの手法においてもMNMFの分離性能が向上・安定化することを確認しました。このことから、音源方向が既知である場合はバイナリマスクを、音源数とマイク数が同数であることが既知ならばILRMAを用いて、MNMFの初期値設定することが望ましいと考えられます。

マルチチャネルインパルス応答の空間的補間の研究

研究の背景

  • 近年、3Dテレビや3D映画等の視覚的な高臨場感の研究が進んでいるとともに、音の高臨場の研究も進められている。音の高臨場の研究にインパルス応答がある。

研究の目的

  • 高臨場な音場の実現のためには部屋の特性(インパルス応答)の測定が必要である。しかし、測定には時間やコストが掛かるので補間を使って測定することで時間・コストの削減が目的である。

従来研究

  • 水平面上の頭部のインパルス応答に対して、線形二点補間を用いて推定する手法を提案している。
  • マイクロホンH1とマイクロホンH2の測定データから真ん中のマイクロホンを補間する場合、以下で求める。

解決したい課題

  • 線形二点補間は測定角度間隔が増えたり、マイクロホンとスピーカの距離が異なると補間精度が落ちる課題がある。

提案法

  • インパルス応答を球面波と平面波のモデル式を用いて音響モデル化する。
  • インパルス応答を球面波と平面波に分離してそれぞれを補間してから、補間した球面波と平面波を結合して補間したインパルス応答にする。分離の仕方はインパルス応答の遅延時間を求めて数サンプル加えて切り出したものを球面波、切り出した球面波の後ろの波を平面波とした。

  • 球面波のモデル式のパラメータAと平面波のモデル式のパラメータB,cosθ,sinθを最小二乗法を用いて推定する。

  • 推定したモデル式のパラメータと補間したい箇所の座標を代入して補間する。
  • 最後に、補間した球面波と平面波を結合してインパルス応答の補間をする。

実験

  • 実験の目的は実測インパルス応答での補間精度の確認のため行った。
  • スピーカ1つとマイクロホン5つの配置は以下の通りである。

実験結果

  • 補間精度の評価尺度はSD法とSDR法を用いた。

  • 補間はマイクロホン2,3,4を対象に行った。線形二点補間は補間対象の両側に測定データがないといけないため、マイクロホン1,5は補間を行えなかった。
  • 提案法と従来法の線形二点補間の平均SDと平均SDRは以下の通りである。橙色が従来法であり緑色が提案法である。

  • 評価尺度SDでは提案法の方が従来法より少しではあるが値が小さくなり補間精度が良くなった。評価尺度SDRでは提案法の方が従来法より値が大きくなり補間精度が良くなった。

まとめ

  • 部屋の特性の測定による時間・コストの削減のために、インパルス応答の音響モデル式による補間法を提案した。
  • 実験の結果より、提案法は従来法より歪み(SD)は小さくなり誤差(SDR)は大きくなり補間精度が良くなった。

今後の課題

  • 測定したインパルス応答の位相と補間したインパルス応答の位相の誤差が大きかったので、位相の計算の処理の方法を検討する必要がある。
  • マイクロホンの個数の増減(測定データの増減によるパラメータ推定の精度の変化)で補間精度がどうなるかの検証をする必要がある。

 

音声認識への適用に向けたマルチチャネルNMFの高速化の研究

研究背景

  • 背景音(雑音、騒音、残響、人の声など)がある環境では目的音の抽出、認識性能は低下するといった問題があります。そこで、音源分離により目的音のみを抽出することが可能となります。

研究目的

  • 今回は音源分離技術であるMNMF(マルチチャネルNMF)に着目しました。
  • 音声認識に適用するため、MNMFを高速化することを目的とする

従来手法

解決したい課題

  • MNMFは高精度な分離が期待できる音源分離手法であるが、計算コストが高いという問題があげられる。よって演算量を減らす必要がある。

提案手法

  • 提案手法1:効率的な更新回数の設定
    • 空間相関行列Hに初期値を設定し、性能向上
    • 性能向上により更新回数を最低限まで削減(従来手法は基本的に更新回数500回)
  • 提案手法2:空間相関行列Hの更新を間引く
    • 提案手法1によりあらかじめ空間情報が推定できている
  • いずれも演算量削減による高速化手法

実験

  • MNMFには6チャネルの録音データを使用
  • 予備実験
    • 効率的な更新回数の調査 → 更新回数50回ごとに性能評価
    • 適切な間引く間隔の調査 → 更新を間引く間隔を変更して性能評価
  • 本実験
    • 音声認識実験により提案手法の有効性を確認

実験条件

  • 音声認識タスクである CHiME Challenge4のデータを使用
    • 雑音環境(バス、カフェ、歩行者天国、道路)
  • 音声データ(仮想環境のもの)
    • 話者4人による12発話×4環境
    • 話者4人による410発話×4環境
  • 性能評価
    • 認識評価指標:WER(単語誤り率) → 値が低いほど良い
    • 分離評価指標:SDR(音声対全歪比) → 値が高いほど良い

予備実験結果

  • 更新回数は200回が適切
    • 150回以下になると性能が低下
  • 間引く間隔は2回に1回が最も効率がいい
    • 計算時間の削減率と性能の低下から判断

本実験結果

  • 提案手法1が高速化に有効であり、提案手法2が特定の環境においては有効であることを確認した

考察

  • 雑音環境の種類によって結果にばらつきが出る
    • 本来MNMFの更新式で最適化していくべきものとあらかじめ別の方法で推定したものによる差が環境によって現れるのではないかと考えられる

まとめと今後の課題

  • MNMFによる音声認識率の向上を実用化するために空間相関行列Hの推定を利用した高速化手法を提案した
  • 音声認識実験により提案手法の有効性を確認した
  • 今後さらなるアルゴリズムの改良による高速化が必要だと考える

不随意的嚥下音の統計解析による機能評価の研究

背景

一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。

食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。

嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。

しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。

そのため、誰もが簡単に測定でき、嚥下音の特徴量から正常・異常の判定ができるシステムが望まれている。

研究目的

嚥下に関する研究の課題として、度々、嚥下音の特徴量の安定性が挙げられる。

これまでの研究では強制的に嚥下を行っていることから、嚥下毎に筋肉や骨の動きに差が出ることで嚥下のデータにばらつきが出るのでは無いかと考えた。

そこで、本研究では睡眠中等に反射的に起こる不随意的嚥下に着目し、安定性の高い嚥下音の特徴量を得ることが可能であるか検証を行った。

 

嚥下・嚥下音とは

  • 嚥下

食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。

意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/

  • 嚥下音

嚥下運動の際に発生する音。

-Ⅰ音(20~100Hz)

喉頭蓋の閉鎖運動の際に発する音

-Ⅱ音(50~150Hz,400~750Hz)

食物が食道を通過する際に発生

-Ⅲ音(20~100Hz)

喉頭蓋の開放運動に際に発生

 

従来研究

「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)

《目的》

スペクトログラムと音声波形から嚥下音の特徴を明らかにする

《結果》

・嚥下音の全体の時間は平均で2.5(s)

・Ⅰ・Ⅱ・Ⅲ音はそれぞれ3つの周波数帯に分散している

他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い

《課題》

個人差、または、随意的嚥下音運動によるばらつきが示唆されている

 

解決したい課題

これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。

嚥下音の特徴量にばらつきが大きいと、嚥下機能の推定の際の評価を定めることが困難となる。

アプローチ方法

本研究では、任意的に起こす随意的嚥下ではなく、睡眠中などの無意識下で起きる不随意的嚥下に着目した。

まずは、不随意的嚥下として睡眠中の嚥下を、随意的嚥下として意識的に行った嚥下を咽喉マイクとレコーダを用いて収録してPC へ取り込む。次にウェーブレット変換 を用いてスカログラムを求めてⅠ・Ⅱ・Ⅲ音の検出を行う。次に、検出したⅠ・Ⅱ・Ⅲ音から第3 章を参考に”Ⅰ・Ⅱ・Ⅲ音に含まれる周波数帯”、”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下持続時間”を特徴量として抽出する。最後に随意的・不随意的嚥下音のデータに有意差があるのか確かめるために、f 検定を用いて分散の比較を行う。

実験

 

《目的》

不随意的嚥下音の特徴量の安定性の検証

《実験条件》

 

《使用機器》

嚥下音を録音する際に、

レコーダ:V-803(下図左)

マイク:咽喉マイク(下図右)

を接続して使用した。

レコーダ、咽喉マイク

《録音》

○随意的嚥下音

‐マイクを喉元に装着し、通常通りに生活して空嚥下を録音

‐慣れることで反射嚥下が起きないよう、録音は最長でも1 時間までとした

‐嚥下する物の条件をなるべく揃えるために録音中の飲食は禁止した

○不随意的嚥下音

‐就寝前にマイクを装着し、通常通りに睡眠をして嚥下を録音

‐起床時に録音を停止

《Ⅰ・Ⅱ・Ⅲ音の検出》

Ⅰ・Ⅱ・Ⅲ音の発生のタイミングは以下のようになっていることが先行研究により確認されている。

Ⅰ・Ⅱ・Ⅲ音発生と無音時間のタイミング

 

これを利用し、以下のような検出プログラムを作成した。

Ⅰ・Ⅱ・Ⅲ音検出の流れ

本検出法でⅠ・Ⅱ・Ⅲ音の検出を検証した結果、正答率は95%であった。

《結果、考察》

  • Ⅰ・Ⅱ・Ⅲ音に含まれる周波数帯

結果から、個人内では随意的・不随意的嚥下間での主な周波数帯のズレに大きな差は無かったが、被験者3 名のIII 音のコヒーレンスに差が確認された。特に被験者B のIII 音に大きな差がみられ、2000Hz 以下の周波数帯のコヒーレンスが随意的嚥下では平均して0.6 未満であったのに対し、不随意的嚥下では平均が0.7 を超えてた。

コヒーレンスに顕著な差が現れたのは3 名だけであったが、随意的嚥下と比較して不随意的嚥下の方が安定したIII 音の周波数帯を観測できる可能性が示唆された。また、全被験者のコヒーレンスの平均が各被験者のものより下回っていたことから、嚥下音の周波数帯には個人差が出ることを確認した。

したがって、年代ごとの嚥下機能を周波数帯の推移を研究する時には、個人内のデータを使用することでより高精度な推移を観測することができる可能性がある。

 

  • Ⅰ・Ⅱ・Ⅲ音の間隔

結果から、各被験者、また、全被験者においても随意的・不随意的嚥下音から得たI 音~II 音の間隔の平均は等分散であり、随意的・不随意的嚥下間にデータの安定性から見た差はほとんど無いことが確認された。

先行研究では、高齢に伴いI 音~II 音の間隔が開いていくことから、I 音~II 音の間隔には嚥下機能に大きな差(年齢の差) が無い限り、誤差程度の変化しか起きない可能性がある。

そのため、全被験者においても有意差が見られなかったように、健常者で、かつ、同年代の嚥下音では、どのような嚥下音を比較しても有意差が見られない可能性が高い。

  • 嚥下持続時間

 

結果から、被験者A は嚥下持続時間が随意的・不随意的嚥下間で不等分散であり、「不随意的嚥下音と比較し、随意的嚥下音から得た嚥下持続時間の方が安定している」と言える結果となった。
しかし、他の被験者と全被験者の嚥下持続時間には随意的・不随意的嚥下間に有意差は見られず、随意的嚥下音の持続時間が必ずしも不随意的嚥下音より安定していると結論付けるのは難しいと思われる。

 

まとめ

この研究で最終的な目的とするのは、誰でも自動で嚥下音の異常を判別できるシステムの実現のために、嚥下機能の評価が可能な嚥下音の特徴量を明らかにすることである。しかし、嚥下音のデータの安定性には問題があるため、まずは安定性の高い嚥下音を得る必要があった。

本研究では、不随意的嚥下に着目し、その特徴量を分析することを提案した。理由としては従来の研究で行ってきた嚥下は強制的なものであり、嚥下運動に伴う筋肉や骨の動きに嚥下毎に違いが生じることで嚥下音の特徴量にばらつきが出たと推測したからである。

本実験では、意識的に行った随意的嚥下と睡眠中の不随意的嚥下を5人の被験者から収録し、”嚥下音に含まれる周波数特性”、”I 音~II 音の間隔”、”嚥下持続時間”の3 つの特徴量を、周波数特性はコヒーレンスを求め、間隔と持続時間の2 つにはf 検定により分析することで分散の有意差を求めることで不随意的嚥下音の安定性を検証した。

実験の結果、”嚥下音に含まれる周波数特性”の特徴量として用いたコヒーレンスから、被験者個人の随意的・不随意的嚥下に含まれている周波数特性の違いは見られなかった。また、全被験者の嚥下音でコヒーレンスを求めた際に、個人のものよりも大幅に下回っていたことから、嚥下音に含まれる周波数特性には個人差が強く出ることが分かった。次に、”I 音~II 音の間隔”、”嚥下持続時間”の2 つの特徴量をf 検定により分散を分析した結果、随意的・不随意的嚥下音間に特徴量のばらつきの有意差はどちらの特徴量にも見られなかった。

したがって、今回の実験で分析した3 つの特徴量からは、不随意的嚥下音の安定性が高いことを証明する結果は得られなかったが、III 音の周波数帯に関しては不随意的嚥下音から測定した方が低周波数まで観測できる可能性が示唆された。

 

随意的・不随意的嚥下音の特徴量のばらつきに有意差が出なかった原因として考えられるのは以下の2つである。

(1) 随意的嚥下音の収録の際に意識的に行ってはいたもののタイミングは任意であったことから、強制的に行わせた嚥下よりもデータにばらつきが少ない嚥下音が取れてしまった可能性があること

(2) 睡眠中に発生するノイズを完全に除去することができなかったため、不随意的嚥下音のI 音・II 音・III 音の位置にズレが発生してしまい、データにばらつきが出てしまった可能性があること

 

今後の課題として、随意的嚥下音を収録する際には嚥下のタイミングを強制的に行う等の随意的嚥下音の収録方法の見直しや、睡眠中の不随意的嚥下音から正確にI 音・II 音・III 音を検出するためのノイズ除去方法を検討する必要がある。

 

 

 

環境音の複数再生による作業効率化アプリ

2017/12/18の3年生デモ大会で発表した内容です。

環境音の同時再生を行うAndroidアプリケーションの開発を行いました。

<背景>

人は作業を行うとき、周囲がうるさいと集中できません。しかし静かすぎる場合でも集中できないことも研究で分かっています。

 

<開発環境>

OS:Windows7,Windows 8,Windows 10

使用端末:HTC U11  Android 7.1.1

開発環境:Android Studio

詳細は以下の動画を参照してください