音メディア処理研究室

 
2017年度卒業研究

マルチチャネルインパルス応答の空間的補間の研究

研究の背景

  • 近年、3Dテレビや3D映画等の視覚的な高臨場感の研究が進んでいるとともに、音の高臨場の研究も進められている。音の高臨場の研究にインパルス応答がある。

研究の目的

  • 高臨場な音場の実現のためには部屋の特性(インパルス応答)の測定が必要である。しかし、測定には時間やコストが掛かるので補間を使って測定することで時間・コストの削減が目的である。

従来研究

  • 水平面上の頭部のインパルス応答に対して、線形二点補間を用いて推定する手法を提案している。
  • マイクロホンH1とマイクロホンH2の測定データから真ん中のマイクロホンを補間する場合、以下で求める。

解決したい課題

  • 線形二点補間は測定角度間隔が増えたり、マイクロホンとスピーカの距離が異なると補間精度が落ちる課題がある。

提案法

  • インパルス応答を球面波と平面波のモデル式を用いて音響モデル化する。
  • インパルス応答を球面波と平面波に分離してそれぞれを補間してから、補間した球面波と平面波を結合して補間したインパルス応答にする。分離の仕方はインパルス応答の遅延時間を求めて数サンプル加えて切り出したものを球面波、切り出した球面波の後ろの波を平面波とした。

  • 球面波のモデル式のパラメータAと平面波のモデル式のパラメータB,cosθ,sinθを最小二乗法を用いて推定する。

  • 推定したモデル式のパラメータと補間したい箇所の座標を代入して補間する。
  • 最後に、補間した球面波と平面波を結合してインパルス応答の補間をする。

実験

  • 実験の目的は実測インパルス応答での補間精度の確認のため行った。
  • スピーカ1つとマイクロホン5つの配置は以下の通りである。

実験結果

  • 補間精度の評価尺度はSD法とSDR法を用いた。

  • 補間はマイクロホン2,3,4を対象に行った。線形二点補間は補間対象の両側に測定データがないといけないため、マイクロホン1,5は補間を行えなかった。
  • 提案法と従来法の線形二点補間の平均SDと平均SDRは以下の通りである。橙色が従来法であり緑色が提案法である。

  • 評価尺度SDでは提案法の方が従来法より少しではあるが値が小さくなり補間精度が良くなった。評価尺度SDRでは提案法の方が従来法より値が大きくなり補間精度が良くなった。

まとめ

  • 部屋の特性の測定による時間・コストの削減のために、インパルス応答の音響モデル式による補間法を提案した。
  • 実験の結果より、提案法は従来法より歪み(SD)は小さくなり誤差(SDR)は大きくなり補間精度が良くなった。

今後の課題

  • 測定したインパルス応答の位相と補間したインパルス応答の位相の誤差が大きかったので、位相の計算の処理の方法を検討する必要がある。
  • マイクロホンの個数の増減(測定データの増減によるパラメータ推定の精度の変化)で補間精度がどうなるかの検証をする必要がある。

 

音声認識への適用に向けたマルチチャネルNMFの高速化の研究

研究背景

  • 背景音(雑音、騒音、残響、人の声など)がある環境では目的音の抽出、認識性能は低下するといった問題があります。そこで、音源分離により目的音のみを抽出することが可能となります。

研究目的

  • 今回は音源分離技術であるMNMF(マルチチャネルNMF)に着目しました。
  • 音声認識に適用するため、MNMFを高速化することを目的とする

従来手法

解決したい課題

  • MNMFは高精度な分離が期待できる音源分離手法であるが、計算コストが高いという問題があげられる。よって演算量を減らす必要がある。

提案手法

  • 提案手法1:効率的な更新回数の設定
    • 空間相関行列Hに初期値を設定し、性能向上
    • 性能向上により更新回数を最低限まで削減(従来手法は基本的に更新回数500回)
  • 提案手法2:空間相関行列Hの更新を間引く
    • 提案手法1によりあらかじめ空間情報が推定できている
  • いずれも演算量削減による高速化手法

実験

  • MNMFには6チャネルの録音データを使用
  • 予備実験
    • 効率的な更新回数の調査 → 更新回数50回ごとに性能評価
    • 適切な間引く間隔の調査 → 更新を間引く間隔を変更して性能評価
  • 本実験
    • 音声認識実験により提案手法の有効性を確認

実験条件

  • 音声認識タスクである CHiME Challenge4のデータを使用
    • 雑音環境(バス、カフェ、歩行者天国、道路)
  • 音声データ(仮想環境のもの)
    • 話者4人による12発話×4環境
    • 話者4人による410発話×4環境
  • 性能評価
    • 認識評価指標:WER(単語誤り率) → 値が低いほど良い
    • 分離評価指標:SDR(音声対全歪比) → 値が高いほど良い

予備実験結果

  • 更新回数は200回が適切
    • 150回以下になると性能が低下
  • 間引く間隔は2回に1回が最も効率がいい
    • 計算時間の削減率と性能の低下から判断

本実験結果

  • 提案手法1が高速化に有効であり、提案手法2が特定の環境においては有効であることを確認した

考察

  • 雑音環境の種類によって結果にばらつきが出る
    • 本来MNMFの更新式で最適化していくべきものとあらかじめ別の方法で推定したものによる差が環境によって現れるのではないかと考えられる

まとめと今後の課題

  • MNMFによる音声認識率の向上を実用化するために空間相関行列Hの推定を利用した高速化手法を提案した
  • 音声認識実験により提案手法の有効性を確認した
  • 今後さらなるアルゴリズムの改良による高速化が必要だと考える

不随意的嚥下音の統計解析による機能評価の研究

背景

一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。

食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。

嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。

しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。

そのため、誰もが簡単に測定でき、嚥下音の特徴量から正常・異常の判定ができるシステムが望まれている。

研究目的

嚥下に関する研究の課題として、度々、嚥下音の特徴量の安定性が挙げられる。

これまでの研究では強制的に嚥下を行っていることから、嚥下毎に筋肉や骨の動きに差が出ることで嚥下のデータにばらつきが出るのでは無いかと考えた。

そこで、本研究では睡眠中等に反射的に起こる不随意的嚥下に着目し、安定性の高い嚥下音の特徴量を得ることが可能であるか検証を行った。

 

嚥下・嚥下音とは

  • 嚥下

食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。

意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/

  • 嚥下音

嚥下運動の際に発生する音。

-Ⅰ音(20~100Hz)

喉頭蓋の閉鎖運動の際に発する音

-Ⅱ音(50~150Hz,400~750Hz)

食物が食道を通過する際に発生

-Ⅲ音(20~100Hz)

喉頭蓋の開放運動に際に発生

 

従来研究

「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)

《目的》

スペクトログラムと音声波形から嚥下音の特徴を明らかにする

《結果》

・嚥下音の全体の時間は平均で2.5(s)

・Ⅰ・Ⅱ・Ⅲ音はそれぞれ3つの周波数帯に分散している

他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い

《課題》

個人差、または、随意的嚥下音運動によるばらつきが示唆されている

 

解決したい課題

これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。

嚥下音の特徴量にばらつきが大きいと、嚥下機能の推定の際の評価を定めることが困難となる。

アプローチ方法

本研究では、任意的に起こす随意的嚥下ではなく、睡眠中などの無意識下で起きる不随意的嚥下に着目した。

まずは、不随意的嚥下として睡眠中の嚥下を、随意的嚥下として意識的に行った嚥下を咽喉マイクとレコーダを用いて収録してPC へ取り込む。次にウェーブレット変換 を用いてスカログラムを求めてⅠ・Ⅱ・Ⅲ音の検出を行う。次に、検出したⅠ・Ⅱ・Ⅲ音から第3 章を参考に”Ⅰ・Ⅱ・Ⅲ音に含まれる周波数帯”、”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下持続時間”を特徴量として抽出する。最後に随意的・不随意的嚥下音のデータに有意差があるのか確かめるために、f 検定を用いて分散の比較を行う。

実験

 

《目的》

不随意的嚥下音の特徴量の安定性の検証

《実験条件》

 

《使用機器》

嚥下音を録音する際に、

レコーダ:V-803(下図左)

マイク:咽喉マイク(下図右)

を接続して使用した。

レコーダ、咽喉マイク

《録音》

○随意的嚥下音

‐マイクを喉元に装着し、通常通りに生活して空嚥下を録音

‐慣れることで反射嚥下が起きないよう、録音は最長でも1 時間までとした

‐嚥下する物の条件をなるべく揃えるために録音中の飲食は禁止した

○不随意的嚥下音

‐就寝前にマイクを装着し、通常通りに睡眠をして嚥下を録音

‐起床時に録音を停止

《Ⅰ・Ⅱ・Ⅲ音の検出》

Ⅰ・Ⅱ・Ⅲ音の発生のタイミングは以下のようになっていることが先行研究により確認されている。

Ⅰ・Ⅱ・Ⅲ音発生と無音時間のタイミング

 

これを利用し、以下のような検出プログラムを作成した。

Ⅰ・Ⅱ・Ⅲ音検出の流れ

本検出法でⅠ・Ⅱ・Ⅲ音の検出を検証した結果、正答率は95%であった。

《結果、考察》

  • Ⅰ・Ⅱ・Ⅲ音に含まれる周波数帯

結果から、個人内では随意的・不随意的嚥下間での主な周波数帯のズレに大きな差は無かったが、被験者3 名のIII 音のコヒーレンスに差が確認された。特に被験者B のIII 音に大きな差がみられ、2000Hz 以下の周波数帯のコヒーレンスが随意的嚥下では平均して0.6 未満であったのに対し、不随意的嚥下では平均が0.7 を超えてた。

コヒーレンスに顕著な差が現れたのは3 名だけであったが、随意的嚥下と比較して不随意的嚥下の方が安定したIII 音の周波数帯を観測できる可能性が示唆された。また、全被験者のコヒーレンスの平均が各被験者のものより下回っていたことから、嚥下音の周波数帯には個人差が出ることを確認した。

したがって、年代ごとの嚥下機能を周波数帯の推移を研究する時には、個人内のデータを使用することでより高精度な推移を観測することができる可能性がある。

 

  • Ⅰ・Ⅱ・Ⅲ音の間隔

結果から、各被験者、また、全被験者においても随意的・不随意的嚥下音から得たI 音~II 音の間隔の平均は等分散であり、随意的・不随意的嚥下間にデータの安定性から見た差はほとんど無いことが確認された。

先行研究では、高齢に伴いI 音~II 音の間隔が開いていくことから、I 音~II 音の間隔には嚥下機能に大きな差(年齢の差) が無い限り、誤差程度の変化しか起きない可能性がある。

そのため、全被験者においても有意差が見られなかったように、健常者で、かつ、同年代の嚥下音では、どのような嚥下音を比較しても有意差が見られない可能性が高い。

  • 嚥下持続時間

 

結果から、被験者A は嚥下持続時間が随意的・不随意的嚥下間で不等分散であり、「不随意的嚥下音と比較し、随意的嚥下音から得た嚥下持続時間の方が安定している」と言える結果となった。
しかし、他の被験者と全被験者の嚥下持続時間には随意的・不随意的嚥下間に有意差は見られず、随意的嚥下音の持続時間が必ずしも不随意的嚥下音より安定していると結論付けるのは難しいと思われる。

 

まとめ

この研究で最終的な目的とするのは、誰でも自動で嚥下音の異常を判別できるシステムの実現のために、嚥下機能の評価が可能な嚥下音の特徴量を明らかにすることである。しかし、嚥下音のデータの安定性には問題があるため、まずは安定性の高い嚥下音を得る必要があった。

本研究では、不随意的嚥下に着目し、その特徴量を分析することを提案した。理由としては従来の研究で行ってきた嚥下は強制的なものであり、嚥下運動に伴う筋肉や骨の動きに嚥下毎に違いが生じることで嚥下音の特徴量にばらつきが出たと推測したからである。

本実験では、意識的に行った随意的嚥下と睡眠中の不随意的嚥下を5人の被験者から収録し、”嚥下音に含まれる周波数特性”、”I 音~II 音の間隔”、”嚥下持続時間”の3 つの特徴量を、周波数特性はコヒーレンスを求め、間隔と持続時間の2 つにはf 検定により分析することで分散の有意差を求めることで不随意的嚥下音の安定性を検証した。

実験の結果、”嚥下音に含まれる周波数特性”の特徴量として用いたコヒーレンスから、被験者個人の随意的・不随意的嚥下に含まれている周波数特性の違いは見られなかった。また、全被験者の嚥下音でコヒーレンスを求めた際に、個人のものよりも大幅に下回っていたことから、嚥下音に含まれる周波数特性には個人差が強く出ることが分かった。次に、”I 音~II 音の間隔”、”嚥下持続時間”の2 つの特徴量をf 検定により分散を分析した結果、随意的・不随意的嚥下音間に特徴量のばらつきの有意差はどちらの特徴量にも見られなかった。

したがって、今回の実験で分析した3 つの特徴量からは、不随意的嚥下音の安定性が高いことを証明する結果は得られなかったが、III 音の周波数帯に関しては不随意的嚥下音から測定した方が低周波数まで観測できる可能性が示唆された。

 

随意的・不随意的嚥下音の特徴量のばらつきに有意差が出なかった原因として考えられるのは以下の2つである。

(1) 随意的嚥下音の収録の際に意識的に行ってはいたもののタイミングは任意であったことから、強制的に行わせた嚥下よりもデータにばらつきが少ない嚥下音が取れてしまった可能性があること

(2) 睡眠中に発生するノイズを完全に除去することができなかったため、不随意的嚥下音のI 音・II 音・III 音の位置にズレが発生してしまい、データにばらつきが出てしまった可能性があること

 

今後の課題として、随意的嚥下音を収録する際には嚥下のタイミングを強制的に行う等の随意的嚥下音の収録方法の見直しや、睡眠中の不随意的嚥下音から正確にI 音・II 音・III 音を検出するためのノイズ除去方法を検討する必要がある。

 

 

 

臨場感音場再現における指向性を用いたスピーカ配置のス パース化に関する研究

研究背景

  • 近年、高解像度テレビなどの普及により気軽に迫力のある視聴体験が可能になってきている。それに伴い、臨場感のある音の再生技術も普及し始めている。

研究目的

  • 臨場感のある音場の再現には膨大な数のスピーカを聴取者の周囲に配置する必要がある。しかし一般家庭の部屋に多くのスピーカを配置するのは困難である。そこでスピーカをまとめることで設置を容易にしつつ、臨場感のある音場を再現することが本研究の目的である。

従来研究:Directional Loudspeaker Array for Surround Sound in Reverberant Rooms

  • 再現したいスピーカ(仮想音源)と指向性スピーカアレイの指向性ビームを一致させることで所望の音場が再現できることをシミュレーション実験で示している。

解決したい課題

  • 所望の音場を作り出すスピーカの位置によって誤差が大きくなるという問題点がある。これは、音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータが適切でないためであり、部屋の大きさや指向性スピーカアレイの設置場所に応じた適切な正則化パラメータが存在するのではないかと考えた。

提案法

  • 音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータをL-カーブ法を用いて求める。L-カーブ法(細田陽介,北川高嗣,”L一カ ー ブ に よ る不 適切問題 の 最適正 則 化 につ い て”,日本応用 数理 学会論文誌 Vol.2,No.11992 ,pp, 55〜67)は悪条件方程式を解くための正則化パラメータの最適値を求める手法である。 

 

実験

  • 提案法の有効性を示すためシミュレーション実験を行った。評価方法として、所望の音場の音圧と指向性スピーカアレイで再現した音場の音圧の平均二乗誤差を求める。仮想の部屋の音響伝達関数は鏡像法を用いたシミュレーションにより算出した。

鏡像法

  • 鏡像法は、音を直進する音線とし音の伝わり方を分かりやすく表
    現するシミュレーション法である。反射音を壁に線対称な位置にある音源からの音とすることで反射音の到来方向を容易に得ることができる。

実験環境

  • 実験環境を以下に示す。

実験結果

  • 今回実験を行った指向性スピーカアレイの設置位置を変えた条件ではL-カーブ法により求めた正則化パラメータを用いた場合誤差が小さくなることが分かった。

まとめ

  • 音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータの値を部屋の条件に応じた最適な値にすることで所望の音場との誤差を減らせることが分かった。今回は指向性スピーカアレイの設置位置を変えた条件で実験を行ったが、実環境を想定した場合、3次元への拡張を行い、部屋の形、大きさ、障害物、部屋の壁の材質などの影響を考慮しなければならない。そのため、さらに条件を変えた場合の実験を行う必要がある。

 

全天球映像のためのマイクロホンアレイを用いた音像定位強調の研究

研究背景

スマートフォンの普及により全天球映像が気軽に視聴できる環境が整いつつあります。

YouTubeなどの動画配信サイトや,FacebookなどのSNSも360度動画に対応しており,VRコンテンツやゲームなども普及してきています。

しかし,3Dオーディオへの対応はまだ始まったばかりです。

全天球映像に合わせた立体音響の必要性

全天球映像とは「前後左右頭上から足元まで全視野を覆うような映像」のことをいいます。

以下リンクにサンプルがあります。

https://theta360.com/users/173787

(本研究室が投稿している全天球画像です。動画も撮影可能です。)

このような全天球映像では,音を明確に感じさせること(音像定位強調)が必要となります。

従来研究:アンビソニックス

解決したい課題

反響などによって,様々な方向から音が到来すると,音像がぼやけてしまい,定位がはっきりしません。

そのため,定位が得られるような立体音を再現するには,複数の音源を音源ごとに強調する必要があります。

アプローチ方法

アプローチ方法は次の通りです。

  1. マイクロホンアレイを用いて収音
  2. MVDRとウィーナーフィルタを用いて,方向別に強調処理
  3. 強調信号を収音指向特性の4チャネルに変換
  4. アンビソニックスと統合
  5. スマートフォン再生アプリで再生

作製したマイクロホンアレイ

収音に用いるマイクロホンアレイを作製しました。

全天球映像と一体で収録が出来るよう,水平・上下の計8チャネルで構成されています。

収音部(方向別強調処理)

マイクロホンアレイの収音信号の各チャネルにMVDRのフィルタを掛け,それらを足し合わせた後にウィーナーフィルタを掛けます。

これによって,MVDRのみと比較してより強調を行うことが可能になります。

MVDR

MVDRは方向性の音のみ制御可能なため,拡散性雑音を扱うためにウィーナーフィルタを組み合わせます。

ウィーナーフィルタ

今回提案したウィーナーフィルタは以下の通りです。

定位評価実験

提案手法で強調処理した信号を用いて定位評価実験を行いました。

評価方法と実験条件は以下の通りです。

定位評価実験結果

実験結果は以下の通りです。

アンビソニックスと提案手法の比較から,提案手法の方が定位がはっきりしていることが分かります。

考察

実験を踏まえた考察は以下の通りです。

提案手法により,定位の向上は見られましたが,まだ「ぼやける部分」が残っているため,より最適な強調方法を検討する必要があります。

より強調が可能になれば,より定位を向上させることが可能になると考えられます。

まとめ

  • 全天球映像における音の定位感を向上させるために,音を方向別に強調する手法を提案しました。
  • 定位評価実験を行い,その結果から提案手法で定位が向上することを確認しました。
  • しかし,実験の結果からさらなる定位向上の可能性が残っているため,そのための強調手法を検討する必要があります。

今後の課題

  • 今回は3種類の目的音と1種類の雑音を使用しましたが,他の目的音と雑音を組み合わせた場合にも,今回と同等の効果が得られるかを調査する必要があります。
  • 今回は手動生成した混合信号を用いているため,実環境への応用に向けた収音強調方法を調査する必要があります。

 

 

シャント音解析を用いた血管狭窄度診断支援の研究

背景

腎不全などの患者は体内の老廃物を排出するために人工透析を行う。透析時の血流量を確保するためにシャントを作成するが、患者の高齢化などに伴いシャント血管が狭窄、閉塞してしまうなどといったトラブルが起こる。これらのトラブルを早期発見できれば、軽度な負担でシャント機能の改善が可能となる。患者は自分のシャント機能を確認するために、シャントから聴取されるシャント音を聴取することで確認を行う。

シャント・シャント音とは

シャントとは腕などの静脈と動脈を吻合することによって作成される。
シャント音とはシャント吻合部から静脈にかけて聴取される音である。

以下の音源は熊本赤十字病院の「シャント音CD ver2」のシャント音の例である。

正常なシャント音

 

異常なシャント音

 

目的

シャント音からシャント機能を機械に識別させることを大きな目的する。このことで専門的な知識のない患者も使用することができ、患者や医療スタッフの負担が軽減することが考えられる。

しかし、このようなシステムを実現させるためには、高度な識別精度が必要となる。

従来研究

シャント音を解析している従来研究には以下のようなものがある。

解決したい課題

西谷らの研究や佐々木らの研究で使用されている録音機材は周波数領域が狭く、シャントの特徴を十分に捉えられていないことが考えられる。西谷らの研究で用いられている電子聴診器(リットマン ステソスコープ Model4000,4100)の周波数領域は20-1000Hz、佐々木らの研究で用いられているTA-701Tの周波数領域は20-600Hzである。矢巻らの研究によると、狭窄したシャント音からは1000-2000Hzの特徴が得られるとされているため、これらの特徴が十分に得られていないと考えられる。

また、矢巻らの研究では「シャントが正常なときに聴取されるシャント音」、「狭窄しているときに聴取されるシャント音」、「閉塞しているときに聴取されるシャント音」の識別を行っているが、実際のシャントとの関連が分からないといった課題がある。実際のシャントとの関連が分からないため、それらのシャント音が正しく識別できているか評価できない。

提案手法

今回、従来研究の課題を解決するために、

①周波数領域の広い録音機器を用いる

②エコー画像から得られた数値を利用した識別

この二つを用いた手法を提案した。

①の提案の狙いとして、周波数領域を持つ録音機器を用いることで、狭い周波数領域では得られなかった特徴、特に高周波数帯域に含まれる狭窄しているシャント音の特徴を得ることを狙っている。

②の提案の狙いとして、エコー画像から得られた数値は客観的な数値であり、シャント機能を客観的に示すことができることを狙っている。

収音

ここでは、収音時に利用したマイクロホンについて述べる。今回はマイクロホンにチェストピースを接続した聴診器付きマイクロホンを自作した。マイクロホンにはオーディオテクニカ社のAT9903を利用して、収音を行った。また比較のために、電子聴診器(リットマン エレクトロニックステソスコープ Model3200)を用いて収音も行った。

 

識別

ここでは、識別を行うために行った処理を述べる。

はじめに、学習フェーズについて説明する。

RI値が低いものとRI値が高いものとラベリングしたデータ群からそれぞれ、正規化相互相関係数、周波数パワーの割合、MFCCを算出し、それぞれの値を学習に利用する。今回は、RI値が低いものとRI値が高いものの2クラスであるため、識別器にはSVMを利用した。

次に、識別フェーズについて説明する。

識別したいシャント音から正規化相互相関係数、周波数パワーの割合、MFCCを算出し、学習フェーズで学習したSVMを用いて、識別を行う。

次の図では、RIについての説明を以下にする。

 

ここで、「シャント管理における超音波パルスドップラー法の有効性」(村上康一  2003)の調査によるとRI値が0.6を超えるとシャント機能の不良なグループが増加する傾向が見られることが分かっている。そこで今回はRI値が0.6未満のグループと0.6以上のグループに分割し、識別を行うこととした。

ここで、今回利用したデータのうち、スタッフによる判断があったAVF患者61名で、狭窄の疑いがないと判断された患者が49名、狭窄の疑いがあると判断された患者は12名であった。疑いがないと判断された患者のうち、28名はRI値が0.6未満、21名がRI値が0.6以上であった。また疑いがあると判断された患者のうち4名が0.6未満、8名がRI値が0.6以上であった。

以下の図で赤丸で囲まれたものを正解、青丸で囲まれたものを不正解回答とした場合、正解率は59%となった。これをスタッフによる判断の識別精度の基準として扱う。

特徴量についての説明を以下にする。

実験

今回の実験の目的は提案手法の有効性の確認とする。

録音機材による違いを確認するために、聴診器付きマイクロホンと電子聴診器(リットマン ステソスコープ Model3200)を用いて録音したシャント音を使用する。またRI値が0.6未満のグループと0.6以上のグループでSVMに学習を行わせ、識別を行った。学習や識別に利用するデータセットを5グループに分割して、5次交差検定を行い、正解率、F値での評価を行う。

また、スタッフによる判断と比較することで、RI値を学習させた結果との比較も行う。

実験条件は以下のようになる。

実験の結果

実験結果を以下の図に示す。

まとめ

研究の目的

シャント音からシャント機能を機械に識別させる

提案手法

①周波数領域の広いマイクロホンを用いて得られたシャント音から特徴量を抽出し、②エコー画像から得られたRIを用いて識別させる。

結果

①電子聴診器で録音したシャント音での識別よりも聴診器付きマイクロホンで録音したシャント音での識別のほうが識別精度が良かった。

②RI値によって学習した識別はスタッフによる判断よりも識別精度が悪くなった。

今後の課題

今回得られた識別の精度では目的のシステムを実現するのには不十分である。そのため、今後は識別精度の向上が必要である。識別精度の向上するために特徴量や識別器の検討が必要であると考えられる。

重回帰分析を用いた頭部伝達関数の推定における説明変数選択に関する研究

研究背景

  • 近年、ヘッドホンで音楽を聴く機会が増えてきている。しかし、ヘッドホンで聞くと音は立体的には聞こえない。そこで、頭部伝達関数(HRTF)と音源とを畳み込むことで、ヘッドホンでも3次元的のサウンドを得ることができ、立体的なサウンドを楽しめることができる。

  • 頭部伝達関数(HRTF)について
    • 音源から出た音が受聴者の外耳道入口に到着するまでに、生じる音の変化を伝達関数として表現したものであり、音源からの左右の耳への音の到達時間差と強度差それぞれが含まれている。

 

研究目的

  • 頭部伝達関数(HRTF)を測定するには、無響室などの測定環境と角度ごとに測るため膨大な時間がかかる。またHRTFには個人性があり、他人のHRTFを使用すると音源がうまく定位できない問題がある。そこでHRTFデータベースを用いて、個人のHRTFを推定する。

従来研究

  • HRTFは頭部や耳介の形状に依存すると考えられる。そこで、耳介4種類と頭部周辺5種類を測定し、合計9種類の身体的特徴量とHRTFの振幅応答との関係をもとに、重回帰分析を用いてHRTFを推定していく。

参考文献(重回帰分析に基づく頭部伝達関数の推定)

身体的特徴量

 

重回帰分析

解決したい課題

  • 重回帰分析を行うにあたり説明変数で使用した9個の身体的特徴は、ダミーヘッドの作成時に定められた基準点を参考に選んでいる。しかし、推定する際に悪影響を及ぼす説明変数が存在する可能性がある。
  • 9個の説明変数の中で目的変数であるHRTFへの影響が大きいかつ、最小限の説明変数で推定を行っていく。

提案手法

  • 目的変数(HRTF)に対する説明変数(身体的特徴量)の影響を調査するため偏相関係数を求める。
  • 変数増加法を用いて偏相関係数の大きい順に説明変数を選択していき、HRTF測定外被験者のHRTFを推定していく。

偏相関係数

  • 偏相関係数とは目的変数と複数の説明変数があるとき、目的変数と1つの説明変数の関係を、他の説明変数の影響を除去して評価したものである。

変数増加法

  • 最初に全ての説明変数の中で偏相関係数が一番大きい身体的特徴を重回帰モデルの説明変数に入れて推定を行う。このように重回帰モデルに偏相関係数が大きい順に説明変数を1個ずつ増やして推定を行っていく。

偏相関係数_結果

水平方向の身体的特徴が偏相関係数の値が高く、垂直方向の身体的特徴は低い値となった。

また、頭部周辺の身体的特徴の値が高く、耳介周辺の身体的特徴は低い値であった。

HRTF測定外被験者への適用方法

実験条件

  • 使用データ数:80名(76名:重回帰モデル作成、4名:評価、20回)
  • 身体的特徴量:9個
  • 使用したHRTF:0度から355度まで5度間隔で72方向(名古屋大学HRTFデータベース)
  • サンプリング周波数:48kHz
  • 帯域:1kHz-8kHz、1kHz-12kHz

評価尺度

実験結果

オレンジ色の線が9個全ての身体的特徴量で推定を行ったもので、青色が提案手法で一番精度が良かった身体的特徴量である。

1kHz-8kHz、1kHz-12kHzにおいて、全ての角度で従来研究の9個の身体的特徴量で推定を行ったHRTFよりも、説明変数選択を行い推定を行ったHRTFの方が精度が良くなった。

 

以下の表は変数増加法で説明変数を増やしていった場合の結果である。

考察

  • 9個の身体的特徴量うち耳介細部の測定値の標準偏差が小さいため、HRTFの推定においては悪影響であると考える。
  • 帯域ごとに一番良かった説明変数の個数が異なったが、帯域を広げることで音の情報も増えるため、HRTFに対する身体的特徴量の影響が減ったのではないかと考える。

まとめ

<課題>

  • 重回帰分析で説明変数を使用する場合に、推定に悪影響を及ぼす説明変数が存在する可能性がある。

<提案手法>

  • 変数増加法を用いて偏相関係数が大きい順に選択していく

<結論>

  • 偏相関係数は頭部周辺の値が高く、耳介細部の値が低かった。
  • 1kHz-8kHzでは両耳間距離と頭囲(前)で推定したHRTFが良く、1kHz-12kHzでは両耳間距離で推定したHRTFが一番精度が良かった。

<今後の課題>

  • 説明変数選択に変数増加法を使用したが、様々な説明変数の組み合わせを調査する必要がある。
  • 重回帰分析を用いてHRTFの推定を行ったが、説明変数は量的変数でなければならないため、更に精度の高いHRTFを推定するには、重回帰分析以外の手法を検討する必要がある。

不随意的嚥下音の統計解析による機能評価の研究

平成29年10月10日に行われた卒業研究中間発表の内容です。

 

背景

一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。

食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。

嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。

しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。

 

研究目的

簡単かつ侵襲性の無い計測方法で嚥下音の録音が収集が可能であり、嚥下音だけの情報から嚥下機能の状態を評価する指標の提案を行いたい。

 

嚥下・嚥下音とは

  • 嚥下

食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。

意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/

  • 嚥下音

嚥下運動の際に発生する音。

-Ⅰ音(20~100Hz)

喉頭蓋の閉鎖運動の際に発する音

-Ⅱ音(50~150Hz,400~750Hz)

食物が食道を通過する際に発生

-Ⅲ音(20~100Hz)

喉頭蓋の開放運動に際に発生

 

従来研究

「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)

《目的》

スペクトログラムと音声波形から嚥下音の特徴を明らかにする

《結果》

・嚥下音の全体の時間は平均で2.5(s)

・Ⅰ・Ⅱ・Ⅲ音は同じような周波

数帯を持っている

他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い

《課題》

個人差、または、随意的嚥下音運動によるばらつきが示唆されている

 

解決したい課題

これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。

そのため、いかに安定性の高い嚥下音のデータを得るにはどうすれば良いのかを考えた。

アプローチ方法

データのばらつきは随意的な運動からくるものだと推定し、睡眠中の嚥下音を抽出することで不随意的嚥下運動から発生する嚥下音の抽出を行い、随意的・不随意的な嚥下音の”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下音の継続時間”を特徴量としてばらつきの差を調査した。

 

予備実験

《目的》

・個人差のばらつきの調査

・随意と不随意での嚥下のばらつきの調査

《実験方法》

・随意的な嚥下(仰向けの状態)と不随意的な嚥下の録音を行う

・ウェーブレット変換により周波数の平均が高い順に3箇所取り出し、Ⅰ・Ⅱ・Ⅲ音とする

嚥下音信号のウェーブレット変換

・随意的・不随意的な嚥下音の、Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間の標準偏差を求め、ばらつきの差を調査する

《使用機器》

嚥下音を録音する際に、

レコーダ:V-803(下図左)

マイク:咽喉マイク(下図右)

を接続して使用した。

レコーダ、咽喉マイク

《実験条件》

 

実験条件

・個人差

複数人の場合と、個人のみの場合の随意的嚥下音のばらつきの差を求める。

・随意・不随意

個人の随意的・随意的な嚥下音のばらつきの差を求める。

結果

①被験者:複数人(14名)

嚥下:随意的

②被験者:個人

嚥下:随意的

③被験者:個人

嚥下:不随意的

○標準偏差

考察、まとめ


・嚥下障害の早期発見のために音だけの情報から嚥下機能の状態を評価する指標の提案

・嚥下音の特徴分析の予備実験より以下のことが分かった

―Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間は個人差が大きい可能性

―不随意的なデータの安定性が最も高い可能性

・今後は統計的に優位な差が示せるようにデータを増やしていく

 

今後の課題、進め方進め方

・引き続き睡眠時の嚥下音を録音収集

―比較のため被験者の人数を増やす

・嚥下機能評価のための特徴量の提案

―振幅のピーク値から得た特徴量

―Ⅰ音、Ⅱ音、Ⅲ音の周波数帯域

・評価実験

―特徴量から個人の識別

劣決定条件のブラインド音源分離におけるマルチチャネル非負値行列因子分解を用いたアルゴリズムの研究

背景


私たちの生活している環境には様々な音が存在しており、その中から特定の音を抽出する技術、音源分離が求められています。

例)音声認識、雑音抑圧、ユーザによる既存音楽の再編集…etc

 

従来研究


  • マルチチャネルNMF(MNMF)

-劣決定条件(音源数>マイク数)で、マイク間の位相情報を利用して音源分離を行います。

  • 独立低ランク行列分析(ILRMA)

-優決定条件(音源数≦マイク数)で、空間モデルと音源モデルを交互に学習します。

 

目的


従来研究の2つの手法にはそれぞれ長所と短所があり、MNMF は音源数に関わらず音源分離が可能ですが、計算コストが大きく、処理が遅いという問題があります。一方、ILRMA は計算コストが少なく、処理が速いのですが、音源数とマイク数が同じでなければならないという問題があります。

そこで本研究では、MNMF と ILRMA を組み合わせて、劣決定条件(音源数>マイク数)で処理が高速なアルゴリズムの作成を提案します。

 

提案手法


本研究では、まず観測信号に対してMNMF を行い、音源をいくつかに分割します。

その後、分割した音源に対してILRMA を用いて、音源分離を行います。

 

この手法によって、従来のMNMF より少ない更新回数で分割し、ILRMA で分割した音源を分離することで、従来のMNMF より高速な音源分離ができるのではないかと考えています。

 

提案手法の有効性


提案手法の有効性を示すために2つの実験を行いました。

これを従来法と比較して、時間は短く、精度は同じになることを目指します。

実験1


実験1の条件は以下のようになっています。

この時、ID1とID2は同じ音源で、60度と120度の配置を入れ替えただけのものになります。同様にID3とID4が同じ音源となっています。

実験結果は以下のとおりです。

従来法の平均よりも提案法の平均が上回り、ID3では高い分離精度となりました。

実験2


実験2の条件は以下のようになっています。

ここで使用した音源は実験1の結果でSDRが高かったものを扱いました。また、分割した音源は正面からみて右側と左側でまとまって分割されたので、図の青の組み合わせと緑の組み合わせをID4つ分、計8個をILRMAで分離しました。

実験結果は以下のとおりです。

実行時間


 

提案法でMNMFとILRMA全てにかかった時間と、従来のMNMFのみで分離を行った時間を以下の図に示します。

考察


実験2の結果、提案法のSDRは従来法より低くなりました

→実験2のSDRの高さは実験1のSDRの高さに比例しているため、提案法のSDRの低下はMNMFの音源分割が不十分であったと考えられます。

以下の図は実験1と実験2の提案手法の結果となっています。ここで実験1で最もSDRが高くなったID3は実験2でもSDRが高くなっていることから、SDRの高さは比例していることがわかります。

まとめ


  • MNMF とILRMA を組み合わせたアルゴリズムを提案しました。
  • 従来のMNMFのみの分離に比べ、提案法の分離精度は低くなったが、実行時間は短縮できました。