音メディア処理研究室

 
ブログ

重回帰分析を用いた頭部伝達関数の推定における説明変数選択に関する研究

研究背景

  • 近年、ヘッドホンで音楽を聴く機会が増えてきている。しかし、ヘッドホンで聞くと音は立体的には聞こえない。そこで、頭部伝達関数(HRTF)と音源とを畳み込むことで、ヘッドホンでも3次元的のサウンドを得ることができ、立体的なサウンドを楽しめることができる。

  • 頭部伝達関数(HRTF)について
    • 音源から出た音が受聴者の外耳道入口に到着するまでに、生じる音の変化を伝達関数として表現したものであり、音源からの左右の耳への音の到達時間差と強度差それぞれが含まれている。

 

研究目的

  • 頭部伝達関数(HRTF)を測定するには、無響室などの測定環境と角度ごとに測るため膨大な時間がかかる。またHRTFには個人性があり、他人のHRTFを使用すると音源がうまく定位できない問題がある。そこでHRTFデータベースを用いて、個人のHRTFを推定する。

従来研究

  • HRTFは頭部や耳介の形状に依存すると考えられる。そこで、耳介4種類と頭部周辺5種類を測定し、合計9種類の身体的特徴量とHRTFの振幅応答との関係をもとに、重回帰分析を用いてHRTFを推定していく。

参考文献(重回帰分析に基づく頭部伝達関数の推定)

身体的特徴量

 

重回帰分析

解決したい課題

  • 重回帰分析を行うにあたり説明変数で使用した9個の身体的特徴は、ダミーヘッドの作成時に定められた基準点を参考に選んでいる。しかし、推定する際に悪影響を及ぼす説明変数が存在する可能性がある。
  • 9個の説明変数の中で目的変数であるHRTFへの影響が大きいかつ、最小限の説明変数で推定を行っていく。

提案手法

  • 目的変数(HRTF)に対する説明変数(身体的特徴量)の影響を調査するため偏相関係数を求める。
  • 変数増加法を用いて偏相関係数の大きい順に説明変数を選択していき、HRTF測定外被験者のHRTFを推定していく。

偏相関係数

  • 偏相関係数とは目的変数と複数の説明変数があるとき、目的変数と1つの説明変数の関係を、他の説明変数の影響を除去して評価したものである。

変数増加法

  • 最初に全ての説明変数の中で偏相関係数が一番大きい身体的特徴を重回帰モデルの説明変数に入れて推定を行う。このように重回帰モデルに偏相関係数が大きい順に説明変数を1個ずつ増やして推定を行っていく。

偏相関係数_結果

水平方向の身体的特徴が偏相関係数の値が高く、垂直方向の身体的特徴は低い値となった。

また、頭部周辺の身体的特徴の値が高く、耳介周辺の身体的特徴は低い値であった。

HRTF測定外被験者への適用方法

実験条件

  • 使用データ数:80名(76名:重回帰モデル作成、4名:評価、20回)
  • 身体的特徴量:9個
  • 使用したHRTF:0度から355度まで5度間隔で72方向(名古屋大学HRTFデータベース)
  • サンプリング周波数:48kHz
  • 帯域:1kHz-8kHz、1kHz-12kHz

評価尺度

実験結果

オレンジ色の線が9個全ての身体的特徴量で推定を行ったもので、青色が提案手法で一番精度が良かった身体的特徴量である。

1kHz-8kHz、1kHz-12kHzにおいて、全ての角度で従来研究の9個の身体的特徴量で推定を行ったHRTFよりも、説明変数選択を行い推定を行ったHRTFの方が精度が良くなった。

 

以下の表は変数増加法で説明変数を増やしていった場合の結果である。

考察

  • 9個の身体的特徴量うち耳介細部の測定値の標準偏差が小さいため、HRTFの推定においては悪影響であると考える。
  • 帯域ごとに一番良かった説明変数の個数が異なったが、帯域を広げることで音の情報も増えるため、HRTFに対する身体的特徴量の影響が減ったのではないかと考える。

まとめ

<課題>

  • 重回帰分析で説明変数を使用する場合に、推定に悪影響を及ぼす説明変数が存在する可能性がある。

<提案手法>

  • 変数増加法を用いて偏相関係数が大きい順に選択していく

<結論>

  • 偏相関係数は頭部周辺の値が高く、耳介細部の値が低かった。
  • 1kHz-8kHzでは両耳間距離と頭囲(前)で推定したHRTFが良く、1kHz-12kHzでは両耳間距離で推定したHRTFが一番精度が良かった。

<今後の課題>

  • 説明変数選択に変数増加法を使用したが、様々な説明変数の組み合わせを調査する必要がある。
  • 重回帰分析を用いてHRTFの推定を行ったが、説明変数は量的変数でなければならないため、更に精度の高いHRTFを推定するには、重回帰分析以外の手法を検討する必要がある。

不随意的嚥下音の統計解析による機能評価の研究

平成29年10月10日に行われた卒業研究中間発表の内容です。

 

背景

一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。

食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。

嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。

しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。

 

研究目的

簡単かつ侵襲性の無い計測方法で嚥下音の録音が収集が可能であり、嚥下音だけの情報から嚥下機能の状態を評価する指標の提案を行いたい。

 

嚥下・嚥下音とは

  • 嚥下

食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。

意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/

  • 嚥下音

嚥下運動の際に発生する音。

-Ⅰ音(20~100Hz)

喉頭蓋の閉鎖運動の際に発する音

-Ⅱ音(50~150Hz,400~750Hz)

食物が食道を通過する際に発生

-Ⅲ音(20~100Hz)

喉頭蓋の開放運動に際に発生

 

従来研究

「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)

《目的》

スペクトログラムと音声波形から嚥下音の特徴を明らかにする

《結果》

・嚥下音の全体の時間は平均で2.5(s)

・Ⅰ・Ⅱ・Ⅲ音は同じような周波

数帯を持っている

他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い

《課題》

個人差、または、随意的嚥下音運動によるばらつきが示唆されている

 

解決したい課題

これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。

そのため、いかに安定性の高い嚥下音のデータを得るにはどうすれば良いのかを考えた。

アプローチ方法

データのばらつきは随意的な運動からくるものだと推定し、睡眠中の嚥下音を抽出することで不随意的嚥下運動から発生する嚥下音の抽出を行い、随意的・不随意的な嚥下音の”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下音の継続時間”を特徴量としてばらつきの差を調査した。

 

予備実験

《目的》

・個人差のばらつきの調査

・随意と不随意での嚥下のばらつきの調査

《実験方法》

・随意的な嚥下(仰向けの状態)と不随意的な嚥下の録音を行う

・ウェーブレット変換により周波数の平均が高い順に3箇所取り出し、Ⅰ・Ⅱ・Ⅲ音とする

嚥下音信号のウェーブレット変換

・随意的・不随意的な嚥下音の、Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間の標準偏差を求め、ばらつきの差を調査する

《使用機器》

嚥下音を録音する際に、

レコーダ:V-803(下図左)

マイク:咽喉マイク(下図右)

を接続して使用した。

レコーダ、咽喉マイク

《実験条件》

 

実験条件

・個人差

複数人の場合と、個人のみの場合の随意的嚥下音のばらつきの差を求める。

・随意・不随意

個人の随意的・随意的な嚥下音のばらつきの差を求める。

結果

①被験者:複数人(14名)

嚥下:随意的

②被験者:個人

嚥下:随意的

③被験者:個人

嚥下:不随意的

○標準偏差

考察、まとめ


・嚥下障害の早期発見のために音だけの情報から嚥下機能の状態を評価する指標の提案

・嚥下音の特徴分析の予備実験より以下のことが分かった

―Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間は個人差が大きい可能性

―不随意的なデータの安定性が最も高い可能性

・今後は統計的に優位な差が示せるようにデータを増やしていく

 

今後の課題、進め方進め方

・引き続き睡眠時の嚥下音を録音収集

―比較のため被験者の人数を増やす

・嚥下機能評価のための特徴量の提案

―振幅のピーク値から得た特徴量

―Ⅰ音、Ⅱ音、Ⅲ音の周波数帯域

・評価実験

―特徴量から個人の識別

劣決定条件のブラインド音源分離におけるマルチチャネル非負値行列因子分解を用いたアルゴリズムの研究

背景


私たちの生活している環境には様々な音が存在しており、その中から特定の音を抽出する技術、音源分離が求められています。

例)音声認識、雑音抑圧、ユーザによる既存音楽の再編集…etc

 

従来研究


  • マルチチャネルNMF(MNMF)

-劣決定条件(音源数>マイク数)で、マイク間の位相情報を利用して音源分離を行います。

  • 独立低ランク行列分析(ILRMA)

-優決定条件(音源数≦マイク数)で、空間モデルと音源モデルを交互に学習します。

 

目的


従来研究の2つの手法にはそれぞれ長所と短所があり、MNMF は音源数に関わらず音源分離が可能ですが、計算コストが大きく、処理が遅いという問題があります。一方、ILRMA は計算コストが少なく、処理が速いのですが、音源数とマイク数が同じでなければならないという問題があります。

そこで本研究では、MNMF と ILRMA を組み合わせて、劣決定条件(音源数>マイク数)で処理が高速なアルゴリズムの作成を提案します。

 

提案手法


本研究では、まず観測信号に対してMNMF を行い、音源をいくつかに分割します。

その後、分割した音源に対してILRMA を用いて、音源分離を行います。

 

この手法によって、従来のMNMF より少ない更新回数で分割し、ILRMA で分割した音源を分離することで、従来のMNMF より高速な音源分離ができるのではないかと考えています。

 

提案手法の有効性


提案手法の有効性を示すために2つの実験を行いました。

これを従来法と比較して、時間は短く、精度は同じになることを目指します。

実験1


実験1の条件は以下のようになっています。

この時、ID1とID2は同じ音源で、60度と120度の配置を入れ替えただけのものになります。同様にID3とID4が同じ音源となっています。

実験結果は以下のとおりです。

従来法の平均よりも提案法の平均が上回り、ID3では高い分離精度となりました。

実験2


実験2の条件は以下のようになっています。

ここで使用した音源は実験1の結果でSDRが高かったものを扱いました。また、分割した音源は正面からみて右側と左側でまとまって分割されたので、図の青の組み合わせと緑の組み合わせをID4つ分、計8個をILRMAで分離しました。

実験結果は以下のとおりです。

実行時間


 

提案法でMNMFとILRMA全てにかかった時間と、従来のMNMFのみで分離を行った時間を以下の図に示します。

考察


実験2の結果、提案法のSDRは従来法より低くなりました

→実験2のSDRの高さは実験1のSDRの高さに比例しているため、提案法のSDRの低下はMNMFの音源分割が不十分であったと考えられます。

以下の図は実験1と実験2の提案手法の結果となっています。ここで実験1で最もSDRが高くなったID3は実験2でもSDRが高くなっていることから、SDRの高さは比例していることがわかります。

まとめ


  • MNMF とILRMA を組み合わせたアルゴリズムを提案しました。
  • 従来のMNMFのみの分離に比べ、提案法の分離精度は低くなったが、実行時間は短縮できました。

 

MATLABのGUI環境における可聴域検査

<背景>
可聴域とは人間の聞き取れる周波数領域を意味している。
一般的には20Hzから20000Hzまで聞こえると言われている。
年齢とともに可聴域は減少していく。
自分が今、どのくらいの周波数が聞き取れるか調査したいと考えた。

<システム概要>
利用者の可聴域を調べるためのシステムを作成した。
聞こえにくい周波数音源からテストを開始して、徐々に可聴できる周波数音源に変化していき、聞こえたと判断した時点でボタンを押し、テストを終了する。
その後、聞こえたと判断した周波数をもとにして確認テストを行う。

<使用した環境>
MATLAB

例として、人間が聞き取れるとされている20Hzと20000Hzの音源を用意した。
※音源を流す場合には音量に十分注意してください。
20Hz


20000Hz

以下は実際の発表の動画である。


音響レンズを用いた遠距離集音の研究

研究背景

一般の人が鳥の鳴き声、集音者が集音するのに困難である場所(災害現場等) での集音は、野生動物の場合近づくことで逃げられてしまい集音できなかったり、集音時困難な場所での集音は撮影者が危険になったりとなかなか手軽に集音することは困難である。そのため通常は遠距離の音を集音する際は、遠距離を集音する専用の機材を用いて集音している。

しかしこれらは大掛かりな機材や、大量のマイクなどコストがかかっている。そこでこれらの機材を用いず集音を行える風船音響レンズに着目した。

 

風船音響レンズ

風船音響レンズは、風船内に空気より音速の遅い気体(例:二酸化炭素、塩素) を封入することにより、空気と封入した気体の境界で音波が屈折することを用いて音波を集束させるものである。

研究目的

しかし風船のような封入する気体の量に左右される複雑な形状の音響レンズの焦点距離を正確に測ることは困難である。従来の方法では光学レンズの近似式から求めていたが実際の焦点距離とは大きく差が出てしまっていた。

そこで、本研究では、遠距離集音を行う際従来の手法のように大型の機材を大量の機材を扱わない、風船音響レンズを用いて遠くの音を集音することを目的とし、風船音響レンズの焦点距離を風船の形状からシュ
ミレーションによって正確に求められるようにする。

 

このようにシュミレーションを行った結果、光学的レンズの近似式を用いる手法より正確な値を求めることに成功した。

実環境実験

そこで、実環境において以上のシュミレーションを用いて集音実験を行った。

このように、シュミレーションによる焦点距離で集音した結果他の条件と比較し集音できていることが分かった。このシュミレーションによる焦点距離の計測は有効であると判断できる。

今後の課題

本研究については次のような課題が残る。まず、遠距離での集音ということであったが、本研究では室内での実験しか行っておらず、外での実験を行う必要がある。また、室内での環境においての集音についても極端に大きな結果が見られなかったため無響室での集音や、本実験では音速の遅い気体として二酸化炭素のみを使用していたがより音速が遅い気体についての集音についても検討が必要であると考えられる。

 

 

 

GUIを用いた音響効果の付与

2016年12月26日に行われた3年生デモ大会の発表内容です。

このデモでは、GUIで操作し、音データにリバーブ(残響)を付与させるシステムを開発しました。

音源は2種類用意しており、その音源と、リバーブを付与したものを聞くことができます。リバーブは減衰率とリピート回数を設定することが可能で、それぞれ10段階の値を設定できます。

 

以下、一方の音源の元音源と、減衰率0.5、リピート回数5でリバーブを付与した音源です。

元の音源

 

減衰率0.5、リピート回数5でリバーブをかけた音源

 

使用した環境

  • windows10
  • MATLAB

 

詳細は以下の動画でご覧下さい。