人工知能第一研究室

 
ブログ

全天球映像のためのマイクロホンアレイを用いた音像定位強調の研究

研究背景・目的

  • スマートフォンの普及により全天球映像が気軽に視聴できる環境が出来つつある。
  • 動画配信サイト(YouTubeなど),SNS(facebookなど)も360度動画に対応しており,VRコンテンツ,ゲームなどのサービスも普及してきている。
  • しかし,3Dオーディオへの対応はまだ始まったばかりである。
    • Facebook 360 Spatial Workstation
    • Google Omnitone   etc…
  • 「全天球映像」とは「前後左右頭上から足元まで全視野を覆うような映像」のことをいう。
  • このような映像では,音を明確に感じさせること(音像定位強調)が必要であるため,これを実現させることが目的である。

解決したい課題

  • 従来研究であるアンビソニックスでは,複数の音源になると,音波の重畳により音の到来方向の再現が困難になるという課題がある。
  • そのため,複数音源で立体音を再現するには,複数の音源を音源ごとに強調する必要がある。
  • これにより,定位感が得られると考えられる。

アプローチ方法

  • システム構成は下図のようになっている。
  • 「方向別強調処理」では,指向性制御に用いるMVDR(Minimum Variance Distortionless Response)と,雑音抑圧に用いるWienerフィルタによって,各方向の音を強調する。

予備実験

  • MVDRとWienerフィルタによる方向別強調の効果を確認することが目的である。
  • 以下の場合のSNR(Signal-to-Noise Ratio)と音を比較する。
    • 処理前
    • MVDR処理後
    • MVDR + Wienerフィルタ処理後
  • 条件
    • 実験場所:理工8号館(合同棟)7階実験室
    • 目的音:女性の声
    • 雑音:白色雑音(拡散性)
    • サンプリング周波数:48000Hz
    • 目的音に畳み込んだインパルス応答*:研究にあたり作製したマイクロホンアレイで測定したもの
    • マイク数:8
    • スピーカ数:目的音1, 雑音4

*インパルス応答:部屋の特性を表す

実験結果

  • SNRの比較(値が大きいほど雑音が少ない)
    • 処理前(8ch平均):-0.4966 dB
    • MVDR処理後:7.2344 dB
    • MVDR + Wienerフィルタ処理後:13.4433 dB
  • 2つの処理を行った後では,処理前より13.9399 dBの改善が見られた。

考察

  • SNRの改善は見られたが,まだ十分な性能が得られていないため,Wienerフィルタの推定方法について検討が必要である。
  • SNRの向上に伴うSD(Spectrum Distortion)の低下が考えられるため,音質とSNRのバランスを考慮する必要がある。

まとめ

  • 本研究は,全天球映像における音の定位感を向上させるために,音を方向別に強調する手法を提案した。
  • 予備実験として,MVDRとWienerフィルタの組み合わせによる方向別強調を行い,強調はされたが効果が十分ではなかった。
  • そのため,Wienerフィルタの推定方法を工夫して性能改善を図る。

シャント音解析を用いた血管狭窄度診断支援の研究

背景

腎不全などの患者は体内の老廃物を排出するために人工透析を行う。透析時の血流量を確保するためにシャントを作成するが、患者の高齢化などに伴いシャントにトラブルが起こる。これらのトラブルを早期発見できれば、軽度な負担でシャント機能の改善が可能となる。患者はシャントから聴取されるシャント音を聴取することでシャント機能の確認を行う。

シャント・シャント音とは

シャントとは腕などの静脈と動脈を吻合することによって作成される。
シャント音とはシャント吻合部から静脈にかけて聴取される音である。

正常なシャント音

 

異常なシャント音

 

目的

シャントの悪化を早期発見することができれば、少ない負担でシャント機能の改善が可能であり、再度シャント作成の手術等を行う必要がなくなる。しかし、シャント音の判断は個人差があり、経験に依存するため客観的指標が求められている。

ここでシャント音を解析することで客観性を有しながらシャントの状態の推定を行うこと目的とする。

解決したい課題

従来の研究ではシャント音を解析し、シャント機能のモニタリングを行う研究が行われているが血管の詰まり具合を示す狭窄度は判断することができない。今回、私は狭窄度の情報をシャント音の特徴量を同時に学習することで、シャント音の特徴からシャントの狭窄度を推定したいと考えている。

アプローチ方法

事前に解析したシャント音の特徴量と狭窄度の情報を識別器に学習する。狭窄度の情報は看護大学の方に協力していただき、超音波画像診断装置を用いて測定を行う。同様の方法で識別したいシャント音から特徴量を抽出し、識別器によってシャントの狭窄度を推定させる。

予備実験

従来研究では正常音は100-500Hz付近の周波数帯を多く含んでおり、異常音は1000-2000Hz付近の周波数帯を多く含んでいると言われている。

今回は1-2000Hz全体との周波数帯別の割合を特徴量とし、正常音と異常音の識別を行った。

今回は

  1. 1-500Hz
  2. 500-1000Hz
  3. 1000-1500Hz
  4. 1500-2000Hz

の4つの割合を特徴量とし、識別器にSVM(Support Vector Machine)を利用し、識別を行った。

予備実験の結果

1000-2000Hzでの識別は想定したものより低いものとなった。1-500Hzの割合の正答率に比べ1500-2000Hzの割合の正答率が16.7%ほど低いものとなった。

考察

今回、使用したシャント音のデータは電子聴診器によって録音されたデータである。電子聴診器は低周波数帯域が聞き取りやすくなっている。そのため高周波成分のデータ失われているおり、識別率が低下した考えられる。また、今回は周波数の割合を特徴量として利用したが、シャントの機能の識別に適した特徴量があること可能性があるので、検討したいと考えている。

今後の進め方

10月,11月

  • 録音およびエコー画像の撮影
  • その他の特徴量の検討

12月

  • 評価実験

重回帰分析を用いた頭部伝達関数の推定における説明変数選択に関する研究

研究背景

  • 近年、ヘッドホンで音楽を聴く機会が増えてきている。しかし、ヘッドホンで聞くと頭の中から音が鳴っているように聞こえる。そこで、頭部伝達関数(HRTF)と音源とを畳み込むことで、ヘッドホンでも3次元的のサウンドを得ることができ、立体的なサウンドを楽しめることができる。

  • 頭部伝達関数(HRTF)について
    • 音源から出た音が受聴者の外耳道入口に到着するまでに、生じる音の変化を伝達関数として表現したものであり、音源からの左右の耳への音の到達時間差と強度差それぞれが含まれている。

 

研究目的

  • 頭部伝達関数(HRTF)を測定するには、無響室などの測定環境と角度ごとに測るため膨大な時間がかかる。またHRTFには個人性があり、他人のHRTFを使用すると、音源がうまく定位できない問題があります。そこで測定することなく、個人のHRTFを推定する。

従来研究

  • HRTFは頭部や耳介の形状に依存すると考えられる。9種類の身体的特徴量とHRTFの振幅応答との関係をもとに、重回帰分析を用いてHRTFを推定していきます。

参考文献(重回帰分析に基づく頭部伝達関数の推定)

解決したい課題

  • 参考文献では使用した9種類の身体的特徴はダミーヘッドの作成時に定められた基準点を参考に選んでいるが、推定する際には必要なのかが不明である。
  • 9種類の身体的特徴の中で推定するHRTFにあまり影響を及ぼしていない身体的特徴を除き、最適な説明変数を選択し重回帰分析を行うことが必要である。

アプローチ方法

  • 多重共線性の可能性があと、正しく推定することができないため、VIF統計量を用いて説明変数間に非常に強い相関を除いてく。
  • 今回対象としたHRTFが水平面上のものであるため、9種類の身体的特徴のうち水平方向の身体的特徴で重回帰分析を行い推定していく。

VIF統計量

水平方向の身体的特徴

重回帰分析

従来研究の追試実験

  • 9種類の身体的特徴から重回帰分析を行い、HRTFを推定できるか確認
    • 使用データ数:80名
    • 身体的特徴量:9種類
    • 使用したHRTF:0度から355度まで5度間隔で72方向(名古屋大学HRTFデータベース)
    • サンプリング周波数:48kHz
    • 帯域:1kHzから12kHz

実験結果

評価方法

以下の評価項目で比較していく

  1. VIF統計量を用いて説明変数同士の相関関数の高いものを除いた説明変数で重回帰分析を行い推定
  2. 水平方向の身体的特徴量で重回帰分析を行い推定
  3. 従来研究

今後の課題

説明変数の他の選択方法を試していき、重回帰分析を行って推定していく。そこで推定したものをスペクトル歪みで評価していき、評価実験を進めていきたい。

不随意的嚥下音の統計解析による機能評価の研究

平成29年10月10日に行われた卒業研究中間発表の内容です。

 

背景

一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。

食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。

嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。

しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。

 

研究目的

簡単かつ侵襲性の無い計測方法で嚥下音の録音が収集が可能であり、嚥下音だけの情報から嚥下機能の状態を評価する指標の提案を行いたい。

 

嚥下・嚥下音とは

  • 嚥下

食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。

意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/

  • 嚥下音

嚥下運動の際に発生する音。

-Ⅰ音(20~100Hz)

喉頭蓋の閉鎖運動の際に発する音

-Ⅱ音(50~150Hz,400~750Hz)

食物が食道を通過する際に発生

-Ⅲ音(20~100Hz)

喉頭蓋の開放運動に際に発生

 

従来研究

「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)

《目的》

スペクトログラムと音声波形から嚥下音の特徴を明らかにする

《結果》

・嚥下音の全体の時間は平均で2.5(s)

・Ⅰ・Ⅱ・Ⅲ音は同じような周波

数帯を持っている

他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い

《課題》

個人差、または、随意的嚥下音運動によるばらつきが示唆されている

 

解決したい課題

これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。

そのため、いかに安定性の高い嚥下音のデータを得るにはどうすれば良いのかを考えた。

アプローチ方法

データのばらつきは随意的な運動からくるものだと推定し、睡眠中の嚥下音を抽出することで不随意的嚥下運動から発生する嚥下音の抽出を行い、随意的・不随意的な嚥下音の”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下音の継続時間”を特徴量としてばらつきの差を調査した。

 

予備実験

《目的》

・個人差のばらつきの調査

・随意と不随意での嚥下のばらつきの調査

《実験方法》

・随意的な嚥下(仰向けの状態)と不随意的な嚥下の録音を行う

・ウェーブレット変換により周波数の平均が高い順に3箇所取り出し、Ⅰ・Ⅱ・Ⅲ音とする

嚥下音信号のウェーブレット変換

・随意的・不随意的な嚥下音の、Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間の標準偏差を求め、ばらつきの差を調査する

《使用機器》

嚥下音を録音する際に、

レコーダ:V-803(下図左)

マイク:咽喉マイク(下図右)

を接続して使用した。

レコーダ、咽喉マイク

《実験条件》

 

実験条件

・個人差

複数人の場合と、個人のみの場合の随意的嚥下音のばらつきの差を求める。

・随意・不随意

個人の随意的・随意的な嚥下音のばらつきの差を求める。

結果

①被験者:複数人(14名)

嚥下:随意的

②被験者:個人

嚥下:随意的

③被験者:個人

嚥下:不随意的

○標準偏差

考察、まとめ


・嚥下障害の早期発見のために音だけの情報から嚥下機能の状態を評価する指標の提案

・嚥下音の特徴分析の予備実験より以下のことが分かった

―Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間は個人差が大きい可能性

―不随意的なデータの安定性が最も高い可能性

・今後は統計的に優位な差が示せるようにデータを増やしていく

 

今後の課題、進め方進め方

・引き続き睡眠時の嚥下音を録音収集

―比較のため被験者の人数を増やす

・嚥下機能評価のための特徴量の提案

―振幅のピーク値から得た特徴量

―Ⅰ音、Ⅱ音、Ⅲ音の周波数帯域

・評価実験

―特徴量から個人の識別

劣決定条件のブラインド音源分離におけるマルチチャネル非負値行列因子分解を用いたアルゴリズムの研究

背景


私たちの生活している環境には様々な音が存在しており、その中から特定の音を抽出する技術、音源分離が求められています。

例)音声認識、雑音抑圧、ユーザによる既存音楽の再編集…etc

 

従来研究


  • マルチチャネルNMF(MNMF)

-劣決定条件(音源数>マイク数)で、マイク間の位相情報を利用して音源分離を行います。

  • 独立低ランク行列分析(ILRMA)

-優決定条件(音源数≦マイク数)で、空間モデルと音源モデルを交互に学習します。

 

目的


従来研究の2つの手法にはそれぞれ長所と短所があり、MNMF は音源数に関わらず音源分離が可能ですが、計算コストが大きく、処理が遅いという問題があります。一方、ILRMA は計算コストが少なく、処理が速いのですが、音源数とマイク数が同じでなければならないという問題があります。

 

そこで本研究では、MNMF と ILRMA を組み合わせて、劣決定条件(音源数>マイク数)で処理が高速なアルゴリズムの作成を目指します。

 

提案手法


本研究では、まず観測信号に対してMNMF を行い、音源をいくつかに分割します。

その後、分割した音源に対してILRMA を用いて、音源分離を行います。

この手法によって、従来のMNMF より少ない更新回数で分割し、ILRMA で分割した音源を分離することで、従来のMNMF より高速な音源分離ができるのではないかと考えています。

 

予備実験


今回行った予備実験では、MNMF を用いて楽器数4の音源を楽器数2の音源2つずつになるように分割しました。

 

実験環境


実験結果


また、ギターとドラムの位置を変えた場合の結果が以下のようになります

考察


  • MNMF で音源を分割する場合、音源の位置ごとに2つずつに分割された

→MNMF は楽器の位相情報を用いるため、ステレオの音源で右側と左側に大別され、右側に配置された楽器の音源と、左側に配置された楽器の音源に分割されたのではないかと考えられます。

  • 分割の組み合わせによっては、分離精度が低くなった

→楽器ごとの周波数特性の違いから、似通った周波数の組み合わせであれば精度は高くなり、違いが大きい組み合わせであれば制度が低くなるのではないかと考えられます。

まとめ


  • MNMF とILRMA を組み合わせたアルゴリズムを考案しました
  • MNMF を用いた音源分割の予備実験を行いました
  • 分割の特徴として、位置ごとに分割されること、楽器の組み合わせによって精度が異なることがわかりました

今後の課題


今後の課題としては

  • MNMF で分割した音源に対してILRMA で分離
  • 音源の位置による精度低下の問題
  • MNMF とILRMA の組み合わせたアルゴリズムの実装

以上の3つについて検討していきたいと考えています

MATLABのGUI環境における可聴域検査

<背景>
可聴域とは人間の聞き取れる周波数領域を意味している。
一般的には20Hzから20000Hzまで聞こえると言われている。
年齢とともに可聴域は減少していく。
自分が今、どのくらいの周波数が聞き取れるか調査したいと考えた。

<システム概要>
利用者の可聴域を調べるためのシステムを作成した。
聞こえにくい周波数音源からテストを開始して、徐々に可聴できる周波数音源に変化していき、聞こえたと判断した時点でボタンを押し、テストを終了する。
その後、聞こえたと判断した周波数をもとにして確認テストを行う。

<使用した環境>
MATLAB

例として、人間が聞き取れるとされている20Hzと20000Hzの音源を用意した。
※音源を流す場合には音量に十分注意してください。
20Hz


20000Hz

以下は実際の発表の動画である。