人工知能第一研究室

 
未分類

全天球映像のためのマイクロホンアレイを用いた音像定位強調の研究

研究背景・目的

  • スマートフォンの普及により全天球映像が気軽に視聴できる環境が出来つつある。
  • 動画配信サイト(YouTubeなど),SNS(facebookなど)も360度動画に対応しており,VRコンテンツ,ゲームなどのサービスも普及してきている。
  • しかし,3Dオーディオへの対応はまだ始まったばかりである。
    • Facebook 360 Spatial Workstation
    • Google Omnitone   etc…
  • 「全天球映像」とは「前後左右頭上から足元まで全視野を覆うような映像」のことをいう。
  • このような映像では,音を明確に感じさせること(音像定位強調)が必要であるため,これを実現させることが目的である。

解決したい課題

  • 従来研究であるアンビソニックスでは,複数の音源になると,音波の重畳により音の到来方向の再現が困難になるという課題がある。
  • そのため,複数音源で立体音を再現するには,複数の音源を音源ごとに強調する必要がある。
  • これにより,定位感が得られると考えられる。

アプローチ方法

  • システム構成は下図のようになっている。
  • 「方向別強調処理」では,指向性制御に用いるMVDR(Minimum Variance Distortionless Response)と,雑音抑圧に用いるWienerフィルタによって,各方向の音を強調する。

予備実験

  • MVDRとWienerフィルタによる方向別強調の効果を確認することが目的である。
  • 以下の場合のSNR(Signal-to-Noise Ratio)と音を比較する。
    • 処理前
    • MVDR処理後
    • MVDR + Wienerフィルタ処理後
  • 条件
    • 実験場所:理工8号館(合同棟)7階実験室
    • 目的音:女性の声
    • 雑音:白色雑音(拡散性)
    • サンプリング周波数:48000Hz
    • 目的音に畳み込んだインパルス応答*:研究にあたり作製したマイクロホンアレイで測定したもの
    • マイク数:8
    • スピーカ数:目的音1, 雑音4

*インパルス応答:部屋の特性を表す

実験結果

  • SNRの比較(値が大きいほど雑音が少ない)
    • 処理前(8ch平均):-0.4966 dB
    • MVDR処理後:7.2344 dB
    • MVDR + Wienerフィルタ処理後:13.4433 dB
  • 2つの処理を行った後では,処理前より13.9399 dBの改善が見られた。

考察

  • SNRの改善は見られたが,まだ十分な性能が得られていないため,Wienerフィルタの推定方法について検討が必要である。
  • SNRの向上に伴うSD(Spectrum Distortion)の低下が考えられるため,音質とSNRのバランスを考慮する必要がある。

まとめ

  • 本研究は,全天球映像における音の定位感を向上させるために,音を方向別に強調する手法を提案した。
  • 予備実験として,MVDRとWienerフィルタの組み合わせによる方向別強調を行い,強調はされたが効果が十分ではなかった。
  • そのため,Wienerフィルタの推定方法を工夫して性能改善を図る。

シャント音解析を用いた血管狭窄度診断支援の研究

背景

腎不全などの患者は体内の老廃物を排出するために人工透析を行う。透析時の血流量を確保するためにシャントを作成するが、患者の高齢化などに伴いシャントにトラブルが起こる。これらのトラブルを早期発見できれば、軽度な負担でシャント機能の改善が可能となる。患者はシャントから聴取されるシャント音を聴取することでシャント機能の確認を行う。

シャント・シャント音とは

シャントとは腕などの静脈と動脈を吻合することによって作成される。
シャント音とはシャント吻合部から静脈にかけて聴取される音である。

正常なシャント音

 

異常なシャント音

 

目的

シャントの悪化を早期発見することができれば、少ない負担でシャント機能の改善が可能であり、再度シャント作成の手術等を行う必要がなくなる。しかし、シャント音の判断は個人差があり、経験に依存するため客観的指標が求められている。

ここでシャント音を解析することで客観性を有しながらシャントの状態の推定を行うこと目的とする。

解決したい課題

従来の研究ではシャント音を解析し、シャント機能のモニタリングを行う研究が行われているが血管の詰まり具合を示す狭窄度は判断することができない。今回、私は狭窄度の情報をシャント音の特徴量を同時に学習することで、シャント音の特徴からシャントの狭窄度を推定したいと考えている。

アプローチ方法

事前に解析したシャント音の特徴量と狭窄度の情報を識別器に学習する。狭窄度の情報は看護大学の方に協力していただき、超音波画像診断装置を用いて測定を行う。同様の方法で識別したいシャント音から特徴量を抽出し、識別器によってシャントの狭窄度を推定させる。

予備実験

従来研究では正常音は100-500Hz付近の周波数帯を多く含んでおり、異常音は1000-2000Hz付近の周波数帯を多く含んでいると言われている。

今回は1-2000Hz全体との周波数帯別の割合を特徴量とし、正常音と異常音の識別を行った。

今回は

  1. 1-500Hz
  2. 500-1000Hz
  3. 1000-1500Hz
  4. 1500-2000Hz

の4つの割合を特徴量とし、識別器にSVM(Support Vector Machine)を利用し、識別を行った。

予備実験の結果

1000-2000Hzでの識別は想定したものより低いものとなった。1-500Hzの割合の正答率に比べ1500-2000Hzの割合の正答率が16.7%ほど低いものとなった。

考察

今回、使用したシャント音のデータは電子聴診器によって録音されたデータである。電子聴診器は低周波数帯域が聞き取りやすくなっている。そのため高周波成分のデータ失われているおり、識別率が低下した考えられる。また、今回は周波数の割合を特徴量として利用したが、シャントの機能の識別に適した特徴量があること可能性があるので、検討したいと考えている。

今後の進め方

10月,11月

  • 録音およびエコー画像の撮影
  • その他の特徴量の検討

12月

  • 評価実験

劣決定条件のブラインド音源分離におけるマルチチャネル非負値行列因子分解を用いたアルゴリズムの研究

背景


私たちの生活している環境には様々な音が存在しており、その中から特定の音を抽出する技術、音源分離が求められています。

例)音声認識、雑音抑圧、ユーザによる既存音楽の再編集…etc

 

従来研究


  • マルチチャネルNMF(MNMF)

-劣決定条件(音源数>マイク数)で、マイク間の位相情報を利用して音源分離を行います。

  • 独立低ランク行列分析(ILRMA)

-優決定条件(音源数≦マイク数)で、空間モデルと音源モデルを交互に学習します。

 

目的


従来研究の2つの手法にはそれぞれ長所と短所があり、MNMF は音源数に関わらず音源分離が可能ですが、計算コストが大きく、処理が遅いという問題があります。一方、ILRMA は計算コストが少なく、処理が速いのですが、音源数とマイク数が同じでなければならないという問題があります。

 

そこで本研究では、MNMF と ILRMA を組み合わせて、劣決定条件(音源数>マイク数)で処理が高速なアルゴリズムの作成を目指します。

 

提案手法


本研究では、まず観測信号に対してMNMF を行い、音源をいくつかに分割します。

その後、分割した音源に対してILRMA を用いて、音源分離を行います。

この手法によって、従来のMNMF より少ない更新回数で分割し、ILRMA で分割した音源を分離することで、従来のMNMF より高速な音源分離ができるのではないかと考えています。

 

予備実験


今回行った予備実験では、MNMF を用いて楽器数4の音源を楽器数2の音源2つずつになるように分割しました。

 

実験環境


実験結果


また、ギターとドラムの位置を変えた場合の結果が以下のようになります

考察


  • MNMF で音源を分割する場合、音源の位置ごとに2つずつに分割された

→MNMF は楽器の位相情報を用いるため、ステレオの音源で右側と左側に大別され、右側に配置された楽器の音源と、左側に配置された楽器の音源に分割されたのではないかと考えられます。

  • 分割の組み合わせによっては、分離精度が低くなった

→楽器ごとの周波数特性の違いから、似通った周波数の組み合わせであれば精度は高くなり、違いが大きい組み合わせであれば制度が低くなるのではないかと考えられます。

まとめ


  • MNMF とILRMA を組み合わせたアルゴリズムを考案しました
  • MNMF を用いた音源分割の予備実験を行いました
  • 分割の特徴として、位置ごとに分割されること、楽器の組み合わせによって精度が異なることがわかりました

今後の課題


今後の課題としては

  • MNMF で分割した音源に対してILRMA で分離
  • 音源の位置による精度低下の問題
  • MNMF とILRMA の組み合わせたアルゴリズムの実装

以上の3つについて検討していきたいと考えています