音メディア処理研究室

 
ブログ

臨場感音場再現における指向性を用いたスピーカ配置のス パース化に関する研究

研究背景

  • 近年、高解像度テレビなどの普及により気軽に迫力のある視聴体験が可能になってきている。それに伴い、臨場感のある音の再生技術も普及し始めている。

研究目的

  • 臨場感のある音場の再現には膨大な数のスピーカを聴取者の周囲に配置する必要がある。しかし一般家庭の部屋に多くのスピーカを配置するのは困難である。そこでスピーカをまとめることで設置を容易にしつつ、臨場感のある音場を再現することが本研究の目的である。

従来研究:Directional Loudspeaker Array for Surround Sound in Reverberant Rooms

  • 再現したいスピーカ(仮想音源)と指向性スピーカアレイの指向性ビームを一致させることで所望の音場が再現できることをシミュレーション実験で示している。

解決したい課題

  • 所望の音場を作り出すスピーカの位置によって誤差が大きくなるという問題点がある。これは、音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータが適切でないためであり、部屋の大きさや指向性スピーカアレイの設置場所に応じた適切な正則化パラメータが存在するのではないかと考えた。

提案法

  • 音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータをL-カーブ法を用いて求める。L-カーブ法(細田陽介,北川高嗣,”L一カ ー ブ に よ る不 適切問題 の 最適正 則 化 につ い て”,日本応用 数理 学会論文誌 Vol.2,No.11992 ,pp, 55〜67)は悪条件方程式を解くための正則化パラメータの最適値を求める手法である。 

 

実験

  • 提案法の有効性を示すためシミュレーション実験を行った。評価方法として、所望の音場の音圧と指向性スピーカアレイで再現した音場の音圧の平均二乗誤差を求める。仮想の部屋の音響伝達関数は鏡像法を用いたシミュレーションにより算出した。

鏡像法

  • 鏡像法は、音を直進する音線とし音の伝わり方を分かりやすく表
    現するシミュレーション法である。反射音を壁に線対称な位置にある音源からの音とすることで反射音の到来方向を容易に得ることができる。

実験環境

  • 実験環境を以下に示す。

実験結果

  • 今回実験を行った指向性スピーカアレイの設置位置を変えた条件ではL-カーブ法により求めた正則化パラメータを用いた場合誤差が小さくなることが分かった。

まとめ

  • 音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータの値を部屋の条件に応じた最適な値にすることで所望の音場との誤差を減らせることが分かった。今回は指向性スピーカアレイの設置位置を変えた条件で実験を行ったが、実環境を想定した場合、3次元への拡張を行い、部屋の形、大きさ、障害物、部屋の壁の材質などの影響を考慮しなければならない。そのため、さらに条件を変えた場合の実験を行う必要がある。

 

筋肉質になりたいあなたへ贈る腕立て伏せアプリ

2017年12月18日に行われた3年生によるデモ大会で発表した内容です。

開発環境:AndroidStudio

実行端末:XperiaZ3(android6.0)

造語である「細マッチョ」を目指すべく腕立て伏せを効率的にすることのできるアプリを作成したいと思い作りました。

詳細は以下の動画をご覧ください。

matlabを用いたメロディー暗記ゲーム

2017年12月18日に行われた人工知能第一研究室の3年生デモ大会での発表内容です。

【ゲーム説明】

①8秒間のメロディーが流れます。これを覚えます。

②合図が流れます。

③覚えたメロディーを歌います。

→ 結果として、音程正確率と音程グラフが表示されます。

詳細は以下の動画をご覧ください。

【開発環境】 MATLAB

kinectによる猫背をなおす姿勢評価システム

2016年12月18日に行われた3年生のデモ大会で発表した内容です。

今回のデモ大会では、Kinectのスケルトン情報の機能を利用して猫背かどうかを判定するシステムです

開発環境:Visual Studio Ultimate 2010 + Visual Studio Community 2015
OS:Microsoft Windows 7 Professional + Windows 10 Home

開発言語:C#

参考文献:Kinectfor Windows SDK プログラミング C#編 [(株)秀和システム]

詳しくは以下の動画をご覧ください

 

端末を振ることで音声の入出力ができる電卓

画面を見なくても計算が出来る電卓アプリを製作しました。

音声で入力し、結果を音声で出力します。また、端末をシェイクすることで音声認識が起動します。

https://youtu.be/Lv-d57s8rS0

プログラムのソースコード

作成:windows7 AndroidStudio3.0

デバイス:ASUS Nexus 7 (Android6.0.1)

音声録音機能付きメモ帳

2017年12月18日に行われた3年生によるデモ大会で発表した内容です。

Android Studioを使用して、メモ帳を作成しました。

GoogleのAPIを用いて作成したメモ帳に、音声で入力する機能、音声録音、録音した音声を再生する機能を追加しました。

使用したAPI:RecognizerIntent(音声認識)、MediaRecorder(録音)、MediaPlayer(再生)

参考:Androidソースコード集 http://akira-watson.com/android/button.html

Leapmotionを用いたUnity上でのピアノの演奏

2017年12月18日に行われた3年生でも大会で発表した内容です。
今回のデモではLeapmotionで手の動きをキャプチャすることで、
Unity上に存在する仮想的なピアノを弾くプログラムを発表しました。

開発環境
【OS】
Windows10

【ソフトウェア】
Unity5.6.2f1
MonoDevelop
Leapmotion Orion 3.2.1

【ハードウェア】
Leapmotion

詳細な説明や実際の動作については以下の動画をご覧下さい。

matlabを用いたメドレーメイクシステム

2017年12月18日に行われた3年デモ大会の発表内容です。

近年、CDや音楽配信サービスが普及により、大量の音楽データを所有することが、

可能となっている。そこで、多くの楽曲のサビのみを再生することで、

一度にたくさん楽しむことができると思い、歌のサビを検出し、メドレーにしたいと考えた。

OS:Windows7

開発環境:MATLAB R2013b

参考文献:サビの連続再生における楽曲印象を用いたプレイリストの自動生成の研究(学士論文・中西氏)

Qiita-音楽の構成(Aメロ、サビ等)を自動で分割する。(https://qiita.com/tackey/items/ca51b7c891cf604a6527)

 

 

例として、以下のフリー音源を用いて、メドレーを作成いたしました。

<元の音源>

<メドレー>

全天球映像のためのマイクロホンアレイを用いた音像定位強調の研究

研究背景

スマートフォンの普及により全天球映像が気軽に視聴できる環境が整いつつあります。

YouTubeなどの動画配信サイトや,FacebookなどのSNSも360度動画に対応しており,VRコンテンツやゲームなども普及してきています。

しかし,3Dオーディオへの対応はまだ始まったばかりです。

全天球映像に合わせた立体音響の必要性

全天球映像とは「前後左右頭上から足元まで全視野を覆うような映像」のことをいいます。

以下リンクにサンプルがあります。

https://theta360.com/users/173787

(本研究室が投稿している全天球画像です。動画も撮影可能です。)

このような全天球映像では,音を明確に感じさせること(音像定位強調)が必要となります。

従来研究:アンビソニックス

解決したい課題

反響などによって,様々な方向から音が到来すると,音像がぼやけてしまい,定位がはっきりしません。

そのため,定位が得られるような立体音を再現するには,複数の音源を音源ごとに強調する必要があります。

アプローチ方法

アプローチ方法は次の通りです。

  1. マイクロホンアレイを用いて収音
  2. MVDRとウィーナーフィルタを用いて,方向別に強調処理
  3. 強調信号を収音指向特性の4チャネルに変換
  4. アンビソニックスと統合
  5. スマートフォン再生アプリで再生

作製したマイクロホンアレイ

収音に用いるマイクロホンアレイを作製しました。

全天球映像と一体で収録が出来るよう,水平・上下の計8チャネルで構成されています。

収音部(方向別強調処理)

マイクロホンアレイの収音信号の各チャネルにMVDRのフィルタを掛け,それらを足し合わせた後にウィーナーフィルタを掛けます。

これによって,MVDRのみと比較してより強調を行うことが可能になります。

MVDR

MVDRは方向性の音のみ制御可能なため,拡散性雑音を扱うためにウィーナーフィルタを組み合わせます。

ウィーナーフィルタ

今回提案したウィーナーフィルタは以下の通りです。

定位評価実験

提案手法で強調処理した信号を用いて定位評価実験を行いました。

評価方法と実験条件は以下の通りです。

定位評価実験結果

実験結果は以下の通りです。

アンビソニックスと提案手法の比較から,提案手法の方が定位がはっきりしていることが分かります。

考察

実験を踏まえた考察は以下の通りです。

提案手法により,定位の向上は見られましたが,まだ「ぼやける部分」が残っているため,より最適な強調方法を検討する必要があります。

より強調が可能になれば,より定位を向上させることが可能になると考えられます。

まとめ

  • 全天球映像における音の定位感を向上させるために,音を方向別に強調する手法を提案しました。
  • 定位評価実験を行い,その結果から提案手法で定位が向上することを確認しました。
  • しかし,実験の結果からさらなる定位向上の可能性が残っているため,そのための強調手法を検討する必要があります。

今後の課題

  • 今回は3種類の目的音と1種類の雑音を使用しましたが,他の目的音と雑音を組み合わせた場合にも,今回と同等の効果が得られるかを調査する必要があります。
  • 今回は手動生成した混合信号を用いているため,実環境への応用に向けた収音強調方法を調査する必要があります。

 

 

シャント音解析を用いた血管狭窄度診断支援の研究

背景

腎不全などの患者は体内の老廃物を排出するために人工透析を行う。透析時の血流量を確保するためにシャントを作成するが、患者の高齢化などに伴いシャント血管が狭窄、閉塞してしまうなどといったトラブルが起こる。これらのトラブルを早期発見できれば、軽度な負担でシャント機能の改善が可能となる。患者は自分のシャント機能を確認するために、シャントから聴取されるシャント音を聴取することで確認を行う。

シャント・シャント音とは

シャントとは腕などの静脈と動脈を吻合することによって作成される。
シャント音とはシャント吻合部から静脈にかけて聴取される音である。

以下の音源は熊本赤十字病院の「シャント音CD ver2」のシャント音の例である。

正常なシャント音

 

異常なシャント音

 

目的

シャント音からシャント機能を機械に識別させることを大きな目的する。このことで専門的な知識のない患者も使用することができ、患者や医療スタッフの負担が軽減することが考えられる。

しかし、このようなシステムを実現させるためには、高度な識別精度が必要となる。

従来研究

シャント音を解析している従来研究には以下のようなものがある。

解決したい課題

西谷らの研究や佐々木らの研究で使用されている録音機材は周波数領域が狭く、シャントの特徴を十分に捉えられていないことが考えられる。西谷らの研究で用いられている電子聴診器(リットマン ステソスコープ Model4000,4100)の周波数領域は20-1000Hz、佐々木らの研究で用いられているTA-701Tの周波数領域は20-600Hzである。矢巻らの研究によると、狭窄したシャント音からは1000-2000Hzの特徴が得られるとされているため、これらの特徴が十分に得られていないと考えられる。

また、矢巻らの研究では「シャントが正常なときに聴取されるシャント音」、「狭窄しているときに聴取されるシャント音」、「閉塞しているときに聴取されるシャント音」の識別を行っているが、実際のシャントとの関連が分からないといった課題がある。実際のシャントとの関連が分からないため、それらのシャント音が正しく識別できているか評価できない。

提案手法

今回、従来研究の課題を解決するために、

①周波数領域の広い録音機器を用いる

②エコー画像から得られた数値を利用した識別

この二つを用いた手法を提案した。

①の提案の狙いとして、周波数領域を持つ録音機器を用いることで、狭い周波数領域では得られなかった特徴、特に高周波数帯域に含まれる狭窄しているシャント音の特徴を得ることを狙っている。

②の提案の狙いとして、エコー画像から得られた数値は客観的な数値であり、シャント機能を客観的に示すことができることを狙っている。

収音

ここでは、収音時に利用したマイクロホンについて述べる。今回はマイクロホンにチェストピースを接続した聴診器付きマイクロホンを自作した。マイクロホンにはオーディオテクニカ社のAT9903を利用して、収音を行った。また比較のために、電子聴診器(リットマン エレクトロニックステソスコープ Model3200)を用いて収音も行った。

 

識別

ここでは、識別を行うために行った処理を述べる。

はじめに、学習フェーズについて説明する。

RI値が低いものとRI値が高いものとラベリングしたデータ群からそれぞれ、正規化相互相関係数、周波数パワーの割合、MFCCを算出し、それぞれの値を学習に利用する。今回は、RI値が低いものとRI値が高いものの2クラスであるため、識別器にはSVMを利用した。

次に、識別フェーズについて説明する。

識別したいシャント音から正規化相互相関係数、周波数パワーの割合、MFCCを算出し、学習フェーズで学習したSVMを用いて、識別を行う。

次の図では、RIについての説明を以下にする。

 

ここで、「シャント管理における超音波パルスドップラー法の有効性」(村上康一  2003)の調査によるとRI値が0.6を超えるとシャント機能の不良なグループが増加する傾向が見られることが分かっている。そこで今回はRI値が0.6未満のグループと0.6以上のグループに分割し、識別を行うこととした。

ここで、今回利用したデータのうち、スタッフによる判断があったAVF患者61名で、狭窄の疑いがないと判断された患者が49名、狭窄の疑いがあると判断された患者は12名であった。疑いがないと判断された患者のうち、28名はRI値が0.6未満、21名がRI値が0.6以上であった。また疑いがあると判断された患者のうち4名が0.6未満、8名がRI値が0.6以上であった。

以下の図で赤丸で囲まれたものを正解、青丸で囲まれたものを不正解回答とした場合、正解率は59%となった。これをスタッフによる判断の識別精度の基準として扱う。

特徴量についての説明を以下にする。

実験

今回の実験の目的は提案手法の有効性の確認とする。

録音機材による違いを確認するために、聴診器付きマイクロホンと電子聴診器(リットマン ステソスコープ Model3200)を用いて録音したシャント音を使用する。またRI値が0.6未満のグループと0.6以上のグループでSVMに学習を行わせ、識別を行った。学習や識別に利用するデータセットを5グループに分割して、5次交差検定を行い、正解率、F値での評価を行う。

また、スタッフによる判断と比較することで、RI値を学習させた結果との比較も行う。

実験条件は以下のようになる。

実験の結果

実験結果を以下の図に示す。

まとめ

研究の目的

シャント音からシャント機能を機械に識別させる

提案手法

①周波数領域の広いマイクロホンを用いて得られたシャント音から特徴量を抽出し、②エコー画像から得られたRIを用いて識別させる。

結果

①電子聴診器で録音したシャント音での識別よりも聴診器付きマイクロホンで録音したシャント音での識別のほうが識別精度が良かった。

②RI値によって学習した識別はスタッフによる判断よりも識別精度が悪くなった。

今後の課題

今回得られた識別の精度では目的のシステムを実現するのには不十分である。そのため、今後は識別精度の向上が必要である。識別精度の向上するために特徴量や識別器の検討が必要であると考えられる。