人工知能第一研究室

 
卒業研究

シャント音を用いた血管狭窄検出に最適な機械学習アルゴリズムの研究

研究背景

研究目的

従来研究

従来研究の課題

アプローチ方法

実装した識別器の長所、短所

実験

正解率

実験条件

識別器のパラメータ

実験結果

特徴量の重要度

ランダムフォレストで使われている特徴量の重要度をグラフで示している。

考察

まとめ

心音の時間的特徴に基づく自動心音診断の研究

研究背景

研究目的


聴診は専門的な知識が必要なため、コンピュータを用いることで一般の方でも
容易に心音を診断できる

従来研究

従来研究で用いられている心音の時間的特徴

心音は、Ⅰ音からⅡ音を一周期とする信号 であり、正常心音では聴取されない音
を心雑音という。

解決したい課題

聴診は様々な雑音下(空調音や話し声)で行われるためコンピュータで正しく
心音を識別することは困難ではないかと考えた

アプローチ方法


アプローチ方法
・周波数領域に着目した特徴量
・二値分類(正常か異常か)に強い識別器
・雑音抑圧

SVM(識別器)

マージンとは内部にデータ点のない、超平面に平行するスラブ平面の最大幅を
意味する

MFCC(特徴量)

雑音抑圧

雑音を含んだ信号データのパワースペクトルから、雑音のパワースペクトルの
平均値をひくことで、雑音を除去する方法

実験概要

実験条件

実験結果

周波数領域に着目した特徴量が心音には有効
雑音抑圧を行うことで心雑音までも抑圧している可能性がある

まとめ

楽器の音響信号に対してクロマベクトルを利用した音高推定の研究

研究の背景

  • 音楽経験者であれば自分の好きな曲を演奏してみたいと思うであろう。もしも音楽の音響信号波形からコンピュータを用いて楽譜を書き起こす自動採譜が実現すれば、楽譜が手に入るだけでなく、リスナーの要求に合わせて音響信号をカスタマイズして一歩踏み込ん だ音楽鑑賞をすることができるなど、様々な効用がある。

研究の目的

  • しかし、音高推定の問題 やリズム・拍節構造の認識の問題、雑音が混在していることが原因で、自動採譜は容易ではない。本研究では、音高推定に絞って研究を行い、自動採譜の支援をすることが目的である。

従来研究

  • ピアノの単音に対してクロマベクトルを使用して音高推定を行う手法がある。クロマベクトルについては上の通りである。

解決したい課題

  • 上の図はピアノのF4の音について計算したクロマベクトルを表しており、下の図はトランペットのF4の音について計算したクロマベクトルを表している。トランペットに関しては、どのフレームにおいても「F」ではなく「C」という音が最も大きい特徴を示していることがわかる。このことから、倍音成分の方がパワーが大きい楽器では正解率が低下してしまう。

提案手法

  • 提案手法の全体の流れについては上の通りである。
  • 提案手法においての音名推定部分の流れは上の通りである。
  • 音名推定部分においての類似度評価の方法については上の通りである。
  • 提案手法においての音高推定部分の流れは上の通りである。
  • 類似度評価に用いた類似度は上の通りである。

実験

  • 提案手法の音高推定の精度を調べるための実験であり、実験条件は上の通りである。

実験結果

  • 実験結果は上の通りである。

まとめ

  • 様々な楽器の音高推定の精度を向上させ、自動採譜の支援をすることが目的である。
  • クロマベクトル同士の類似度評価、振幅スペクトル同士の類似度評価を用いた音高推定を提案した。
  • 提案手法によって、どの楽器も音高正解率が向上した。

今後の課題

  • データベースに使用する音を変更した場合の検証
  • 楽器音の強弱によって周波数成分がどう変わるか調査

マルチチャネルインパルス応答の空間的補間の研究

研究の背景

  • 近年、3Dテレビや3D映画等の視覚的な高臨場感の研究が進んでいるとともに、音の高臨場の研究も進められている。音の高臨場の研究にインパルス応答がある。

研究の目的

  • 高臨場な音場の実現のためには部屋の特性(インパルス応答)の測定が必要である。しかし、測定には時間やコストが掛かるので補間を使って測定することで時間・コストの削減が目的である。

従来研究

  • 水平面上の頭部のインパルス応答に対して、線形二点補間を用いて推定する手法を提案している。
  • マイクロホンH1とマイクロホンH2の測定データから真ん中のマイクロホンを補間する場合、以下で求める。

解決したい課題

  • 線形二点補間は測定角度間隔が増えたり、マイクロホンとスピーカの距離が異なると補間精度が落ちる課題がある。

提案法

  • インパルス応答を球面波と平面波のモデル式を用いて音響モデル化する。
  • インパルス応答を球面波と平面波に分離してそれぞれを補間してから、補間した球面波と平面波を結合して補間したインパルス応答にする。分離の仕方はインパルス応答の遅延時間を求めて数サンプル加えて切り出したものを球面波、切り出した球面波の後ろの波を平面波とした。

  • 球面波のモデル式のパラメータAと平面波のモデル式のパラメータB,cosθ,sinθを最小二乗法を用いて推定する。

  • 推定したモデル式のパラメータと補間したい箇所の座標を代入して補間する。
  • 最後に、補間した球面波と平面波を結合してインパルス応答の補間をする。

実験

  • 実験の目的は実測インパルス応答での補間精度の確認のため行った。
  • スピーカ1つとマイクロホン5つの配置は以下の通りである。

実験結果

  • 補間精度の評価尺度はSD法とSDR法を用いた。

  • 補間はマイクロホン2,3,4を対象に行った。線形二点補間は補間対象の両側に測定データがないといけないため、マイクロホン1,5は補間を行えなかった。
  • 提案法と従来法の線形二点補間の平均SDと平均SDRは以下の通りである。橙色が従来法であり緑色が提案法である。

  • 評価尺度SDでは提案法の方が従来法より少しではあるが値が小さくなり補間精度が良くなった。評価尺度SDRでは提案法の方が従来法より値が大きくなり補間精度が良くなった。

まとめ

  • 部屋の特性の測定による時間・コストの削減のために、インパルス応答の音響モデル式による補間法を提案した。
  • 実験の結果より、提案法は従来法より歪み(SD)は小さくなり誤差(SDR)は大きくなり補間精度が良くなった。

今後の課題

  • 測定したインパルス応答の位相と補間したインパルス応答の位相の誤差が大きかったので、位相の計算の処理の方法を検討する必要がある。
  • マイクロホンの個数の増減(測定データの増減によるパラメータ推定の精度の変化)で補間精度がどうなるかの検証をする必要がある。

 

音声認識への適用に向けたマルチチャネルNMFの高速化の研究

研究背景

  • 背景音(雑音、騒音、残響、人の声など)がある環境では目的音の抽出、認識性能は低下するといった問題があります。そこで、音源分離により目的音のみを抽出することが可能となります。

研究目的

  • 今回は音源分離技術であるMNMF(マルチチャネルNMF)に着目しました。
  • 音声認識に適用するため、MNMFを高速化することを目的とする

従来手法

解決したい課題

  • MNMFは高精度な分離が期待できる音源分離手法であるが、計算コストが高いという問題があげられる。よって演算量を減らす必要がある。

提案手法

  • 提案手法1:効率的な更新回数の設定
    • 空間相関行列Hに初期値を設定し、性能向上
    • 性能向上により更新回数を最低限まで削減(従来手法は基本的に更新回数500回)
  • 提案手法2:空間相関行列Hの更新を間引く
    • 提案手法1によりあらかじめ空間情報が推定できている
  • いずれも演算量削減による高速化手法

実験

  • MNMFには6チャネルの録音データを使用
  • 予備実験
    • 効率的な更新回数の調査 → 更新回数50回ごとに性能評価
    • 適切な間引く間隔の調査 → 更新を間引く間隔を変更して性能評価
  • 本実験
    • 音声認識実験により提案手法の有効性を確認

実験条件

  • 音声認識タスクである CHiME Challenge4のデータを使用
    • 雑音環境(バス、カフェ、歩行者天国、道路)
  • 音声データ(仮想環境のもの)
    • 話者4人による12発話×4環境
    • 話者4人による410発話×4環境
  • 性能評価
    • 認識評価指標:WER(単語誤り率) → 値が低いほど良い
    • 分離評価指標:SDR(音声対全歪比) → 値が高いほど良い

予備実験結果

  • 更新回数は200回が適切
    • 150回以下になると性能が低下
  • 間引く間隔は2回に1回が最も効率がいい
    • 計算時間の削減率と性能の低下から判断

本実験結果

  • 提案手法1が高速化に有効であり、提案手法2が特定の環境においては有効であることを確認した

考察

  • 雑音環境の種類によって結果にばらつきが出る
    • 本来MNMFの更新式で最適化していくべきものとあらかじめ別の方法で推定したものによる差が環境によって現れるのではないかと考えられる

まとめと今後の課題

  • MNMFによる音声認識率の向上を実用化するために空間相関行列Hの推定を利用した高速化手法を提案した
  • 音声認識実験により提案手法の有効性を確認した
  • 今後さらなるアルゴリズムの改良による高速化が必要だと考える

不随意的嚥下音の統計解析による機能評価の研究

背景

一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。

食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。

嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。

しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。

そのため、誰もが簡単に測定でき、嚥下音の特徴量から正常・異常の判定ができるシステムが望まれている。

研究目的

嚥下に関する研究の課題として、度々、嚥下音の特徴量の安定性が挙げられる。

これまでの研究では強制的に嚥下を行っていることから、嚥下毎に筋肉や骨の動きに差が出ることで嚥下のデータにばらつきが出るのでは無いかと考えた。

そこで、本研究では睡眠中等に反射的に起こる不随意的嚥下に着目し、安定性の高い嚥下音の特徴量を得ることが可能であるか検証を行った。

 

嚥下・嚥下音とは

  • 嚥下

食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。

意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/

  • 嚥下音

嚥下運動の際に発生する音。

-Ⅰ音(20~100Hz)

喉頭蓋の閉鎖運動の際に発する音

-Ⅱ音(50~150Hz,400~750Hz)

食物が食道を通過する際に発生

-Ⅲ音(20~100Hz)

喉頭蓋の開放運動に際に発生

 

従来研究

「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)

《目的》

スペクトログラムと音声波形から嚥下音の特徴を明らかにする

《結果》

・嚥下音の全体の時間は平均で2.5(s)

・Ⅰ・Ⅱ・Ⅲ音はそれぞれ3つの周波数帯に分散している

他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い

《課題》

個人差、または、随意的嚥下音運動によるばらつきが示唆されている

 

解決したい課題

これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。

嚥下音の特徴量にばらつきが大きいと、嚥下機能の推定の際の評価を定めることが困難となる。

アプローチ方法

本研究では、任意的に起こす随意的嚥下ではなく、睡眠中などの無意識下で起きる不随意的嚥下に着目した。

まずは、不随意的嚥下として睡眠中の嚥下を、随意的嚥下として意識的に行った嚥下を咽喉マイクとレコーダを用いて収録してPC へ取り込む。次にウェーブレット変換 を用いてスカログラムを求めてⅠ・Ⅱ・Ⅲ音の検出を行う。次に、検出したⅠ・Ⅱ・Ⅲ音から第3 章を参考に”Ⅰ・Ⅱ・Ⅲ音に含まれる周波数帯”、”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下持続時間”を特徴量として抽出する。最後に随意的・不随意的嚥下音のデータに有意差があるのか確かめるために、f 検定を用いて分散の比較を行う。

実験

 

《目的》

不随意的嚥下音の特徴量の安定性の検証

《実験条件》

 

《使用機器》

嚥下音を録音する際に、

レコーダ:V-803(下図左)

マイク:咽喉マイク(下図右)

を接続して使用した。

レコーダ、咽喉マイク

《録音》

○随意的嚥下音

‐マイクを喉元に装着し、通常通りに生活して空嚥下を録音

‐慣れることで反射嚥下が起きないよう、録音は最長でも1 時間までとした

‐嚥下する物の条件をなるべく揃えるために録音中の飲食は禁止した

○不随意的嚥下音

‐就寝前にマイクを装着し、通常通りに睡眠をして嚥下を録音

‐起床時に録音を停止

《Ⅰ・Ⅱ・Ⅲ音の検出》

Ⅰ・Ⅱ・Ⅲ音の発生のタイミングは以下のようになっていることが先行研究により確認されている。

Ⅰ・Ⅱ・Ⅲ音発生と無音時間のタイミング

 

これを利用し、以下のような検出プログラムを作成した。

Ⅰ・Ⅱ・Ⅲ音検出の流れ

本検出法でⅠ・Ⅱ・Ⅲ音の検出を検証した結果、正答率は95%であった。

《結果、考察》

  • Ⅰ・Ⅱ・Ⅲ音に含まれる周波数帯

結果から、個人内では随意的・不随意的嚥下間での主な周波数帯のズレに大きな差は無かったが、被験者3 名のIII 音のコヒーレンスに差が確認された。特に被験者B のIII 音に大きな差がみられ、2000Hz 以下の周波数帯のコヒーレンスが随意的嚥下では平均して0.6 未満であったのに対し、不随意的嚥下では平均が0.7 を超えてた。

コヒーレンスに顕著な差が現れたのは3 名だけであったが、随意的嚥下と比較して不随意的嚥下の方が安定したIII 音の周波数帯を観測できる可能性が示唆された。また、全被験者のコヒーレンスの平均が各被験者のものより下回っていたことから、嚥下音の周波数帯には個人差が出ることを確認した。

したがって、年代ごとの嚥下機能を周波数帯の推移を研究する時には、個人内のデータを使用することでより高精度な推移を観測することができる可能性がある。

 

  • Ⅰ・Ⅱ・Ⅲ音の間隔

結果から、各被験者、また、全被験者においても随意的・不随意的嚥下音から得たI 音~II 音の間隔の平均は等分散であり、随意的・不随意的嚥下間にデータの安定性から見た差はほとんど無いことが確認された。

先行研究では、高齢に伴いI 音~II 音の間隔が開いていくことから、I 音~II 音の間隔には嚥下機能に大きな差(年齢の差) が無い限り、誤差程度の変化しか起きない可能性がある。

そのため、全被験者においても有意差が見られなかったように、健常者で、かつ、同年代の嚥下音では、どのような嚥下音を比較しても有意差が見られない可能性が高い。

  • 嚥下持続時間

 

結果から、被験者A は嚥下持続時間が随意的・不随意的嚥下間で不等分散であり、「不随意的嚥下音と比較し、随意的嚥下音から得た嚥下持続時間の方が安定している」と言える結果となった。
しかし、他の被験者と全被験者の嚥下持続時間には随意的・不随意的嚥下間に有意差は見られず、随意的嚥下音の持続時間が必ずしも不随意的嚥下音より安定していると結論付けるのは難しいと思われる。

 

まとめ

この研究で最終的な目的とするのは、誰でも自動で嚥下音の異常を判別できるシステムの実現のために、嚥下機能の評価が可能な嚥下音の特徴量を明らかにすることである。しかし、嚥下音のデータの安定性には問題があるため、まずは安定性の高い嚥下音を得る必要があった。

本研究では、不随意的嚥下に着目し、その特徴量を分析することを提案した。理由としては従来の研究で行ってきた嚥下は強制的なものであり、嚥下運動に伴う筋肉や骨の動きに嚥下毎に違いが生じることで嚥下音の特徴量にばらつきが出たと推測したからである。

本実験では、意識的に行った随意的嚥下と睡眠中の不随意的嚥下を5人の被験者から収録し、”嚥下音に含まれる周波数特性”、”I 音~II 音の間隔”、”嚥下持続時間”の3 つの特徴量を、周波数特性はコヒーレンスを求め、間隔と持続時間の2 つにはf 検定により分析することで分散の有意差を求めることで不随意的嚥下音の安定性を検証した。

実験の結果、”嚥下音に含まれる周波数特性”の特徴量として用いたコヒーレンスから、被験者個人の随意的・不随意的嚥下に含まれている周波数特性の違いは見られなかった。また、全被験者の嚥下音でコヒーレンスを求めた際に、個人のものよりも大幅に下回っていたことから、嚥下音に含まれる周波数特性には個人差が強く出ることが分かった。次に、”I 音~II 音の間隔”、”嚥下持続時間”の2 つの特徴量をf 検定により分散を分析した結果、随意的・不随意的嚥下音間に特徴量のばらつきの有意差はどちらの特徴量にも見られなかった。

したがって、今回の実験で分析した3 つの特徴量からは、不随意的嚥下音の安定性が高いことを証明する結果は得られなかったが、III 音の周波数帯に関しては不随意的嚥下音から測定した方が低周波数まで観測できる可能性が示唆された。

 

随意的・不随意的嚥下音の特徴量のばらつきに有意差が出なかった原因として考えられるのは以下の2つである。

(1) 随意的嚥下音の収録の際に意識的に行ってはいたもののタイミングは任意であったことから、強制的に行わせた嚥下よりもデータにばらつきが少ない嚥下音が取れてしまった可能性があること

(2) 睡眠中に発生するノイズを完全に除去することができなかったため、不随意的嚥下音のI 音・II 音・III 音の位置にズレが発生してしまい、データにばらつきが出てしまった可能性があること

 

今後の課題として、随意的嚥下音を収録する際には嚥下のタイミングを強制的に行う等の随意的嚥下音の収録方法の見直しや、睡眠中の不随意的嚥下音から正確にI 音・II 音・III 音を検出するためのノイズ除去方法を検討する必要がある。

 

 

 

臨場感音場再現における指向性を用いたスピーカ配置のス パース化に関する研究

研究背景

  • 近年、高解像度テレビなどの普及により気軽に迫力のある視聴体験が可能になってきている。それに伴い、臨場感のある音の再生技術も普及し始めている。

研究目的

  • 臨場感のある音場の再現には膨大な数のスピーカを聴取者の周囲に配置する必要がある。しかし一般家庭の部屋に多くのスピーカを配置するのは困難である。そこでスピーカをまとめることで設置を容易にしつつ、臨場感のある音場を再現することが本研究の目的である。

従来研究:Directional Loudspeaker Array for Surround Sound in Reverberant Rooms

  • 再現したいスピーカ(仮想音源)と指向性スピーカアレイの指向性ビームを一致させることで所望の音場が再現できることをシミュレーション実験で示している。

解決したい課題

  • 所望の音場を作り出すスピーカの位置によって誤差が大きくなるという問題点がある。これは、音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータが適切でないためであり、部屋の大きさや指向性スピーカアレイの設置場所に応じた適切な正則化パラメータが存在するのではないかと考えた。

提案法

  • 音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータをL-カーブ法を用いて求める。L-カーブ法(細田陽介,北川高嗣,”L一カ ー ブ に よ る不 適切問題 の 最適正 則 化 につ い て”,日本応用 数理 学会論文誌 Vol.2,No.11992 ,pp, 55〜67)は悪条件方程式を解くための正則化パラメータの最適値を求める手法である。 

 

実験

  • 提案法の有効性を示すためシミュレーション実験を行った。評価方法として、所望の音場の音圧と指向性スピーカアレイで再現した音場の音圧の平均二乗誤差を求める。仮想の部屋の音響伝達関数は鏡像法を用いたシミュレーションにより算出した。

鏡像法

  • 鏡像法は、音を直進する音線とし音の伝わり方を分かりやすく表
    現するシミュレーション法である。反射音を壁に線対称な位置にある音源からの音とすることで反射音の到来方向を容易に得ることができる。

実験環境

  • 実験環境を以下に示す。

実験結果

  • 今回実験を行った指向性スピーカアレイの設置位置を変えた条件ではL-カーブ法により求めた正則化パラメータを用いた場合誤差が小さくなることが分かった。

まとめ

  • 音場を再現する指向性スピーカアレイのフィルタ計算式の正則化パラメータの値を部屋の条件に応じた最適な値にすることで所望の音場との誤差を減らせることが分かった。今回は指向性スピーカアレイの設置位置を変えた条件で実験を行ったが、実環境を想定した場合、3次元への拡張を行い、部屋の形、大きさ、障害物、部屋の壁の材質などの影響を考慮しなければならない。そのため、さらに条件を変えた場合の実験を行う必要がある。

 

全天球映像のためのマイクロホンアレイを用いた音像定位強調の研究

研究背景

スマートフォンの普及により全天球映像が気軽に視聴できる環境が整いつつあります。

YouTubeなどの動画配信サイトや,FacebookなどのSNSも360度動画に対応しており,VRコンテンツやゲームなども普及してきています。

しかし,3Dオーディオへの対応はまだ始まったばかりです。

全天球映像に合わせた立体音響の必要性

全天球映像とは「前後左右頭上から足元まで全視野を覆うような映像」のことをいいます。

以下リンクにサンプルがあります。

https://theta360.com/users/173787

(本研究室が投稿している全天球画像です。動画も撮影可能です。)

このような全天球映像では,音を明確に感じさせること(音像定位強調)が必要となります。

従来研究:アンビソニックス

解決したい課題

反響などによって,様々な方向から音が到来すると,音像がぼやけてしまい,定位がはっきりしません。

そのため,定位が得られるような立体音を再現するには,複数の音源を音源ごとに強調する必要があります。

アプローチ方法

アプローチ方法は次の通りです。

  1. マイクロホンアレイを用いて収音
  2. MVDRとウィーナーフィルタを用いて,方向別に強調処理
  3. 強調信号を収音指向特性の4チャネルに変換
  4. アンビソニックスと統合
  5. スマートフォン再生アプリで再生

作製したマイクロホンアレイ

収音に用いるマイクロホンアレイを作製しました。

全天球映像と一体で収録が出来るよう,水平・上下の計8チャネルで構成されています。

収音部(方向別強調処理)

マイクロホンアレイの収音信号の各チャネルにMVDRのフィルタを掛け,それらを足し合わせた後にウィーナーフィルタを掛けます。

これによって,MVDRのみと比較してより強調を行うことが可能になります。

MVDR

MVDRは方向性の音のみ制御可能なため,拡散性雑音を扱うためにウィーナーフィルタを組み合わせます。

ウィーナーフィルタ

今回提案したウィーナーフィルタは以下の通りです。

定位評価実験

提案手法で強調処理した信号を用いて定位評価実験を行いました。

評価方法と実験条件は以下の通りです。

定位評価実験結果

実験結果は以下の通りです。

アンビソニックスと提案手法の比較から,提案手法の方が定位がはっきりしていることが分かります。

考察

実験を踏まえた考察は以下の通りです。

提案手法により,定位の向上は見られましたが,まだ「ぼやける部分」が残っているため,より最適な強調方法を検討する必要があります。

より強調が可能になれば,より定位を向上させることが可能になると考えられます。

まとめ

  • 全天球映像における音の定位感を向上させるために,音を方向別に強調する手法を提案しました。
  • 定位評価実験を行い,その結果から提案手法で定位が向上することを確認しました。
  • しかし,実験の結果からさらなる定位向上の可能性が残っているため,そのための強調手法を検討する必要があります。

今後の課題

  • 今回は3種類の目的音と1種類の雑音を使用しましたが,他の目的音と雑音を組み合わせた場合にも,今回と同等の効果が得られるかを調査する必要があります。
  • 今回は手動生成した混合信号を用いているため,実環境への応用に向けた収音強調方法を調査する必要があります。