

























研究目的




一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。
食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。
嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。
しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。
そのため、誰もが簡単に測定でき、嚥下音の特徴量から正常・異常の判定ができるシステムが望まれている。
嚥下に関する研究の課題として、度々、嚥下音の特徴量の安定性が挙げられる。
これまでの研究では強制的に嚥下を行っていることから、嚥下毎に筋肉や骨の動きに差が出ることで嚥下のデータにばらつきが出るのでは無いかと考えた。
そこで、本研究では睡眠中等に反射的に起こる不随意的嚥下に着目し、安定性の高い嚥下音の特徴量を得ることが可能であるか検証を行った。
食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。
意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/
嚥下運動の際に発生する音。
-Ⅰ音(20~100Hz)
喉頭蓋の閉鎖運動の際に発する音
-Ⅱ音(50~150Hz,400~750Hz)
食物が食道を通過する際に発生
-Ⅲ音(20~100Hz)
喉頭蓋の開放運動に際に発生
「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)
スペクトログラムと音声波形から嚥下音の特徴を明らかにする
・嚥下音の全体の時間は平均で2.5(s)
・Ⅰ・Ⅱ・Ⅲ音はそれぞれ3つの周波数帯に分散している
・他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い
個人差、または、随意的嚥下音運動によるばらつきが示唆されている
これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。
嚥下音の特徴量にばらつきが大きいと、嚥下機能の推定の際の評価を定めることが困難となる。
本研究では、任意的に起こす随意的嚥下ではなく、睡眠中などの無意識下で起きる不随意的嚥下に着目した。
まずは、不随意的嚥下として睡眠中の嚥下を、随意的嚥下として意識的に行った嚥下を咽喉マイクとレコーダを用いて収録してPC へ取り込む。次にウェーブレット変換 を用いてスカログラムを求めてⅠ・Ⅱ・Ⅲ音の検出を行う。次に、検出したⅠ・Ⅱ・Ⅲ音から第3 章を参考に”Ⅰ・Ⅱ・Ⅲ音に含まれる周波数帯”、”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下持続時間”を特徴量として抽出する。最後に随意的・不随意的嚥下音のデータに有意差があるのか確かめるために、f 検定を用いて分散の比較を行う。

不随意的嚥下音の特徴量の安定性の検証

嚥下音を録音する際に、
レコーダ:V-803(下図左)
マイク:咽喉マイク(下図右)
を接続して使用した。

レコーダ、咽喉マイク
○随意的嚥下音
‐マイクを喉元に装着し、通常通りに生活して空嚥下を録音
‐慣れることで反射嚥下が起きないよう、録音は最長でも1 時間までとした
‐嚥下する物の条件をなるべく揃えるために録音中の飲食は禁止した
○不随意的嚥下音
‐就寝前にマイクを装着し、通常通りに睡眠をして嚥下を録音
‐起床時に録音を停止
Ⅰ・Ⅱ・Ⅲ音の発生のタイミングは以下のようになっていることが先行研究により確認されている。

Ⅰ・Ⅱ・Ⅲ音発生と無音時間のタイミング
これを利用し、以下のような検出プログラムを作成した。

Ⅰ・Ⅱ・Ⅲ音検出の流れ
本検出法でⅠ・Ⅱ・Ⅲ音の検出を検証した結果、正答率は95%であった。

結果から、個人内では随意的・不随意的嚥下間での主な周波数帯のズレに大きな差は無かったが、被験者3 名のIII 音のコヒーレンスに差が確認された。特に被験者B のIII 音に大きな差がみられ、2000Hz 以下の周波数帯のコヒーレンスが随意的嚥下では平均して0.6 未満であったのに対し、不随意的嚥下では平均が0.7 を超えてた。
コヒーレンスに顕著な差が現れたのは3 名だけであったが、随意的嚥下と比較して不随意的嚥下の方が安定したIII 音の周波数帯を観測できる可能性が示唆された。また、全被験者のコヒーレンスの平均が各被験者のものより下回っていたことから、嚥下音の周波数帯には個人差が出ることを確認した。
したがって、年代ごとの嚥下機能を周波数帯の推移を研究する時には、個人内のデータを使用することでより高精度な推移を観測することができる可能性がある。

結果から、各被験者、また、全被験者においても随意的・不随意的嚥下音から得たI 音~II 音の間隔の平均は等分散であり、随意的・不随意的嚥下間にデータの安定性から見た差はほとんど無いことが確認された。
先行研究では、高齢に伴いI 音~II 音の間隔が開いていくことから、I 音~II 音の間隔には嚥下機能に大きな差(年齢の差) が無い限り、誤差程度の変化しか起きない可能性がある。
そのため、全被験者においても有意差が見られなかったように、健常者で、かつ、同年代の嚥下音では、どのような嚥下音を比較しても有意差が見られない可能性が高い。

結果から、被験者A は嚥下持続時間が随意的・不随意的嚥下間で不等分散であり、「不随意的嚥下音と比較し、随意的嚥下音から得た嚥下持続時間の方が安定している」と言える結果となった。
しかし、他の被験者と全被験者の嚥下持続時間には随意的・不随意的嚥下間に有意差は見られず、随意的嚥下音の持続時間が必ずしも不随意的嚥下音より安定していると結論付けるのは難しいと思われる。
この研究で最終的な目的とするのは、誰でも自動で嚥下音の異常を判別できるシステムの実現のために、嚥下機能の評価が可能な嚥下音の特徴量を明らかにすることである。しかし、嚥下音のデータの安定性には問題があるため、まずは安定性の高い嚥下音を得る必要があった。
本研究では、不随意的嚥下に着目し、その特徴量を分析することを提案した。理由としては従来の研究で行ってきた嚥下は強制的なものであり、嚥下運動に伴う筋肉や骨の動きに嚥下毎に違いが生じることで嚥下音の特徴量にばらつきが出たと推測したからである。
本実験では、意識的に行った随意的嚥下と睡眠中の不随意的嚥下を5人の被験者から収録し、”嚥下音に含まれる周波数特性”、”I 音~II 音の間隔”、”嚥下持続時間”の3 つの特徴量を、周波数特性はコヒーレンスを求め、間隔と持続時間の2 つにはf 検定により分析することで分散の有意差を求めることで不随意的嚥下音の安定性を検証した。
実験の結果、”嚥下音に含まれる周波数特性”の特徴量として用いたコヒーレンスから、被験者個人の随意的・不随意的嚥下に含まれている周波数特性の違いは見られなかった。また、全被験者の嚥下音でコヒーレンスを求めた際に、個人のものよりも大幅に下回っていたことから、嚥下音に含まれる周波数特性には個人差が強く出ることが分かった。次に、”I 音~II 音の間隔”、”嚥下持続時間”の2 つの特徴量をf 検定により分散を分析した結果、随意的・不随意的嚥下音間に特徴量のばらつきの有意差はどちらの特徴量にも見られなかった。
したがって、今回の実験で分析した3 つの特徴量からは、不随意的嚥下音の安定性が高いことを証明する結果は得られなかったが、III 音の周波数帯に関しては不随意的嚥下音から測定した方が低周波数まで観測できる可能性が示唆された。
随意的・不随意的嚥下音の特徴量のばらつきに有意差が出なかった原因として考えられるのは以下の2つである。
(1) 随意的嚥下音の収録の際に意識的に行ってはいたもののタイミングは任意であったことから、強制的に行わせた嚥下よりもデータにばらつきが少ない嚥下音が取れてしまった可能性があること
(2) 睡眠中に発生するノイズを完全に除去することができなかったため、不随意的嚥下音のI 音・II 音・III 音の位置にズレが発生してしまい、データにばらつきが出てしまった可能性があること
今後の課題として、随意的嚥下音を収録する際には嚥下のタイミングを強制的に行う等の随意的嚥下音の収録方法の見直しや、睡眠中の不随意的嚥下音から正確にI 音・II 音・III 音を検出するためのノイズ除去方法を検討する必要がある。





実験



スマートフォンの普及により全天球映像が気軽に視聴できる環境が整いつつあります。
YouTubeなどの動画配信サイトや,FacebookなどのSNSも360度動画に対応しており,VRコンテンツやゲームなども普及してきています。
しかし,3Dオーディオへの対応はまだ始まったばかりです。
全天球映像とは「前後左右頭上から足元まで全視野を覆うような映像」のことをいいます。
以下リンクにサンプルがあります。
https://theta360.com/users/173787
(本研究室が投稿している全天球画像です。動画も撮影可能です。)
このような全天球映像では,音を明確に感じさせること(音像定位強調)が必要となります。

反響などによって,様々な方向から音が到来すると,音像がぼやけてしまい,定位がはっきりしません。
そのため,定位が得られるような立体音を再現するには,複数の音源を音源ごとに強調する必要があります。

アプローチ方法は次の通りです。

収音に用いるマイクロホンアレイを作製しました。
全天球映像と一体で収録が出来るよう,水平・上下の計8チャネルで構成されています。

マイクロホンアレイの収音信号の各チャネルにMVDRのフィルタを掛け,それらを足し合わせた後にウィーナーフィルタを掛けます。
これによって,MVDRのみと比較してより強調を行うことが可能になります。

MVDRは方向性の音のみ制御可能なため,拡散性雑音を扱うためにウィーナーフィルタを組み合わせます。

今回提案したウィーナーフィルタは以下の通りです。

提案手法で強調処理した信号を用いて定位評価実験を行いました。
評価方法と実験条件は以下の通りです。


実験結果は以下の通りです。
アンビソニックスと提案手法の比較から,提案手法の方が定位がはっきりしていることが分かります。


実験を踏まえた考察は以下の通りです。
提案手法により,定位の向上は見られましたが,まだ「ぼやける部分」が残っているため,より最適な強調方法を検討する必要があります。
より強調が可能になれば,より定位を向上させることが可能になると考えられます。

腎不全などの患者は体内の老廃物を排出するために人工透析を行う。透析時の血流量を確保するためにシャントを作成するが、患者の高齢化などに伴いシャント血管が狭窄、閉塞してしまうなどといったトラブルが起こる。これらのトラブルを早期発見できれば、軽度な負担でシャント機能の改善が可能となる。患者は自分のシャント機能を確認するために、シャントから聴取されるシャント音を聴取することで確認を行う。

シャントとは腕などの静脈と動脈を吻合することによって作成される。
シャント音とはシャント吻合部から静脈にかけて聴取される音である。
以下の音源は熊本赤十字病院の「シャント音CD ver2」のシャント音の例である。
正常なシャント音
異常なシャント音
シャント音からシャント機能を機械に識別させることを大きな目的する。このことで専門的な知識のない患者も使用することができ、患者や医療スタッフの負担が軽減することが考えられる。

しかし、このようなシステムを実現させるためには、高度な識別精度が必要となる。
シャント音を解析している従来研究には以下のようなものがある。

西谷らの研究や佐々木らの研究で使用されている録音機材は周波数領域が狭く、シャントの特徴を十分に捉えられていないことが考えられる。西谷らの研究で用いられている電子聴診器(リットマン ステソスコープ Model4000,4100)の周波数領域は20-1000Hz、佐々木らの研究で用いられているTA-701Tの周波数領域は20-600Hzである。矢巻らの研究によると、狭窄したシャント音からは1000-2000Hzの特徴が得られるとされているため、これらの特徴が十分に得られていないと考えられる。
また、矢巻らの研究では「シャントが正常なときに聴取されるシャント音」、「狭窄しているときに聴取されるシャント音」、「閉塞しているときに聴取されるシャント音」の識別を行っているが、実際のシャントとの関連が分からないといった課題がある。実際のシャントとの関連が分からないため、それらのシャント音が正しく識別できているか評価できない。
今回、従来研究の課題を解決するために、
①周波数領域の広い録音機器を用いる
②エコー画像から得られた数値を利用した識別
この二つを用いた手法を提案した。
①の提案の狙いとして、周波数領域を持つ録音機器を用いることで、狭い周波数領域では得られなかった特徴、特に高周波数帯域に含まれる狭窄しているシャント音の特徴を得ることを狙っている。
②の提案の狙いとして、エコー画像から得られた数値は客観的な数値であり、シャント機能を客観的に示すことができることを狙っている。
ここでは、収音時に利用したマイクロホンについて述べる。今回はマイクロホンにチェストピースを接続した聴診器付きマイクロホンを自作した。マイクロホンにはオーディオテクニカ社のAT9903を利用して、収音を行った。また比較のために、電子聴診器(リットマン エレクトロニックステソスコープ Model3200)を用いて収音も行った。

ここでは、識別を行うために行った処理を述べる。
はじめに、学習フェーズについて説明する。
RI値が低いものとRI値が高いものとラベリングしたデータ群からそれぞれ、正規化相互相関係数、周波数パワーの割合、MFCCを算出し、それぞれの値を学習に利用する。今回は、RI値が低いものとRI値が高いものの2クラスであるため、識別器にはSVMを利用した。

次に、識別フェーズについて説明する。
識別したいシャント音から正規化相互相関係数、周波数パワーの割合、MFCCを算出し、学習フェーズで学習したSVMを用いて、識別を行う。

次の図では、RIについての説明を以下にする。

ここで、「シャント管理における超音波パルスドップラー法の有効性」(村上康一 2003)の調査によるとRI値が0.6を超えるとシャント機能の不良なグループが増加する傾向が見られることが分かっている。そこで今回はRI値が0.6未満のグループと0.6以上のグループに分割し、識別を行うこととした。
ここで、今回利用したデータのうち、スタッフによる判断があったAVF患者61名で、狭窄の疑いがないと判断された患者が49名、狭窄の疑いがあると判断された患者は12名であった。疑いがないと判断された患者のうち、28名はRI値が0.6未満、21名がRI値が0.6以上であった。また疑いがあると判断された患者のうち4名が0.6未満、8名がRI値が0.6以上であった。
以下の図で赤丸で囲まれたものを正解、青丸で囲まれたものを不正解回答とした場合、正解率は59%となった。これをスタッフによる判断の識別精度の基準として扱う。

特徴量についての説明を以下にする。



今回の実験の目的は提案手法の有効性の確認とする。
録音機材による違いを確認するために、聴診器付きマイクロホンと電子聴診器(リットマン ステソスコープ Model3200)を用いて録音したシャント音を使用する。またRI値が0.6未満のグループと0.6以上のグループでSVMに学習を行わせ、識別を行った。学習や識別に利用するデータセットを5グループに分割して、5次交差検定を行い、正解率、F値での評価を行う。
また、スタッフによる判断と比較することで、RI値を学習させた結果との比較も行う。
実験条件は以下のようになる。

実験結果を以下の図に示す。

研究の目的
シャント音からシャント機能を機械に識別させる
提案手法
①周波数領域の広いマイクロホンを用いて得られたシャント音から特徴量を抽出し、②エコー画像から得られたRIを用いて識別させる。
結果
①電子聴診器で録音したシャント音での識別よりも聴診器付きマイクロホンで録音したシャント音での識別のほうが識別精度が良かった。
②RI値によって学習した識別はスタッフによる判断よりも識別精度が悪くなった。
今後の課題
今回得られた識別の精度では目的のシステムを実現するのには不十分である。そのため、今後は識別精度の向上が必要である。識別精度の向上するために特徴量や識別器の検討が必要であると考えられる。


参考文献(重回帰分析に基づく頭部伝達関数の推定)



水平方向の身体的特徴が偏相関係数の値が高く、垂直方向の身体的特徴は低い値となった。
また、頭部周辺の身体的特徴の値が高く、耳介周辺の身体的特徴は低い値であった。



オレンジ色の線が9個全ての身体的特徴量で推定を行ったもので、青色が提案手法で一番精度が良かった身体的特徴量である。
1kHz-8kHz、1kHz-12kHzにおいて、全ての角度で従来研究の9個の身体的特徴量で推定を行ったHRTFよりも、説明変数選択を行い推定を行ったHRTFの方が精度が良くなった。
以下の表は変数増加法で説明変数を増やしていった場合の結果である。

<課題>
<提案手法>
<結論>
<今後の課題>