2018年7月30日に行われたデモ大会にてコンピュータで心臓の音を自動で診断するシステムを提案しました。
開発環境:matlab 2013
詳しくは動画をご覧ください。
2018年7月30日に行われたデモ大会にてコンピュータで心臓の音を自動で診断するシステムを提案しました。
開発環境:matlab 2013
詳しくは動画をご覧ください。
2018年7月30日に行われたデモ大会で発表した内容です。
今回はSVMを使って、音声から「平静」「怒り」「喜び」3種類の感情を識別するシステムを作りました。
開発環境:matlab 2013
詳細は以下の動画をご覧ください。
2018年7月30日に行われた人工知能第一研究室のデモ大会での発表内容です。
【ゲーム説明】
①8秒間のメロディーが流れます。これを覚えます。
②合図が流れます。
③覚えたメロディーを歌います。
→ 結果として、音程正確率と音程グラフが表示されます。
また、歌ったメロディーが楽譜として表示されます。(音の長さは区別できていません。)
詳細は以下の動画をご覧ください。
【開発環境】 MATLAB
2018年7月30日に行われたデモ大会で発表した内容です。
SVMとK近傍法を用いてシャント音の正常・異常を識別しました。
開発環境:matlab 2013
詳細は以下の動画をご覧ください。
背景・目的
⇓
空調音や環境音などの雑音を抑圧し、目的音を強調したい
デモ内容
用いた音源
開発環境
Matlab R2013b
音響分野には様々な研究がありますが、本研究では複数の音源が含まれた観測信号から目的音を取り出す技術である「音源分離」に着目します。下図のように複数の音源が含まれる観測信号に音源分離を適用することで、各音源ごとに抽出することができ、カラオケ音源の作成や自動採譜が可能となります。
音源分離は様々な手法が提案されていますが、ここでは多チャネル非負値行列因子分解(MNMF)に着目します。MNMFはマイク数が音源数より少ない劣決定条件において使用可能な手法であり、高精度に音源分離が可能です。しかし、従来のMNMFは自由度の高いモデルであるので、ランダムな初期値によって分離性能のばらつきが大きな問題となっています。本研究では、あらかじめ初期値を与えることで音源分離性能の向上・安定化を図ります。MNMFのアルゴリズムや挙動解析、問題点等は過去のページを参照ください。
https://www-ai1.csis.oita-u.ac.jp/?page_id=538
https://www-ai1.csis.oita-u.ac.jp/?p=1946
提案手法として、他の音源分離手法で得られた分離信号から、基底行列Tと空間相関行列Hを計算して、MNMFの初期値に設定します。ここでは以下の2種類の手法を用います。
—————————————————————————————————————————————————
・音源方向が既知と仮定:バイナリマスク
・音源数とマイク数が同数と仮定:独立低ランク行列分析(ILRMA)
—————————————————————————————————————————————————
バイナリマスクとは、マイク間の位相差を用いてマスク関数を構築し、騒音を抑圧する手法です。例えば2チャネルで録音された観測信号において、目的音が正面方向(0度)にある場合、マイク間の位相差は0となります。そこで、マイク間の位相差がゼロから離れた時間周波数ビンのパワーを削減することで正面方向の音を取り出すことができます。バイナリマスクはMNMFと比べて分離性能が劣りますが、数秒で処理が終わる利点があります。
ILRMAとは、IVAによる空間モデルの学習とNMFによる音源モデルの学習を交互に行うことで、MNMFに比べて安定かつ高速に分離できる手法となっています。ただしIVAの制約から、マイク数が音源数より多い優決定条件(特にマイク数=音源数)となる環境でしか用いることができません。
MNMFの空間相関行列Hは、各手法で得られた分離信号に対してクロススペクトル法を適用することで、計算することができます。バイナリマスクを用いた初期値設定における基底行列Tは、分離信号に対してNNDSVD法を適用することで、計算することができます。また、ILRMAを用いた初期値設定における基底行列Tは、ILRMAで最終的に得られた基底行列TをそのままMNMFの初期値に設定することが可能です(この手法はILRMAを提案した論文に記載されており、従来のMNMFと比べて分離性能が向上することが分かっています)。
以下に本手法におけるフローチャートを示します。
以下の図のような環境で収録されたインパルス応答に音楽データを畳み込むことで評価用の観測信号を作成しました。Source1にはギター、Source2にはシンセサイザーの音が対応しています。評価値には音声と歪みの比を表すSDRを用います。今回は各手法ごとに10回ずつ分離して平均値を評価値としました。
以下の図が実験結果となります。緑がランダムな初期値である従来のMNMF、青がバイナリマスクの分離結果から各初期値を求めた場合、赤がILRMAの分離結果から各初期値を求めた場合となっています。また、エラーバーは分離結果のばらつきを表しています。この結果から、バイナリマスクを用いた初期値設定では空間相関行列Hを、ILRMAを用いた初期値設定では基底行列Tもしくは空間相関行列Hを計算することで、従来のランダムな初期値より分離性能が良くなっていることが分かります。ただし、ILRMAを用いた初期値設定では、従来の基底行列Tの計算だけで十分な分離性能が得られていることが分かります。
これらのことから、音源方向が既知である場合はバイナリマスクを、マイク数と音源数が同じである場合はILRMAを用いた初期値設定を行うことで、従来のランダムな初期値と比べて分離性能が向上・安定化することが考えられます。今後の課題として、音源数とマイク数を増やしたり、残響時間を長くしたりするなど、難しいタスクにおける評価を行っていく必要があります。
本研究ではMNMFの初期値依存性に着目し、あらかじめMNMFの初期値を計算することで、MNMFにおける分離性能の向上・安定化を図りました。初期値設定にはバイナリマスクを用いた手法とILRMAを用いた手法の2種類を提案し、評価実験を行いました。その結果、どちらの手法においてもMNMFの分離性能が向上・安定化することを確認しました。このことから、音源方向が既知である場合はバイナリマスクを、音源数とマイク数が同数であることが既知ならばILRMAを用いて、MNMFの初期値設定することが望ましいと考えられます。
一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。
食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。
嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。
しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。
そのため、誰もが簡単に測定でき、嚥下音の特徴量から正常・異常の判定ができるシステムが望まれている。
嚥下に関する研究の課題として、度々、嚥下音の特徴量の安定性が挙げられる。
これまでの研究では強制的に嚥下を行っていることから、嚥下毎に筋肉や骨の動きに差が出ることで嚥下のデータにばらつきが出るのでは無いかと考えた。
そこで、本研究では睡眠中等に反射的に起こる不随意的嚥下に着目し、安定性の高い嚥下音の特徴量を得ることが可能であるか検証を行った。
食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。
意識的に筋肉を動かしていることから”随意的な運動”となる。
http://www.swallow-web.com/engesyogai/
嚥下運動の際に発生する音。
-Ⅰ音(20~100Hz)
喉頭蓋の閉鎖運動の際に発する音
-Ⅱ音(50~150Hz,400~750Hz)
食物が食道を通過する際に発生
-Ⅲ音(20~100Hz)
喉頭蓋の開放運動に際に発生
「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)
スペクトログラムと音声波形から嚥下音の特徴を明らかにする
・嚥下音の全体の時間は平均で2.5(s)
・Ⅰ・Ⅱ・Ⅲ音はそれぞれ3つの周波数帯に分散している
・他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い
個人差、または、随意的嚥下音運動によるばらつきが示唆されている
これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。
嚥下音の特徴量にばらつきが大きいと、嚥下機能の推定の際の評価を定めることが困難となる。
本研究では、任意的に起こす随意的嚥下ではなく、睡眠中などの無意識下で起きる不随意的嚥下に着目した。
まずは、不随意的嚥下として睡眠中の嚥下を、随意的嚥下として意識的に行った嚥下を咽喉マイクとレコーダを用いて収録してPC へ取り込む。次にウェーブレット変換 を用いてスカログラムを求めてⅠ・Ⅱ・Ⅲ音の検出を行う。次に、検出したⅠ・Ⅱ・Ⅲ音から第3 章を参考に”Ⅰ・Ⅱ・Ⅲ音に含まれる周波数帯”、”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下持続時間”を特徴量として抽出する。最後に随意的・不随意的嚥下音のデータに有意差があるのか確かめるために、f 検定を用いて分散の比較を行う。
不随意的嚥下音の特徴量の安定性の検証
嚥下音を録音する際に、
レコーダ:V-803(下図左)
マイク:咽喉マイク(下図右)
を接続して使用した。
レコーダ、咽喉マイク
○随意的嚥下音
‐マイクを喉元に装着し、通常通りに生活して空嚥下を録音
‐慣れることで反射嚥下が起きないよう、録音は最長でも1 時間までとした
‐嚥下する物の条件をなるべく揃えるために録音中の飲食は禁止した
○不随意的嚥下音
‐就寝前にマイクを装着し、通常通りに睡眠をして嚥下を録音
‐起床時に録音を停止
Ⅰ・Ⅱ・Ⅲ音の発生のタイミングは以下のようになっていることが先行研究により確認されている。
Ⅰ・Ⅱ・Ⅲ音発生と無音時間のタイミング
これを利用し、以下のような検出プログラムを作成した。
Ⅰ・Ⅱ・Ⅲ音検出の流れ
本検出法でⅠ・Ⅱ・Ⅲ音の検出を検証した結果、正答率は95%であった。
結果から、個人内では随意的・不随意的嚥下間での主な周波数帯のズレに大きな差は無かったが、被験者3 名のIII 音のコヒーレンスに差が確認された。特に被験者B のIII 音に大きな差がみられ、2000Hz 以下の周波数帯のコヒーレンスが随意的嚥下では平均して0.6 未満であったのに対し、不随意的嚥下では平均が0.7 を超えてた。
コヒーレンスに顕著な差が現れたのは3 名だけであったが、随意的嚥下と比較して不随意的嚥下の方が安定したIII 音の周波数帯を観測できる可能性が示唆された。また、全被験者のコヒーレンスの平均が各被験者のものより下回っていたことから、嚥下音の周波数帯には個人差が出ることを確認した。
したがって、年代ごとの嚥下機能を周波数帯の推移を研究する時には、個人内のデータを使用することでより高精度な推移を観測することができる可能性がある。
結果から、各被験者、また、全被験者においても随意的・不随意的嚥下音から得たI 音~II 音の間隔の平均は等分散であり、随意的・不随意的嚥下間にデータの安定性から見た差はほとんど無いことが確認された。
先行研究では、高齢に伴いI 音~II 音の間隔が開いていくことから、I 音~II 音の間隔には嚥下機能に大きな差(年齢の差) が無い限り、誤差程度の変化しか起きない可能性がある。
そのため、全被験者においても有意差が見られなかったように、健常者で、かつ、同年代の嚥下音では、どのような嚥下音を比較しても有意差が見られない可能性が高い。
結果から、被験者A は嚥下持続時間が随意的・不随意的嚥下間で不等分散であり、「不随意的嚥下音と比較し、随意的嚥下音から得た嚥下持続時間の方が安定している」と言える結果となった。
しかし、他の被験者と全被験者の嚥下持続時間には随意的・不随意的嚥下間に有意差は見られず、随意的嚥下音の持続時間が必ずしも不随意的嚥下音より安定していると結論付けるのは難しいと思われる。
この研究で最終的な目的とするのは、誰でも自動で嚥下音の異常を判別できるシステムの実現のために、嚥下機能の評価が可能な嚥下音の特徴量を明らかにすることである。しかし、嚥下音のデータの安定性には問題があるため、まずは安定性の高い嚥下音を得る必要があった。
本研究では、不随意的嚥下に着目し、その特徴量を分析することを提案した。理由としては従来の研究で行ってきた嚥下は強制的なものであり、嚥下運動に伴う筋肉や骨の動きに嚥下毎に違いが生じることで嚥下音の特徴量にばらつきが出たと推測したからである。
本実験では、意識的に行った随意的嚥下と睡眠中の不随意的嚥下を5人の被験者から収録し、”嚥下音に含まれる周波数特性”、”I 音~II 音の間隔”、”嚥下持続時間”の3 つの特徴量を、周波数特性はコヒーレンスを求め、間隔と持続時間の2 つにはf 検定により分析することで分散の有意差を求めることで不随意的嚥下音の安定性を検証した。
実験の結果、”嚥下音に含まれる周波数特性”の特徴量として用いたコヒーレンスから、被験者個人の随意的・不随意的嚥下に含まれている周波数特性の違いは見られなかった。また、全被験者の嚥下音でコヒーレンスを求めた際に、個人のものよりも大幅に下回っていたことから、嚥下音に含まれる周波数特性には個人差が強く出ることが分かった。次に、”I 音~II 音の間隔”、”嚥下持続時間”の2 つの特徴量をf 検定により分散を分析した結果、随意的・不随意的嚥下音間に特徴量のばらつきの有意差はどちらの特徴量にも見られなかった。
したがって、今回の実験で分析した3 つの特徴量からは、不随意的嚥下音の安定性が高いことを証明する結果は得られなかったが、III 音の周波数帯に関しては不随意的嚥下音から測定した方が低周波数まで観測できる可能性が示唆された。
随意的・不随意的嚥下音の特徴量のばらつきに有意差が出なかった原因として考えられるのは以下の2つである。
(1) 随意的嚥下音の収録の際に意識的に行ってはいたもののタイミングは任意であったことから、強制的に行わせた嚥下よりもデータにばらつきが少ない嚥下音が取れてしまった可能性があること
(2) 睡眠中に発生するノイズを完全に除去することができなかったため、不随意的嚥下音のI 音・II 音・III 音の位置にズレが発生してしまい、データにばらつきが出てしまった可能性があること
今後の課題として、随意的嚥下音を収録する際には嚥下のタイミングを強制的に行う等の随意的嚥下音の収録方法の見直しや、睡眠中の不随意的嚥下音から正確にI 音・II 音・III 音を検出するためのノイズ除去方法を検討する必要がある。
2017/12/18の3年生デモ大会で発表した内容です。
環境音の同時再生を行うAndroidアプリケーションの開発を行いました。
<背景>
人は作業を行うとき、周囲がうるさいと集中できません。しかし静かすぎる場合でも集中できないことも研究で分かっています。
<開発環境>
OS:Windows7,Windows 8,Windows 10
使用端末:HTC U11 Android 7.1.1
開発環境:Android Studio
詳細は以下の動画を参照してください