画面を見なくても計算が出来る電卓アプリを製作しました。
音声で入力し、結果を音声で出力します。また、端末をシェイクすることで音声認識が起動します。
作成:windows7 AndroidStudio3.0
デバイス:ASUS Nexus 7 (Android6.0.1)
画面を見なくても計算が出来る電卓アプリを製作しました。
音声で入力し、結果を音声で出力します。また、端末をシェイクすることで音声認識が起動します。
作成:windows7 AndroidStudio3.0
デバイス:ASUS Nexus 7 (Android6.0.1)
2017年12月18日に行われた3年生によるデモ大会で発表した内容です。
Android Studioを使用して、メモ帳を作成しました。
GoogleのAPIを用いて作成したメモ帳に、音声で入力する機能、音声録音、録音した音声を再生する機能を追加しました。
使用したAPI:RecognizerIntent(音声認識)、MediaRecorder(録音)、MediaPlayer(再生)
参考:Androidソースコード集 http://akira-watson.com/android/button.html
2017年12月18日に行われた3年生でも大会で発表した内容です。
今回のデモではLeapmotionで手の動きをキャプチャすることで、
Unity上に存在する仮想的なピアノを弾くプログラムを発表しました。
開発環境
【OS】
Windows10
【ソフトウェア】
Unity5.6.2f1
MonoDevelop
Leapmotion Orion 3.2.1
【ハードウェア】
Leapmotion
詳細な説明や実際の動作については以下の動画をご覧下さい。
2017年12月18日に行われた3年デモ大会の発表内容です。
近年、CDや音楽配信サービスが普及により、大量の音楽データを所有することが、
可能となっている。そこで、多くの楽曲のサビのみを再生することで、
一度にたくさん楽しむことができると思い、歌のサビを検出し、メドレーにしたいと考えた。
OS:Windows7
開発環境:MATLAB R2013b
参考文献:サビの連続再生における楽曲印象を用いたプレイリストの自動生成の研究(学士論文・中西氏)
Qiita-音楽の構成(Aメロ、サビ等)を自動で分割する。(https://qiita.com/tackey/items/ca51b7c891cf604a6527)
例として、以下のフリー音源を用いて、メドレーを作成いたしました。
<元の音源>
<メドレー>
スマートフォンの普及により全天球映像が気軽に視聴できる環境が整いつつあります。
YouTubeなどの動画配信サイトや,FacebookなどのSNSも360度動画に対応しており,VRコンテンツやゲームなども普及してきています。
しかし,3Dオーディオへの対応はまだ始まったばかりです。
全天球映像とは「前後左右頭上から足元まで全視野を覆うような映像」のことをいいます。
以下リンクにサンプルがあります。
https://theta360.com/users/173787
(本研究室が投稿している全天球画像です。動画も撮影可能です。)
このような全天球映像では,音を明確に感じさせること(音像定位強調)が必要となります。

反響などによって,様々な方向から音が到来すると,音像がぼやけてしまい,定位がはっきりしません。
そのため,定位が得られるような立体音を再現するには,複数の音源を音源ごとに強調する必要があります。

アプローチ方法は次の通りです。

収音に用いるマイクロホンアレイを作製しました。
全天球映像と一体で収録が出来るよう,水平・上下の計8チャネルで構成されています。

マイクロホンアレイの収音信号の各チャネルにMVDRのフィルタを掛け,それらを足し合わせた後にウィーナーフィルタを掛けます。
これによって,MVDRのみと比較してより強調を行うことが可能になります。

MVDRは方向性の音のみ制御可能なため,拡散性雑音を扱うためにウィーナーフィルタを組み合わせます。

今回提案したウィーナーフィルタは以下の通りです。

提案手法で強調処理した信号を用いて定位評価実験を行いました。
評価方法と実験条件は以下の通りです。


実験結果は以下の通りです。
アンビソニックスと提案手法の比較から,提案手法の方が定位がはっきりしていることが分かります。


実験を踏まえた考察は以下の通りです。
提案手法により,定位の向上は見られましたが,まだ「ぼやける部分」が残っているため,より最適な強調方法を検討する必要があります。
より強調が可能になれば,より定位を向上させることが可能になると考えられます。

腎不全などの患者は体内の老廃物を排出するために人工透析を行う。透析時の血流量を確保するためにシャントを作成するが、患者の高齢化などに伴いシャント血管が狭窄、閉塞してしまうなどといったトラブルが起こる。これらのトラブルを早期発見できれば、軽度な負担でシャント機能の改善が可能となる。患者は自分のシャント機能を確認するために、シャントから聴取されるシャント音を聴取することで確認を行う。

シャントとは腕などの静脈と動脈を吻合することによって作成される。
シャント音とはシャント吻合部から静脈にかけて聴取される音である。
以下の音源は熊本赤十字病院の「シャント音CD ver2」のシャント音の例である。
正常なシャント音
異常なシャント音
シャント音からシャント機能を機械に識別させることを大きな目的する。このことで専門的な知識のない患者も使用することができ、患者や医療スタッフの負担が軽減することが考えられる。

しかし、このようなシステムを実現させるためには、高度な識別精度が必要となる。
シャント音を解析している従来研究には以下のようなものがある。

西谷らの研究や佐々木らの研究で使用されている録音機材は周波数領域が狭く、シャントの特徴を十分に捉えられていないことが考えられる。西谷らの研究で用いられている電子聴診器(リットマン ステソスコープ Model4000,4100)の周波数領域は20-1000Hz、佐々木らの研究で用いられているTA-701Tの周波数領域は20-600Hzである。矢巻らの研究によると、狭窄したシャント音からは1000-2000Hzの特徴が得られるとされているため、これらの特徴が十分に得られていないと考えられる。
また、矢巻らの研究では「シャントが正常なときに聴取されるシャント音」、「狭窄しているときに聴取されるシャント音」、「閉塞しているときに聴取されるシャント音」の識別を行っているが、実際のシャントとの関連が分からないといった課題がある。実際のシャントとの関連が分からないため、それらのシャント音が正しく識別できているか評価できない。
今回、従来研究の課題を解決するために、
①周波数領域の広い録音機器を用いる
②エコー画像から得られた数値を利用した識別
この二つを用いた手法を提案した。
①の提案の狙いとして、周波数領域を持つ録音機器を用いることで、狭い周波数領域では得られなかった特徴、特に高周波数帯域に含まれる狭窄しているシャント音の特徴を得ることを狙っている。
②の提案の狙いとして、エコー画像から得られた数値は客観的な数値であり、シャント機能を客観的に示すことができることを狙っている。
ここでは、収音時に利用したマイクロホンについて述べる。今回はマイクロホンにチェストピースを接続した聴診器付きマイクロホンを自作した。マイクロホンにはオーディオテクニカ社のAT9903を利用して、収音を行った。また比較のために、電子聴診器(リットマン エレクトロニックステソスコープ Model3200)を用いて収音も行った。

ここでは、識別を行うために行った処理を述べる。
はじめに、学習フェーズについて説明する。
RI値が低いものとRI値が高いものとラベリングしたデータ群からそれぞれ、正規化相互相関係数、周波数パワーの割合、MFCCを算出し、それぞれの値を学習に利用する。今回は、RI値が低いものとRI値が高いものの2クラスであるため、識別器にはSVMを利用した。

次に、識別フェーズについて説明する。
識別したいシャント音から正規化相互相関係数、周波数パワーの割合、MFCCを算出し、学習フェーズで学習したSVMを用いて、識別を行う。

次の図では、RIについての説明を以下にする。

ここで、「シャント管理における超音波パルスドップラー法の有効性」(村上康一 2003)の調査によるとRI値が0.6を超えるとシャント機能の不良なグループが増加する傾向が見られることが分かっている。そこで今回はRI値が0.6未満のグループと0.6以上のグループに分割し、識別を行うこととした。
ここで、今回利用したデータのうち、スタッフによる判断があったAVF患者61名で、狭窄の疑いがないと判断された患者が49名、狭窄の疑いがあると判断された患者は12名であった。疑いがないと判断された患者のうち、28名はRI値が0.6未満、21名がRI値が0.6以上であった。また疑いがあると判断された患者のうち4名が0.6未満、8名がRI値が0.6以上であった。
以下の図で赤丸で囲まれたものを正解、青丸で囲まれたものを不正解回答とした場合、正解率は59%となった。これをスタッフによる判断の識別精度の基準として扱う。

特徴量についての説明を以下にする。



今回の実験の目的は提案手法の有効性の確認とする。
録音機材による違いを確認するために、聴診器付きマイクロホンと電子聴診器(リットマン ステソスコープ Model3200)を用いて録音したシャント音を使用する。またRI値が0.6未満のグループと0.6以上のグループでSVMに学習を行わせ、識別を行った。学習や識別に利用するデータセットを5グループに分割して、5次交差検定を行い、正解率、F値での評価を行う。
また、スタッフによる判断と比較することで、RI値を学習させた結果との比較も行う。
実験条件は以下のようになる。

実験結果を以下の図に示す。

研究の目的
シャント音からシャント機能を機械に識別させる
提案手法
①周波数領域の広いマイクロホンを用いて得られたシャント音から特徴量を抽出し、②エコー画像から得られたRIを用いて識別させる。
結果
①電子聴診器で録音したシャント音での識別よりも聴診器付きマイクロホンで録音したシャント音での識別のほうが識別精度が良かった。
②RI値によって学習した識別はスタッフによる判断よりも識別精度が悪くなった。
今後の課題
今回得られた識別の精度では目的のシステムを実現するのには不十分である。そのため、今後は識別精度の向上が必要である。識別精度の向上するために特徴量や識別器の検討が必要であると考えられる。


参考文献(重回帰分析に基づく頭部伝達関数の推定)



水平方向の身体的特徴が偏相関係数の値が高く、垂直方向の身体的特徴は低い値となった。
また、頭部周辺の身体的特徴の値が高く、耳介周辺の身体的特徴は低い値であった。



オレンジ色の線が9個全ての身体的特徴量で推定を行ったもので、青色が提案手法で一番精度が良かった身体的特徴量である。
1kHz-8kHz、1kHz-12kHzにおいて、全ての角度で従来研究の9個の身体的特徴量で推定を行ったHRTFよりも、説明変数選択を行い推定を行ったHRTFの方が精度が良くなった。
以下の表は変数増加法で説明変数を増やしていった場合の結果である。

<課題>
<提案手法>
<結論>
<今後の課題>
平成29年10月10日に行われた卒業研究中間発表の内容です。
一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。
食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。
嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。
しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。
簡単かつ侵襲性の無い計測方法で嚥下音の録音が収集が可能であり、嚥下音だけの情報から嚥下機能の状態を評価する指標の提案を行いたい。
食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。
意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/
嚥下運動の際に発生する音。
-Ⅰ音(20~100Hz)
喉頭蓋の閉鎖運動の際に発する音
-Ⅱ音(50~150Hz,400~750Hz)
食物が食道を通過する際に発生
-Ⅲ音(20~100Hz)
喉頭蓋の開放運動に際に発生
「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)
スペクトログラムと音声波形から嚥下音の特徴を明らかにする
・嚥下音の全体の時間は平均で2.5(s)
・Ⅰ・Ⅱ・Ⅲ音は同じような周波
数帯を持っている
・他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い
個人差、または、随意的嚥下音運動によるばらつきが示唆されている
これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。
そのため、いかに安定性の高い嚥下音のデータを得るにはどうすれば良いのかを考えた。
データのばらつきは随意的な運動からくるものだと推定し、睡眠中の嚥下音を抽出することで不随意的嚥下運動から発生する嚥下音の抽出を行い、随意的・不随意的な嚥下音の”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下音の継続時間”を特徴量としてばらつきの差を調査した。
・個人差のばらつきの調査
・随意と不随意での嚥下のばらつきの調査
・随意的な嚥下(仰向けの状態)と不随意的な嚥下の録音を行う
・ウェーブレット変換により周波数の平均が高い順に3箇所取り出し、Ⅰ・Ⅱ・Ⅲ音とする

嚥下音信号のウェーブレット変換
・随意的・不随意的な嚥下音の、Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間の標準偏差を求め、ばらつきの差を調査する
嚥下音を録音する際に、
レコーダ:V-803(下図左)
マイク:咽喉マイク(下図右)
を接続して使用した。

レコーダ、咽喉マイク

実験条件
・個人差
複数人の場合と、個人のみの場合の随意的嚥下音のばらつきの差を求める。
・随意・不随意
個人の随意的・随意的な嚥下音のばらつきの差を求める。
①被験者:複数人(14名)
嚥下:随意的

②被験者:個人
嚥下:随意的

③被験者:個人
嚥下:不随意的

○標準偏差


・嚥下障害の早期発見のために音だけの情報から嚥下機能の状態を評価する指標の提案
・嚥下音の特徴分析の予備実験より以下のことが分かった
―Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間は個人差が大きい可能性
―不随意的なデータの安定性が最も高い可能性
・今後は統計的に優位な差が示せるようにデータを増やしていく
・引き続き睡眠時の嚥下音を録音収集
―比較のため被験者の人数を増やす
・嚥下機能評価のための特徴量の提案
―振幅のピーク値から得た特徴量
―Ⅰ音、Ⅱ音、Ⅲ音の周波数帯域
・評価実験
―特徴量から個人の識別
私たちの生活している環境には様々な音が存在しており、その中から特定の音を抽出する技術、音源分離が求められています。
例)音声認識、雑音抑圧、ユーザによる既存音楽の再編集…etc

-劣決定条件(音源数>マイク数)で、マイク間の位相情報を利用して音源分離を行います。
-優決定条件(音源数≦マイク数)で、空間モデルと音源モデルを交互に学習します。
従来研究の2つの手法にはそれぞれ長所と短所があり、MNMF は音源数に関わらず音源分離が可能ですが、計算コストが大きく、処理が遅いという問題があります。一方、ILRMA は計算コストが少なく、処理が速いのですが、音源数とマイク数が同じでなければならないという問題があります。
そこで本研究では、MNMF と ILRMA を組み合わせて、劣決定条件(音源数>マイク数)で処理が高速なアルゴリズムの作成を提案します。

本研究では、まず観測信号に対してMNMF を行い、音源をいくつかに分割します。
その後、分割した音源に対してILRMA を用いて、音源分離を行います。

この手法によって、従来のMNMF より少ない更新回数で分割し、ILRMA で分割した音源を分離することで、従来のMNMF より高速な音源分離ができるのではないかと考えています。

提案手法の有効性を示すために2つの実験を行いました。
これを従来法と比較して、時間は短く、精度は同じになることを目指します。

実験1の条件は以下のようになっています。

この時、ID1とID2は同じ音源で、60度と120度の配置を入れ替えただけのものになります。同様にID3とID4が同じ音源となっています。
実験結果は以下のとおりです。

従来法の平均よりも提案法の平均が上回り、ID3では高い分離精度となりました。
実験2の条件は以下のようになっています。

ここで使用した音源は実験1の結果でSDRが高かったものを扱いました。また、分割した音源は正面からみて右側と左側でまとまって分割されたので、図の青の組み合わせと緑の組み合わせをID4つ分、計8個をILRMAで分離しました。
実験結果は以下のとおりです。

提案法でMNMFとILRMA全てにかかった時間と、従来のMNMFのみで分離を行った時間を以下の図に示します。

実験2の結果、提案法のSDRは従来法より低くなりました
→実験2のSDRの高さは実験1のSDRの高さに比例しているため、提案法のSDRの低下はMNMFの音源分割が不十分であったと考えられます。
以下の図は実験1と実験2の提案手法の結果となっています。ここで実験1で最もSDRが高くなったID3は実験2でもSDRが高くなっていることから、SDRの高さは比例していることがわかります。
