2016年12月26日に行われた3年デモ大会の発表内容です。
OS:Windows7
Androidバージョン:5.0.2
開発環境:Android Studio
開発言語:JAVA
音声認識:Google Speech APIを用いて
音声読み上げ:TTS(text-to-speech)システム
音声認識で視力検査が行えるアプリです。
詳細は以下の動画をご覧ください。
2016年12月26日に行われた3年デモ大会の発表内容です。
OS:Windows7
Androidバージョン:5.0.2
開発環境:Android Studio
開発言語:JAVA
音声認識:Google Speech APIを用いて
音声読み上げ:TTS(text-to-speech)システム
音声認識で視力検査が行えるアプリです。
詳細は以下の動画をご覧ください。
r’=kr^a
r’ :推定された知覚距離
r :物理的な音源距離
k, a :適当なパラメータ
-従来モデルよりも距離の変化に対して音の変化が大きくなるようにパラメータを変更したモデルを提案モデル(r’=2.64r^0.54)とし、距離知覚実験を行った。以下にシステムの構成図を示す。


実験とは音声の長さなどの変更を加えていますが実験の参考動画を作成いたしましたのでヘッドホンなどを用いてご覧ください。
距離知覚実験の散布図を以下に示す。横軸は提示距離、縦軸は回答した距離とする。

以下に各距離の誤差の平均と被験者ごとの誤差の平均を示す。


-全天球映像での距離知覚を再現する音の作成
-従来モデルのパラメータの変更とシステムの作成
-従来モデルと比較して、提案モデルのほうが提示距離との誤差は減少したが有意差が見られるほどではなかった。
-被験者の距離知覚の違いによる影響→距離知覚の個人性についての検証を行う必要性
研究背景・目的






近年、私達の身の周りにはスマートフォンやハンズフリー、テレビ会議システムなどといった音声を取り扱う機器が広く普及しています。これらを利用する場合に、周囲の雑音や反響音、複数話者の音声がマイクに入ってくると、目的とする音の抽出や認識が難しくなるといった問題が生じます。そこで、用いられる技術として音源分離の研究が盛んに行われており、様々な手法があります。その中でも比較的新しい手法であるマルチチャネルNMFに着目しました。この手法は空間情報を用いることで高精度に音源分離を行うことが出来ます。しかし、初期値にランダムな値を設定する従来のマルチチャネルNMFは自由度の高いモデルであるため局所最適解に陥りやすく、分離性能が初期値に依存してしまうことが課題として挙げられています。
本研究では、従来法でチャネル数を増やした場合におけるマルチチャネルNMFの分離性能の分析を実験的に行い、そこで生じる問題点について提案法によるアプローチで解決を行います。

マルチチャネルNMFおよびシングルチャネルNMFの概要は吉山さん、三浦さんの記事を参考にして下さい。
https://www-ai1.csis.oita-u.ac.jp/?page_id=538
https://www-ai1.csis.oita-u.ac.jp/?page=1946
以下の図に示す環境で測定されたインパルス応答を音楽データに畳みこみ、2-6チャネルの評価信号を作成しました。使用マイクロホン番号及び音源位置、分離処理に用いるパラメータは下図参照下さい。ここでは、シード値用意して生成したランダムな初期値パターンを10個用意して、各チャネルで3音源の平均SDRを比較します。SDRとは分離性能を評価するための指標で、数値が高いほど分離性能が良いことを表します。なお、結果のグラフには平均SDRとSDRのばらつきの大きさを表す標準偏差をエラーバーで示します。

以下の図に示すように、従来法でチャネル数を増やして音源分離を行うとチャネル数の増加に伴い分離性能が低下してしまうことが確認されました。原因として、チャネル数が増加すると行列に対する自由度も増加するため、より局所最適解に陥りやすくなると考えられます。そこで、これらの問題を解決するための手法を提案します。

これまでの研究でマルチチャネルNMFは空間相関行列Hに対する初期値依存性が大きいことが分かっています。そこで、分離性能が良かった時の分離後の空間相関行列Hは理想に近いパラメータが推定出来ているのではないかと考えました。
mチャネルで分離を行い、mチャネルの空間相関行列Hは、m+1チャネルの空間相関行列Hの部分行列になっていることを利用して、SDRが最も高い時の分離後の空間相関行列Hを次のm+1チャネルの空間相関行列Hの初期値に設定し、音源分離を行います。m = 2, 3, 4, 5 とし、チャネル数増加に伴い逐次的にこの処理を行います。始めに音源分離を行う2チャネルの初期値には従来法と同様にランダムの値を設定しています。

以下に示す実験結果から従来法よりも分離性能が向上していることが確認出来ます。また、チャネル数増加に伴い分離性能が向上しているということが見られました。

従来のマルチチャネルNMFではチャネル数が増加すると分離性能が低下してしまうという問題点があることを確認しました。この問題を解決するために良いパラメータを推定出来ている行列を逐次的に設定することで局所最適解に陥るのを避け、マイクロホン数の増加に伴う多くの情報量を適切に扱えるために分離性能が向上したと考えられます。
この研究は2017年春に開催される音響学会に提出する予定なので、興味を持った方は是非調べてみて下さい。最後まで読んでいただきありがとうございました。
近年音声認識技術は様々なときに、様々な場所で、様々なときに用いられています。
この技術は雑音の無い環境における音声認識の精度はとても高いのですが、雑音のある環境での音声認識はまだ十分ではありません。
私たちの研究室では、非負値行列因子分解(以下NMFと呼びます)を用いた研究を行っています。
その中で私たちの研究室の三浦さんによる、NMFをマルチチャネル拡張したマルチチャネルNMF(以下MNMFと呼びます)を用いた雑音抑圧手法があり、その手法ではMNMFでの空間相関行列での初期値にバイナリマスクを用いた際に、ランダムに与えていた従来法よりも雑音抑圧性能が向上しているといった研究があります。
三浦さんの研究に関してはこちらをご覧ください。
街中には様々な雑音環境があり、いかなる環境においても雑音抑圧を行えることが必要です。
現状での雑音抑圧方法のひとつに非負値行列因子分解による手法があるのですが、その技術をさらに改良して音声認識率の向上を図りたいと考えています。
この研究の最終目標として雑音環境の音声に対して雑音環境を判断し、判断した結果を基に最適な雑音抑圧方法とNMFを組み合わせて認識率の向上を図ります。
この時環境判断に関しては、事前に雑音環境を学習させたデータをもとに雑音環境を判断し、判断した結果を基にNMF処理した音声にたいして最適な処理方法を選択します。
そして、処理した音声を音声認識させ、音声認識結果を基に良かった場合はそのまま音声出力し、悪かった場合は処理方法を変更して再び音声認識をこころみるといった物となります。

本研究では、先ほどのようなシステムを実現する前段階として、処理方法を選択する際に、どのような手法のどのようなパラメータが、環境雑音に対して適切であるかどうかを調査します。
今回は特に、NMF処理の後処理としてウィナーフィルタとウェーブレット変換を用いた際における適切なパラメータと音声認識率との関係について調査します。

認識実験では、本研究における提案手法が有効であるかどうかの実験を行いました。
この実験において、雑音環境はCHiMEChallenge4のデータからバス、カフェ、歩行者天国、交差点の4環境を、各環境で実際に目的音を収音したREALデータと、室内で録音した目的音を各環境データに畳み込んだSIMUの2種類の8通りの環境を対象に評価を行いました。
また、雑音環境の情報を与えて環境毎に手法を変えた既知の場合と環境の情報を与えていない未知との場合に分けて実験を行いました。
認識実験の結果です。
環境が未知の場合、従来のNMFのみの手法と比べて大幅に単語誤り率が大きくなっており、従来手法を越えることはできませんでした。
また、環境が既知の場合も、未知の場合と比較して多少改善されていますが、それでも従来法を超えることはできませんでした。

今回の実験ではまず認識実験の前に行った予備実験にて、予備実験の環境を想定した4環境を用意し、その環境でのSDR改善量からパラメータを選択しました。しかし、認識実験に用いた環境と全く同じではないため、そのことが認識率に影響を及ぼしているのではないかと考えています。
またパラメータの選択に関してですが、今回は、雑音を混入させた音声からウィナーフィルタまたはウェーブレット変換を用いた際のSDRの改善量からパラメータの選択を行ったのですが、SDR自体が改善していても音素が変質していたなどといったことも考えられるため、事前に検討する段階から音声認識率の良し悪しでパラメータの選択を行うべきであったと考えています。
また、雑音環境が既知の場合と未知の場合とを比較して、既知の場合のほうが単語誤り率が低いことから、環境情報を与えることは必要であると考えています
本研究では、雑音環境に頑健な抑圧方法を実現するために、従来のNMFの手法に学習を用いた雑音抑圧方法を提案しました。
その中で、特に提案システムを実現する前段階として、どのような手法のどのパラメータが環境雑音に対して適切かどうかの調査に焦点をおき、NMF処理の後処理としてウィナーフィルタとウェーブレット変換を利用した認識実験を実施しました。
その結果認識実験では、従来手法を越える結果を得ることができず、その原因として、事前に検討していたパラメータが認識実験の結果と合わなかったなどといったことが考えられます。
今回の研究ではウィナーフィルタとウェーブレット変換を利用しましたが、それ以外の処理方法についても検討を行う必要があるのではないかと考えています。
また、考察にもありましたが事前に検討する段階においてSDRによる評価尺度ではなく、音声認識率による評価尺度にてパラメータを調査する必要があると考えています。
また、それらを十分に行った後、今後は学習の方法について具体的に検討する必要があると考えています。
研究背景・目的
近年、VR(バーチャルリアリティ:仮想現実)が身近になってきており、今後様々な業界に進出していくと考えられる。
VRはとても高い臨場感を再現しているが、さらに高い臨場感の高いものを得るには、映像による臨場感はもちろんだが、音も臨場感を出していくことが重要である。
臨場感を出すためには、音像定位(音の到来方向の再現)の再現を行っていく必要があり、本研究では、音像定位精度を高めることによって、高い臨場感を再現することを目的としている。
従来研究
環境音の収録では様々な方向を向いた場合の音を同時に収録する必要があるので、同心円状に放射状に16個のマイクを設置できる球形マイクロホンアレイを作製した。
実際に作製されたものが以下の左図、実験結果が以下の右図である。


様々な方法を提案した結果、「2ch」という方法が一番良い結果となったが、それでも0.33と低い値である。
「2ch」とは「2チャネル選択」のことで、例として正面0度方向に目的音があるときは90度方向の収録音を右のチャネルに、270度方向の収録音を左のチャネルに割り当てる方法である。
アプローチ方法
収音した音に特定方向の強調処理を行うことで、音像定位精度を上げることを考える。
システムの全体図を以下に示す。

遅延和アレイで特定方向を強調し、ウィーナーフィルタで強調した信号から背景雑音を取り除き、各方向に応じたHRTFを畳み込むことで、音像定位精度が向上するのかを検証する。
実験条件
実験条件と実験環境を以下に示す。


上図の環境で収音した音に処理を加え、HRTFを畳み込んだ音を被験者に聴いてもらい、目的音がどこから聞こえてくるかを回答してもらった。
実験結果
処理結果
強調処理と抑圧処理の実験結果を以下に示す。波形とSN比から、目的音が強調され雑音が抑圧されていることが分かる。

音像定位結果
音像定位実験結果を以下に示す。横軸が呈示角度、縦軸が回答角度、黒丸の大きさは回答者の人数を表しており、黒丸が大きいほど回答者も多いということを表している。
定位正答率を見てもらうと分かるが、従来法との間に差が現れなかった。差が現れなかった理由としては、処理した音が少し歪んでいたことが考えられる。また、他人のHRTFによる個人性の問題も挙げられる。

他人のHRTFを使用すると、前後誤りというものが生じることがある。前後誤りというのは正面0度方向から音が到来しているが、180度方向から音が到来しているかのように聞こえてしまうような前後の方向誤差のことである。
右図の提案法において、その前後誤りが多く見受けられたので、前後誤りを無いものとした結果を以下に示す。

まとめ
今後の課題
2016年12月26日に行われた3年生デモ大会で発表した内容です。
今回のデモ大会では、音階ごとに割り当てられたジャスチャーをすることで、
あらかじめ設定しておいた楽器の音を再生し、演奏ができるアプリケーションを
発表しました。
このアプリケーションは、起動中に、再生動作の入切を制御したり、特定の楽曲に
おいてガイド機能を利用したりすることが可能です。
入切の制御やガイド機能の起動に音声認識を使用しています。
開発環境
【OS】
Microsoft Windows 7 Professional + Windows 10 Home
【ツール】
Microsoft Visual Studio Ultimate 2010 + Visual Studio Community 2015
Microsoft Kinect for Windows SDK v1.8
Microsoft DirectX SDK (June 2010)
【機材】
Microsoft Kinect for Windows v1
詳細な説明や実際の動作については以下の動画をご覧下さい。
2016年7月28日に行われた4年生デモ大会での発表内容です。
今回のデモではスマートフォンをHMD(ヘッドマウンドディスプレイ)にセッティングし
画面に存在する四角い物体を視線マーカーで見るとピアノを演奏することができるアプリを発表しました。
またピアノ演奏アプリの応用として全天球画像に音声を付与し視線マーカーによる選択で環境音を鳴らすアプリも同時に発表しました。
システムの流れは以下の通りです。
開発環境
詳しい説明や実際の動作は以下の動画でご覧下さい。
2016年7月28日に開催されたデモ大会の発表内容です
機能
kinectの音声認識と骨格認識を利用し、
プレイヤーの声を認識、その言葉に対応したキャラクターの顔を
画面上でプレイヤーの頭部分に貼り付けプレイヤーの動きに追従させる
詳しくは以下の動画をご覧ください
開発ツール
・kinect
2016年7月28日に行われたデモ大会での発表内容です。
背景・目的
⇓
人工音声で絵本読み聞かせのできるコンテンツを実現し、
読み聞かせの幅を広げたい
デモ内容



結果・考察
主観評価の結果、通常の速度より話速は遅く、句読点(、。)や文章の切れ目、「て・に・を・は」で間を入れると読み聞かせらしい音声に近づくことがわかった。