音メディア処理研究室

 
卒業研究

マイクロホンアレイを用いた雑音抑圧における目的音の劣化量最適化の研究

研究背景

近年、テレビ会議など離れた場所で同時に会議をするツールが普及してきている。会議室の音声を収音する際、音声のほかに空調の音が混入してしまったりデータの送信時に電気ノイズが付加される場合がある。そういった雑音を抑圧し、より聞き取りやすい音声にすることで会議自体もスムーズに行われる。

研究目的

雑音抑圧の処理の中でも雑音抑圧マイクロホンアレイ(AMNOR)は小規模のマイクロホンアレイでより雑音の抑圧処理の効果を高めるために人の耳では気にならない程度の目的音声の劣化を許容して雑音抑圧の効果を高めている。
本研究では適応形雑音抑圧マイクロホンアレイ(AMNOR)をテレビ会議で用いる際の課題を挙げ、解決のための提案をする。

マイクロホンアレイとビームフォーマ

基本事項としてマイクロホンアレイとビームフォーマという信号処理について説明する。マイクロホンアレイとは複数のマイクロホンをアレイ状にしたものである。本研究では特に直線状アレイのことを指すこととする。マイクロホンアレイを用いて収音することで音の空間的特徴をとらえることが出来る。

ビームフォーマは信号処理の一つでマイクロホンアレイでの収音で得られた音の空間的特徴を用いて位相や振幅を制御する信号処理を実現する。ビームフォーマなど信号処理は雑音抑圧フィルタを作成し、収音した信号に畳みこむといった処理となる。

従来研究:適応形雑音抑圧マイクロホンアレイ(AMNOR)

適応形雑音抑圧マイクロホンアレイ(以降AMNORとする)は雑音抑圧処理の一つで、目的音信号の劣化を許容する代わりにより雑音を抑圧するという特徴がある。AMNORはマイクロホンアレイ、可変デジタルフィルタ、フィルタ制御部の三つで構成されている。フィルタ制御部で係数を増減させることでフィルタの特性を変化させ、許容劣化量を満たすフィルタを設計する。

劣化量と出力信号に残る雑音量

フィルタ内係数と劣化量の関係、また劣化量と出力信号に残る雑音量の関係について説明する。以下に示す図の青線は係数を10の-10乗から10の10乗まで変化させた時の劣化量の変化を表している。グラフから劣化量は係数に対して単調減少することが分かっている。また赤線はその時の出力信号に残る雑音量を示しており、劣化量と雑音量がトレード・オフの関係にあることが分かっている。

課題

AMNORのフィルタを作成するとき初めに許容できる劣化量を指定する必要がある。目的音声と雑音量のトレード・オフの関係から何度か劣化量を変えてフィルタを作成し、より良い信号を選択する。
テレビ会議でこの手法を用いる場合、こういった試行錯誤が出来ないため、多くの人に許容させる劣化量を自動で指定する必要があると考えられる。

提案

提案として、既得情報から劣化量を求める方法として入力信号のSN比を基準に劣化量を選択することを提案する。具体的にはSN比ごとの劣化量を主観的に測定し、測定結果の散布図から近似式を作成する。そして実際にフィルタ処理をする際はその近似式を用いて入力信号のSN比から劣化量を求めることが出来るようにする。

 

実験

主観実験をおこなった。入力信号のSN比が-20dBから20dBまでの5つの信号を用意し、それぞれ固定劣化量0, 0.1, 0.3と提案法による劣化量で処理した信号を聞いてもらい比較する。

実験方法はシェッフェーの一対比較法(浦の変法)を用いた。実験条件を以下に示す。

実験結果

以下に実験結果を示す。縦軸が平均評価値で負に大きい方が良いという評価を得て、正に大きい方が評価を得られなかった、つまり相対的に悪い評価となったことを示す。

横軸にデシベル別信号ごとの結果を表示している。提案法と劣化量を0.1に固定した音声に良い評価が集まっていることが分かる。提案法は劣化量を0と0.3に固定した信号に対して有意差がみられた。また有意差は見られなかったが入力信号のSN比が-10dBと20dBの信号を除いて0.1に固定した信号の法が良いという結果となった。

考察

雑音が多少残ってしまっても劣化量の少ない信号が良いという結果になった。近似式を作成する際に主観的測定のデータを増やすことでより多くの人に合う劣化量を求めることが出来ると考えられる。

まとめ

AMNORをテレビ会議で使用する際の劣化量を求める方法について提案した。主観実験の結果、提案法は劣化量を0, 0.3に固定したものに対して有意差がみられた。

今後の課題として、多くの評価者による主観的測定を行い、近似式を作成することが挙げられる。また今回はSN比が分かっていると仮定したのでSN比が推定される場合の検討をする必要がある。

歩数センサを用いた全天球映像に対応する移動音響の研究

◆背景・目的

  • 近年、VR(Virtual Reality)技術が身近なものになってきており、VRでも臨場感のある音楽や音声が求められてきている。そこで、全天球映像やVR映像が付加された際の距離感についての研究を行った。

◆従来研究

  • 距離知覚に関する様々な研究から距離知覚を近似するための精神的物理的な式を提案した。(Auditory Distance Perception in Humans, Pavel Zahorik, 2005)

r’=kr^a

        r’ :推定された知覚距離

        r :物理的な音源距離

        k, a :適当なパラメータ

  • また、式の分析のため距離知覚実験を行うと平均としてk=1.32, a=0.54という結果が得られた。(r’=1.32r^0.54)

◆アプローチ

  • 音と映像を同時に提示するシステムを作成
  • パラメータの変更

-従来モデルよりも距離の変化に対して音の変化が大きくなるようにパラメータを変更したモデルを提案モデル(r’=2.64r^0.54)とし、距離知覚実験を行った。以下にシステムの構成図を示す。

◆実験環境

  • 本実験では作成したシステムを用いて、スピーカーから被験者自身までの距離を選択肢から回答してもらう。

実験とは音声の長さなどの変更を加えていますが実験の参考動画を作成いたしましたのでヘッドホンなどを用いてご覧ください。

 

◆実験結果

距離知覚実験の散布図を以下に示す。横軸は提示距離、縦軸は回答した距離とする。

  • 誤差の大きい回答が減少

以下に各距離の誤差の平均と被験者ごとの誤差の平均を示す。

  • 0.6(m), 0.8(m), 2.2(m), 2.5(m)では有意差が見られるほどでないが誤差が減少
  • 被験者によって従来モデルと提案モデルでの結果に違いが見られる。

◆まとめ

  • 目的

-全天球映像での距離知覚を再現する音の作成

  • アプローチ

-従来モデルのパラメータの変更とシステムの作成

  • 結果

-従来モデルと比較して、提案モデルのほうが提示距離との誤差は減少したが有意差が見られるほどではなかった。

  • 課題

-被験者の距離知覚の違いによる影響→距離知覚の個人性についての検証を行う必要性

全天球型高臨場感音響のための頭部伝達関数の補間に関する研究

研究背景・目的

  • 近年、スマートフォンの普及により全天球動画,VRの視聴が気軽にできる環境が整ってきている.そこで音声に臨場感を付与するにはHRTFを使用する必要がある.
    そこで本研究では,ラグランジュ補間を用いてHRTFの補間を行い補間精度を向上させ、より自然な音像定位を実現する研究です.

  • HRTFについて
    音源から出た音が人間の両耳に到達するまでに,耳や顔などの体の各部によって音が反射・回折して音響的に変化した特徴が含まれるインパルス応答である。さらに,左右の耳に音が到着する時間差(ITD),音量差(ILD)も含まれる。
    これらすべての情報が含まれているものがHRTFである.
  • ラグランジュ補間について

  • 頭部運動フィルタ
  • 概要
    • スマートフォンの方位センサーにより頭部水平回転を取得し,頭部の角度に合わせたフィルタを入力信号に適用し,ヘッドホンから再生します.
    • フィルタを頭部運動に追従させることで頭外定位しやすくなります.
    • 自然な音像定位を再現を目指します.
  • MATLABを使ったリアルタイムフィルタ
      スマートフォンから送信された頭部の水平角を読み込み,顔の水平角によってフィルタを切り替えながら入力信号に適用し,計算結果をヘッドホンから出力します.
頭部追従システム
システム構成

方位センサー


    • 評価実験
    • 客観評価と主観評価について下図で示す.

客観評価

主観評価


  • 結果
  • 線形2点補間とラグランジュ補間の補間精度の比較した結果
    音源に近い方向の補間精度は線形2点補間よりもラグランジュ補間のほうが良い結果が得られた.

  • 線形2点補間とラグランジュ補間を使用したHRTFの音像移動の主観評価を比較した結果
      頭部運動時での音像移動の評価では、線形2点補間よりもラグランジュ補間のほうが良い結果が得られた.


  • 結論
  • ラグランジュ補間によるHRTF振幅応答の補間を提案しました.
    また補間を用いた細かい角度間隔のフィルタを作成した.
    実験の結果,音源に近い方向のHRTF振幅応答の補間では提案手法のほうが補間精度が良い結果であることがわかりました.またラグランジュ補間を使用した細かい角度間隔のフィルタの音像移動が良くなることが分かりました。
  • 今後の課題
  • 頭部運動を計測するために作成したスマートフォン用アプリのセンサーの誤差の問題を解決する必要があると考えます.

非負値行列因子分解の多チャンネル化による高性能音源分離に関する研究

研究背景・目的

近年、私達の身の周りにはスマートフォンやハンズフリー、テレビ会議システムなどといった音声を取り扱う機器が広く普及しています。これらを利用する場合に、周囲の雑音や反響音、複数話者の音声がマイクに入ってくると、目的とする音の抽出や認識が難しくなるといった問題が生じます。そこで、用いられる技術として音源分離の研究が盛んに行われており、様々な手法があります。その中でも比較的新しい手法であるマルチチャネルNMFに着目しました。この手法は空間情報を用いることで高精度に音源分離を行うことが出来ます。しかし、初期値にランダムな値を設定する従来のマルチチャネルNMFは自由度の高いモデルであるため局所最適解に陥りやすく、分離性能が初期値に依存してしまうことが課題として挙げられています。

本研究では、従来法でチャネル数を増やした場合におけるマルチチャネルNMFの分離性能の分析を実験的に行い、そこで生じる問題点について提案法によるアプローチで解決を行います。

マルチチャネルNMFおよびシングルチャネルNMFの概要は吉山さん、三浦さんの記事を参考にして下さい。
https://www-ai1.csis.oita-u.ac.jp/?page_id=538
https://www-ai1.csis.oita-u.ac.jp/?page=1946

実験条件

以下の図に示す環境で測定されたインパルス応答を音楽データに畳みこみ、2-6チャネルの評価信号を作成しました。使用マイクロホン番号及び音源位置、分離処理に用いるパラメータは下図参照下さい。ここでは、シード値用意して生成したランダムな初期値パターンを10個用意して、各チャネルで3音源の平均SDRを比較します。SDRとは分離性能を評価するための指標で、数値が高いほど分離性能が良いことを表します。なお、結果のグラフには平均SDRとSDRのばらつきの大きさを表す標準偏差をエラーバーで示します。

チャネル数を増やした場合

以下の図に示すように、従来法でチャネル数を増やして音源分離を行うとチャネル数の増加に伴い分離性能が低下してしまうことが確認されました。原因として、チャネル数が増加すると行列に対する自由度も増加するため、より局所最適解に陥りやすくなると考えられます。そこで、これらの問題を解決するための手法を提案します。

提案手法

これまでの研究でマルチチャネルNMFは空間相関行列Hに対する初期値依存性が大きいことが分かっています。そこで、分離性能が良かった時の分離後の空間相関行列Hは理想に近いパラメータが推定出来ているのではないかと考えました。
mチャネルで分離を行い、mチャネルの空間相関行列Hは、m+1チャネルの空間相関行列Hの部分行列になっていることを利用して、SDRが最も高い時の分離後の空間相関行列Hを次のm+1チャネルの空間相関行列Hの初期値に設定し、音源分離を行います。m = 2, 3, 4, 5 とし、チャネル数増加に伴い逐次的にこの処理を行います。始めに音源分離を行う2チャネルの初期値には従来法と同様にランダムの値を設定しています。

実験結果

以下に示す実験結果から従来法よりも分離性能が向上していることが確認出来ます。また、チャネル数増加に伴い分離性能が向上しているということが見られました。

まとめ

従来のマルチチャネルNMFではチャネル数が増加すると分離性能が低下してしまうという問題点があることを確認しました。この問題を解決するために良いパラメータを推定出来ている行列を逐次的に設定することで局所最適解に陥るのを避け、マイクロホン数の増加に伴う多くの情報量を適切に扱えるために分離性能が向上したと考えられます。
この研究は2017年春に開催される音響学会に提出する予定なので、興味を持った方は是非調べてみて下さい。最後まで読んでいただきありがとうございました。

多様な雑音環境下における音声認識のための最適な雑音抑圧方法の研究

研究背景

近年音声認識技術は様々なときに、様々な場所で、様々なときに用いられています。
この技術は雑音の無い環境における音声認識の精度はとても高いのですが、雑音のある環境での音声認識はまだ十分ではありません。

従来研究

私たちの研究室では、非負値行列因子分解(以下NMFと呼びます)を用いた研究を行っています。
その中で私たちの研究室の三浦さんによる、NMFをマルチチャネル拡張したマルチチャネルNMF(以下MNMFと呼びます)を用いた雑音抑圧手法があり、その手法ではMNMFでの空間相関行列での初期値にバイナリマスクを用いた際に、ランダムに与えていた従来法よりも雑音抑圧性能が向上しているといった研究があります。
三浦さんの研究に関してはこちらをご覧ください。

研究目的

街中には様々な雑音環境があり、いかなる環境においても雑音抑圧を行えることが必要です。
現状での雑音抑圧方法のひとつに非負値行列因子分解による手法があるのですが、その技術をさらに改良して音声認識率の向上を図りたいと考えています。

提案手法

この研究の最終目標として雑音環境の音声に対して雑音環境を判断し、判断した結果を基に最適な雑音抑圧方法とNMFを組み合わせて認識率の向上を図ります。
この時環境判断に関しては、事前に雑音環境を学習させたデータをもとに雑音環境を判断し、判断した結果を基にNMF処理した音声にたいして最適な処理方法を選択します。
そして、処理した音声を音声認識させ、音声認識結果を基に良かった場合はそのまま音声出力し、悪かった場合は処理方法を変更して再び音声認識をこころみるといった物となります。

本研究では、先ほどのようなシステムを実現する前段階として、処理方法を選択する際に、どのような手法のどのようなパラメータが、環境雑音に対して適切であるかどうかを調査します。
今回は特に、NMF処理の後処理としてウィナーフィルタとウェーブレット変換を用いた際における適切なパラメータと音声認識率との関係について調査します。

認識実験

認識実験では、本研究における提案手法が有効であるかどうかの実験を行いました。
この実験において、雑音環境はCHiMEChallenge4のデータからバス、カフェ、歩行者天国、交差点の4環境を、各環境で実際に目的音を収音したREALデータと、室内で録音した目的音を各環境データに畳み込んだSIMUの2種類の8通りの環境を対象に評価を行いました。
また、雑音環境の情報を与えて環境毎に手法を変えた既知の場合と環境の情報を与えていない未知との場合に分けて実験を行いました。

認識実験結果

認識実験の結果です。
環境が未知の場合、従来のNMFのみの手法と比べて大幅に単語誤り率が大きくなっており、従来手法を越えることはできませんでした。
また、環境が既知の場合も、未知の場合と比較して多少改善されていますが、それでも従来法を超えることはできませんでした。

考察

今回の実験ではまず認識実験の前に行った予備実験にて、予備実験の環境を想定した4環境を用意し、その環境でのSDR改善量からパラメータを選択しました。しかし、認識実験に用いた環境と全く同じではないため、そのことが認識率に影響を及ぼしているのではないかと考えています。
またパラメータの選択に関してですが、今回は、雑音を混入させた音声からウィナーフィルタまたはウェーブレット変換を用いた際のSDRの改善量からパラメータの選択を行ったのですが、SDR自体が改善していても音素が変質していたなどといったことも考えられるため、事前に検討する段階から音声認識率の良し悪しでパラメータの選択を行うべきであったと考えています。
また、雑音環境が既知の場合と未知の場合とを比較して、既知の場合のほうが単語誤り率が低いことから、環境情報を与えることは必要であると考えています

まとめ

本研究では、雑音環境に頑健な抑圧方法を実現するために、従来のNMFの手法に学習を用いた雑音抑圧方法を提案しました。
その中で、特に提案システムを実現する前段階として、どのような手法のどのパラメータが環境雑音に対して適切かどうかの調査に焦点をおき、NMF処理の後処理としてウィナーフィルタとウェーブレット変換を利用した認識実験を実施しました。
その結果認識実験では、従来手法を越える結果を得ることができず、その原因として、事前に検討していたパラメータが認識実験の結果と合わなかったなどといったことが考えられます。

今後の課題

今回の研究ではウィナーフィルタとウェーブレット変換を利用しましたが、それ以外の処理方法についても検討を行う必要があるのではないかと考えています。
また、考察にもありましたが事前に検討する段階においてSDRによる評価尺度ではなく、音声認識率による評価尺度にてパラメータを調査する必要があると考えています。
また、それらを十分に行った後、今後は学習の方法について具体的に検討する必要があると考えています。

全天球型立体音響のためのマイクロホンアレイを用いた多チャネル収音の研究

研究背景・目的
近年、VR(バーチャルリアリティ:仮想現実)が身近になってきており、今後様々な業界に進出していくと考えられる。
VRはとても高い臨場感を再現しているが、さらに高い臨場感の高いものを得るには、映像による臨場感はもちろんだが、音も臨場感を出していくことが重要である。
臨場感を出すためには、音像定位(音の到来方向の再現)の再現を行っていく必要があり、本研究では、音像定位精度を高めることによって、高い臨場感を再現することを目的としている。

従来研究
環境音の収録では様々な方向を向いた場合の音を同時に収録する必要があるので、同心円状に放射状に16個のマイクを設置できる球形マイクロホンアレイを作製した。
実際に作製されたものが以下の左図、実験結果が以下の右図である。

様々な方法を提案した結果、「2ch」という方法が一番良い結果となったが、それでも0.33と低い値である。
「2ch」とは「2チャネル選択」のことで、例として正面0度方向に目的音があるときは90度方向の収録音を右のチャネルに、270度方向の収録音を左のチャネルに割り当てる方法である。

アプローチ方法
収音した音に特定方向の強調処理を行うことで、音像定位精度を上げることを考える。
システムの全体図を以下に示す。

遅延和アレイで特定方向を強調し、ウィーナーフィルタで強調した信号から背景雑音を取り除き、各方向に応じたHRTFを畳み込むことで、音像定位精度が向上するのかを検証する。

実験条件
実験条件と実験環境を以下に示す。

上図の環境で収音した音に処理を加え、HRTFを畳み込んだ音を被験者に聴いてもらい、目的音がどこから聞こえてくるかを回答してもらった。

実験結果
処理結果
強調処理と抑圧処理の実験結果を以下に示す。波形とSN比から、目的音が強調され雑音が抑圧されていることが分かる。

音像定位結果
音像定位実験結果を以下に示す。横軸が呈示角度、縦軸が回答角度、黒丸の大きさは回答者の人数を表しており、黒丸が大きいほど回答者も多いということを表している。
定位正答率を見てもらうと分かるが、従来法との間に差が現れなかった。差が現れなかった理由としては、処理した音が少し歪んでいたことが考えられる。また、他人のHRTFによる個人性の問題も挙げられる。

他人のHRTFを使用すると、前後誤りというものが生じることがある。前後誤りというのは正面0度方向から音が到来しているが、180度方向から音が到来しているかのように聞こえてしまうような前後の方向誤差のことである。
右図の提案法において、その前後誤りが多く見受けられたので、前後誤りを無いものとした結果を以下に示す。

まとめ

  • 高い臨場感の再現
  • 特定方向からの音の到来を感じさせる収音処理の提案
      ・全天球型に対応するようなマイクロホンアレイの作製
      ・遅延和アレイによる特定方向の強調
      ・ウィーナーフィルタによる周りの雑音の抑圧
  • 強調処理と抑圧処理は良い結果を得られたが、音像定位実験では従来研究と提案法では結果に差が表れなかった。しかし、前後誤りを無いものとした場合においては提案法の方が、右上がり対角線上に円が集中し、定位できていることが分かった。

今後の課題

  • 処理した音の歪みの削減
  • 動的バイノーラル信号の作成・・・スマートフォンを用いて向いた方向の音を呈示するシステムを利用して、方向誤差がどのように変化するか検証する必要がある。

マルチチャネルNMFを用いた音源分離における 初期値依存性の挙動解析の研究

研究背景・目的

下の左図のように複数話者が存在する場合、目的話者の声を聞き取るのは困難です。そこで音源分離という技術で各話者ごとの声に分離することで、下の右図のように目的話者の声を抽出することが可能となります。

miura1

音源分離には独立成分分析や特異値分解などいくつか手法がありますが、その中でも比較的新しい手法であるマルチチャネルNMFに着目します。この手法は、空間情報を使うことで高精度に音源分離をすることが出来ます。しかし、従来のマルチチャネルNMFは自由度の高いモデルであるので、後述する初期値によって分離性能のばらつきが大きな問題となっています。

本研究では、通常ランダムに設定される初期値に対して、どの情報の初期値が分離性能を左右するのか解析を行います。マルチチャネルNMFおよびシングルチャネルNMFの概要は吉山さんの記事を参考にして下さい。

https://www-ai1.csis.oita-u.ac.jp/?page_id=538

初期値依存性の挙動解析

マルチチャネルNMFで観測信号を音源分離することで、観測信号を示す行列Xを「どのような音が含まれるか」を示す行列T、「その音がいつ鳴っているか」を示す行列V、「その音がどの音源から鳴っているか」を示す行列Z、「どの方向に音源が存在するか」を示す行列Hに分解することが出来ます。今回は推定が比較的容易であると考えられる行列Tと行列Hに着目します。下図はマルチチャネルNMFの動作の流れを表します。

miura1この図のように、ランダムに設定された各行列の合成値と入力信号を比較して、各行列の値が入力信号に近づくように更新式を繰り返し適用します。この時、初期値がランダムに与えられるため、同じデータを分離する時でも分離性能に違いに出てしまうのが問題となっています。そこで、どの情報の初期値が分離性能を左右するのか解析を行います。

ここでは、ランダムな初期値パターンを10 個作成し、各パターンで分離を行います。分離結果が良かったパターンの更新後の各行列は、正しく音源分離が出来ている理想的な値であると仮定し、各パターンの他の初期値は変えずに、更新後の最良の行列を初期値として設定することで実験を行います。分離する観測信号は、楽器および音声の3つから構成された音楽データで、4曲分用意しました。以下は分離結果となっています。

miura3横軸は音楽データの種類を、縦軸はSDRと呼ばれる分離性能を表します。SDRの数値が高いほど、分離性能が良いことを表します。また、エラーバーはデータのばらつきである標準偏差を表します。”random”は初期値がランダム、”best_T”は最良の行列Tを使用、”best_H”は最良の行列Hを使用、”bestT&H”は最良の行列Tおよび最良の行列Hを使用したことを示します。

この表から、最良の行列を初期値とすることで分離性能が向上していることが見られます。また、行列Tと行列Hの両方を最良の値にすることで、分離性能のばらつきが大幅に減少しています。このことから、「どのような音が含まれるか」と「どの方向に音源が存在するか」という情報が分離性能を左右するということが考えられます。

まとめ

今回の研究で「どのような音が含まれるか」と「どの方向に音源が存在するか」という情報の初期値に分離性能が左右されるということが分かりました。さて、実際にこれらの情報をどのように取得すれば良いのかということですが、この記事では省略させて頂きます。この研究は2015年春に開催される音響学会に提出予定なので、気になった方は是非調べてみてください。簡単な説明でしたが、ここまで読んで下さりありがとうございました。音源分離に興味を持たれたなら幸いです。

多チャンネル収音による頭部運動追従型高臨場感ヘッドホン再生の研究

研究背景・目的

5.1chサラウンドシステムといった多数のスピーカを用いることによって高臨場な音場を再現することが可能となってきたが、スピーカの設置の困難さにより普及が進まないと考えられる。

そこで、スピーカを設置せずとも高臨場な音場を再現できるようなヘッドホン再生の研究を行った。a47b2771c2afdaca6838bacab1266b39

従来研究

臨場感を出すためには、残響感(音の響き)と音像定位(音の到来方向)の再現を行っていく必要がある。

そこで、音像定位の誤差を少なくする手法として動的バイノーラル信号を用いる手法が挙げられている。(「動けよ、さらば定位されん」2014 日本音響学会 平原)39b9c491a6f4140c12149d9fdcbd097e

従来研究では、テレヘッドを用いて収音を行おり、テレヘッドの詳細に関しては下の映像をご覧ください

 

アプローチ方法

テレヘッドは収音場所に移動させる手間がかかるといった問題があると考え、信号処理によって動的バイノーラル信号の再現を行っていきたいと考えた。

信号処理によって動的バイノーラル信号を再現する方法として頭部運動に合わせて受聴者のHRTFを切り替えていく方法が考えられる。

しかし、HRTFは測定していない方向の再現ができないため、すでに測定されたHRTFと音の到来方向を再現するアンビソニックスと呼ばれる技術を用いて動的バイノーラル信号の生成を行う。

dfa87a0c6601acbf1d570e76582fa3c1

実験環境

本実験ではkinectと呼ばれるデバイスを用いて受聴者の頭部運動を取得した。

使用機器を以下図のように配置する。

HeadMove_kankyo

5秒間白色雑音を再生し、再生した後に受聴者には音が聞こえてきた方向を回答してもらった。

頭部静止時実験では受聴者には頭を動かさないように指示し、頭部追従時では受聴者には必ず頭を動かすように指示した。

実験結果

音像定位実験の散布図を以下に示す。

0160380234a1f34e932c91951f453b2d

頭部静止時に比べ東部追従時のほうが

・右上がり対角線上に大きく外れて知覚した受聴者の数が減少

・右上がり対角線上に円が集中

の2点が言え、呈示角度との誤差の大きさが小さくなっていることがわかる。

まとめ

頭部静止時に比べ、頭部追従時のほうが呈示角度との誤差の大きさが小さくなっており、頭部追従による音像定位の向上効果が見られることがわかった。

そのため、HRTFとアンビソニックスを用いた手法でも動的バイノーラル信号の生成が可能であることがわかった。

 

今後の課題

頭部追従を行った場合でも右上がり対角線上外に大きな円が存在しているため、より定位精度を向上させていく必要がある。

本研究では、水平面上のみしか検証を行っていないため正中面でも動的バイノーラル信号の生成が可能か検証を行っていく必要がある。

音響情報を用いた講義音声の自動要約の研究

◆研究目的

・たくさんの音声コンテンツがあることによって自分に必要な情報がどれか分からない
・時間がない中で必要な情報のみを抜き出して聞きたい

私の研究では上に述べたような背景から、音声情報を要約した情報にすることを目的としています。
また、要約をする際には、単語の意味を理解しながら要約をするものが多いですが、
今回の研究では主に音声情報を用いることによってより単語学習の必要のない要約を目指しています。

◆音声情報について

今回用いる音声情報は周波数、パワー、話速、単語の繰り返しです。

  1. 周波数とは…声の高さに相当する
  2. パワーとは…声の大きさに相当する

◆提案手法

【システム】

    下記のシステムの提案をします。

system

    >話速、周波数、パワー、単語の繰り返しの情報をSVMを用いることによって重要な文か重要な文でないかを判断します。

◆実験方法

【正解データ作成】

被験者 7名

重要文を20%~30%抽出してもらう

→3人以上が重要とした文章を正解データとする

 

【提案手法データ作成】

 

data1

上図のデータのように要約したいデータではない残りのデータ(ABC)の重要文データをSVMでモデル化した後に

要約したいデータ(D)の韻律情報データのみをSVMの式で計算することにより要約データの作成をする。

(ここで重要文データとは韻律情報と正解データのことをさす)

【比較手法データ作成】

比較手法作成においては今回は音声認識結果をそのまま言語解析ソフトで要約した。

 

◆実験結果

実験結果

平均では提案手法が一番高いことが分かった。

しかし、分散分析を行った結果、分散比の値がF境界値より小さかったため差があるとはいえないという結果となった。

 

◆実験からの考察

①優位な差が得られなかった

データ数が少ない

②パワーの値の影響

一致率の一番低かったCのデータはパワーの値の標準偏差が他のデータに比べて大きい

→パワーの値のばらつきによって大きな影響を受けているのではないか

③従来研究に比べて一致率が低い

韻律情報データのモデルが少ない

韻律情報の種類が少ない

 

◆まとめ

・音声認識率の低い状態での音声要約手法の提案

– 韻律情報のみを用いることによって音声要約を行う

・結果

-言語情報を用いて要約するよりも平均の一致率が高い

パワーの値のばらつきが分類に影響を与えるのではないか

・課題

– 優位な差が得られなかったため,今後データを増やすことによってより正確なデータにする

– 一致率を従来研究に近づける

– 音声データの時間を増やす

個人性を失わない音声合成に向けた短時間録音での音声データ作成法の研究

研究背景・目的

普段は何気なく使っている「自分の声」を病気などで失ってしまうことがあります。

そのように声を失ってしまった方のコミュニケーション手段には、50音ボードや合成音声での発話などが挙げられますが、そのような手段があるとしても自分の声を失ってしまうということは精神的な苦痛も大きいと考えられます。
そこで、声を失ってしまった後も自分の声でコミュニケーションを取る方法として「マイボイス」というものがあります。

本研究では、マイボイスで使用する音声データを短時間で録音することによって、患者さんの負担を軽減することを目的としています。
また、負担軽減だけでなくなるべく個人性を失わないような方法を検討します。

アプローチ方法

音の子音部と母音部に着目して、異なる話者間で子音部と母音部を入れ替えて個人性知覚の実験を行った研究があり、この研究結果から話者の個人性の判断は母音部の影響を受けやすいことが分かっています。そこで・・・

ap

このように考え、研究を進めていきます。

イメージ図

①音声提供者とマイボイス利用者の2種類の音声データを用意し、
話者間で子音部と母音部を入れ替えて音をつなぎ合わせます。
このとき、マイボイス利用者は母音のみ録音しておきます。
入れ替えを行うのは母音・撥音以外の全ての音です。

下の図は「か」の音を作成する際のイメージ図です。

②発話に必要な全ての音に対して①の作業を行い、マイボイス利用者の音声データを作成します。

my2

③作成した音声データを用いて聴取実験を行います。

img4なお、音声の編集には「Praat(http://www.fon.hum.uva.nl/praat/)」を使用します。

評価実験

実験目的

単語単位で入れ替え音声を聞いた場合も母音部の 話者の個人性が保たれるか調査することを目的とします。

実験方法

①話者二名のサンプル音声を聞いて話者の学習を行う

img5

②音声(原音声,入れ替え音声)を聞いてもらい、
どちらの声に聞こえるか二択で答えてもらう

img6

③流した単語がしっかりと聞こえたか3段階(聞こえた・一部聞こえた・聞こえなかった)で評価してもらう
img7

また、このときよく聞こえなかった単語については実際に聞こえた音を手元の紙に記入してもらいます。この結果から、単語・音素ごとに一致率(しっかりとその音に聞こえたかどうか)を算出します。

実験結果

下の図が実験結果です。話者間入れ替え音声で母音部の話者と答えた割合の平均が95%であることから、単語単位で入れ替え音声を聞いた場合にも母音部の話者の個人性が保たれることがわかりました。

また、一致率について見ると、単語ごとの平均一致率は78%、音素ごとの平均一致率は90%であることがわかりました。その中でナ行・マ行・ヤ行・パ行の一致率が平均よりも低かったことについては、一致率の低かった音の多くは有声音(発話の際に声帯の振動を伴う音)であるため、子音と母音の切り分けが困難であり、つなぎ合わせがしづらいといったことが考えられます。

原音声の話者識別正答率

話者間入れ替え音声で母音部の話者と答えた割合

単語一致率

kekka2

まとめ

母音のみ本人の声を使用し、子音は他人のものを使用することによって録音する音の数を減らし、録音時間を短縮する手法を提案しました。

単語単位で入れ替え音声を聞いた場合も母音部の 話者の個人性が保たれるか評価実験を行ったところ、単語単位の音声も母音部の話者の個人性が保たれることが分かりました。このことから録音時間の短縮は可能であると考えられます。

今後は単語一致率をあげるために一致率が低かった音の編集方法の見直しを行うこと、また音声データを増やして実験を行っていくことによってつなぎやすい声・つなぎにくい声の検証を行っていくことが課題となります。