音メディア処理研究室

 
2016年度卒業研究

音響レンズを用いた遠距離集音の研究

研究背景

一般の人が鳥の鳴き声、集音者が集音するのに困難である場所(災害現場等) での集音は、野生動物の場合近づくことで逃げられてしまい集音できなかったり、集音時困難な場所での集音は撮影者が危険になったりとなかなか手軽に集音することは困難である。そのため通常は遠距離の音を集音する際は、遠距離を集音する専用の機材を用いて集音している。

しかしこれらは大掛かりな機材や、大量のマイクなどコストがかかっている。そこでこれらの機材を用いず集音を行える風船音響レンズに着目した。

 

風船音響レンズ

風船音響レンズは、風船内に空気より音速の遅い気体(例:二酸化炭素、塩素) を封入することにより、空気と封入した気体の境界で音波が屈折することを用いて音波を集束させるものである。

研究目的

しかし風船のような封入する気体の量に左右される複雑な形状の音響レンズの焦点距離を正確に測ることは困難である。従来の方法では光学レンズの近似式から求めていたが実際の焦点距離とは大きく差が出てしまっていた。

そこで、本研究では、遠距離集音を行う際従来の手法のように大型の機材を大量の機材を扱わない、風船音響レンズを用いて遠くの音を集音することを目的とし、風船音響レンズの焦点距離を風船の形状からシュ
ミレーションによって正確に求められるようにする。

 

このようにシュミレーションを行った結果、光学的レンズの近似式を用いる手法より正確な値を求めることに成功した。

実環境実験

そこで、実環境において以上のシュミレーションを用いて集音実験を行った。

このように、シュミレーションによる焦点距離で集音した結果他の条件と比較し集音できていることが分かった。このシュミレーションによる焦点距離の計測は有効であると判断できる。

今後の課題

本研究については次のような課題が残る。まず、遠距離での集音ということであったが、本研究では室内での実験しか行っておらず、外での実験を行う必要がある。また、室内での環境においての集音についても極端に大きな結果が見られなかったため無響室での集音や、本実験では音速の遅い気体として二酸化炭素のみを使用していたがより音速が遅い気体についての集音についても検討が必要であると考えられる。

 

 

 

フルート奏者と聴取者における聞こえの違いについての研究

背景・目的


楽器の練習には実技練習も大切だが、理想の音のイメージを持つ事も重要であり、プロの演奏を録音したCD 音源を聴く方法が気軽に出来る為多く行われているが、奏者がどんな音を聴いて吹いているかは分からない。

そこで、経験楽器であるフルートに着目して”フルート演奏の技術向上のためのプロの音源を演奏者が聴いている音に変換する演奏支援システムの開発”を目指して、本研究ではフルート奏者と聴取者の聞いている音の違いを客観評価を含めて明らかにすることを目的とする。

アプローチ方法


  • 録音音源の分析(客観評価)
  • 聴覚的違いの主観評価
  • 録音条件

 

分析


周波数特性の比較を行った結果、全体的に演奏者側で聴く音の方が音圧が高く高周波数帯では差が大きかった。

また、波形を比較した結果

 

聴覚的違いの主観評価


フルート経験者5名にaとbどちらが吹いている感覚に近いか回答してもらった。
その結果、聴取者側の音源では息をはきながら聴いた方が演奏時の感覚に近いという結果が得られた。

まとめ


フルートにおける演奏技術向上の支援のシステム開発の第一歩として、奏者と聴取者の聴こえの違いを客観評価を含む分析を行った。
分析の結果、その時々の演奏者コンディションの影響もあるとは考えられるが、奏者と聴取者それぞれの聴く音には周波数特性や波形に違いがある事が分かった。主観評価では、音源によって差はあるが息をはきながら音源を聴くと通常時よりも演奏している感覚に近いという結果が得られた。

卒論発表_1353004

子どもへの絵本読み聞かせ音声についての研究

研究背景


  • 幼い頃に一度は親や先生にしてもらった絵本の読み聞かせ
  • 読み聞かせは親と子のコミュニケーションの手段だけではなく
    科学的にも効果があると実証されている

    • 読み聞かせ中の脳の働きを調べる実験(泰羅雅登研究チーム、2008 )
  • 近年スマートフォンの普及により絵本に関するアプリケーションが多数存在する

 

従来の絵本アプリケーションについて


  • 絵本を扱うアプリケーションは大きく分けて3種類ある
    • 「紙絵本をデジタル化し自由に読むことができるもの(動く絵本を含む)」
    • 「ナレーションによる読み聞かせを行ってくれるもの」
    • 「自分のオリジナルの絵本が作成できるもの」
  • 読み聞かせを行ってくれるアプリケーションはあらかじめ
    録音された音源を再生しているだけである

    • そのため、従来の絵本の内容と異なる絵本(創作絵本など)を読んでくれるアプリケーションは存在しない

オリジナル絵本の読み聞かせを行うにあたり、
自由な発話が行える音声合成システムに着目

  • 現存している物語のパロディ作成&読み聞かせを行うことのできる児童向けアプリ「こえでものがたりをつくろう!」を作成
  • 音声合成システムとして、Android用読み上げ機能TTS(Text To Speech)を使用し読み聞かせを行っている

 

研究目的


作成したアプリの読み聞かせ音声は単調で
実際の人間が絵本の読み聞かせをした際の音声と異なるように感じた

より絵本の読み聞かせ時の音声に近い
「絵本読み聞かせ風人工音声」を作成する必要がある


絵本を読み聞かせる際の声に着目し、
絵本読み聞かせ音声の特性を分析

関連研究


「乳児の絵本読み聞かせ場面における情緒応答的かかわりに関する研究母親と女子大学生の比較
(高島由佳子、2009)

母親10名と育児未経験者である女子大学生15名の
乳児(生後5か月)10名に対する対応の違いを比較している

→対乳児音声の特徴など

 

<結果>

母親、学生ともに、乳児音声の基本周波数、持続時間が共に
上昇、増加し、読み聞かせ時にマザリーズが出現する

マザリーズ(対乳児音声)


  • マザリーズとは養育者が乳幼児に話しかける時の音声で、別名
    対乳児音声(Infant-directed speech;IDSとよび、
    成人に話しかける時の音声を対成人音声(Adult-directed speech;ADSとよぶ
  • IDSはADSよりも幼児の注意を引き、親しみやすい印象を与える
  • IDSの特徴
    • 基本周波数が高い
    • 基本周波数の変動範囲が広い
    • 発声時間が短い
    • 発話ポーズが長い
    • 発声速度が遅い    など

解決したい課題


絵本読み聞かせ風人工音声の作成に向けて
絵本を読み聞かせる際の声に着目

対乳児音声の特徴項目を参考に
絵本読み聞かせ時の音声の特徴を
主観的なものだけではなく、数値的に分析

アプローチ方法


  • 子どもへの絵本の読み聞かせ経験のある者数名を話者に選定し、音声を録音
  • 使用絵本は絵本ごとの特徴がみられる可能性があるため複数冊用意
  • 絵本読み聞かせ音声との比較としてニュース原稿の朗読も行う
  • 対乳児音声の特徴を元に録音音声をPraatで分析、分析する項目は以下の通りである
    • 基本周波数(ピッチ)
    • 発声時間
    • 発話ポーズ時間
    • 発声速度

 

分析


普段小中学生を対象に活動している絵本読み聞かせサークル
「結い」に所属している20代の女子学生3名を話者として、
絵本読み聞かせとニュース原稿の朗読を行ってもらい、
録音音声をpraatにて分析

録音システム:スマートフォン用録音アプリ「Hi-Q MP3 Rec」
(サンプリングレート:44kHz、ビットレート:128kbps)

録音環境:大学内の空き教室

 

分析に使用した絵本


  • 図書館の職員と話者である結いの学生に協力してもらい、
    絵本を選定
  • 音素バランス性も考慮し、選定した絵本は大きく分けて
    日本人作家と外国人原作の絵本の二つである

【日本人原作絵本】

  • 「ぐりとぐら」 作:中川李枝子 画:大村百合子
  • 「めっきらもっきら どおんどん」 作:長谷川摂子 画:降矢奈々

【外国人原作絵本】

  • 「すてきな 三にんぐみ」 作:トミー=アンゲラー 訳:今江祥智
  • 「かいじゅうたちのいるところ」
    原作:モリース・センダック 訳:神宮輝夫

 

分析に使用したニュース原稿


音声言語としては最も規範性が高いと評価されるNHK
アナウンサーのニュース朗読の一例としてとりあげられている
自然なイントネーションによるニュース朗読原稿を使用

 

分析結果


上記の結果をまとめた表↓

 

考察


<今回得られた絵本読み聞かせ音声の特徴>

従来の対乳児音声の特徴をほぼ得ていたが、発声速度に関しては対乳児音声の特徴と異なる結果が得られた

→これは、聴取者である子どもが聞き取りやすいよう、話者が一文字一文字、丁寧にハキハキと絵本を読んでいるからと考えられる

<読み方の特徴>

  • 句読点(、。)や文章の切れ目、「て・に・を・は」で間をあける
  • 「おおきな」「いっぱい」などの大きさや量を表す単語を強調する

 

まとめ


  • 多数の絵本読み聞かせアプリケーションが存在するが、
    オリジナル絵本の読み聞かせを行ってくれるものは存在しない

→絵本読み聞かせ風人工音声の作成を提案

  • 作成のため、対乳児音声の特徴項目を元に絵本読み聞かせ時の音声の特徴を主観的なものだけではなく、数値的に分析

→従来の対乳児音声の特徴をほぼ得ていたが、発声速度に関しては対乳児音声の特徴と異なる結果が得られた

<今後の進め方>

絵本の物語の展開や会話文と地の文、登場人物の感情ごとに
分析し、より細かく特徴を調べ、変化があるのかを検討していく必要がある


学士論文

卒論発表スライド

マイクロホンアレイを用いた雑音抑圧における目的音の劣化量最適化の研究

研究背景

近年、テレビ会議など離れた場所で同時に会議をするツールが普及してきている。会議室の音声を収音する際、音声のほかに空調の音が混入してしまったりデータの送信時に電気ノイズが付加される場合がある。そういった雑音を抑圧し、より聞き取りやすい音声にすることで会議自体もスムーズに行われる。

研究目的

雑音抑圧の処理の中でも雑音抑圧マイクロホンアレイ(AMNOR)は小規模のマイクロホンアレイでより雑音の抑圧処理の効果を高めるために人の耳では気にならない程度の目的音声の劣化を許容して雑音抑圧の効果を高めている。
本研究では適応形雑音抑圧マイクロホンアレイ(AMNOR)をテレビ会議で用いる際の課題を挙げ、解決のための提案をする。

マイクロホンアレイとビームフォーマ

基本事項としてマイクロホンアレイとビームフォーマという信号処理について説明する。マイクロホンアレイとは複数のマイクロホンをアレイ状にしたものである。本研究では特に直線状アレイのことを指すこととする。マイクロホンアレイを用いて収音することで音の空間的特徴をとらえることが出来る。

ビームフォーマは信号処理の一つでマイクロホンアレイでの収音で得られた音の空間的特徴を用いて位相や振幅を制御する信号処理を実現する。ビームフォーマなど信号処理は雑音抑圧フィルタを作成し、収音した信号に畳みこむといった処理となる。

従来研究:適応形雑音抑圧マイクロホンアレイ(AMNOR)

適応形雑音抑圧マイクロホンアレイ(以降AMNORとする)は雑音抑圧処理の一つで、目的音信号の劣化を許容する代わりにより雑音を抑圧するという特徴がある。AMNORはマイクロホンアレイ、可変デジタルフィルタ、フィルタ制御部の三つで構成されている。フィルタ制御部で係数を増減させることでフィルタの特性を変化させ、許容劣化量を満たすフィルタを設計する。

劣化量と出力信号に残る雑音量

フィルタ内係数と劣化量の関係、また劣化量と出力信号に残る雑音量の関係について説明する。以下に示す図の青線は係数を10の-10乗から10の10乗まで変化させた時の劣化量の変化を表している。グラフから劣化量は係数に対して単調減少することが分かっている。また赤線はその時の出力信号に残る雑音量を示しており、劣化量と雑音量がトレード・オフの関係にあることが分かっている。

課題

AMNORのフィルタを作成するとき初めに許容できる劣化量を指定する必要がある。目的音声と雑音量のトレード・オフの関係から何度か劣化量を変えてフィルタを作成し、より良い信号を選択する。
テレビ会議でこの手法を用いる場合、こういった試行錯誤が出来ないため、多くの人に許容させる劣化量を自動で指定する必要があると考えられる。

提案

提案として、既得情報から劣化量を求める方法として入力信号のSN比を基準に劣化量を選択することを提案する。具体的にはSN比ごとの劣化量を主観的に測定し、測定結果の散布図から近似式を作成する。そして実際にフィルタ処理をする際はその近似式を用いて入力信号のSN比から劣化量を求めることが出来るようにする。

 

実験

主観実験をおこなった。入力信号のSN比が-20dBから20dBまでの5つの信号を用意し、それぞれ固定劣化量0, 0.1, 0.3と提案法による劣化量で処理した信号を聞いてもらい比較する。

実験方法はシェッフェーの一対比較法(浦の変法)を用いた。実験条件を以下に示す。

実験結果

以下に実験結果を示す。縦軸が平均評価値で負に大きい方が良いという評価を得て、正に大きい方が評価を得られなかった、つまり相対的に悪い評価となったことを示す。

横軸にデシベル別信号ごとの結果を表示している。提案法と劣化量を0.1に固定した音声に良い評価が集まっていることが分かる。提案法は劣化量を0と0.3に固定した信号に対して有意差がみられた。また有意差は見られなかったが入力信号のSN比が-10dBと20dBの信号を除いて0.1に固定した信号の法が良いという結果となった。

考察

雑音が多少残ってしまっても劣化量の少ない信号が良いという結果になった。近似式を作成する際に主観的測定のデータを増やすことでより多くの人に合う劣化量を求めることが出来ると考えられる。

まとめ

AMNORをテレビ会議で使用する際の劣化量を求める方法について提案した。主観実験の結果、提案法は劣化量を0, 0.3に固定したものに対して有意差がみられた。

今後の課題として、多くの評価者による主観的測定を行い、近似式を作成することが挙げられる。また今回はSN比が分かっていると仮定したのでSN比が推定される場合の検討をする必要がある。

歩数センサを用いた全天球映像に対応する移動音響の研究

◆背景・目的

  • 近年、VR(Virtual Reality)技術が身近なものになってきており、VRでも臨場感のある音楽や音声が求められてきている。そこで、全天球映像やVR映像が付加された際の距離感についての研究を行った。

◆従来研究

  • 距離知覚に関する様々な研究から距離知覚を近似するための精神的物理的な式を提案した。(Auditory Distance Perception in Humans, Pavel Zahorik, 2005)

r’=kr^a

        r’ :推定された知覚距離

        r :物理的な音源距離

        k, a :適当なパラメータ

  • また、式の分析のため距離知覚実験を行うと平均としてk=1.32, a=0.54という結果が得られた。(r’=1.32r^0.54)

◆アプローチ

  • 音と映像を同時に提示するシステムを作成
  • パラメータの変更

-従来モデルよりも距離の変化に対して音の変化が大きくなるようにパラメータを変更したモデルを提案モデル(r’=2.64r^0.54)とし、距離知覚実験を行った。以下にシステムの構成図を示す。

◆実験環境

  • 本実験では作成したシステムを用いて、スピーカーから被験者自身までの距離を選択肢から回答してもらう。

実験とは音声の長さなどの変更を加えていますが実験の参考動画を作成いたしましたのでヘッドホンなどを用いてご覧ください。

 

◆実験結果

距離知覚実験の散布図を以下に示す。横軸は提示距離、縦軸は回答した距離とする。

  • 誤差の大きい回答が減少

以下に各距離の誤差の平均と被験者ごとの誤差の平均を示す。

  • 0.6(m), 0.8(m), 2.2(m), 2.5(m)では有意差が見られるほどでないが誤差が減少
  • 被験者によって従来モデルと提案モデルでの結果に違いが見られる。

◆まとめ

  • 目的

-全天球映像での距離知覚を再現する音の作成

  • アプローチ

-従来モデルのパラメータの変更とシステムの作成

  • 結果

-従来モデルと比較して、提案モデルのほうが提示距離との誤差は減少したが有意差が見られるほどではなかった。

  • 課題

-被験者の距離知覚の違いによる影響→距離知覚の個人性についての検証を行う必要性

全天球型高臨場感音響のための頭部伝達関数の補間に関する研究

研究背景・目的

  • 近年、スマートフォンの普及により全天球動画,VRの視聴が気軽にできる環境が整ってきている.そこで音声に臨場感を付与するにはHRTFを使用する必要がある.
    そこで本研究では,ラグランジュ補間を用いてHRTFの補間を行い補間精度を向上させ、より自然な音像定位を実現する研究です.

  • HRTFについて
    音源から出た音が人間の両耳に到達するまでに,耳や顔などの体の各部によって音が反射・回折して音響的に変化した特徴が含まれるインパルス応答である。さらに,左右の耳に音が到着する時間差(ITD),音量差(ILD)も含まれる。
    これらすべての情報が含まれているものがHRTFである.
  • ラグランジュ補間について

  • 頭部運動フィルタ
  • 概要
    • スマートフォンの方位センサーにより頭部水平回転を取得し,頭部の角度に合わせたフィルタを入力信号に適用し,ヘッドホンから再生します.
    • フィルタを頭部運動に追従させることで頭外定位しやすくなります.
    • 自然な音像定位を再現を目指します.
  • MATLABを使ったリアルタイムフィルタ
      スマートフォンから送信された頭部の水平角を読み込み,顔の水平角によってフィルタを切り替えながら入力信号に適用し,計算結果をヘッドホンから出力します.
頭部追従システム
システム構成

方位センサー


    • 評価実験
    • 客観評価と主観評価について下図で示す.

客観評価

主観評価


  • 結果
  • 線形2点補間とラグランジュ補間の補間精度の比較した結果
    音源に近い方向の補間精度は線形2点補間よりもラグランジュ補間のほうが良い結果が得られた.

  • 線形2点補間とラグランジュ補間を使用したHRTFの音像移動の主観評価を比較した結果
      頭部運動時での音像移動の評価では、線形2点補間よりもラグランジュ補間のほうが良い結果が得られた.


  • 結論
  • ラグランジュ補間によるHRTF振幅応答の補間を提案しました.
    また補間を用いた細かい角度間隔のフィルタを作成した.
    実験の結果,音源に近い方向のHRTF振幅応答の補間では提案手法のほうが補間精度が良い結果であることがわかりました.またラグランジュ補間を使用した細かい角度間隔のフィルタの音像移動が良くなることが分かりました。
  • 今後の課題
  • 頭部運動を計測するために作成したスマートフォン用アプリのセンサーの誤差の問題を解決する必要があると考えます.

非負値行列因子分解の多チャンネル化による高性能音源分離に関する研究

研究背景・目的

近年、私達の身の周りにはスマートフォンやハンズフリー、テレビ会議システムなどといった音声を取り扱う機器が広く普及しています。これらを利用する場合に、周囲の雑音や反響音、複数話者の音声がマイクに入ってくると、目的とする音の抽出や認識が難しくなるといった問題が生じます。そこで、用いられる技術として音源分離の研究が盛んに行われており、様々な手法があります。その中でも比較的新しい手法であるマルチチャネルNMFに着目しました。この手法は空間情報を用いることで高精度に音源分離を行うことが出来ます。しかし、初期値にランダムな値を設定する従来のマルチチャネルNMFは自由度の高いモデルであるため局所最適解に陥りやすく、分離性能が初期値に依存してしまうことが課題として挙げられています。

本研究では、従来法でチャネル数を増やした場合におけるマルチチャネルNMFの分離性能の分析を実験的に行い、そこで生じる問題点について提案法によるアプローチで解決を行います。

マルチチャネルNMFおよびシングルチャネルNMFの概要は吉山さん、三浦さんの記事を参考にして下さい。
https://www-ai1.csis.oita-u.ac.jp/?page_id=538
https://www-ai1.csis.oita-u.ac.jp/?page=1946

実験条件

以下の図に示す環境で測定されたインパルス応答を音楽データに畳みこみ、2-6チャネルの評価信号を作成しました。使用マイクロホン番号及び音源位置、分離処理に用いるパラメータは下図参照下さい。ここでは、シード値用意して生成したランダムな初期値パターンを10個用意して、各チャネルで3音源の平均SDRを比較します。SDRとは分離性能を評価するための指標で、数値が高いほど分離性能が良いことを表します。なお、結果のグラフには平均SDRとSDRのばらつきの大きさを表す標準偏差をエラーバーで示します。

チャネル数を増やした場合

以下の図に示すように、従来法でチャネル数を増やして音源分離を行うとチャネル数の増加に伴い分離性能が低下してしまうことが確認されました。原因として、チャネル数が増加すると行列に対する自由度も増加するため、より局所最適解に陥りやすくなると考えられます。そこで、これらの問題を解決するための手法を提案します。

提案手法

これまでの研究でマルチチャネルNMFは空間相関行列Hに対する初期値依存性が大きいことが分かっています。そこで、分離性能が良かった時の分離後の空間相関行列Hは理想に近いパラメータが推定出来ているのではないかと考えました。
mチャネルで分離を行い、mチャネルの空間相関行列Hは、m+1チャネルの空間相関行列Hの部分行列になっていることを利用して、SDRが最も高い時の分離後の空間相関行列Hを次のm+1チャネルの空間相関行列Hの初期値に設定し、音源分離を行います。m = 2, 3, 4, 5 とし、チャネル数増加に伴い逐次的にこの処理を行います。始めに音源分離を行う2チャネルの初期値には従来法と同様にランダムの値を設定しています。

実験結果

以下に示す実験結果から従来法よりも分離性能が向上していることが確認出来ます。また、チャネル数増加に伴い分離性能が向上しているということが見られました。

まとめ

従来のマルチチャネルNMFではチャネル数が増加すると分離性能が低下してしまうという問題点があることを確認しました。この問題を解決するために良いパラメータを推定出来ている行列を逐次的に設定することで局所最適解に陥るのを避け、マイクロホン数の増加に伴う多くの情報量を適切に扱えるために分離性能が向上したと考えられます。
この研究は2017年春に開催される音響学会に提出する予定なので、興味を持った方は是非調べてみて下さい。最後まで読んでいただきありがとうございました。

多様な雑音環境下における音声認識のための最適な雑音抑圧方法の研究

研究背景

近年音声認識技術は様々なときに、様々な場所で、様々なときに用いられています。
この技術は雑音の無い環境における音声認識の精度はとても高いのですが、雑音のある環境での音声認識はまだ十分ではありません。

従来研究

私たちの研究室では、非負値行列因子分解(以下NMFと呼びます)を用いた研究を行っています。
その中で私たちの研究室の三浦さんによる、NMFをマルチチャネル拡張したマルチチャネルNMF(以下MNMFと呼びます)を用いた雑音抑圧手法があり、その手法ではMNMFでの空間相関行列での初期値にバイナリマスクを用いた際に、ランダムに与えていた従来法よりも雑音抑圧性能が向上しているといった研究があります。
三浦さんの研究に関してはこちらをご覧ください。

研究目的

街中には様々な雑音環境があり、いかなる環境においても雑音抑圧を行えることが必要です。
現状での雑音抑圧方法のひとつに非負値行列因子分解による手法があるのですが、その技術をさらに改良して音声認識率の向上を図りたいと考えています。

提案手法

この研究の最終目標として雑音環境の音声に対して雑音環境を判断し、判断した結果を基に最適な雑音抑圧方法とNMFを組み合わせて認識率の向上を図ります。
この時環境判断に関しては、事前に雑音環境を学習させたデータをもとに雑音環境を判断し、判断した結果を基にNMF処理した音声にたいして最適な処理方法を選択します。
そして、処理した音声を音声認識させ、音声認識結果を基に良かった場合はそのまま音声出力し、悪かった場合は処理方法を変更して再び音声認識をこころみるといった物となります。

本研究では、先ほどのようなシステムを実現する前段階として、処理方法を選択する際に、どのような手法のどのようなパラメータが、環境雑音に対して適切であるかどうかを調査します。
今回は特に、NMF処理の後処理としてウィナーフィルタとウェーブレット変換を用いた際における適切なパラメータと音声認識率との関係について調査します。

認識実験

認識実験では、本研究における提案手法が有効であるかどうかの実験を行いました。
この実験において、雑音環境はCHiMEChallenge4のデータからバス、カフェ、歩行者天国、交差点の4環境を、各環境で実際に目的音を収音したREALデータと、室内で録音した目的音を各環境データに畳み込んだSIMUの2種類の8通りの環境を対象に評価を行いました。
また、雑音環境の情報を与えて環境毎に手法を変えた既知の場合と環境の情報を与えていない未知との場合に分けて実験を行いました。

認識実験結果

認識実験の結果です。
環境が未知の場合、従来のNMFのみの手法と比べて大幅に単語誤り率が大きくなっており、従来手法を越えることはできませんでした。
また、環境が既知の場合も、未知の場合と比較して多少改善されていますが、それでも従来法を超えることはできませんでした。

考察

今回の実験ではまず認識実験の前に行った予備実験にて、予備実験の環境を想定した4環境を用意し、その環境でのSDR改善量からパラメータを選択しました。しかし、認識実験に用いた環境と全く同じではないため、そのことが認識率に影響を及ぼしているのではないかと考えています。
またパラメータの選択に関してですが、今回は、雑音を混入させた音声からウィナーフィルタまたはウェーブレット変換を用いた際のSDRの改善量からパラメータの選択を行ったのですが、SDR自体が改善していても音素が変質していたなどといったことも考えられるため、事前に検討する段階から音声認識率の良し悪しでパラメータの選択を行うべきであったと考えています。
また、雑音環境が既知の場合と未知の場合とを比較して、既知の場合のほうが単語誤り率が低いことから、環境情報を与えることは必要であると考えています

まとめ

本研究では、雑音環境に頑健な抑圧方法を実現するために、従来のNMFの手法に学習を用いた雑音抑圧方法を提案しました。
その中で、特に提案システムを実現する前段階として、どのような手法のどのパラメータが環境雑音に対して適切かどうかの調査に焦点をおき、NMF処理の後処理としてウィナーフィルタとウェーブレット変換を利用した認識実験を実施しました。
その結果認識実験では、従来手法を越える結果を得ることができず、その原因として、事前に検討していたパラメータが認識実験の結果と合わなかったなどといったことが考えられます。

今後の課題

今回の研究ではウィナーフィルタとウェーブレット変換を利用しましたが、それ以外の処理方法についても検討を行う必要があるのではないかと考えています。
また、考察にもありましたが事前に検討する段階においてSDRによる評価尺度ではなく、音声認識率による評価尺度にてパラメータを調査する必要があると考えています。
また、それらを十分に行った後、今後は学習の方法について具体的に検討する必要があると考えています。

全天球型立体音響のためのマイクロホンアレイを用いた多チャネル収音の研究

研究背景・目的
近年、VR(バーチャルリアリティ:仮想現実)が身近になってきており、今後様々な業界に進出していくと考えられる。
VRはとても高い臨場感を再現しているが、さらに高い臨場感の高いものを得るには、映像による臨場感はもちろんだが、音も臨場感を出していくことが重要である。
臨場感を出すためには、音像定位(音の到来方向の再現)の再現を行っていく必要があり、本研究では、音像定位精度を高めることによって、高い臨場感を再現することを目的としている。

従来研究
環境音の収録では様々な方向を向いた場合の音を同時に収録する必要があるので、同心円状に放射状に16個のマイクを設置できる球形マイクロホンアレイを作製した。
実際に作製されたものが以下の左図、実験結果が以下の右図である。

様々な方法を提案した結果、「2ch」という方法が一番良い結果となったが、それでも0.33と低い値である。
「2ch」とは「2チャネル選択」のことで、例として正面0度方向に目的音があるときは90度方向の収録音を右のチャネルに、270度方向の収録音を左のチャネルに割り当てる方法である。

アプローチ方法
収音した音に特定方向の強調処理を行うことで、音像定位精度を上げることを考える。
システムの全体図を以下に示す。

遅延和アレイで特定方向を強調し、ウィーナーフィルタで強調した信号から背景雑音を取り除き、各方向に応じたHRTFを畳み込むことで、音像定位精度が向上するのかを検証する。

実験条件
実験条件と実験環境を以下に示す。

上図の環境で収音した音に処理を加え、HRTFを畳み込んだ音を被験者に聴いてもらい、目的音がどこから聞こえてくるかを回答してもらった。

実験結果
処理結果
強調処理と抑圧処理の実験結果を以下に示す。波形とSN比から、目的音が強調され雑音が抑圧されていることが分かる。

音像定位結果
音像定位実験結果を以下に示す。横軸が呈示角度、縦軸が回答角度、黒丸の大きさは回答者の人数を表しており、黒丸が大きいほど回答者も多いということを表している。
定位正答率を見てもらうと分かるが、従来法との間に差が現れなかった。差が現れなかった理由としては、処理した音が少し歪んでいたことが考えられる。また、他人のHRTFによる個人性の問題も挙げられる。

他人のHRTFを使用すると、前後誤りというものが生じることがある。前後誤りというのは正面0度方向から音が到来しているが、180度方向から音が到来しているかのように聞こえてしまうような前後の方向誤差のことである。
右図の提案法において、その前後誤りが多く見受けられたので、前後誤りを無いものとした結果を以下に示す。

まとめ

  • 高い臨場感の再現
  • 特定方向からの音の到来を感じさせる収音処理の提案
      ・全天球型に対応するようなマイクロホンアレイの作製
      ・遅延和アレイによる特定方向の強調
      ・ウィーナーフィルタによる周りの雑音の抑圧
  • 強調処理と抑圧処理は良い結果を得られたが、音像定位実験では従来研究と提案法では結果に差が表れなかった。しかし、前後誤りを無いものとした場合においては提案法の方が、右上がり対角線上に円が集中し、定位できていることが分かった。

今後の課題

  • 処理した音の歪みの削減
  • 動的バイノーラル信号の作成・・・スマートフォンを用いて向いた方向の音を呈示するシステムを利用して、方向誤差がどのように変化するか検証する必要がある。