人工知能第一研究室

 
卒業研究

全天球映像のためのマイクロホンアレイを用いた音像定位強調の研究

研究背景・目的

  • スマートフォンの普及により全天球映像が気軽に視聴できる環境が出来つつある。
  • 動画配信サイト(YouTubeなど),SNS(facebookなど)も360度動画に対応しており,VRコンテンツ,ゲームなどのサービスも普及してきている。
  • しかし,3Dオーディオへの対応はまだ始まったばかりである。
    • Facebook 360 Spatial Workstation
    • Google Omnitone   etc…
  • 「全天球映像」とは「前後左右頭上から足元まで全視野を覆うような映像」のことをいう。
  • このような映像では,音を明確に感じさせること(音像定位強調)が必要であるため,これを実現させることが目的である。

解決したい課題

  • 従来研究であるアンビソニックスでは,複数の音源になると,音波の重畳により音の到来方向の再現が困難になるという課題がある。
  • そのため,複数音源で立体音を再現するには,複数の音源を音源ごとに強調する必要がある。
  • これにより,定位感が得られると考えられる。

アプローチ方法

  • システム構成は下図のようになっている。
  • 「方向別強調処理」では,指向性制御に用いるMVDR(Minimum Variance Distortionless Response)と,雑音抑圧に用いるWienerフィルタによって,各方向の音を強調する。

予備実験

  • MVDRとWienerフィルタによる方向別強調の効果を確認することが目的である。
  • 以下の場合のSNR(Signal-to-Noise Ratio)と音を比較する。
    • 処理前
    • MVDR処理後
    • MVDR + Wienerフィルタ処理後
  • 条件
    • 実験場所:理工8号館(合同棟)7階実験室
    • 目的音:女性の声
    • 雑音:白色雑音(拡散性)
    • サンプリング周波数:48000Hz
    • 目的音に畳み込んだインパルス応答*:研究にあたり作製したマイクロホンアレイで測定したもの
    • マイク数:8
    • スピーカ数:目的音1, 雑音4

*インパルス応答:部屋の特性を表す

実験結果

  • SNRの比較(値が大きいほど雑音が少ない)
    • 処理前(8ch平均):-0.4966 dB
    • MVDR処理後:7.2344 dB
    • MVDR + Wienerフィルタ処理後:13.4433 dB
  • 2つの処理を行った後では,処理前より13.9399 dBの改善が見られた。

考察

  • SNRの改善は見られたが,まだ十分な性能が得られていないため,Wienerフィルタの推定方法について検討が必要である。
  • SNRの向上に伴うSD(Spectrum Distortion)の低下が考えられるため,音質とSNRのバランスを考慮する必要がある。

まとめ

  • 本研究は,全天球映像における音の定位感を向上させるために,音を方向別に強調する手法を提案した。
  • 予備実験として,MVDRとWienerフィルタの組み合わせによる方向別強調を行い,強調はされたが効果が十分ではなかった。
  • そのため,Wienerフィルタの推定方法を工夫して性能改善を図る。

重回帰分析を用いた頭部伝達関数の推定における説明変数選択に関する研究

研究背景

  • 近年、ヘッドホンで音楽を聴く機会が増えてきている。しかし、ヘッドホンで聞くと頭の中から音が鳴っているように聞こえる。そこで、頭部伝達関数(HRTF)と音源とを畳み込むことで、ヘッドホンでも3次元的のサウンドを得ることができ、立体的なサウンドを楽しめることができる。

  • 頭部伝達関数(HRTF)について
    • 音源から出た音が受聴者の外耳道入口に到着するまでに、生じる音の変化を伝達関数として表現したものであり、音源からの左右の耳への音の到達時間差と強度差それぞれが含まれている。

 

研究目的

  • 頭部伝達関数(HRTF)を測定するには、無響室などの測定環境と角度ごとに測るため膨大な時間がかかる。またHRTFには個人性があり、他人のHRTFを使用すると、音源がうまく定位できない問題があります。そこで測定することなく、個人のHRTFを推定する。

従来研究

  • HRTFは頭部や耳介の形状に依存すると考えられる。9種類の身体的特徴量とHRTFの振幅応答との関係をもとに、重回帰分析を用いてHRTFを推定していきます。

参考文献(重回帰分析に基づく頭部伝達関数の推定)

解決したい課題

  • 参考文献では使用した9種類の身体的特徴はダミーヘッドの作成時に定められた基準点を参考に選んでいるが、推定する際には必要なのかが不明である。
  • 9種類の身体的特徴の中で推定するHRTFにあまり影響を及ぼしていない身体的特徴を除き、最適な説明変数を選択し重回帰分析を行うことが必要である。

アプローチ方法

  • 多重共線性の可能性があと、正しく推定することができないため、VIF統計量を用いて説明変数間に非常に強い相関を除いてく。
  • 今回対象としたHRTFが水平面上のものであるため、9種類の身体的特徴のうち水平方向の身体的特徴で重回帰分析を行い推定していく。

VIF統計量

水平方向の身体的特徴

重回帰分析

従来研究の追試実験

  • 9種類の身体的特徴から重回帰分析を行い、HRTFを推定できるか確認
    • 使用データ数:80名
    • 身体的特徴量:9種類
    • 使用したHRTF:0度から355度まで5度間隔で72方向(名古屋大学HRTFデータベース)
    • サンプリング周波数:48kHz
    • 帯域:1kHzから12kHz

実験結果

評価方法

以下の評価項目で比較していく

  1. VIF統計量を用いて説明変数同士の相関関数の高いものを除いた説明変数で重回帰分析を行い推定
  2. 水平方向の身体的特徴量で重回帰分析を行い推定
  3. 従来研究

今後の課題

説明変数の他の選択方法を試していき、重回帰分析を行って推定していく。そこで推定したものをスペクトル歪みで評価していき、評価実験を進めていきたい。

不随意的嚥下音の統計解析による機能評価の研究

平成29年10月10日に行われた卒業研究中間発表の内容です。

 

背景

一般的に老化に伴い嚥下障害を患う確率が高くなるが、軟らかめな食事が増えてきたことや、スマートフォンを見ながらの「ながら食事」を行う人が増えてきた今、嚥下障害を患っている若者も増加しつつある。

食事や水分摂取に関わる嚥下障害は患者のQOLの低下に繋がるだけでなく、日本人の死因の第3位である”肺炎”を引き起こす恐れがある。

嚥下障害の有無には、X線ビデオ透視検査などの機器が使われる検査があるが被爆の恐れを考慮し、近年では聴診器を患者の頚部に当てて嚥下音を聴取する聴診法でスクリーニング検査をする傾向が見られており、その精密化が求められている。

しかし、異常音の判定には熟練度が必要であり、患者の呼気が弱い、嚥下中のむせない誤嚥の場合は検出することが難しいとされている。

 

研究目的

簡単かつ侵襲性の無い計測方法で嚥下音の録音が収集が可能であり、嚥下音だけの情報から嚥下機能の状態を評価する指標の提案を行いたい。

 

嚥下・嚥下音とは

  • 嚥下

食塊を胃に送り込むために脳から命令を受けて舌や頚部の筋肉が複雑な運動を行うこと。

意識的に筋肉を動かしていることから”随意的な運動”となる。

http://www.swallow-web.com/engesyogai/

  • 嚥下音

嚥下運動の際に発生する音。

-Ⅰ音(20~100Hz)

喉頭蓋の閉鎖運動の際に発する音

-Ⅱ音(50~150Hz,400~750Hz)

食物が食道を通過する際に発生

-Ⅲ音(20~100Hz)

喉頭蓋の開放運動に際に発生

 

従来研究

「スペクトログラムと音声波形による嚥下音の特徴」(矢北、2015)

《目的》

スペクトログラムと音声波形から嚥下音の特徴を明らかにする

《結果》

・嚥下音の全体の時間は平均で2.5(s)

・Ⅰ・Ⅱ・Ⅲ音は同じような周波

数帯を持っている

他者間、個人内でも嚥下音のスペクトログラムに共通する特徴は無い

《課題》

個人差、または、随意的嚥下音運動によるばらつきが示唆されている

 

解決したい課題

これまでの嚥下音に関する研究では、個人差や個人内での筋肉の運動の差(随意的な運動)からくるデータの差などを考慮しておらず、嚥下音の波形や継続時間などには大きなばらつきが生じていた。

そのため、いかに安定性の高い嚥下音のデータを得るにはどうすれば良いのかを考えた。

アプローチ方法

データのばらつきは随意的な運動からくるものだと推定し、睡眠中の嚥下音を抽出することで不随意的嚥下運動から発生する嚥下音の抽出を行い、随意的・不随意的な嚥下音の”Ⅰ・Ⅱ・Ⅲ音の間隔”、”嚥下音の継続時間”を特徴量としてばらつきの差を調査した。

 

予備実験

《目的》

・個人差のばらつきの調査

・随意と不随意での嚥下のばらつきの調査

《実験方法》

・随意的な嚥下(仰向けの状態)と不随意的な嚥下の録音を行う

・ウェーブレット変換により周波数の平均が高い順に3箇所取り出し、Ⅰ・Ⅱ・Ⅲ音とする

嚥下音信号のウェーブレット変換

・随意的・不随意的な嚥下音の、Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間の標準偏差を求め、ばらつきの差を調査する

《使用機器》

嚥下音を録音する際に、

レコーダ:V-803(下図左)

マイク:咽喉マイク(下図右)

を接続して使用した。

レコーダ、咽喉マイク

《実験条件》

 

実験条件

・個人差

複数人の場合と、個人のみの場合の随意的嚥下音のばらつきの差を求める。

・随意・不随意

個人の随意的・随意的な嚥下音のばらつきの差を求める。

結果

①被験者:複数人(14名)

嚥下:随意的

②被験者:個人

嚥下:随意的

③被験者:個人

嚥下:不随意的

○標準偏差

考察、まとめ


・嚥下障害の早期発見のために音だけの情報から嚥下機能の状態を評価する指標の提案

・嚥下音の特徴分析の予備実験より以下のことが分かった

―Ⅰ・Ⅱ・Ⅲ音の間隔や継続時間は個人差が大きい可能性

―不随意的なデータの安定性が最も高い可能性

・今後は統計的に優位な差が示せるようにデータを増やしていく

 

今後の課題、進め方進め方

・引き続き睡眠時の嚥下音を録音収集

―比較のため被験者の人数を増やす

・嚥下機能評価のための特徴量の提案

―振幅のピーク値から得た特徴量

―Ⅰ音、Ⅱ音、Ⅲ音の周波数帯域

・評価実験

―特徴量から個人の識別

劣決定条件のブラインド音源分離におけるマルチチャネル非負値行列因子分解を用いたアルゴリズムの研究

背景


私たちの生活している環境には様々な音が存在しており、その中から特定の音を抽出する技術、音源分離が求められています。

例)音声認識、雑音抑圧、ユーザによる既存音楽の再編集…etc

 

従来研究


  • マルチチャネルNMF(MNMF)

-劣決定条件(音源数>マイク数)で、マイク間の位相情報を利用して音源分離を行います。

  • 独立低ランク行列分析(ILRMA)

-優決定条件(音源数≦マイク数)で、空間モデルと音源モデルを交互に学習します。

 

目的


従来研究の2つの手法にはそれぞれ長所と短所があり、MNMF は音源数に関わらず音源分離が可能ですが、計算コストが大きく、処理が遅いという問題があります。一方、ILRMA は計算コストが少なく、処理が速いのですが、音源数とマイク数が同じでなければならないという問題があります。

 

そこで本研究では、MNMF と ILRMA を組み合わせて、劣決定条件(音源数>マイク数)で処理が高速なアルゴリズムの作成を目指します。

 

提案手法


本研究では、まず観測信号に対してMNMF を行い、音源をいくつかに分割します。

その後、分割した音源に対してILRMA を用いて、音源分離を行います。

この手法によって、従来のMNMF より少ない更新回数で分割し、ILRMA で分割した音源を分離することで、従来のMNMF より高速な音源分離ができるのではないかと考えています。

 

予備実験


今回行った予備実験では、MNMF を用いて楽器数4の音源を楽器数2の音源2つずつになるように分割しました。

 

実験環境


実験結果


また、ギターとドラムの位置を変えた場合の結果が以下のようになります

考察


  • MNMF で音源を分割する場合、音源の位置ごとに2つずつに分割された

→MNMF は楽器の位相情報を用いるため、ステレオの音源で右側と左側に大別され、右側に配置された楽器の音源と、左側に配置された楽器の音源に分割されたのではないかと考えられます。

  • 分割の組み合わせによっては、分離精度が低くなった

→楽器ごとの周波数特性の違いから、似通った周波数の組み合わせであれば精度は高くなり、違いが大きい組み合わせであれば制度が低くなるのではないかと考えられます。

まとめ


  • MNMF とILRMA を組み合わせたアルゴリズムを考案しました
  • MNMF を用いた音源分割の予備実験を行いました
  • 分割の特徴として、位置ごとに分割されること、楽器の組み合わせによって精度が異なることがわかりました

今後の課題


今後の課題としては

  • MNMF で分割した音源に対してILRMA で分離
  • 音源の位置による精度低下の問題
  • MNMF とILRMA の組み合わせたアルゴリズムの実装

以上の3つについて検討していきたいと考えています

音響レンズを用いた遠距離集音の研究

研究背景

一般の人が鳥の鳴き声、集音者が集音するのに困難である場所(災害現場等) での集音は、野生動物の場合近づくことで逃げられてしまい集音できなかったり、集音時困難な場所での集音は撮影者が危険になったりとなかなか手軽に集音することは困難である。そのため通常は遠距離の音を集音する際は、遠距離を集音する専用の機材を用いて集音している。

しかしこれらは大掛かりな機材や、大量のマイクなどコストがかかっている。そこでこれらの機材を用いず集音を行える風船音響レンズに着目した。

 

風船音響レンズ

風船音響レンズは、風船内に空気より音速の遅い気体(例:二酸化炭素、塩素) を封入することにより、空気と封入した気体の境界で音波が屈折することを用いて音波を集束させるものである。

研究目的

しかし風船のような封入する気体の量に左右される複雑な形状の音響レンズの焦点距離を正確に測ることは困難である。従来の方法では光学レンズの近似式から求めていたが実際の焦点距離とは大きく差が出てしまっていた。

そこで、本研究では、遠距離集音を行う際従来の手法のように大型の機材を大量の機材を扱わない、風船音響レンズを用いて遠くの音を集音することを目的とし、風船音響レンズの焦点距離を風船の形状からシュ
ミレーションによって正確に求められるようにする。

 

このようにシュミレーションを行った結果、光学的レンズの近似式を用いる手法より正確な値を求めることに成功した。

実環境実験

そこで、実環境において以上のシュミレーションを用いて集音実験を行った。

このように、シュミレーションによる焦点距離で集音した結果他の条件と比較し集音できていることが分かった。このシュミレーションによる焦点距離の計測は有効であると判断できる。

今後の課題

本研究については次のような課題が残る。まず、遠距離での集音ということであったが、本研究では室内での実験しか行っておらず、外での実験を行う必要がある。また、室内での環境においての集音についても極端に大きな結果が見られなかったため無響室での集音や、本実験では音速の遅い気体として二酸化炭素のみを使用していたがより音速が遅い気体についての集音についても検討が必要であると考えられる。

 

 

 

フルート奏者と聴取者における聞こえの違いについての研究

背景・目的


楽器の練習には実技練習も大切だが、理想の音のイメージを持つ事も重要であり、プロの演奏を録音したCD 音源を聴く方法が気軽に出来る為多く行われているが、奏者がどんな音を聴いて吹いているかは分からない。

そこで、経験楽器であるフルートに着目して”フルート演奏の技術向上のためのプロの音源を演奏者が聴いている音に変換する演奏支援システムの開発”を目指して、本研究ではフルート奏者と聴取者の聞いている音の違いを客観評価を含めて明らかにすることを目的とする。

アプローチ方法


  • 録音音源の分析(客観評価)
  • 聴覚的違いの主観評価
  • 録音条件

 

分析


周波数特性の比較を行った結果、全体的に演奏者側で聴く音の方が音圧が高く高周波数帯では差が大きかった。

また、波形を比較した結果

 

聴覚的違いの主観評価


フルート経験者5名にaとbどちらが吹いている感覚に近いか回答してもらった。
その結果、聴取者側の音源では息をはきながら聴いた方が演奏時の感覚に近いという結果が得られた。

まとめ


フルートにおける演奏技術向上の支援のシステム開発の第一歩として、奏者と聴取者の聴こえの違いを客観評価を含む分析を行った。
分析の結果、その時々の演奏者コンディションの影響もあるとは考えられるが、奏者と聴取者それぞれの聴く音には周波数特性や波形に違いがある事が分かった。主観評価では、音源によって差はあるが息をはきながら音源を聴くと通常時よりも演奏している感覚に近いという結果が得られた。

卒論発表_1353004

子どもへの絵本読み聞かせ音声についての研究

研究背景


  • 幼い頃に一度は親や先生にしてもらった絵本の読み聞かせ
  • 読み聞かせは親と子のコミュニケーションの手段だけではなく
    科学的にも効果があると実証されている

    • 読み聞かせ中の脳の働きを調べる実験(泰羅雅登研究チーム、2008 )
  • 近年スマートフォンの普及により絵本に関するアプリケーションが多数存在する

 

従来の絵本アプリケーションについて


  • 絵本を扱うアプリケーションは大きく分けて3種類ある
    • 「紙絵本をデジタル化し自由に読むことができるもの(動く絵本を含む)」
    • 「ナレーションによる読み聞かせを行ってくれるもの」
    • 「自分のオリジナルの絵本が作成できるもの」
  • 読み聞かせを行ってくれるアプリケーションはあらかじめ
    録音された音源を再生しているだけである

    • そのため、従来の絵本の内容と異なる絵本(創作絵本など)を読んでくれるアプリケーションは存在しない

オリジナル絵本の読み聞かせを行うにあたり、
自由な発話が行える音声合成システムに着目

  • 現存している物語のパロディ作成&読み聞かせを行うことのできる児童向けアプリ「こえでものがたりをつくろう!」を作成
  • 音声合成システムとして、Android用読み上げ機能TTS(Text To Speech)を使用し読み聞かせを行っている

 

研究目的


作成したアプリの読み聞かせ音声は単調で
実際の人間が絵本の読み聞かせをした際の音声と異なるように感じた

より絵本の読み聞かせ時の音声に近い
「絵本読み聞かせ風人工音声」を作成する必要がある


絵本を読み聞かせる際の声に着目し、
絵本読み聞かせ音声の特性を分析

関連研究


「乳児の絵本読み聞かせ場面における情緒応答的かかわりに関する研究母親と女子大学生の比較
(高島由佳子、2009)

母親10名と育児未経験者である女子大学生15名の
乳児(生後5か月)10名に対する対応の違いを比較している

→対乳児音声の特徴など

 

<結果>

母親、学生ともに、乳児音声の基本周波数、持続時間が共に
上昇、増加し、読み聞かせ時にマザリーズが出現する

マザリーズ(対乳児音声)


  • マザリーズとは養育者が乳幼児に話しかける時の音声で、別名
    対乳児音声(Infant-directed speech;IDSとよび、
    成人に話しかける時の音声を対成人音声(Adult-directed speech;ADSとよぶ
  • IDSはADSよりも幼児の注意を引き、親しみやすい印象を与える
  • IDSの特徴
    • 基本周波数が高い
    • 基本周波数の変動範囲が広い
    • 発声時間が短い
    • 発話ポーズが長い
    • 発声速度が遅い    など

解決したい課題


絵本読み聞かせ風人工音声の作成に向けて
絵本を読み聞かせる際の声に着目

対乳児音声の特徴項目を参考に
絵本読み聞かせ時の音声の特徴を
主観的なものだけではなく、数値的に分析

アプローチ方法


  • 子どもへの絵本の読み聞かせ経験のある者数名を話者に選定し、音声を録音
  • 使用絵本は絵本ごとの特徴がみられる可能性があるため複数冊用意
  • 絵本読み聞かせ音声との比較としてニュース原稿の朗読も行う
  • 対乳児音声の特徴を元に録音音声をPraatで分析、分析する項目は以下の通りである
    • 基本周波数(ピッチ)
    • 発声時間
    • 発話ポーズ時間
    • 発声速度

 

分析


普段小中学生を対象に活動している絵本読み聞かせサークル
「結い」に所属している20代の女子学生3名を話者として、
絵本読み聞かせとニュース原稿の朗読を行ってもらい、
録音音声をpraatにて分析

録音システム:スマートフォン用録音アプリ「Hi-Q MP3 Rec」
(サンプリングレート:44kHz、ビットレート:128kbps)

録音環境:大学内の空き教室

 

分析に使用した絵本


  • 図書館の職員と話者である結いの学生に協力してもらい、
    絵本を選定
  • 音素バランス性も考慮し、選定した絵本は大きく分けて
    日本人作家と外国人原作の絵本の二つである

【日本人原作絵本】

  • 「ぐりとぐら」 作:中川李枝子 画:大村百合子
  • 「めっきらもっきら どおんどん」 作:長谷川摂子 画:降矢奈々

【外国人原作絵本】

  • 「すてきな 三にんぐみ」 作:トミー=アンゲラー 訳:今江祥智
  • 「かいじゅうたちのいるところ」
    原作:モリース・センダック 訳:神宮輝夫

 

分析に使用したニュース原稿


音声言語としては最も規範性が高いと評価されるNHK
アナウンサーのニュース朗読の一例としてとりあげられている
自然なイントネーションによるニュース朗読原稿を使用

 

分析結果


上記の結果をまとめた表↓

 

考察


<今回得られた絵本読み聞かせ音声の特徴>

従来の対乳児音声の特徴をほぼ得ていたが、発声速度に関しては対乳児音声の特徴と異なる結果が得られた

→これは、聴取者である子どもが聞き取りやすいよう、話者が一文字一文字、丁寧にハキハキと絵本を読んでいるからと考えられる

<読み方の特徴>

  • 句読点(、。)や文章の切れ目、「て・に・を・は」で間をあける
  • 「おおきな」「いっぱい」などの大きさや量を表す単語を強調する

 

まとめ


  • 多数の絵本読み聞かせアプリケーションが存在するが、
    オリジナル絵本の読み聞かせを行ってくれるものは存在しない

→絵本読み聞かせ風人工音声の作成を提案

  • 作成のため、対乳児音声の特徴項目を元に絵本読み聞かせ時の音声の特徴を主観的なものだけではなく、数値的に分析

→従来の対乳児音声の特徴をほぼ得ていたが、発声速度に関しては対乳児音声の特徴と異なる結果が得られた

<今後の進め方>

絵本の物語の展開や会話文と地の文、登場人物の感情ごとに
分析し、より細かく特徴を調べ、変化があるのかを検討していく必要がある


学士論文

卒論発表スライド

マイクロホンアレイを用いた雑音抑圧における目的音の劣化量最適化の研究

研究背景

近年、テレビ会議など離れた場所で同時に会議をするツールが普及してきている。会議室の音声を収音する際、音声のほかに空調の音が混入してしまったりデータの送信時に電気ノイズが付加される場合がある。そういった雑音を抑圧し、より聞き取りやすい音声にすることで会議自体もスムーズに行われる。

研究目的

雑音抑圧の処理の中でも雑音抑圧マイクロホンアレイ(AMNOR)は小規模のマイクロホンアレイでより雑音の抑圧処理の効果を高めるために人の耳では気にならない程度の目的音声の劣化を許容して雑音抑圧の効果を高めている。
本研究では適応形雑音抑圧マイクロホンアレイ(AMNOR)をテレビ会議で用いる際の課題を挙げ、解決のための提案をする。

マイクロホンアレイとビームフォーマ

基本事項としてマイクロホンアレイとビームフォーマという信号処理について説明する。マイクロホンアレイとは複数のマイクロホンをアレイ状にしたものである。本研究では特に直線状アレイのことを指すこととする。マイクロホンアレイを用いて収音することで音の空間的特徴をとらえることが出来る。

ビームフォーマは信号処理の一つでマイクロホンアレイでの収音で得られた音の空間的特徴を用いて位相や振幅を制御する信号処理を実現する。ビームフォーマなど信号処理は雑音抑圧フィルタを作成し、収音した信号に畳みこむといった処理となる。

従来研究:適応形雑音抑圧マイクロホンアレイ(AMNOR)

適応形雑音抑圧マイクロホンアレイ(以降AMNORとする)は雑音抑圧処理の一つで、目的音信号の劣化を許容する代わりにより雑音を抑圧するという特徴がある。AMNORはマイクロホンアレイ、可変デジタルフィルタ、フィルタ制御部の三つで構成されている。フィルタ制御部で係数を増減させることでフィルタの特性を変化させ、許容劣化量を満たすフィルタを設計する。

劣化量と出力信号に残る雑音量

フィルタ内係数と劣化量の関係、また劣化量と出力信号に残る雑音量の関係について説明する。以下に示す図の青線は係数を10の-10乗から10の10乗まで変化させた時の劣化量の変化を表している。グラフから劣化量は係数に対して単調減少することが分かっている。また赤線はその時の出力信号に残る雑音量を示しており、劣化量と雑音量がトレード・オフの関係にあることが分かっている。

課題

AMNORのフィルタを作成するとき初めに許容できる劣化量を指定する必要がある。目的音声と雑音量のトレード・オフの関係から何度か劣化量を変えてフィルタを作成し、より良い信号を選択する。
テレビ会議でこの手法を用いる場合、こういった試行錯誤が出来ないため、多くの人に許容させる劣化量を自動で指定する必要があると考えられる。

提案

提案として、既得情報から劣化量を求める方法として入力信号のSN比を基準に劣化量を選択することを提案する。具体的にはSN比ごとの劣化量を主観的に測定し、測定結果の散布図から近似式を作成する。そして実際にフィルタ処理をする際はその近似式を用いて入力信号のSN比から劣化量を求めることが出来るようにする。

 

実験

主観実験をおこなった。入力信号のSN比が-20dBから20dBまでの5つの信号を用意し、それぞれ固定劣化量0, 0.1, 0.3と提案法による劣化量で処理した信号を聞いてもらい比較する。

実験方法はシェッフェーの一対比較法(浦の変法)を用いた。実験条件を以下に示す。

実験結果

以下に実験結果を示す。縦軸が平均評価値で負に大きい方が良いという評価を得て、正に大きい方が評価を得られなかった、つまり相対的に悪い評価となったことを示す。

横軸にデシベル別信号ごとの結果を表示している。提案法と劣化量を0.1に固定した音声に良い評価が集まっていることが分かる。提案法は劣化量を0と0.3に固定した信号に対して有意差がみられた。また有意差は見られなかったが入力信号のSN比が-10dBと20dBの信号を除いて0.1に固定した信号の法が良いという結果となった。

考察

雑音が多少残ってしまっても劣化量の少ない信号が良いという結果になった。近似式を作成する際に主観的測定のデータを増やすことでより多くの人に合う劣化量を求めることが出来ると考えられる。

まとめ

AMNORをテレビ会議で使用する際の劣化量を求める方法について提案した。主観実験の結果、提案法は劣化量を0, 0.3に固定したものに対して有意差がみられた。

今後の課題として、多くの評価者による主観的測定を行い、近似式を作成することが挙げられる。また今回はSN比が分かっていると仮定したのでSN比が推定される場合の検討をする必要がある。

歩数センサを用いた全天球映像に対応する移動音響の研究

◆背景・目的

  • 近年、VR(Virtual Reality)技術が身近なものになってきており、VRでも臨場感のある音楽や音声が求められてきている。そこで、全天球映像やVR映像が付加された際の距離感についての研究を行った。

◆従来研究

  • 距離知覚に関する様々な研究から距離知覚を近似するための精神的物理的な式を提案した。(Auditory Distance Perception in Humans, Pavel Zahorik, 2005)

r’=kr^a

        r’ :推定された知覚距離

        r :物理的な音源距離

        k, a :適当なパラメータ

  • また、式の分析のため距離知覚実験を行うと平均としてk=1.32, a=0.54という結果が得られた。(r’=1.32r^0.54)

◆アプローチ

  • 音と映像を同時に提示するシステムを作成
  • パラメータの変更

-従来モデルよりも距離の変化に対して音の変化が大きくなるようにパラメータを変更したモデルを提案モデル(r’=2.64r^0.54)とし、距離知覚実験を行った。以下にシステムの構成図を示す。

◆実験環境

  • 本実験では作成したシステムを用いて、スピーカーから被験者自身までの距離を選択肢から回答してもらう。

実験とは音声の長さなどの変更を加えていますが実験の参考動画を作成いたしましたのでヘッドホンなどを用いてご覧ください。

 

◆実験結果

距離知覚実験の散布図を以下に示す。横軸は提示距離、縦軸は回答した距離とする。

  • 誤差の大きい回答が減少

以下に各距離の誤差の平均と被験者ごとの誤差の平均を示す。

  • 0.6(m), 0.8(m), 2.2(m), 2.5(m)では有意差が見られるほどでないが誤差が減少
  • 被験者によって従来モデルと提案モデルでの結果に違いが見られる。

◆まとめ

  • 目的

-全天球映像での距離知覚を再現する音の作成

  • アプローチ

-従来モデルのパラメータの変更とシステムの作成

  • 結果

-従来モデルと比較して、提案モデルのほうが提示距離との誤差は減少したが有意差が見られるほどではなかった。

  • 課題

-被験者の距離知覚の違いによる影響→距離知覚の個人性についての検証を行う必要性