マルチチャネルNMFを用いた音源分離における初期値依存性の挙動解析の研究

研究背景・目的

下の左図のように複数話者が存在する場合、目的話者の声を聞き取るのは困難です。そこで音源分離という技術で各話者ごとの声に分離することで、下の右図のように目的話者の声を抽出することが可能となります。

miura1

音源分離には独立成分分析や特異値分解などいくつか手法がありますが、その中でも比較的新しい手法であるマルチチャネルNMFに着目します。この手法は、空間情報を使うことで高精度に音源分離をすることが出来ます。しかし、従来のマルチチャネルNMFは自由度の高いモデルであるので、後述する初期値によって分離性能のばらつきが大きな問題となっています。

本研究では、通常ランダムに設定される初期値に対して、どの情報の初期値が分離性能を左右するのか解析を行います。マルチチャネルNMFおよびシングルチャネルNMFの概要は吉山さんの記事を参考にして下さい。

https://www-ai1.csis.oita-u.ac.jp/?page_id=538

初期値依存性の挙動解析

マルチチャネルNMFで観測信号を音源分離することで、観測信号を示す行列Xを「どのような音が含まれるか」を示す行列T、「その音がいつ鳴っているか」を示す行列V、「その音がどの音源から鳴っているか」を示す行列Z、「どの方向に音源が存在するか」を示す行列Hに分解することが出来ます。今回は推定が比較的容易であると考えられる行列Tと行列Hに着目します。下図はマルチチャネルNMFの動作の流れを表します。

miura1 この図のように、ランダムに設定された各行列の合成値と入力信号を比較して、各行列の値が入力信号に近づくように更新式を繰り返し適用します。この時、初期値がランダムに与えられるため、同じデータを分離する時でも分離性能に違いに出てしまうのが問題となっています。そこで、どの情報の初期値が分離性能を左右するのか解析を行います。

ここでは、ランダムな初期値パターンを10 個作成し、各パターンで分離を行います。分離結果が良かったパターンの更新後の各行列は、正しく音源分離が出来ている理想的な値であると仮定し、各パターンの他の初期値は変えずに、更新後の最良の行列を初期値として設定することで実験を行います。分離する観測信号は、楽器および音声の3つから構成された音楽データで、4曲分用意しました。以下は分離結果となっています。

miura3 横軸は音楽データの種類を、縦軸はSDRと呼ばれる分離性能を表します。SDRの数値が高いほど、分離性能が良いことを表します。また、エラーバーはデータのばらつきである標準偏差を表します。”random”は初期値がランダム、”best_T”は最良の行列Tを使用、”best_H”は最良の行列Hを使用、”bestT&H”は最良の行列Tおよび最良の行列Hを使用したことを示します。

この表から、最良の行列を初期値とすることで分離性能が向上していることが見られます。また、行列Tと行列Hの両方を最良の値にすることで、分離性能のばらつきが大幅に減少しています。このことから、「どのような音が含まれるか」と「どの方向に音源が存在するか」という情報が分離性能を左右するということが考えられます。

まとめ

今回の研究で「どのような音が含まれるか」と「どの方向に音源が存在するか」という情報の初期値に分離性能が左右されるということが分かりました。さて、実際にこれらの情報をどのように取得すれば良いのかということですが、この記事では省略させて頂きます。この研究は2015年春に開催される音響学会に提出予定なので、気になった方は是非調べてみてください。簡単な説明でしたが、ここまで読んで下さりありがとうございました。音源分離に興味を持たれたなら幸いです。

多チャンネル収音による頭部運動追従型高臨場感ヘッドホン再生の研究

研究背景・目的

5.1chサラウンドシステムといった多数のスピーカを用いることによって高臨場な音場を再現することが可能となってきたが、スピーカの設置の困難さにより普及が進まないと考えられる。

そこで、スピーカを設置せずとも高臨場な音場を再現できるようなヘッドホン再生の研究を行った。 a47b2771c2afdaca6838bacab1266b39

従来研究

臨場感を出すためには、残響感(音の響き)と音像定位(音の到来方向)の再現を行っていく必要がある。

そこで、音像定位の誤差を少なくする手法として動的バイノーラル信号を用いる手法が挙げられている。（「動けよ、さらば定位されん」2014　日本音響学会　平原） 39b9c491a6f4140c12149d9fdcbd097e

従来研究では、テレヘッドを用いて収音を行おり、テレヘッドの詳細に関しては下の映像をご覧ください

アプローチ方法

テレヘッドは収音場所に移動させる手間がかかるといった問題があると考え、信号処理によって動的バイノーラル信号の再現を行っていきたいと考えた。

信号処理によって動的バイノーラル信号を再現する方法として頭部運動に合わせて受聴者のHRTFを切り替えていく方法が考えられる。

しかし、HRTFは測定していない方向の再現ができないため、すでに測定されたHRTFと音の到来方向を再現するアンビソニックスと呼ばれる技術を用いて動的バイノーラル信号の生成を行う。

実験環境

本実験ではkinectと呼ばれるデバイスを用いて受聴者の頭部運動を取得した。

使用機器を以下図のように配置する。

HeadMove_kankyo

5秒間白色雑音を再生し、再生した後に受聴者には音が聞こえてきた方向を回答してもらった。

頭部静止時実験では受聴者には頭を動かさないように指示し、頭部追従時では受聴者には必ず頭を動かすように指示した。

実験結果

音像定位実験の散布図を以下に示す。

0160380234a1f34e932c91951f453b2d

頭部静止時に比べ東部追従時のほうが

・右上がり対角線上に大きく外れて知覚した受聴者の数が減少

・右上がり対角線上に円が集中

の2点が言え、呈示角度との誤差の大きさが小さくなっていることがわかる。

まとめ

頭部静止時に比べ、頭部追従時のほうが呈示角度との誤差の大きさが小さくなっており、頭部追従による音像定位の向上効果が見られることがわかった。

そのため、HRTFとアンビソニックスを用いた手法でも動的バイノーラル信号の生成が可能であることがわかった。

今後の課題

頭部追従を行った場合でも右上がり対角線上外に大きな円が存在しているため、より定位精度を向上させていく必要がある。

本研究では、水平面上のみしか検証を行っていないため正中面でも動的バイノーラル信号の生成が可能か検証を行っていく必要がある。

音響情報を用いた講義音声の自動要約の研究

◆研究目的

・たくさんの音声コンテンツがあることによって自分に必要な情報がどれか分からない
・時間がない中で必要な情報のみを抜き出して聞きたい

私の研究では上に述べたような背景から、音声情報を要約した情報にすることを目的としています。
また、要約をする際には、単語の意味を理解しながら要約をするものが多いですが、
今回の研究では主に音声情報を用いることによってより単語学習の必要のない要約を目指しています。

◆音声情報について

今回用いる音声情報は周波数、パワー、話速、単語の繰り返しです。

周波数とは…声の高さに相当する
パワーとは…声の大きさに相当する

◆提案手法

【システム】

下記のシステムの提案をします。

system

>話速、周波数、パワー、単語の繰り返しの情報をSVMを用いることによって重要な文か重要な文でないかを判断します。

◆実験方法

【正解データ作成】

被験者　7名

重要文を20%～30%抽出してもらう

→3人以上が重要とした文章を正解データとする

【提案手法データ作成】

data1

上図のデータのように要約したいデータではない残りのデータ(ABC)の重要文データをSVMでモデル化した後に

要約したいデータ(D)の韻律情報データのみをSVMの式で計算することにより要約データの作成をする。

(ここで重要文データとは韻律情報と正解データのことをさす)

【比較手法データ作成】

比較手法作成においては今回は音声認識結果をそのまま言語解析ソフトで要約した。

◆実験結果

実験結果

平均では提案手法が一番高いことが分かった。

しかし、分散分析を行った結果、分散比の値がF境界値より小さかったため差があるとはいえないという結果となった。

◆実験からの考察

①優位な差が得られなかった

データ数が少ない

②パワーの値の影響

一致率の一番低かったCのデータはパワーの値の標準偏差が他のデータに比べて大きい

→パワーの値のばらつきによって大きな影響を受けているのではないか

③従来研究に比べて一致率が低い

韻律情報データのモデルが少ない

韻律情報の種類が少ない

◆まとめ

・音声認識率の低い状態での音声要約手法の提案

– 韻律情報のみを用いることによって音声要約を行う

・結果

-言語情報を用いて要約するよりも平均の一致率が高い

パワーの値のばらつきが分類に影響を与えるのではないか

・課題

– 優位な差が得られなかったため,今後データを増やすことによってより正確なデータにする

– 一致率を従来研究に近づける

– 音声データの時間を増やす

個人性を失わない音声合成に向けた短時間録音での音声データ作成法の研究

研究背景・目的

普段は何気なく使っている「自分の声」を病気などで失ってしまうことがあります。

そのように声を失ってしまった方のコミュニケーション手段には、50音ボードや合成音声での発話などが挙げられますが、そのような手段があるとしても自分の声を失ってしまうということは精神的な苦痛も大きいと考えられます。
そこで、声を失ってしまった後も自分の声でコミュニケーションを取る方法として「マイボイス」というものがあります。

本研究では、マイボイスで使用する音声データを短時間で録音することによって、患者さんの負担を軽減することを目的としています。
また、負担軽減だけでなくなるべく個人性を失わないような方法を検討します。

アプローチ方法

音の子音部と母音部に着目して、異なる話者間で子音部と母音部を入れ替えて個人性知覚の実験を行った研究があり、この研究結果から話者の個人性の判断は母音部の影響を受けやすいことが分かっています。そこで・・・

このように考え、研究を進めていきます。

イメージ図

①音声提供者とマイボイス利用者の2種類の音声データを用意し、
話者間で子音部と母音部を入れ替えて音をつなぎ合わせます。
このとき、マイボイス利用者は母音のみ録音しておきます。
入れ替えを行うのは母音・撥音以外の全ての音です。

下の図は「か」の音を作成する際のイメージ図です。

②発話に必要な全ての音に対して①の作業を行い、マイボイス利用者の音声データを作成します。

my2

③作成した音声データを用いて聴取実験を行います。

なお、音声の編集には「Praat(http://www.fon.hum.uva.nl/praat/)」を使用します。

評価実験

実験目的

単語単位で入れ替え音声を聞いた場合も母音部の話者の個人性が保たれるか調査することを目的とします。

実験方法

①話者二名のサンプル音声を聞いて話者の学習を行う

②音声(原音声,入れ替え音声)を聞いてもらい、
どちらの声に聞こえるか二択で答えてもらう

③流した単語がしっかりと聞こえたか3段階(聞こえた・一部聞こえた・聞こえなかった)で評価してもらう

また、このときよく聞こえなかった単語については実際に聞こえた音を手元の紙に記入してもらいます。この結果から、単語・音素ごとに一致率(しっかりとその音に聞こえたかどうか)を算出します。

実験結果

下の図が実験結果です。話者間入れ替え音声で母音部の話者と答えた割合の平均が95％であることから、単語単位で入れ替え音声を聞いた場合にも母音部の話者の個人性が保たれることがわかりました。

また、一致率について見ると、単語ごとの平均一致率は78％、音素ごとの平均一致率は90％であることがわかりました。その中でナ行・マ行・ヤ行・パ行の一致率が平均よりも低かったことについては、一致率の低かった音の多くは有声音(発話の際に声帯の振動を伴う音)であるため、子音と母音の切り分けが困難であり、つなぎ合わせがしづらいといったことが考えられます。

原音声の話者識別正答率

話者間入れ替え音声で母音部の話者と答えた割合

単語一致率

kekka2

まとめ

母音のみ本人の声を使用し、子音は他人のものを使用することによって録音する音の数を減らし、録音時間を短縮する手法を提案しました。

単語単位で入れ替え音声を聞いた場合も母音部の話者の個人性が保たれるか評価実験を行ったところ、単語単位の音声も母音部の話者の個人性が保たれることが分かりました。このことから録音時間の短縮は可能であると考えられます。

今後は単語一致率をあげるために一致率が低かった音の編集方法の見直しを行うこと、また音声データを増やして実験を行っていくことによってつなぎやすい声・つなぎにくい声の検証を行っていくことが課題となります。

ロボット音声対話における多重言語モデルを用いた語彙獲得の研究

研究背景

現在、一般家庭や公共空間など身近なところで、お掃除ロボットのようなロボットが普及してきています。

ロボットが環境が変わっても対応できるようにするためには、新しい知識や概念をロボット自身が自動で獲得する必要があります。

研究目的

本研究では、音声対話によってロボットが新しい語彙を獲得することを目的とします。

そこで、ユーザからの発話を複数の音声認識結果を用いて、ユーザの意図に合った語彙を獲得する手法を提案します。

従来研究

語彙獲得についての従来研究では「人間と教え合うロボットインターフェース（山本ら、情報処理vol.49 2008）」という論文があります。

簡単に流れを説明します

ロボットに知らない信号を教える「教示」を行います。

ユーザがリモコンでニュースをつけると、ロボットがその信号を検知します。
ロボットがそのリモコンの信号を知らなければ「今何をしたの？」と対話をはじめます。
ロボットの発話に対してユーザが「ニュースをつけた」返すことで、ロボットが「ニュースをつけた」ということを覚えます

次に「操作」を行います。

ユーザが　「ニュースをつけて」とロボットに発します。
ロボットがその音声を認識し、リモコンの変わりにロボットが操作を行います。

従来研究

解決したい課題

従来研究では、リモコンの信号をロボットが受信し、登録されているか区別を行っていました。

そこで、本研究では音声のみを使いロボットに区別・教示・操作を行いたいと考えました。

しかし、音声のみで行うためには以下の課題があります。

正しく音声認識をすることができなかった場合、新しく登録する語とすでに登録されている単語を区別する必要性
非登録語の動作の決定方法

アプローチ方法

既にある登録語と非登録語の区別

登録語と非登録語の区別には、複数の言語モデルで音声認識し区別を行います。

言語モデルとは、日本語の文法をコンピュータが扱えるようにしたものです。例えば「大分は晴天」「大分は都会」「大分は素晴らしい」しか文法を扱えない場合、「大分は田舎」と発言したら、文法には存在しないため「大分は都会」など近いものが認識結果になります。

今回用いる言語モデルは、毎日新聞社の新聞3年分のデータの言語モデルとガベージモデルを取り入れた文法を用いた言語モデルを使用します。ガベージモデルについてはページの下のほうを見てください。

獲得した命令の動作獲得方法

命令の動作登録には音声対話を用いて行います。

ガベージモデルを取り入れた文法

音声認識するためには、単語と文法を予め登録する必要があります。

しかし、登録されていない命令を発すると、一番近い命令に無理やり当てはめられてしまいます。

そこで非登録語を判断するためにガベージモデルを使用します。

ガベージモデルとは平仮名一文字の任意個の繰り返しを受理する文法で、登録されていない命令が発せられた場合、一文字ずつ認識することが可能になります。

問題点として登録語をユーザが発した場合であっても、ガベージモデルに入ってしまうことがあります。

そのような事態を減少させるために音素間距離を用います。

音素間距離とは2つの文字列の音素がどの程度異なっているかを示す値のことで、音素間距離の小さい命令かどうかを対話によって確認し、操作率を上げます。

システム構図

system2

システムを実行したときの様子

実験

登録されている命令が、音素間距離を用いることによってどの程度認識率が上がるか
登録していない命令を認識できるか
新たに語彙獲得を行い、どの程度ユーザーの意図に合った命令を獲得できているか
新たに登録した命令で動作を行うことができるか

を目的とし以下の実験を行います。

既登録の命令に対する実験
予め登録されている命令を発話してもらい、操作率を検証
非登録の命令に対する実験
登録されていない命令を発話してもらい、操作率を検証

非登録の命令に対する実験では、あらかじめ登録している命令と、ユーザが新たに登録した命令を認識することが可能になる。そのため既登録の命令に対する実験と認識できる命令数を合わせるために、ユーザが追加した命令のみでの操作率も確認した。

結果

佐藤実験結果

佐藤実験結果2

まとめ

ガベージモデルの追加により、登録語と非登録語の区別を98.9％の確率で行うことができるようになった。また、ユーザが新たに追加した命令でも、あらかじめ命令を登録する場合と同程度の操作率を得ることができた。

このことより、音声対話によって動作を獲得することが可能だが、認識精度や、動作の決定方法に大きく影響を受けることがわかった。

今後は動作の決定方法、音声認識に用いる言語モデルなどをさらに検討していく予定です。

演技音声における”間”が与える印象の研究　―役者ロボットを目指して―

演技音声における”間”が与える印象の研究

本研究の概要

本研究では人間に近い自由度の高い演技ロボットの実現を目指して、演技音声という観点でアプローチしていきます。なかでも、登場人物の感情を役者が表現する際にセリフごとの”間”が重要になってくると考えました。そこで演技中の役者の発話の”間”に注目している研究です。

本研究の内容

本研究に関して私が発表を行った資料(2015/10)を掲載しておきます。ご覧ください。
なお、本研究は現在研究中です。詳しい内容や評価実験の結果を更新いたします。

(2016/3/18 追記)

本研究の最終発表(2016/2)を行いました。その際の発表用資料を掲載しておきます。卒論発表_佐藤龍.pdfというファイルです。中間発表_佐藤龍.pdfとあわせてご覧いただければ幸いです。

中間発表_佐藤龍

卒論発表_佐藤龍

サビの連続再生における楽曲印象を用いたプレイリストの自動生成の研究

研究背景・目的

近年、CDや音楽配信サービスなどが普及し、膨大な楽曲の中から聴けるようになりました。それに伴い、音楽を流し聴きするスタイルが増加し、複数の楽曲をメドレーのように楽しみたいという要望が増えています。

大量の音楽を聴取する方法としては、ランダム再生やプレイリストによるものがあります。
しかし、ランダム再生の場合は楽曲間で雰囲気が大きく変わると違和感を覚えたり、またプレイリストを作成するには大量の楽曲の中から選択しなければならないため、手間がかかってしまいます。

そこで、なるべく多くの楽曲を楽しめるようにサビのみを再生し、違和感のないメドレーを自動で生成することを目的としています。

システム構成

違和感のないメドレーを生成するために、楽曲印象を用いて再生順を決定することで違和感を抑えることができると考えています。

例えば、所持している楽曲すべてを「明るい曲」から「暗い曲」へだんだんと移り変わっていくように順番に並べます。
ランダム再生であると前後の楽曲の雰囲気が大きく変化するところで違和感を覚えることがありますが、印象の近い順番で並べると前後の楽曲の雰囲気が似ているため違和感を感じにくくなります。

楽曲間の処理については、クロスフェード処理を行っています。

従来研究

楽曲印象を推定する方法として、ゆらぎ特徴を用いた方法があります。
ゆらぎとは「繰り返されるパターンが時間的に変化する現象」で音楽にもゆらぎがあります。
楽曲の音量、ピッチ、リズムのゆらぎ特徴に着目することで、楽曲印象を推定することが可能となっています。

実験

内容

印象による再生順の決定がどの程度違和感を抑えることができるのかを評価するために、以下の4種類の再生順を用意しました。

聴取者個人の印象に合わせた再生順
聴取者個人の印象に合わせさらにテンポで並べた再生順
ランダムに並べた再生順
テンポで並べた再生順

の４つの再生順を用意しました。
再生順を決定する楽曲印象については、「明るい-暗い」と「激しい-穏やか」の２種類を使用します。
また、ひとつの再生順に使用するサビ曲は5曲としています。

上記1については、聴取者に楽曲をそれぞれの印象に35曲を分類してもらいます。

そして分類結果をもとに別に用意した65曲の印象を推定し、印象で並べることで再生順が決定されます。

プレイリスト

上記2については、上記1のあとにテンポで並び替えることで再生順が決定されます。

これらの再生順を聴いてもらい、違和感があるかどうかを5段階で評価してもらいました。また、どの再生順が一番好みであるかも回答してもらいました。

結果

5に近いほど違和感を抑えられており、良い結果となります。

評価結果

印象順で並べるとランダムより違和感を抑えられる
印象とテンポを組み合わせるとより違和感を抑えられる

ことが結果からわかります。

考察

「印象とテンポを組み合わせた再生順」の評価が「テンポで並べた再生順」の評価を大きく上回ることができなかった結果について

印象推定の正答率が約65%であるため、印象で正しく並べることが難しい
「テンポで並べた再生順」で使用した楽曲の印象が近い

ということが考えられます。

まとめ

楽曲印象で再生順を決定するとランダムより違和感を抑えることができ、また、印象とテンポを組み合わせるとより違和感を抑えることができるとわかりました。

今後は「明るい-暗い」「激しい-穏やか」以外の印象についても検証が必要であると考えています。

音メディア処理研究室

ブログ

マルチチャネルNMFを用いた音源分離における初期値依存性の挙動解析の研究

研究背景・目的

初期値依存性の挙動解析

まとめ

多チャンネル収音による頭部運動追従型高臨場感ヘッドホン再生の研究

音響情報を用いた講義音声の自動要約の研究

◆研究目的

◆音声情報について

◆提案手法

◆実験結果

◆実験からの考察

◆まとめ

個人性を失わない音声合成に向けた短時間録音での音声データ作成法の研究

研究背景・目的

アプローチ方法

イメージ図

評価実験

実験結果

まとめ

ロボット音声対話における多重言語モデルを用いた語彙獲得の研究

演技音声における”間”が与える印象の研究　―役者ロボットを目指して―

本研究の概要

本研究の内容

サビの連続再生における楽曲印象を用いたプレイリストの自動生成の研究

研究背景・目的

システム構成

従来研究

実験

まとめ