音メディア処理研究室

 
卒業研究

ロボット音声対話における 多重言語モデルを用いた 語彙獲得の研究

研究背景

現在、一般家庭や公共空間など身近なところで、お掃除ロボットのようなロボットが普及してきています。

ロボットが環境が変わっても対応できるようにするためには、新しい知識や概念をロボット自身が自動で獲得する必要があります。

 


研究目的

本研究では、音声対話によってロボットが新しい語彙を獲得することを目的とします。

そこで、ユーザからの発話を複数の音声認識結果を用いて、ユーザの意図に合った語彙を獲得する手法を提案します。

 


従来研究

語彙獲得についての従来研究では「人間と教え合うロボットインターフェース(山本ら、情報処理vol.49 2008)」という論文があります。

簡単に流れを説明します

  • ロボットに知らない信号を教える「教示」を行います。
  1. ユーザがリモコンでニュースをつけると、ロボットがその信号を検知します。
  2. ロボットがそのリモコンの信号を知らなければ「今何をしたの?」と対話をはじめます。
  3. ロボットの発話に対してユーザが「ニュースをつけた」返すことで、ロボットが「ニュースをつけた」ということを覚えます
  • 次に「操作」を行います。
  1. ユーザが 「ニュースをつけて」とロボットに発します。
  2. ロボットがその音声を認識し、リモコンの変わりにロボットが操作を行います。

従来研究

 


解決したい課題

従来研究では、リモコンの信号をロボットが受信し、登録されているか区別を行っていました。

そこで、本研究では音声のみを使いロボットに区別・教示・操作を行いたいと考えました。

しかし、音声のみで行うためには以下の課題があります。

  1. 正しく音声認識をすることができなかった場合、新しく登録する語とすでに登録されている単語を区別する必要性
  2. 非登録語の動作の決定方法

 


アプローチ方法

  • 既にある登録語と非登録語の区別

登録語と非登録語の区別には、複数の言語モデルで音声認識し区別を行います。

  • 言語モデルとは、日本語の文法をコンピュータが扱えるようにしたものです。例えば「大分は晴天」「大分は都会」「大分は素晴らしい」しか文法を扱えない場合、「大分は田舎」と発言したら、文法には存在しないため「大分は都会」など近いものが認識結果になります。
  • 今回用いる言語モデルは、毎日新聞社の新聞3年分のデータの言語モデルとガベージモデルを取り入れた文法を用いた言語モデルを使用します。ガベージモデルについてはページの下のほうを見てください。
  • 獲得した命令の動作獲得方法

命令の動作登録には音声対話を用いて行います。

 


ガベージモデルを取り入れた文法

音声認識するためには、単語と文法を予め登録する必要があります。

しかし、登録されていない命令を発すると、一番近い命令に無理やり当てはめられてしまいます。

そこで非登録語を判断するためにガベージモデルを使用します。

  • ガベージモデルとは平仮名一文字の任意個の繰り返しを受理する文法で、登録されていない命令が発せられた場合、一文字ずつ認識することが可能になります。

 

問題点として登録語をユーザが発した場合であっても、ガベージモデルに入ってしまうことがあります。

そのような事態を減少させるために音素間距離を用います。

  • 音素間距離とは2つの文字列の音素がどの程度異なっているかを示す値のことで、音素間距離の小さい命令かどうかを対話によって確認し、操作率を上げます。

 


システム構図

system2


システムを実行したときの様子

 


 

実験

  • 登録されている命令が、音素間距離を用いることによってどの程度認識率が上がるか
  • 登録していない命令を認識できるか
  • 新たに語彙獲得を行い、どの程度ユーザーの意図に合った命令を獲得できているか
  • 新たに登録した命令で動作を行うことができるか

を目的とし以下の実験を行います。

  1. 既登録の命令に対する実験
    予め登録されている命令を発話してもらい、操作率を検証
  2. 非登録の命令に対する実験
    登録されていない命令を発話してもらい、操作率を検証

非登録の命令に対する実験では、あらかじめ登録している命令と、ユーザが新たに登録した命令を認識することが可能になる。そのため既登録の命令に対する実験と認識できる命令数を合わせるために、ユーザが追加した命令のみでの操作率も確認した。


結果

佐藤実験結果

佐藤実験結果2


 

まとめ

ガベージモデルの追加により、登録語と非登録語の区別を98.9%の確率で行うことができるようになった。また、ユーザが新たに追加した命令でも、あらかじめ命令を登録する場合と同程度の操作率を得ることができた。

このことより、音声対話によって動作を獲得することが可能だが、認識精度や、動作の決定方法に大きく影響を受けることがわかった。

今後は動作の決定方法、音声認識に用いる言語モデルなどをさらに検討していく予定です。

演技音声における”間”が与える印象の研究 ―役者ロボットを目指して―

 

 

演技音声における”間”が与える印象の研究

 

本研究の概要

本研究では人間に近い自由度の高い演技ロボットの実現を目指して、演技音声という観点でアプローチしていきます。なかでも、登場人物の感情を役者が表現する際にセリフごとの”間”が重要になってくると考えました。そこで演技中の役者の発話の”間”に注目している研究です。

本研究の内容

本研究に関して私が発表を行った資料(2015/10)を掲載しておきます。ご覧ください。
なお、本研究は現在研究中です。詳しい内容や評価実験の結果を更新いたします。

(2016/3/18 追記)

本研究の最終発表(2016/2)を行いました。その際の発表用資料を掲載しておきます。卒論発表_佐藤龍.pdfというファイルです。中間発表_佐藤龍.pdfとあわせてご覧いただければ幸いです。

中間発表_佐藤龍

卒論発表_佐藤龍

サビの連続再生における楽曲印象を用いたプレイリストの自動生成の研究

研究背景・目的

近年、CDや音楽配信サービスなどが普及し、膨大な楽曲の中から聴けるようになりました。それに伴い、音楽を流し聴きするスタイルが増加し、複数の楽曲をメドレーのように楽しみたいという要望が増えています。

大量の音楽を聴取する方法としては、ランダム再生やプレイリストによるものがあります。
しかし、ランダム再生の場合は楽曲間で雰囲気が大きく変わると違和感を覚えたり、またプレイリストを作成するには大量の楽曲の中から選択しなければならないため、手間がかかってしまいます。

そこで、なるべく多くの楽曲を楽しめるようにサビのみを再生し、違和感のないメドレーを自動で生成することを目的としています。

システム構成

違和感のないメドレーを生成するために、楽曲印象を用いて再生順を決定することで違和感を抑えることができると考えています。

例えば、所持している楽曲すべてを「明るい曲」から「暗い曲」へだんだんと移り変わっていくように順番に並べます。
ランダム再生であると前後の楽曲の雰囲気が大きく変化するところで違和感を覚えることがありますが、印象の近い順番で並べると前後の楽曲の雰囲気が似ているため違和感を感じにくくなります。

system

楽曲間の処理については、クロスフェード処理を行っています。

従来研究

楽曲印象を推定する方法として、ゆらぎ特徴を用いた方法があります。
ゆらぎとは「繰り返されるパターンが時間的に変化する現象」で音楽にもゆらぎがあります。
楽曲の音量、ピッチ、リズムのゆらぎ特徴に着目することで、楽曲印象を推定することが可能となっています。

実験

内容

印象による再生順の決定がどの程度違和感を抑えることができるのかを評価するために、以下の4種類の再生順を用意しました。

  1. 聴取者個人の印象に合わせた再生順
  2. 聴取者個人の印象に合わせさらにテンポで並べた再生順
  3. ランダムに並べた再生順
  4. テンポで並べた再生順

の4つの再生順を用意しました。
再生順を決定する楽曲印象については、「明るい-暗い」と「激しい-穏やか」の2種類を使用します。
また、ひとつの再生順に使用するサビ曲は5曲としています。

上記1については、聴取者に楽曲をそれぞれの印象に35曲を分類してもらいます。

分類

そして分類結果をもとに別に用意した65曲の印象を推定し、印象で並べることで再生順が決定されます。

プレイリスト

上記2については、上記1のあとにテンポで並び替えることで再生順が決定されます。

これらの再生順を聴いてもらい、違和感があるかどうかを5段階で評価してもらいました。また、どの再生順が一番好みであるかも回答してもらいました。

 

結果

5に近いほど違和感を抑えられており、良い結果となります。

評価結果

  • 印象順で並べるとランダムより違和感を抑えられる
  • 印象とテンポを組み合わせるとより違和感を抑えられる

ことが結果からわかります。

考察

「印象とテンポを組み合わせた再生順」の評価が「テンポで並べた再生順」の評価を大きく上回ることができなかった結果について

  • 印象推定の正答率が約65%であるため、印象で正しく並べることが難しい
  • 「テンポで並べた再生順」で使用した楽曲の印象が近い

ということが考えられます。

まとめ

楽曲印象で再生順を決定するとランダムより違和感を抑えることができ、また、印象とテンポを組み合わせるとより違和感を抑えることができるとわかりました。

今後は「明るい-暗い」「激しい-穏やか」以外の印象についても検証が必要であると考えています。

 

画像処理を用いた複数話者に対する音声強調の研究

平成26年10月3日に卒業研究の中間発表がありました。

そこで私が発表した内容を簡単に説明します。

・研究背景,目的

  動画を撮る際に目的の人の声だけを聞きたい。周りの人の声やその他の雑音は聞きたくない。そのように思い、目的音方向の音のみの強調。を研究しています。

・使用デバイス

Kinect

・課題(複数人対応)

 カメラ範囲内の複数人から目的である人を見つけ出すため、骨格検出を行う。

 しかし、現在のKinectのスペックでは骨格検出可能人数は2人まで。

 3人以上いた場合は骨格検出対象者を切り替えていくことで解決させた。

・システムの流れ

 カメラ画像から目的の人のみを見つけ出し、その人の角度情報を取得。

 その角度でマイクロホンアレイで録音した音にMV法を適用し、スピーカーから出力する。

キャプチャ1

 

・予備実験①

 目的は

 目的の人を見つけ出せるか。

 角度の取得ができるか。

 の2つ

キャプチャ2

 

目的のどちらも成功!!!

・予備実験②

 目的

 角度を先に与えておき、二人画面上にいた場合の音声強調(MV法)の精度はどの程度か。

 実験の環境

キャプチャ3

 

 SN比の改善量

 男性方向の音の強調

 1.6949dB → 5.3013dB       約3.6dBの改善

 女性方向の音の強調

 -1.6949dB → 3.4998dB      約5.2dBの改善

 結果

 有効であると判断。

まとめ

 この予備実験①と②を組み合わせることで画面上に複数人いた場合も目的音方向の音のみを強調することができるはず。

 今後は、この2つを組み合わせることを進めていき、最終的にはリアルタイムで処理できるようにしたい。

場所検索

受聴者位置検出による指向性追従スピーカーシステムの研究(研究中)

研究背景

人が生活している空間の中には音がたくさんあふれています。その音はさまざまな人に情報を伝えるため発信されていますが、その情報を必要としない人にとっては騒音と感じられます。

図1

こういった環境において、音を必要としている人のみに向けて届けることでそれ以外の人への騒音を減らすことができます。

キャプチャ

この状況を実現するには、「指向性スピーカー」の開発が必要になります。

研究目的

本研究では、複数人が存在する生活空間で特定の聴取者のみへ音を集中させることを目的とします。

図3

※生活空間として一つの部屋を想定

従来研究

 

ここでは本研究と関連・類似する目的や、技術について検証されている研究を紹介します。

  • 音の指向性を作る手法
  • 音を届けたい場所(受聴者)の検出
  • 指向性の向きをかえる手法

についてそれぞれ実験・検証されています。

図4

 

これらの研究には、用いた技術によってそれぞれ特徴があります。

01

人認識の精度

 

音を届けたい場所(受聴者)の検出のために、人の位置を見つける2つの手法が研究されています。”画像”による認識と、”深度“による認識です。

この二つを比べると、奥行きの情報を得られるという点で、深度による人認識のほうが優れています

02 03

 

音量・音質

指向性を持つ音を作る」には、超音波スピーカーがよく用いられます。しかし超音波スピーカーは優れた指向性を持つ一方、短所も存在します。1つは通常のスピーカーに比べて「音質が悪い」こと。もう1つは「音量に制限がある」ことです。音量については、人体に向けて超音波を照射する際、健康への影響がでることが考えられるために制限がかかります。

設置・組込み、可搬性

指向性の向きをかえる」とき、2つの手法が考えられます。複数のスピーカーから「出る音を制御する」(スピーカーアレイ)か、指向性を持つ音を出す「スピーカーの向きをかえる」、の2つです。

後者のスピーカーの向き自体をかえる手法については、設置・組込みに不便持ち運びがしにくいといった問題が存在します。スピーカーの向きをかえるということはシステムにモーターなどの可動部が存在することになり、”動くのに十分なスペースの確保”、”移動させる際の破損の危険”といった問題への対処が 必要になります。

 アプローチ

04

先述の従来研究を踏まえて、人認識の精度音量・音質設置・組込みや可搬性全てにおいて問題のないスピーカーシステムの開発を目標に研究を行います。このために、「深度情報」を用いた人認識、超音波やモーターを用いない「スピーカーアレイ」とその「制御」による音の指向性生成・方向制御といった技術組み合わせます。

検討すべき課題と対策案

(さらに…)

音声合成変換技術で作成した音声の品質評価の研究

 

はじめに

最近では音声を変換する技術が多く研究開発され変声器のような器械も出来てきましたが

それらはどれだけ性能がよいのか気になりませんか?………そこで!!

今回は音声に関する技術を使って変換した音声が自然で人が喋っているように聞こえるのか評価します。

 


 

 内容

1. 評価する音声の準備

仕組み

 

今回は図のように音声を3つの要素にパラメータ(数値)として分解

それぞれを自らの手で調節し再び1つに戻すことで変換が完了します。

 

実際に変換した音声がこちら。男性の声を女性の声に変換してみました。

——————————————————————————————————————-

例  ピッチを1.5倍  周波数を1.2倍  話速を1.3倍

男性の声   →   女性の声

hello        →     hello_wo

———————————————————————————————————————

と、いう風に3つの要素を上手く使うと比較的自然に変換できます

変換方式 は STRAIGHT方式,  WORLD方式,  ピッチシフター(一般的で無料ダウンロードできるもの) の3種類です。

STRAIGHT方式 :人の声の個性、感情等の統計的性質を数値として分析する・・・子音の制御に優れている

 WORLD方式    : STRAIGHTの計算コスト削減というコンセプトでの開発・・・歌声の制御に優れている

 


 

2.  評価方法

合成変換を行った音声を主観評価してもらう際の流れですが現在は

  1. 音声を最大2回まで聞く
  2. 評価用紙に記入(手書き、品質を5 段階で評価するMOSを採用)
  3. 次の音声へ進む

という風にしていますが10月3日の卒業研究中間発表会で

  • 連続で聴取するため主観評価でなく、前の音声との比較評価になる
  • 録音した音声にエアコン等の雑音が入っており、イメージが悪くなる

などの実験の欠点から正しい評価が出来ていないと判断

 

 反省をふまえ、音声品質評価システムを準備しました

音声品質評価システム → Voice Quality Assessment System

頭文字をとって名前はVQAS(ブイキャス)です。言語はC#。

version1.0のシステムの流れ

  1. ホームを立ち上げ3パターンあるテストから1個選択、テスト画面が出てくる
  2. Playボタンを押して音声を流す(2回まで聞ける、音声の順番は擬似ランダム)
  3. 評価1~5をチェックして得点を決定
  4. Nextボタンで次の音声へ進む(得点を決定しないと押せない)
  5. ピンクノイズが3秒流れる(耳のリセット)
  6. 2~5までを繰り返す
  7. 最後の音声を評価後、PlayボタンがENDボタンになりクリックすると終了
  8. テスト後はテキストに結果が出力される(音声の名前と得点)

 

 

完成図

pic


3.卒研終了までの課題

    1,音声の準備

        ・音声の録音のやり直し

        ・録音した音声の合成変換

    2,システムとの組み合わせをして品質評価環境を整え、実施

    3,まとめ

 

楽曲の印象・雰囲気と調和した映像の自動表示システムの研究

研究背景と目的

 近年PCや携帯端末の普及等により、音楽を聴く機会が増加しました。

音楽は映像と同時に鑑賞することでより臨場感・高揚感を味わえるようになりますが、そのためには音楽の印象(明るい、激しい等)とマッチしている必要があります。

映像は外の風景・PV(プロモーションビデオ)・ライブ映像など様々ありますが、今回着目したのはビジュアライザ(音の波形を元に 動的な模様を作成し表示するソフトウェア )です。

ビジュアライザの使用により、いつどこでも音楽と映像を楽しむことができます。

しかし、既存のビジュアライザには音楽の印象・雰囲気に応じて映像を変化させる機能は乏しいように見えます。

それを改善させるため今研究は、楽曲の印象を自動的に推定し、それに合った映像を表示するシステムを構築することを目的としています。

 システム概要
システム概要

流れとしては「解析処理」と「映像処理」の2つに分けて考えます。

解析処理では楽曲解析によりゆらぎ特徴を求め、印象を自動的に推定します。

推定された印象のデータを映像生成の部分に引渡した後、それに見合った映像を生成します。そして最終的に画面に出力します。

従来研究

従来研究は楽曲解析の側面において、ゆらぎ特徴を用いた方法があります。ゆらぎとは「繰り返されるパターンが時間的に変化する現象」で音楽にもゆらぎがあります。

周波数のパワースペクトル

上の図のように、音楽のジャンルによって周波数のパワースペクトルの傾きが異なってきます。このようなゆらぎ特徴を用いて楽曲印象を推定します。

映像に関する従来研究では、音楽と映像の相互作用についての研究があります。

音楽と映像が組み合わされたときに、私たちはそれに対し何らかの調和感もしくは非調和感を感じます。

例えば、赤色や紫色は楽曲印象を「迫力のある」ものにし、長調でテンポが速く明るい楽曲は「緑・黄・シアン」と相性が良いとされています。またクラシックのような伴奏形態をもつ音楽は、他のものと比べて映像作品に「拡がった」印象を与え、ロックは「拡がりのない」印象を与える。

このように、音楽と映像との間には様々な関係性があります。

実験

ゆらぎ特徴を用いて楽曲印象を推定します。印象は「明るい・暗い」と「激しい・穏やか」の2つで12曲を推定します。

あらかじめ主観評価で分類した結果「明るい・暗い」「激しい・穏やか」ともに各6曲づつに分類されました。その後解析した結果

akarui_kurai hagesi_odayaka

上図は「明るい・暗い」と分類した曲。下図は「激しい・穏やか」と分類した曲。図から青色と緑色の丸がそれぞれまとまって分かれているのが分かり、

まとめ

これまでの結論として、ゆらぎ解析によりある程度の印象推定が可能とわかりました。

今後は映像に関する研究として、複数の要素(色・動き・速さ等)が組み合わさった映像に対する楽曲印象との関係性を調べていこうと考えています。

 

マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

2月18日に卒業論文発表会を行ないました
そのときのスライドをHP用に手を加えたものです

スライドが見られない場合お手数ですが下記リンクからファイルをダウンロードしてください

マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

googlemap web colour names .