音メディア処理研究室

 
ロボット音声対話における 多重言語モデルを用いた 語彙獲得の研究

ロボット音声対話における 多重言語モデルを用いた 語彙獲得の研究

研究背景

現在、一般家庭や公共空間など身近なところで、お掃除ロボットのようなロボットが普及してきています。

ロボットが環境が変わっても対応できるようにするためには、新しい知識や概念をロボット自身が自動で獲得する必要があります。

 


研究目的

本研究では、音声対話によってロボットが新しい語彙を獲得することを目的とします。

そこで、ユーザからの発話を複数の音声認識結果を用いて、ユーザの意図に合った語彙を獲得する手法を提案します。

 


従来研究

語彙獲得についての従来研究では「人間と教え合うロボットインターフェース(山本ら、情報処理vol.49 2008)」という論文があります。

簡単に流れを説明します

  • ロボットに知らない信号を教える「教示」を行います。
  1. ユーザがリモコンでニュースをつけると、ロボットがその信号を検知します。
  2. ロボットがそのリモコンの信号を知らなければ「今何をしたの?」と対話をはじめます。
  3. ロボットの発話に対してユーザが「ニュースをつけた」返すことで、ロボットが「ニュースをつけた」ということを覚えます
  • 次に「操作」を行います。
  1. ユーザが 「ニュースをつけて」とロボットに発します。
  2. ロボットがその音声を認識し、リモコンの変わりにロボットが操作を行います。

従来研究

 


解決したい課題

従来研究では、リモコンの信号をロボットが受信し、登録されているか区別を行っていました。

そこで、本研究では音声のみを使いロボットに区別・教示・操作を行いたいと考えました。

しかし、音声のみで行うためには以下の課題があります。

  1. 正しく音声認識をすることができなかった場合、新しく登録する語とすでに登録されている単語を区別する必要性
  2. 非登録語の動作の決定方法

 


アプローチ方法

  • 既にある登録語と非登録語の区別

登録語と非登録語の区別には、複数の言語モデルで音声認識し区別を行います。

  • 言語モデルとは、日本語の文法をコンピュータが扱えるようにしたものです。例えば「大分は晴天」「大分は都会」「大分は素晴らしい」しか文法を扱えない場合、「大分は田舎」と発言したら、文法には存在しないため「大分は都会」など近いものが認識結果になります。
  • 今回用いる言語モデルは、毎日新聞社の新聞3年分のデータの言語モデルとガベージモデルを取り入れた文法を用いた言語モデルを使用します。ガベージモデルについてはページの下のほうを見てください。
  • 獲得した命令の動作獲得方法

命令の動作登録には音声対話を用いて行います。

 


ガベージモデルを取り入れた文法

音声認識するためには、単語と文法を予め登録する必要があります。

しかし、登録されていない命令を発すると、一番近い命令に無理やり当てはめられてしまいます。

そこで非登録語を判断するためにガベージモデルを使用します。

  • ガベージモデルとは平仮名一文字の任意個の繰り返しを受理する文法で、登録されていない命令が発せられた場合、一文字ずつ認識することが可能になります。

 

問題点として登録語をユーザが発した場合であっても、ガベージモデルに入ってしまうことがあります。

そのような事態を減少させるために音素間距離を用います。

  • 音素間距離とは2つの文字列の音素がどの程度異なっているかを示す値のことで、音素間距離の小さい命令かどうかを対話によって確認し、操作率を上げます。

 


システム構図

system2


システムを実行したときの様子

 


 

実験

  • 登録されている命令が、音素間距離を用いることによってどの程度認識率が上がるか
  • 登録していない命令を認識できるか
  • 新たに語彙獲得を行い、どの程度ユーザーの意図に合った命令を獲得できているか
  • 新たに登録した命令で動作を行うことができるか

を目的とし以下の実験を行います。

  1. 既登録の命令に対する実験
    予め登録されている命令を発話してもらい、操作率を検証
  2. 非登録の命令に対する実験
    登録されていない命令を発話してもらい、操作率を検証

非登録の命令に対する実験では、あらかじめ登録している命令と、ユーザが新たに登録した命令を認識することが可能になる。そのため既登録の命令に対する実験と認識できる命令数を合わせるために、ユーザが追加した命令のみでの操作率も確認した。


結果

佐藤実験結果

佐藤実験結果2


 

まとめ

ガベージモデルの追加により、登録語と非登録語の区別を98.9%の確率で行うことができるようになった。また、ユーザが新たに追加した命令でも、あらかじめ命令を登録する場合と同程度の操作率を得ることができた。

このことより、音声対話によって動作を獲得することが可能だが、認識精度や、動作の決定方法に大きく影響を受けることがわかった。

今後は動作の決定方法、音声認識に用いる言語モデルなどをさらに検討していく予定です。

« »

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です