(日本語) 人工知能第一研究室

 
ブログ

音声付き全天球画像によるバーチャルリアリティー

2016年7月28日に行われた4年生デモ大会での発表内容です。
今回のデモではスマートフォンをHMD(ヘッドマウンドディスプレイ)にセッティングし画面に存在する四角い物体を視線マーカーで見るとピアノを演奏することができるアプリを発表しました。
またピアノ演奏アプリの応用として全天球画像に音声を付与し視線マーカー環境音を鳴らすアプリも同時に発表しました。

システムの流れは以下の通りです。

  • アプリ起動後HMD装着
  • 画面上に存在する四角い物体を選択するとピアノの音が鳴る
  • 左からド(赤)、レ(青)、ミ(黄色)、ファ(オレンジ)、ソ(黒)、ラ(緑)
    下に行って、シ(白)と鳴る。

使用した環境、機材

  • Windous10
  • Visual Stadio 2013
  • Unity 5.3.5 f1
  • 開発言語C#

詳しい説明や実際の動作は以下の動画でご覧下さい。

 

 

音声認識を用いた音楽プレイヤー

サンプルプログラムを変更し、グーグルが無料で提供している音声認識APIを利用して
Androidの音声認識を用いた音楽プレイヤーアプリを作成しました。

基本的な動作


  • テキスト入力または音声認識で文字列を入力
  • 登録してある曲名と一致した曲がある場合その曲を再生

 

詳しい動作の様子は以下の動画をご覧ください。

 

開発環境:android Studio

使用デバイス:Android

サンプルプログラムは

のプログラムを使用させていただきました。

(日本語) 画像処理を用いた複数話者に対する音声強調の研究

平成26年10月3日に卒業研究の中間発表がありました。

そこで私が発表した内容を簡単に説明します。

・研究背景,目的

  動画を撮る際に目的の人の声だけを聞きたい。周りの人の声やその他の雑音は聞きたくない。そのように思い、目的音方向の音のみの強調。を研究しています。

・使用デバイス

Kinect

・課題(複数人対応)

 カメラ範囲内の複数人から目的である人を見つけ出すため、骨格検出を行う。

 しかし、現在のKinectのスペックでは骨格検出可能人数は2人まで。

 3人以上いた場合は骨格検出対象者を切り替えていくことで解決させた。

・システムの流れ

 カメラ画像から目的の人のみを見つけ出し、その人の角度情報を取得。

 その角度でマイクロホンアレイで録音した音にMV法を適用し、スピーカーから出力する。

キャプチャ1

 

・予備実験①

 目的は

 目的の人を見つけ出せるか。

 角度の取得ができるか。

 の2つ

キャプチャ2

 

目的のどちらも成功!!!

・予備実験②

 目的

 角度を先に与えておき、二人画面上にいた場合の音声強調(MV法)の精度はどの程度か。

 実験の環境

キャプチャ3

 

 SN比の改善量

 男性方向の音の強調

 1.6949dB → 5.3013dB       約3.6dBの改善

 女性方向の音の強調

 -1.6949dB → 3.4998dB      約5.2dBの改善

 結果

 有効であると判断。

まとめ

 この予備実験①と②を組み合わせることで画面上に複数人いた場合も目的音方向の音のみを強調することができるはず。

 今後は、この2つを組み合わせることを進めていき、最終的にはリアルタイムで処理できるようにしたい。

場所検索

(日本語) マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

2月18日に卒業論文発表会を行ないました
そのときのスライドをHP用に手を加えたものです

スライドが見られない場合お手数ですが下記リンクからファイルをダウンロードしてください

マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

googlemap web colour names .