音メディア処理研究室

 
ブログ

音声合成変換技術で作成した音声の品質評価の研究

 

はじめに

最近では音声を変換する技術が多く研究開発され変声器のような器械も出来てきましたが

それらはどれだけ性能がよいのか気になりませんか?………そこで!!

今回は音声に関する技術を使って変換した音声が自然で人が喋っているように聞こえるのか評価します。

 


 

 内容

1. 評価する音声の準備

仕組み

 

今回は図のように音声を3つの要素にパラメータ(数値)として分解

それぞれを自らの手で調節し再び1つに戻すことで変換が完了します。

 

実際に変換した音声がこちら。男性の声を女性の声に変換してみました。

——————————————————————————————————————-

例  ピッチを1.5倍  周波数を1.2倍  話速を1.3倍

男性の声   →   女性の声

hello        →     hello_wo

———————————————————————————————————————

と、いう風に3つの要素を上手く使うと比較的自然に変換できます

変換方式 は STRAIGHT方式,  WORLD方式,  ピッチシフター(一般的で無料ダウンロードできるもの) の3種類です。

STRAIGHT方式 :人の声の個性、感情等の統計的性質を数値として分析する・・・子音の制御に優れている

 WORLD方式    : STRAIGHTの計算コスト削減というコンセプトでの開発・・・歌声の制御に優れている

 


 

2.  評価方法

合成変換を行った音声を主観評価してもらう際の流れですが現在は

  1. 音声を最大2回まで聞く
  2. 評価用紙に記入(手書き、品質を5 段階で評価するMOSを採用)
  3. 次の音声へ進む

という風にしていますが10月3日の卒業研究中間発表会で

  • 連続で聴取するため主観評価でなく、前の音声との比較評価になる
  • 録音した音声にエアコン等の雑音が入っており、イメージが悪くなる

などの実験の欠点から正しい評価が出来ていないと判断

 

 反省をふまえ、音声品質評価システムを準備しました

音声品質評価システム → Voice Quality Assessment System

頭文字をとって名前はVQAS(ブイキャス)です。言語はC#。

version1.0のシステムの流れ

  1. ホームを立ち上げ3パターンあるテストから1個選択、テスト画面が出てくる
  2. Playボタンを押して音声を流す(2回まで聞ける、音声の順番は擬似ランダム)
  3. 評価1~5をチェックして得点を決定
  4. Nextボタンで次の音声へ進む(得点を決定しないと押せない)
  5. ピンクノイズが3秒流れる(耳のリセット)
  6. 2~5までを繰り返す
  7. 最後の音声を評価後、PlayボタンがENDボタンになりクリックすると終了
  8. テスト後はテキストに結果が出力される(音声の名前と得点)

 

 

完成図

pic


3.卒研終了までの課題

    1,音声の準備

        ・音声の録音のやり直し

        ・録音した音声の合成変換

    2,システムとの組み合わせをして品質評価環境を整え、実施

    3,まとめ

 

楽曲の印象・雰囲気と調和した映像の自動表示システムの研究

研究背景と目的

 近年PCや携帯端末の普及等により、音楽を聴く機会が増加しました。

音楽は映像と同時に鑑賞することでより臨場感・高揚感を味わえるようになりますが、そのためには音楽の印象(明るい、激しい等)とマッチしている必要があります。

映像は外の風景・PV(プロモーションビデオ)・ライブ映像など様々ありますが、今回着目したのはビジュアライザ(音の波形を元に 動的な模様を作成し表示するソフトウェア )です。

ビジュアライザの使用により、いつどこでも音楽と映像を楽しむことができます。

しかし、既存のビジュアライザには音楽の印象・雰囲気に応じて映像を変化させる機能は乏しいように見えます。

それを改善させるため今研究は、楽曲の印象を自動的に推定し、それに合った映像を表示するシステムを構築することを目的としています。

 システム概要
システム概要

流れとしては「解析処理」と「映像処理」の2つに分けて考えます。

解析処理では楽曲解析によりゆらぎ特徴を求め、印象を自動的に推定します。

推定された印象のデータを映像生成の部分に引渡した後、それに見合った映像を生成します。そして最終的に画面に出力します。

従来研究

従来研究は楽曲解析の側面において、ゆらぎ特徴を用いた方法があります。ゆらぎとは「繰り返されるパターンが時間的に変化する現象」で音楽にもゆらぎがあります。

周波数のパワースペクトル

上の図のように、音楽のジャンルによって周波数のパワースペクトルの傾きが異なってきます。このようなゆらぎ特徴を用いて楽曲印象を推定します。

映像に関する従来研究では、音楽と映像の相互作用についての研究があります。

音楽と映像が組み合わされたときに、私たちはそれに対し何らかの調和感もしくは非調和感を感じます。

例えば、赤色や紫色は楽曲印象を「迫力のある」ものにし、長調でテンポが速く明るい楽曲は「緑・黄・シアン」と相性が良いとされています。またクラシックのような伴奏形態をもつ音楽は、他のものと比べて映像作品に「拡がった」印象を与え、ロックは「拡がりのない」印象を与える。

このように、音楽と映像との間には様々な関係性があります。

実験

ゆらぎ特徴を用いて楽曲印象を推定します。印象は「明るい・暗い」と「激しい・穏やか」の2つで12曲を推定します。

あらかじめ主観評価で分類した結果「明るい・暗い」「激しい・穏やか」ともに各6曲づつに分類されました。その後解析した結果

akarui_kurai hagesi_odayaka

上図は「明るい・暗い」と分類した曲。下図は「激しい・穏やか」と分類した曲。図から青色と緑色の丸がそれぞれまとまって分かれているのが分かり、

まとめ

これまでの結論として、ゆらぎ解析によりある程度の印象推定が可能とわかりました。

今後は映像に関する研究として、複数の要素(色・動き・速さ等)が組み合わさった映像に対する楽曲印象との関係性を調べていこうと考えています。

 

マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

2月18日に卒業論文発表会を行ないました
そのときのスライドをHP用に手を加えたものです

スライドが見られない場合お手数ですが下記リンクからファイルをダウンロードしてください

マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

googlemap web colour names .

ゲームアプリ「フリックドロイド」

サンプルプログラムを変更し、Androidゲームアプリを作成しました。

変更点は以下のとおりです。

  • アプリ起動後にスタート画面を追加
  • 蜂の種類を増やし、得点をそれぞれ変更(黄色の蜂が1点、緑色の蜂が3点)
  • 爆弾を追加(マイナス5点)
  • 一時停止・リトライ機能を追加
  • ドロイド君の減速
  • ドロイド君などが画面の端で跳ね返る

 

ゲームの内容としては、制限時間30秒以内にドロイド君をフリックして操作し、蜂を消していくゲームです。

蜂を消すとスコアがあがっていきます。蜂は2種類いて黄色の蜂が1点、緑色の蜂が3点です。

爆弾に当たってしまうとマイナス5点となります。

詳しいゲームの様子は以下の動画をご覧ください。

 

開発環境:eclipse

使用デバイス:Android

サンプルプログラムは

「10日でおぼえるAndroidアプリ開発入門教室 第2版」寺園聖文 (著)/ 翔泳社 (出版社)

のプログラムを使用させていただきました。

おさぼり防止ロボット「T.BUSTER」

2014年12月19日に行われた3年生デモ大会での発表内容です。
今回のデモではPCでの作業中において、ユーザの居眠りを防止してくれるシステムを発表しました。

ディスプレイに対面しているユーザをKinectを用いてフェイストラッキングを行い、顔認証が外れた時に「ユーザがサボっている」と認識します。一定時間サボっている場合はMindstormNXTが動作してユーザへの警告を行うようにしました。

使用した環境、機材
・Windows7
・Visual Studio 2010
・MindStormNXT
・Kinect for Windows
・Kinect for Windows SDK v 1.8

詳しい説明や実際の動作は以下の動画でご覧ください。

音声認識APIを用いたアプリ

今回はグーグルが無料で提供している音声認識APIを利用して、以下の動作ができるアプリを作成しました。

・音声録音
・発表の順番抽選
・日にちを教えてくれる
・時刻を教えてくれる

——————————————————————–
開発環境
→ eclipse 4.2
  android 4.2.2

参考文献
→ 「10日でおぼえる Androidアプリ開発入門教室 第2版」
——————————————————————–

詳細は以下の動画をご覧ください。

Android音楽再生アプリ「ふりっくま」

Android端末で音楽を再生するアプリ「ふりっくま」を作成しました。

アプリの簡単な内容は以下の通りです。

  • 8方向のフリックを検知して、それぞれの方向に対応した曲を再生
  • 画面を長押しすると曲が一時停止

 

また、今回はフリー素材の音源を使用させていただいております。

詳細は以下の動画をご覧ください。

 

開発環境:eclipse バージョン4.2

使用デバイス:Android バージョン4.4.2

参考文献: 「10日でおぼえる Androidアプリ開発入門教室 第2版」

雑談対話iOSアプリ「トモちゃん」

2014年12月19日に行われた人工知能第一研究室の3年生デモ大会での発表内容です。

私は今回、雑談対話iOSアプリ「トモちゃん」と題して発表させてもらいました。

このアプリはSiriのようにユーザが発話した内容に対して、チャット画面上で応答してくれる、というアプリです。こちらはdocomoが無料で提供してくれている雑談対話APIを利用しています。また、参考にさせていただいた資料を以下にまとめておきます。

・Docomo Developer support→https://dev.smt.docomo.ne.jp/

・ドコモの「しゃべってコンシェル」やAppleの「Siri」のようなサービスが誰でも作れる!?ドコモが提供する「雑談対話」APIを試してみた!→ http://qiita.com/asakahara/items/3c582d4073fa67ca599a

使用した環境、機材
・OS X
・Xcode6.0.1

実際の動作の様子、発表の内容を動画にしています。ご覧ください。

LeapMotionを用いたEV3のジェスチャー操作

 米LeapMotion社から発売されているLeapMotionで認識できる手の動きやジェスチャーを用いてロボットを操作します。LeapMotionはUSBケーブルで、ロボットはBluetooth通信でそれぞれPCに接続しています。使用しているロボットはレゴ社が発売している教育用ロボット”LegoMindstormEV3”です。

http://youtu.be/9pOS0eGaUr0

■システム構成

  • 開発言語・・・C#
  • OS    ・・・Windows7
  • アプリケーション開発環境・・・Visual Studio Professional 2013
  • センサ ・・・LeapMotionController
  • ロボット・・・LegoMindstormEV3
  • LeapMotionSDK 2.1.6+23110
  • LEGO MINDSTORMS EV3 API v1.0 (https://legoev3.codeplex.com/)
  •  

    ■システム概要

     LeapMotionから読み取った手の座標を利用してロボットのモータパワーを決定し、ロボットに送信します。システムの流れは図1のようになります。モータパワーの算出方法は図2のようになります。

    LeapMotion_操作図2

    図1 システムの概要図

    LeapMotion_MotorPower

    図2 手の位置からのモータパワーの算出

    <参考文献>

    • LegoMindstormsEV3  (http://www.afrel.co.jp/lineup/mindstorm-ev3)
    • Kinect×教育版LEGOMindstormsEV3 開発ガイドブック (同上)
    • LEGOMINDSTORMS EV3 API (http://legoev3.codeplex.com/)
    • LEAPMOTION  (https://www.leapmotion.com/?lang=jp)
    • LEAPMOTION Developer Portal (https://developer.leapmotion.com/)
    • LeapMotionDeveloperSDKで開発できる環境を整える(WindowsC#編)(http://www.naturalsoftware.jp/blog/8389)
    • LeapMotionで指の先を画面に表示する(https://code.msdn.microsoft.com/windowsdesktop/LeapMotion-c52eb8a8)