音メディア処理研究室

 
ブログ

C#を用いた最大電圧レベル表示機能付き音声変換器

今回、初めてのデモ大会において、C#を用いて最大電圧レベル表示機能付きの音声変換器を作成しました。

・背景・目的

  • 近年では、様々な場面において音声変換技術は用いられている。
  • その技術にて欠かせない要素として、ピッチ、フォルマント、話速などが挙げられる。
  • 音声データから、まず正確にデータを取り出しそれを加工できればよいのではないか?

・デモ内容

  • 既に録音したwavデータを用いて、ヒルベルトフィルタを用いて任意の周波数分だけシフトし、その変換した波形を出力する。
  • 変換処理と同時に入力信号と出力信号の音声データから変換前と変換後の最大電圧レベルを表示する。

・工夫した点

  • 変換させたい分の周波数の値の入力方法を、シフタ―とテキストボックスの2種類用意し、任意入力をできるようにした。
  • 最大電圧レベルの表示をグラフ表示にして、視覚的に見やすくした。

・今後の改善点

  • 録音機能の追加

→WindowsのAPIを用いて実装を試みたが今回はうまくいかなかった

  • フォルマントを調整できる機能の追加

→フォルマントの抽出方法を理解し、それを加工できるようにしたい

・参考文献

C#によるディジタル信号処理プログラミング 三上直樹 工学社

・ビデオ

Juliusを気軽に使える音声認識システム

C#で簡単に音声認識がしたい!ということで、さっそく作成してみました。

■システム構成

  • 開発言語・・・C#
  • OS   ・・・Windows7
  • アプリケーション開発環境・・・Visual Studio Professional 2013
  • 音声認識エンジン・・・Julius
  • ■Juliusの使用方法

    Juliusはコマンドプロンプト上で実行可能です。実行コマンドは下記のようになっています。

    コマンド例:”julius –C am-gmm.jconf”

    バッチファイルにコマンドを記述しておけば、バッチファイルを起動するだけで、音声認識ができるようになります。

  • バッチファイル
  •    Windowsでコマンドプロンプトに行わせたい命令列をテキストファイルに記述したもの。

    ■システム概要

     今回、Juliusの便利なオプションをそのまま使用するためにプログラムに直接組み込むのではなく、Juliusを起動させる部分はすべてバッチファイルで作成しています。C#ではバッチファイルの起動と出力結果の読み込みしかしていません。
     作成した音声認識システムの起動画面は図1のようになっています。起動画面が立ち上がったら、”音声認識開始”ボタンを押します。すると出力結果欄に”please speak”と表示されますので、マイクに向かって発話してください。認識結果は出力結果欄に出力されます。図1では「こんにちは」と発話したときの実行例となっています。出力結果欄に「こんにちは。」と出力されているのが確認できます。

    音声認識システム

    図1 音声認識システムの使用例

    <参考文献>

    • DOSコマンドを実行し出力データを取得する[DOBON.NET プログラミング道]  (http://dobon.net/vb/dotnet/process/standardoutput.html)

    OpenJTalkを気軽に使える音声合成システム

    C#で簡単に音声合成がしたい!ということで、さっそく作成してみました。

    ■システム構成

  • 開発言語・・・C#
  • OS   ・・・Windows7
  • アプリケーション開発環境・・・Visual Studio Professional 2013
  • テキスト音声合成エンジン・・・OpneJTalk
  • ■OpneJTalkの使用方法

    OpenJTalkはコマンドプロンプト上で実行可能です。実行コマンドは下記のようになっています。

    コマンド例:”bin\open_jtalk -z 2000 -m voice\hts_voice_nitech_jp_atr503_m001\nitech_jp_atr503_m001.htsvoice -ow talk.wav talk.txt”

    バッチファイルにコマンドを記述しておけば、バッチファイルを起動するだけで、音声合成ができるようになります。

  • バッチファイル
  •    Windowsでコマンドプロンプトに行わせたい命令列をテキストファイルに記述したもの。

    ■システム概要

     今回、OpneJTalkの便利なオプションをそのまま使用するためにプログラムに直接組み込むのではなく、OpneJTalkを起動させる部分はすべてバッチファイルで作成しています。C#ではバッチファイルの起動と出力結果の読み込みしかしていません。
     作成した音声合成システムの起動画面は図1のようになっています。起動画面が立ち上がったら、入力フォームに音声合成させたい言葉を入力します。その後、”音声合成開始”ボタンを押してください。すると出力結果欄に”再生開始”と表示されると同時に音声が再生されます。図1では「こんにちは。」と発話させたいときの実行例となっています。

    音声合成

    図1 音声合成システムの使用例

    <参考文献>

    • DOSコマンドを実行し出力データを取得する[DOBON.NET プログラミング道]  (http://dobon.net/vb/dotnet/process/standardoutput.html)

    奏者のための消音ギター楽器音声生成フィルタと頭部運動追従リアルタイムフィルタ

     研究の概要

    • 消音ギターのピックアップ出力に対し,頭部運動に追従した楽器音生成フィルタを適用することで,通常のギター(ボディがあるギター)の音色や音の広がりを再現する研究です.

    •  消音ギターについて
      • 消音ギターとは
        • YAMAHA製の[サイレントギター]やARIA製の[Sinsonido]があります.
          消音ギターは通常のギター(生ギター)のボディー部分を排した楽器です.
          本研究ではYAMAHA製の型番[SLG110N]というサイレントギターを使用します.
      • 利点
        • ボディーによる音の増幅が発生しないことから,場所や時間にとらわれず練習できます.
      • 欠点
        • 通常のギター(生ギター)であれば,ボディーの特性や部屋の響きによって音が変化しますが,消音ギターの場合は,ピックアップでひろった弦の音をヘッドホンから直接聴くことになるため,音の広がりのない無機質な音に聴こえてしまいます.

    • 奏者のための楽器音生成フィルタ
      • 目的
        • 生ギターのボディ特性(放射音周波数特性)・両耳特性(ギターの定位)・空間特性(反射や残響)を再現する楽器音生成フィルタを作成し,消音ギターのピックアップに適用します.消音ギターフィルタのイメージ
      • 測定
        • 生ギターの駒部分に加振機を当て,測定信号を与えます.その時の放射音をダミーヘッドマイクロホンで取得しインパルス応答を取得します.ダミーヘッド測定の様子
        • ダミーヘッドの首を水平方向に回転させながら,左右60度ずつのインパルス応答を測定しました.↓測定したインパルス応答をwavファイルにしたもの
          インパルス応答

    • 頭部運動追従リアルタイムフィルタ
      • 概要
        • 消音ギターを演奏する際の頭部水平回転を取得し,頭部の角度に合わせたフィルタをライン出力に適用し,ヘッドホンから再生します.
        • フィルタを頭部運動に追従させることで頭外定位しやすくなります.
        • 生ギターのボディ放射音周波数特性や部屋の特性(反射や残響)を再現を目指します.
      • 頭部運動の取得
        • Microsoft社製のKinectを使用し,顔の水平角(Yaw角)をリアルタイムに取得し,外部ファイルに出力します.kinectの画面
      • MATLABを使ったリアルタイムフィルタ
        1. 消音ギターのピックアップ出力をオーディオインターフェースを介してMATLAB(数値計算ソフト)に与えます.
        2. Kinectから出力された顔の水平角が入った外部ファイルを読み込み,顔の水平角によってフィルタを切り替えながら消音ギターのライン出力に適用し,計算結果をヘッドホンから出力します.
      • システム図.

    頭部追従システム


    • 評価実験
      • 客観評価:倍音スペクトル距離の比較
        • 生ギターで弦を鳴らした音と,消音ギターのピックアップ出力に 提案フィルタを適用した音との周波数の差を計算します.
          計算式は以下のような倍音スペクトル距離を採用しました.
          倍音スペクトル距離
        • 実験結果
          倍音スペクトル距離結果評価の結果,本研究で提案するフィルタを適用したほうが,生ギターの音色に近づくことが確認できました.
      •  主観評価:シェッフェーの一対比較[中屋の変法]
        • 実際に提案システムを用いて被験者に演奏してもらい,音の広がり,ギターの定位感の評価してもらいました.
          被験者は学生19名 (女:5名 男:14名)で,有意水準5%としました.リアルタイムフィルタの入出力サイズは500サンプルとします.
        • 比較フィルタ
          • A=消音ギターのピックアップ出力
          • B=消音ギター搭載のフィルタ(リバーブ)
          • C=提案フィルタ(頭部運動追従):サンプル数500
          • D=提案フィルタ(0度でフィルタを固定):サンプル数4000
        • 設問
          • 「どちらが音の広がりを感じるか」
          • 「どちらがギターの定位感があるか」
        • 実験結果
          シェッフェーの一対比較によって検定を行った結果,音の広がりに関してはフィルタD(提案フィルタ(0度でフィルタを固定))がもっともよく,フィルタDとBの間に有意差がありました.
          ギターの定位感に関しては,フィルタCがもっともよく,それ以外のフィルタに対し有意差がありました.

    音の広がり
    どちらが音の広がりを感じるか

    ギターの定位感どちらがギターの定位感があるか


    • 結論
      • 頭部運動に追従する楽器音生成フィルタを提案しました.実験の結果,フィルタを適用したほうが生ギターらしい音色になり,定位感,音の広がりに効果があることがわかりました.
      • 今後の課題として,頭部運動追従フィルタのフィルタ長を入出力サイズよりも長くするとクリックノイズが発生する問題を解決する必要があると考えます.

    画像処理を用いた複数話者に対する音声強調の研究

    平成26年10月3日に卒業研究の中間発表がありました。

    そこで私が発表した内容を簡単に説明します。

    ・研究背景,目的

      動画を撮る際に目的の人の声だけを聞きたい。周りの人の声やその他の雑音は聞きたくない。そのように思い、目的音方向の音のみの強調。を研究しています。

    ・使用デバイス

    Kinect

    ・課題(複数人対応)

     カメラ範囲内の複数人から目的である人を見つけ出すため、骨格検出を行う。

     しかし、現在のKinectのスペックでは骨格検出可能人数は2人まで。

     3人以上いた場合は骨格検出対象者を切り替えていくことで解決させた。

    ・システムの流れ

     カメラ画像から目的の人のみを見つけ出し、その人の角度情報を取得。

     その角度でマイクロホンアレイで録音した音にMV法を適用し、スピーカーから出力する。

    キャプチャ1

     

    ・予備実験①

     目的は

     目的の人を見つけ出せるか。

     角度の取得ができるか。

     の2つ

    キャプチャ2

     

    目的のどちらも成功!!!

    ・予備実験②

     目的

     角度を先に与えておき、二人画面上にいた場合の音声強調(MV法)の精度はどの程度か。

     実験の環境

    キャプチャ3

     

     SN比の改善量

     男性方向の音の強調

     1.6949dB → 5.3013dB       約3.6dBの改善

     女性方向の音の強調

     -1.6949dB → 3.4998dB      約5.2dBの改善

     結果

     有効であると判断。

    まとめ

     この予備実験①と②を組み合わせることで画面上に複数人いた場合も目的音方向の音のみを強調することができるはず。

     今後は、この2つを組み合わせることを進めていき、最終的にはリアルタイムで処理できるようにしたい。

    場所検索

    受聴者位置検出による指向性追従スピーカーシステムの研究(研究中)

    研究背景

    人が生活している空間の中には音がたくさんあふれています。その音はさまざまな人に情報を伝えるため発信されていますが、その情報を必要としない人にとっては騒音と感じられます。

    図1

    こういった環境において、音を必要としている人のみに向けて届けることでそれ以外の人への騒音を減らすことができます。

    キャプチャ

    この状況を実現するには、「指向性スピーカー」の開発が必要になります。

    研究目的

    本研究では、複数人が存在する生活空間で特定の聴取者のみへ音を集中させることを目的とします。

    図3

    ※生活空間として一つの部屋を想定

    従来研究

     

    ここでは本研究と関連・類似する目的や、技術について検証されている研究を紹介します。

    • 音の指向性を作る手法
    • 音を届けたい場所(受聴者)の検出
    • 指向性の向きをかえる手法

    についてそれぞれ実験・検証されています。

    図4

     

    これらの研究には、用いた技術によってそれぞれ特徴があります。

    01

    人認識の精度

     

    音を届けたい場所(受聴者)の検出のために、人の位置を見つける2つの手法が研究されています。”画像”による認識と、”深度“による認識です。

    この二つを比べると、奥行きの情報を得られるという点で、深度による人認識のほうが優れています

    02 03

     

    音量・音質

    指向性を持つ音を作る」には、超音波スピーカーがよく用いられます。しかし超音波スピーカーは優れた指向性を持つ一方、短所も存在します。1つは通常のスピーカーに比べて「音質が悪い」こと。もう1つは「音量に制限がある」ことです。音量については、人体に向けて超音波を照射する際、健康への影響がでることが考えられるために制限がかかります。

    設置・組込み、可搬性

    指向性の向きをかえる」とき、2つの手法が考えられます。複数のスピーカーから「出る音を制御する」(スピーカーアレイ)か、指向性を持つ音を出す「スピーカーの向きをかえる」、の2つです。

    後者のスピーカーの向き自体をかえる手法については、設置・組込みに不便持ち運びがしにくいといった問題が存在します。スピーカーの向きをかえるということはシステムにモーターなどの可動部が存在することになり、”動くのに十分なスペースの確保”、”移動させる際の破損の危険”といった問題への対処が 必要になります。

     アプローチ

    04

    先述の従来研究を踏まえて、人認識の精度音量・音質設置・組込みや可搬性全てにおいて問題のないスピーカーシステムの開発を目標に研究を行います。このために、「深度情報」を用いた人認識、超音波やモーターを用いない「スピーカーアレイ」とその「制御」による音の指向性生成・方向制御といった技術組み合わせます。

    検討すべき課題と対策案

    (さらに…)

    音声合成変換技術で作成した音声の品質評価の研究

     

    はじめに

    最近では音声を変換する技術が多く研究開発され変声器のような器械も出来てきましたが

    それらはどれだけ性能がよいのか気になりませんか?………そこで!!

    今回は音声に関する技術を使って変換した音声が自然で人が喋っているように聞こえるのか評価します。

     


     

     内容

    1. 評価する音声の準備

    仕組み

     

    今回は図のように音声を3つの要素にパラメータ(数値)として分解

    それぞれを自らの手で調節し再び1つに戻すことで変換が完了します。

     

    実際に変換した音声がこちら。男性の声を女性の声に変換してみました。

    ——————————————————————————————————————-

    例  ピッチを1.5倍  周波数を1.2倍  話速を1.3倍

    男性の声   →   女性の声

    hello        →     hello_wo

    ———————————————————————————————————————

    と、いう風に3つの要素を上手く使うと比較的自然に変換できます

    変換方式 は STRAIGHT方式,  WORLD方式,  ピッチシフター(一般的で無料ダウンロードできるもの) の3種類です。

    STRAIGHT方式 :人の声の個性、感情等の統計的性質を数値として分析する・・・子音の制御に優れている

     WORLD方式    : STRAIGHTの計算コスト削減というコンセプトでの開発・・・歌声の制御に優れている

     


     

    2.  評価方法

    合成変換を行った音声を主観評価してもらう際の流れですが現在は

    1. 音声を最大2回まで聞く
    2. 評価用紙に記入(手書き、品質を5 段階で評価するMOSを採用)
    3. 次の音声へ進む

    という風にしていますが10月3日の卒業研究中間発表会で

    • 連続で聴取するため主観評価でなく、前の音声との比較評価になる
    • 録音した音声にエアコン等の雑音が入っており、イメージが悪くなる

    などの実験の欠点から正しい評価が出来ていないと判断

     

     反省をふまえ、音声品質評価システムを準備しました

    音声品質評価システム → Voice Quality Assessment System

    頭文字をとって名前はVQAS(ブイキャス)です。言語はC#。

    version1.0のシステムの流れ

    1. ホームを立ち上げ3パターンあるテストから1個選択、テスト画面が出てくる
    2. Playボタンを押して音声を流す(2回まで聞ける、音声の順番は擬似ランダム)
    3. 評価1~5をチェックして得点を決定
    4. Nextボタンで次の音声へ進む(得点を決定しないと押せない)
    5. ピンクノイズが3秒流れる(耳のリセット)
    6. 2~5までを繰り返す
    7. 最後の音声を評価後、PlayボタンがENDボタンになりクリックすると終了
    8. テスト後はテキストに結果が出力される(音声の名前と得点)

     

     

    完成図

    pic


    3.卒研終了までの課題

        1,音声の準備

            ・音声の録音のやり直し

            ・録音した音声の合成変換

        2,システムとの組み合わせをして品質評価環境を整え、実施

        3,まとめ

     

    楽曲の印象・雰囲気と調和した映像の自動表示システムの研究

    研究背景と目的

     近年PCや携帯端末の普及等により、音楽を聴く機会が増加しました。

    音楽は映像と同時に鑑賞することでより臨場感・高揚感を味わえるようになりますが、そのためには音楽の印象(明るい、激しい等)とマッチしている必要があります。

    映像は外の風景・PV(プロモーションビデオ)・ライブ映像など様々ありますが、今回着目したのはビジュアライザ(音の波形を元に 動的な模様を作成し表示するソフトウェア )です。

    ビジュアライザの使用により、いつどこでも音楽と映像を楽しむことができます。

    しかし、既存のビジュアライザには音楽の印象・雰囲気に応じて映像を変化させる機能は乏しいように見えます。

    それを改善させるため今研究は、楽曲の印象を自動的に推定し、それに合った映像を表示するシステムを構築することを目的としています。

     システム概要
    システム概要

    流れとしては「解析処理」と「映像処理」の2つに分けて考えます。

    解析処理では楽曲解析によりゆらぎ特徴を求め、印象を自動的に推定します。

    推定された印象のデータを映像生成の部分に引渡した後、それに見合った映像を生成します。そして最終的に画面に出力します。

    従来研究

    従来研究は楽曲解析の側面において、ゆらぎ特徴を用いた方法があります。ゆらぎとは「繰り返されるパターンが時間的に変化する現象」で音楽にもゆらぎがあります。

    周波数のパワースペクトル

    上の図のように、音楽のジャンルによって周波数のパワースペクトルの傾きが異なってきます。このようなゆらぎ特徴を用いて楽曲印象を推定します。

    映像に関する従来研究では、音楽と映像の相互作用についての研究があります。

    音楽と映像が組み合わされたときに、私たちはそれに対し何らかの調和感もしくは非調和感を感じます。

    例えば、赤色や紫色は楽曲印象を「迫力のある」ものにし、長調でテンポが速く明るい楽曲は「緑・黄・シアン」と相性が良いとされています。またクラシックのような伴奏形態をもつ音楽は、他のものと比べて映像作品に「拡がった」印象を与え、ロックは「拡がりのない」印象を与える。

    このように、音楽と映像との間には様々な関係性があります。

    実験

    ゆらぎ特徴を用いて楽曲印象を推定します。印象は「明るい・暗い」と「激しい・穏やか」の2つで12曲を推定します。

    あらかじめ主観評価で分類した結果「明るい・暗い」「激しい・穏やか」ともに各6曲づつに分類されました。その後解析した結果

    akarui_kurai hagesi_odayaka

    上図は「明るい・暗い」と分類した曲。下図は「激しい・穏やか」と分類した曲。図から青色と緑色の丸がそれぞれまとまって分かれているのが分かり、

    まとめ

    これまでの結論として、ゆらぎ解析によりある程度の印象推定が可能とわかりました。

    今後は映像に関する研究として、複数の要素(色・動き・速さ等)が組み合わさった映像に対する楽曲印象との関係性を調べていこうと考えています。

     

    マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

    2月18日に卒業論文発表会を行ないました
    そのときのスライドをHP用に手を加えたものです

    スライドが見られない場合お手数ですが下記リンクからファイルをダウンロードしてください

    マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

    googlemap web colour names .