画像処理を用いた複数話者に対する音声強調の研究

平成26年10月3日に卒業研究の中間発表がありました。

そこで私が発表した内容を簡単に説明します。

・研究背景，目的

　　動画を撮る際に目的の人の声だけを聞きたい。周りの人の声やその他の雑音は聞きたくない。そのように思い、目的音方向の音のみの強調。を研究しています。

・使用デバイス

Kinect

・課題(複数人対応)

　カメラ範囲内の複数人から目的である人を見つけ出すため、骨格検出を行う。

　しかし、現在のKinectのスペックでは骨格検出可能人数は2人まで。

　3人以上いた場合は骨格検出対象者を切り替えていくことで解決させた。

・システムの流れ

　カメラ画像から目的の人のみを見つけ出し、その人の角度情報を取得。

　その角度でマイクロホンアレイで録音した音にMV法を適用し、スピーカーから出力する。

・予備実験①

　目的は

　目的の人を見つけ出せるか。

　角度の取得ができるか。

　の２つ

目的のどちらも成功！！！

・予備実験②

　目的

　角度を先に与えておき、二人画面上にいた場合の音声強調(MV法)の精度はどの程度か。

　実験の環境

　SN比の改善量

　男性方向の音の強調

　1.6949dB　→　5.3013dB　　　　　　　約3.6dBの改善

　女性方向の音の強調

　-1.6949dB　→　3.4998dB　　　　　　約5.2dBの改善

　結果

　有効であると判断。

まとめ

　この予備実験①と②を組み合わせることで画面上に複数人いた場合も目的音方向の音のみを強調することができるはず。

　今後は、この２つを組み合わせることを進めていき、最終的にはリアルタイムで処理できるようにしたい。

場所検索

受聴者位置検出による指向性追従スピーカーシステムの研究(研究中)

研究背景

人が生活している空間の中には音がたくさんあふれています。その音はさまざまな人に情報を伝えるため発信されていますが、その情報を必要としない人にとっては騒音と感じられます。

こういった環境において、音を必要としている人のみに向けて届けることでそれ以外の人への騒音を減らすことができます。

この状況を実現するには、「指向性スピーカー」の開発が必要になります。

研究目的

本研究では、複数人が存在する生活空間で特定の聴取者のみへ音を集中させることを目的とします。

※生活空間として一つの部屋を想定

従来研究

ここでは本研究と関連・類似する目的や、技術について検証されている研究を紹介します。

音の指向性を作る手法
音を届けたい場所(受聴者)の検出
指向性の向きをかえる手法

についてそれぞれ実験・検証されています。

これらの研究には、用いた技術によってそれぞれ特徴があります。

人認識の精度

「音を届けたい場所(受聴者)の検出」のために、人の位置を見つける2つの手法が研究されています。”画像”による認識と、”深度“による認識です。

この二つを比べると、奥行きの情報を得られるという点で、深度による人認識のほうが優れています。

音量・音質

「指向性を持つ音を作る」には、超音波スピーカーがよく用いられます。しかし超音波スピーカーは優れた指向性を持つ一方、短所も存在します。１つは通常のスピーカーに比べて「音質が悪い」こと。もう１つは「音量に制限がある」ことです。音量については、人体に向けて超音波を照射する際、健康への影響がでることが考えられるために制限がかかります。

設置・組込み、可搬性

「指向性の向きをかえる」とき、2つの手法が考えられます。複数のスピーカーから「出る音を制御する」(スピーカーアレイ)か、指向性を持つ音を出す「スピーカーの向きをかえる」、の2つです。

後者のスピーカーの向き自体をかえる手法については、設置・組込みに不便、持ち運びがしにくいといった問題が存在します。スピーカーの向きをかえるということはシステムにモーターなどの可動部が存在することになり、”動くのに十分なスペースの確保”、”移動させる際の破損の危険”といった問題への対処が必要になります。

アプローチ

先述の従来研究を踏まえて、人認識の精度、音量・音質、設置・組込みや可搬性全てにおいて問題のないスピーカーシステムの開発を目標に研究を行います。このために、「深度情報」を用いた人認識、超音波やモーターを用いない「スピーカーアレイ」とその「制御」による音の指向性生成・方向制御といった技術組み合わせます。

検討すべき課題と対策案

(さらに…)

音声合成変換技術で作成した音声の品質評価の研究

はじめに

最近では音声を変換する技術が多く研究開発され変声器のような器械も出来てきましたが

それらはどれだけ性能がよいのか気になりませんか？………そこで！！

今回は音声に関する技術を使って変換した音声が自然で人が喋っているように聞こえるのか評価します。

内容

1. 評価する音声の準備

今回は図のように音声を3つの要素にパラメータ(数値)として分解

それぞれを自らの手で調節し再び1つに戻すことで変換が完了します。

実際に変換した音声がこちら。男性の声を女性の声に変換してみました。

——————————————————————————————————————-

例　　ピッチを1.5倍　　周波数を1.2倍　　話速を1.3倍

男性の声 → 女性の声

hello → hello_wo

———————————————————————————————————————

と、いう風に3つの要素を上手く使うと比較的自然に変換できます

変換方式は　STRAIGHT方式, WORLD方式, ピッチシフター(一般的で無料ダウンロードできるもの)　の3種類です。

STRAIGHT方式 :人の声の個性、感情等の統計的性質を数値として分析する・・・子音の制御に優れている

WORLD方式 : STRAIGHTの計算コスト削減というコンセプトでの開発・・・歌声の制御に優れている

2. 評価方法

合成変換を行った音声を主観評価してもらう際の流れですが現在は

音声を最大2回まで聞く
評価用紙に記入(手書き、品質を5 段階で評価するMOSを採用)
次の音声へ進む

という風にしていますが10月3日の卒業研究中間発表会で

連続で聴取するため主観評価でなく、前の音声との比較評価になる
録音した音声にエアコン等の雑音が入っており、イメージが悪くなる

などの実験の欠点から正しい評価が出来ていないと判断

反省をふまえ、音声品質評価システムを準備しました

音声品質評価システム → Voice Quality Assessment System

頭文字をとって名前はVQAS(ブイキャス)です。言語はC#。

version1.0のシステムの流れ

ホームを立ち上げ3パターンあるテストから1個選択、テスト画面が出てくる
Playボタンを押して音声を流す(2回まで聞ける、音声の順番は擬似ランダム)
評価1～5をチェックして得点を決定
Nextボタンで次の音声へ進む(得点を決定しないと押せない)
ピンクノイズが3秒流れる(耳のリセット)
2～5までを繰り返す
最後の音声を評価後、PlayボタンがENDボタンになりクリックすると終了
テスト後はテキストに結果が出力される(音声の名前と得点)

完成図

3.卒研終了までの課題

1,音声の準備

・音声の録音のやり直し

・録音した音声の合成変換

2,システムとの組み合わせをして品質評価環境を整え、実施

3,まとめ

楽曲の印象・雰囲気と調和した映像の自動表示システムの研究

研究背景と目的

近年PCや携帯端末の普及等により、音楽を聴く機会が増加しました。

音楽は映像と同時に鑑賞することでより臨場感・高揚感を味わえるようになりますが、そのためには音楽の印象（明るい、激しい等）とマッチしている必要があります。

映像は外の風景・PV（プロモーションビデオ）・ライブ映像など様々ありますが、今回着目したのはビジュアライザ（音の波形を元に動的な模様を作成し表示するソフトウェア）です。

ビジュアライザの使用により、いつどこでも音楽と映像を楽しむことができます。

しかし、既存のビジュアライザには音楽の印象・雰囲気に応じて映像を変化させる機能は乏しいように見えます。

それを改善させるため今研究は、楽曲の印象を自動的に推定し、それに合った映像を表示するシステムを構築することを目的としています。

システム概要

流れとしては「解析処理」と「映像処理」の２つに分けて考えます。

解析処理では楽曲解析によりゆらぎ特徴を求め、印象を自動的に推定します。

推定された印象のデータを映像生成の部分に引渡した後、それに見合った映像を生成します。そして最終的に画面に出力します。

従来研究

従来研究は楽曲解析の側面において、ゆらぎ特徴を用いた方法があります。ゆらぎとは「繰り返されるパターンが時間的に変化する現象」で音楽にもゆらぎがあります。

上の図のように、音楽のジャンルによって周波数のパワースペクトルの傾きが異なってきます。このようなゆらぎ特徴を用いて楽曲印象を推定します。

映像に関する従来研究では、音楽と映像の相互作用についての研究があります。

音楽と映像が組み合わされたときに、私たちはそれに対し何らかの調和感もしくは非調和感を感じます。

例えば、赤色や紫色は楽曲印象を「迫力のある」ものにし、長調でテンポが速く明るい楽曲は「緑・黄・シアン」と相性が良いとされています。またクラシックのような伴奏形態をもつ音楽は、他のものと比べて映像作品に「拡がった」印象を与え、ロックは「拡がりのない」印象を与える。

このように、音楽と映像との間には様々な関係性があります。

実験

ゆらぎ特徴を用いて楽曲印象を推定します。印象は「明るい・暗い」と「激しい・穏やか」の２つで12曲を推定します。

あらかじめ主観評価で分類した結果「明るい・暗い」「激しい・穏やか」ともに各6曲づつに分類されました。その後解析した結果

上図は「明るい・暗い」と分類した曲。下図は「激しい・穏やか」と分類した曲。図から青色と緑色の丸がそれぞれまとまって分かれているのが分かり、

まとめ

これまでの結論として、ゆらぎ解析によりある程度の印象推定が可能とわかりました。

今後は映像に関する研究として、複数の要素（色・動き・速さ等）が組み合わさった映像に対する楽曲印象との関係性を調べていこうと考えています。

wavelet変換を用いた日常生活における心音分析の研究

wavelet変換を用いた日常生活における心音分析の研究を行っています。

詳細については，こちらのリンク先をご覧下さい。

マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

2月18日に卒業論文発表会を行ないました
そのときのスライドをHP用に手を加えたものです

スライドが見られない場合お手数ですが下記リンクからファイルをダウンロードしてください

マルチチャネルスピーカーにおける同時インパルス応答測定法の研究

googlemap web colour names .

音メディア処理研究室

ブログ

画像処理を用いた複数話者に対する音声強調の研究

受聴者位置検出による指向性追従スピーカーシステムの研究(研究中)

研究背景

研究目的

従来研究

人認識の精度

音量・音質

設置・組込み、可搬性

アプローチ

検討すべき課題と対策案

音声合成変換技術で作成した音声の品質評価の研究

楽曲の印象・雰囲気と調和した映像の自動表示システムの研究

wavelet変換を用いた日常生活における心音分析の研究

マルチチャネルスピーカーにおける同時インパルス応答測定法の研究