音メディア処理研究室

 
デモ大会

音声認識による音楽プレイヤーの操作

2021年度のデモ大会の内容です。

音声認識による音楽プレイヤーの操作を増やしたいと思い、

音楽再生アプリSpotify のWeb APIと、音声認識ソフトウェアのJuliusを利用して作成しました。

<開発環境>

  • Visual Studio Code
  • Python

<概要>

  • Spotifyの「お気に入りの曲」に登録している最新50曲の表示
  • アーティスト名の選択 -> (同様に最新50曲の中の)曲のリストを表示
  • 再生
  • 次の曲へスキップ
  • 曲の停止

<スライド資料>

<デモ動画>

画面上半分はVisual Studio Code、下半分はSpotifyの再生画面を映しています。

プレイリストの曲が表示されていること、選択したアーティストの曲が流れていることが確認できます。

デモ動画で使用した楽曲の引用元は以下に記載しています。( 曲名/アーティスト名 )

  • 花束のかわりにメロディーを/清水翔太
  • 恋唄/清水翔太
  • Aitai/清水翔太
  • 怪獣の花唄/Vaundy
  • 東京フラッシュ/Vaundy

※録音環境により、音が聞こえづらくなっています。

 

教師ありNMFを用いた実環境で収音した音楽データの分離

2021年のデモ大会の内容です。

様々な音のある環境から必要な音だけを聞き取るために、教師データを用いた音源分離を利用した録音システムを作成しました。

[開発環境]

MATLAB R2017b

Windows 10

[スライド資料]

[音源]

・教師データ

・分離前

・分離後

救急車のドップラー効果の再現

デモ大会で発表した内容です。

[概要]
救急車のドップラー効果の再現

ドップラー効果の公式を用いて、周波数の計算を行い、MATLABで音を作成しました。

[開発環境]
MATLAB R2017b

詳しくは以下のスライドをご覧下さい。

[スライド]

[音源]
作成した救急車の音

(1)音の大きさを変化させた音

(2)(1)に加え、左右で出力する音量を変化させた音
(イヤホンで聞くと右から左に通り過ぎるように聞こえます)

移調とそれによる曲の変化

[概要]
任意の曲の調を変更することによって、曲の雰囲気がどのように変わるのかを比較しました。

調の変更の際には近親調を使用しました。
近親調とは調の関係性のことです。

 

プログラムの流れは以下のようになっています。

今回、使用した楽曲は童謡の『蝶々』です。
『蝶々』の調はへ長調となっています。

[音源]

原音(ヘ長調 ファ  ソ  ラ  シ♭  ド  レ  ミ  ファ)

 

平行調(ニ短調 レ  ミ  ファ  ソ  ラ  シ♭  ド  レ)

 

同主調(へ短調 ファ  ソ  ラ♭  シ♭  ド  レ♭  ミ♭  ファ)

 

属調(ハ長調 ド  レ  ミ  ファ  ソ  ラ  シ  ド)

 

下属調(変ロ長調 シ♭  ド  レ  ミ♭  ファ  ソ  ラ  シ♭)

12chスピーカーシステムと収録用マイクアレイ

2020年12月23日に行われた3年生によるデモ大会にて、立体音響をテーマに発表を行いました。

12chマイクアレイで収録した音を録って出し、また楽器にマイキングして収録した音声をEQ,ダイナミクス処理などを経てmixしています。

今回大分大学文化会配信ライブを収録させていただきました。

 

参考にしている研究は

齋藤 悠人, 石橋 敬彦, 星加 慧, 尾本 章, “多チャンネル鋭 指向性マイクを用いた音場情報収集センサー -スピーカー と組み合わせた簡易音場再生システムの構築-,” 日本音響 学会 2015 年秋季研究発表会, 1-6-6, 2015.

です。

 

参考とした研究では鋭指向性マイクロフォンを24本使用していましたが、機材の制約などから単一指向性コンデンサマイクロフォン12本を採用しています。

 

12chマイクアレイにはオーディオインタフェース二台を用い、同時に会場PA用デジタルミキサーからマルチトラックでオンマイクの音を収録しています。

 

リハーサルではパフォーマーのすぐ近くに、本番中は会場後方にて収録しました。

またリハーサル前に12chそれぞれのインパルス応答を収録しています。

 

終了後は実験室にて再生システム構築と音源の編集、mixなどを行いました。

再生システム内にデジタルミキサーを組み込むことで直感的な操作が即座に行えます。

 

マイクスタンドを用いて上方のスピーカーを配置し、中層のスピーカーはスピーカースタンドへ設置しています。

レーザー距離計などを用いて等間隔、等距離に配置できるようにしました。

各スピーカーの特性補正にはRational acoustics Smaart v8とデジタルミキサーのパラメトリックイコライザーを使用しています。

 

実際に収録した音を録って出しで再生してみたところ、単一指向性マイクロフォンを採用したこともあり、中々定位感を強く得ることはできませんでした。

後日マイクアレイ近傍で音を鳴らす効果音収録的な収録を試したところ、比較的良好な定位を得られました。

今回収録したインパルス応答を利用することはかなわなかったが、今後様々な手法でさらなる臨場感付与へ挑戦してみたいと考えています。

また単一指向性マイクロフォンを使用しても定位を強調できるような信号処理についても学習していきたいです。

 

 

システム環境、使用機材について

OS :macOS Mojave10.14.6

開発(計算/解析/測定)環境 : MATLAB R2019a

録音環境 :

[ハードウェア]

  • BENRINGER C-2 *12, Shure SM58*4など各種マイクロフォン(収録用マイクロフォン)
  • ROLAND OCTA-CAPTURE UA-1010 *2(マイクアレイ収録用オーディオインタフェース)
  • YAMAHA LS9-16(w/ Dante-MY16AUD2)(PA用デジタルミキシングコンソール/Dante™を利用したマルチトラック録音)
  • Mac Mini Late 2014 (収録、測定用PC)

[ソフトウェア]

  • OCTA-CAPTURE Driver ver.1.5.4 for macOS 10.13/10.14(OCTA-CAPTURE用ドライバ)
  • Audinate Dante Virtual Sound Card v4.1.1.3(Dante Virtual I/O)
  • Audinate Dante Controller v4.2.7.1(Dante用統合ソフト)
  • Reaper v6.23(収録用DAW)

再生環境 :

[ハードウェア]

  • Mac Mini Late 2014 (再生用PC)
  • Presonus StudioLive32(EQ、ダイナミクスなど各種処理+入出力マトリクス/USBinput-XLRoutputによるDA)
  • Antelope MP32+(XLR-D-sub25変換用)
  • J TESORI UMBRIA(スピーカー再生用マルチチャンネルパワーアンプ)
  • CONISIS TINY CUBE SP-02(スピーカー)

[ソフトウェア]

  • Reaper v6.23(再生用DAW)
  • Antelope MP32+Launcher(MP32+用ドライバ)

 

参考文献

Omoto Akira  Measurement, Evaluation, and Control of Sound Field, IPSJ SIG Technical Report , Vol.2017-MUS-115 No.7 2017/6/17

A.Omoto, S. Ise, Y. Ikeda, K. Ueno, S. Enomoto, M. Kobayashi, “Sound field reproduction and sharing sys- tem based on the boundary surface control principle,” Acoust. Sci. & Tech. 36, 1–11, 2015.

齋藤 悠人, 石橋 敬彦, 星加 慧, 尾本 章, “多チャンネル鋭 指向性マイクを用いた音場情報収集センサー -スピーカー と組み合わせた簡易音場再生システムの構築-,” 日本音響 学会 2015 年秋季研究発表会, 1-6-6, 2015.

齋藤悠人, 尾本 章, “3 次元音場再生システムの性能向上に 関する研究,” 日本音響学会建築音響研究会資料 AA2016-09, 2016.

 

 

英語学習に役立つ音声コントロールアプリ

2020年12月23日にデモ大会で発表した内容です。

音声の速度変化などができるアプリを作ることで、

特にリスニングでの勉強をしやすくするために作成しました。

<開発環境>

Android Studio 4.1.1

<実行機器>

ASUS ZenFone 3 Laser

<概要>

音声ファイルの速度変化(0.5倍,0.75倍,1.0倍)

音量変化(最大、最小は実行機器に依存)

再生位置の変更(任意の位置を設定可能)

以上3つを実装しています。詳しくは以下のスライドをご覧ください。

*スライド中のデモの様子は以下となります。

ビームフォーミングによる目的音の強調

2020年12月23日に行われたデモ大会で発表した内容です。

[概要]
目的音の方向が既知の場合を設定して、ビームフォーミングの性能を知ることを目的としています。目的音(録音した音声)と白色雑音を用意して、目的音の方向からの音源を強調するビームフォーミングを実行します。実行後、SNRと音の波形で性能を評価しました。
※ビームフォーミングとはマイクロンアレイを用いて指向性を制御する信号処理技術です。
※SNRとは信号と雑音の比率のことで値が大きいほど雑音が少なくなります。

[動作環境]
MATLAB R2013b

[スライド]

[音源]
目的音

雑音

混合音(ビームフォーミング前)

混合音(ビームフォーミング後)

自身の声による歌声合成

2020/12/23に行われたデモ大会で発表した内容です。

内容については以下のスライドをご覧ください。

[音源]
かえるのがっしょう輪唱

大分大学学歌一番

ダミーヘッドを使った臨場感のある録音

2020年12月23日に行われた学部3年生によるデモ大会で発表した内容です。

 

<概要>                                                大学のサークルが行った演奏LIVEをダミーヘッドとマイク2本を用いて録音し両者の比較をしました。

サウンド編集ソフト:Audacity

 

詳しい内容については以下のスライドをご覧ください。

 

・マイク2本を使った録音(ヘッドフォンなどを使ってお聞きください)

 

 

・ダミーヘッドを使った録音(ヘッドフォンなどを使ってお聞きください)

Pythonを使ったリアルタイム音声変換

2020/1/10に行われたデモ大会で発表した内容です。

<開発環境>
・PyCharm(Pythonの統合開発環境)
・Python3.6

<概要>
録音した音声の音の高さや音色をリアルタイムで変換できるボイスチェンジャーをPythonで作成しました。

詳しい内容についてはスライドをご覧ください。

<サンプル音声>
ボイスチェンジャーを使って録音した音声です。
全て同じ男性の声で録音しています。

・通常の音声(音の高さ1倍、音色1倍)

・音の高さを1.5倍にした音声

・音の高さ2倍、音色を1.2倍にした音声

・宇宙人のように聞こえる音声