デモ大会 | 音メディア処理研究室

教師ありNMFを用いた楽曲の音源分離

2022年度のデモ大会で発表した内容です。

[概要]

教師ありNMFを用いた楽曲の音源分離

楽曲のボーカルと楽器をMATLABでプログラムを実行して分離しました。

[開発環境]

MATLAB R2017b

Windows 10

詳しくは以下のスライドをご覧ください。

[スライド]

[音源]　(Bearlin – Roads)

・教師データ

・分離前

・分離後

Unityを用いたやまびこの再現

2023年1月17日に行われたデモ大会で、「Unityを用いたやまびこの再現」について発表しました。

音で思い浮かんだ言葉のうち、最初に出てきたものが「やまびこ」でした。そこで、やまびこをPC上で再現することにしました。

発表時に使用したスライドです。

仮想空間上で、観測者が山のほうへ「ヤッホー」と叫び、やまびこを聞き取るまでの状況を2つのシーンに分けて再現します。

開発環境として、Unity 3D（バージョン: 2021.3.8f1）を採用しました。

第1シーンでは、観測者から発せられた音波が山に反射する様子を再現します。観測者の音波は600個の球として発声者の前方へと球面状に放出され、地面に衝突した球の数や発声してから地面に衝突するまでに経過した時間を計測します。記録したデータはCSV形式で保存します。

仮想空間上の時間で15秒が経過した後、第2シーンに移行します。このシーンでは、観測者がやまびこを観測する様子を再現します。以前のシーンで計測したデータを読み込み、下記のサウンドエフェクタのパラメータに反映しています。

ディレイ
- 遅延時間：発声してから球が最初に衝突するまでの時間
リバーブ
- 衝突した球数/全体：ドライ信号のミックスレベル
- 山への衝突継続時間：低周波数の残響減衰時間

今回使用した音声は以下の通りです。

「やっほー」.mp3（効果音ラボ ver3.7 声素材　日常セリフ（元気な女の子）　より）

https://soundeffect-lab.info/sound/voice/line-girl1.html

以下は、実際にプログラムを実行した動画です。

<実験環境>

PC: FMV LIFEBOOK UH75

CPU: Intel Core i7-8565U

<参考文献>

Unity、Audio SFX Reverb Effect – Unity マニュアル

https://docs.unity3d.com/ja/2018.4/Manual/class-AudioReverbEffect.html

ジェスチャーによるバーチャル楽器演奏

2021年度に行われたデモ大会で体の動きに反応して音を鳴らすことをテーマとして発表したものです。

今回のデモではkinectを用いて音階を画面上に表示しました。

<開発環境>

Microsoft Visual Code

kinect

<実装できた機能>

①画面上の音階の枠内に手が入るとその音が鳴る

②音階の下に楽譜を表示した

下の動画は実際にKinectを用いてきらきら星を演奏したものである。

音声認識による音楽プレイヤーの操作

2021年度のデモ大会の内容です。

音声認識による音楽プレイヤーの操作を増やしたいと思い、

音楽再生アプリSpotify のWeb APIと、音声認識ソフトウェアのJuliusを利用して作成しました。

＜開発環境＞

Visual Studio Code
Python

＜概要＞

Spotifyの「お気に入りの曲」に登録している最新50曲の表示
アーティスト名の選択　->　（同様に最新50曲の中の）曲のリストを表示
再生
次の曲へスキップ
曲の停止

＜スライド資料＞

＜デモ動画＞

画面上半分はVisual Studio Code、下半分はSpotifyの再生画面を映しています。

プレイリストの曲が表示されていること、選択したアーティストの曲が流れていることが確認できます。

デモ動画で使用した楽曲の引用元は以下に記載しています。（　曲名/アーティスト名　）

花束のかわりにメロディーを/清水翔太
恋唄/清水翔太
Aitai/清水翔太
怪獣の花唄/Vaundy
東京フラッシュ/Vaundy

※録音環境により、音が聞こえづらくなっています。

教師ありNMFを用いた実環境で収音した音楽データの分離

2021年のデモ大会の内容です。

様々な音のある環境から必要な音だけを聞き取るために、教師データを用いた音源分離を利用した録音システムを作成しました。

[開発環境]

MATLAB R2017b

Windows 10

[スライド資料]

[音源]

・教師データ

・分離前

・分離後

救急車のドップラー効果の再現

デモ大会で発表した内容です。

[概要]
救急車のドップラー効果の再現

ドップラー効果の公式を用いて、周波数の計算を行い、MATLABで音を作成しました。

[開発環境]
MATLAB R2017b

詳しくは以下のスライドをご覧下さい。

[スライド]

[音源]
作成した救急車の音

(1)音の大きさを変化させた音

(2)(1)に加え、左右で出力する音量を変化させた音
（イヤホンで聞くと右から左に通り過ぎるように聞こえます）

移調とそれによる曲の変化

[概要]
任意の曲の調を変更することによって、曲の雰囲気がどのように変わるのかを比較しました。

調の変更の際には近親調を使用しました。
近親調とは調の関係性のことです。

プログラムの流れは以下のようになっています。

今回、使用した楽曲は童謡の『蝶々』です。
『蝶々』の調はへ長調となっています。

[音源]

原音(ヘ長調　ファソラシ♭ ドレミファ)

平行調(ニ短調　レミファソラシ♭ ドレ)

同主調(へ短調　ファソラ♭ シ♭ ドレ♭ ミ♭ ファ)

属調(ハ長調　ドレミファソラシド)

下属調(変ロ長調　シ♭ ドレミ♭ ファソラシ♭)

12chスピーカーシステムと収録用マイクアレイ

2020年12月23日に行われた3年生によるデモ大会にて、立体音響をテーマに発表を行いました。

12chマイクアレイで収録した音を録って出し、また楽器にマイキングして収録した音声をEQ,ダイナミクス処理などを経てmixしています。

今回大分大学文化会配信ライブを収録させていただきました。

参考にしている研究は

齋藤悠人, 石橋敬彦, 星加慧, 尾本章, “多チャンネル鋭指向性マイクを用いた音場情報収集センサー -スピーカーと組み合わせた簡易音場再生システムの構築-,” 日本音響学会 2015 年秋季研究発表会, 1-6-6, 2015.

です。

参考とした研究では鋭指向性マイクロフォンを24本使用していましたが、機材の制約などから単一指向性コンデンサマイクロフォン12本を採用しています。

12chマイクアレイにはオーディオインタフェース二台を用い、同時に会場PA用デジタルミキサーからマルチトラックでオンマイクの音を収録しています。

リハーサルではパフォーマーのすぐ近くに、本番中は会場後方にて収録しました。

またリハーサル前に12chそれぞれのインパルス応答を収録しています。

終了後は実験室にて再生システム構築と音源の編集、mixなどを行いました。

再生システム内にデジタルミキサーを組み込むことで直感的な操作が即座に行えます。

マイクスタンドを用いて上方のスピーカーを配置し、中層のスピーカーはスピーカースタンドへ設置しています。

レーザー距離計などを用いて等間隔、等距離に配置できるようにしました。

各スピーカーの特性補正にはRational acoustics Smaart v8とデジタルミキサーのパラメトリックイコライザーを使用しています。

実際に収録した音を録って出しで再生してみたところ、単一指向性マイクロフォンを採用したこともあり、中々定位感を強く得ることはできませんでした。

後日マイクアレイ近傍で音を鳴らす効果音収録的な収録を試したところ、比較的良好な定位を得られました。

今回収録したインパルス応答を利用することはかなわなかったが、今後様々な手法でさらなる臨場感付与へ挑戦してみたいと考えています。

また単一指向性マイクロフォンを使用しても定位を強調できるような信号処理についても学習していきたいです。

システム環境、使用機材について

OS :macOS Mojave10.14.6

開発(計算/解析/測定)環境 : MATLAB R2019a

録音環境 :

[ハードウェア]

BENRINGER C-2 *12, Shure SM58*4など各種マイクロフォン(収録用マイクロフォン)
ROLAND OCTA-CAPTURE UA-1010 *2(マイクアレイ収録用オーディオインタフェース)
YAMAHA LS9-16(w/ Dante-MY16AUD2)(PA用デジタルミキシングコンソール/Dante™を利用したマルチトラック録音)
Mac Mini Late 2014 (収録、測定用PC)

[ソフトウェア]

OCTA-CAPTURE Driver ver.1.5.4 for macOS 10.13/10.14(OCTA-CAPTURE用ドライバ)
Audinate Dante Virtual Sound Card v4.1.1.3(Dante Virtual I/O)
Audinate Dante Controller v4.2.7.1(Dante用統合ソフト)
Reaper v6.23(収録用DAW)

再生環境 :

[ハードウェア]

Mac Mini Late 2014 (再生用PC)
Presonus StudioLive32(EQ、ダイナミクスなど各種処理+入出力マトリクス/USBinput-XLRoutputによるDA)
Antelope MP32+(XLR-D-sub25変換用)
J TESORI　UMBRIA(スピーカー再生用マルチチャンネルパワーアンプ)
CONISIS TINY CUBE SP-02(スピーカー)

[ソフトウェア]

Reaper v6.23(再生用DAW)
Antelope MP32＋Launcher(MP32+用ドライバ)

参考文献

Omoto Akira Measurement, Evaluation, and Control of Sound Field, IPSJ SIG Technical Report , Vol.2017-MUS-115 No.7 2017/6/17

A.Omoto, S. Ise, Y. Ikeda, K. Ueno, S. Enomoto, M. Kobayashi, “Sound field reproduction and sharing sys- tem based on the boundary surface control principle,” Acoust. Sci. & Tech. 36, 1–11, 2015.

齋藤悠人, 尾本章, “3 次元音場再生システムの性能向上に関する研究,” 日本音響学会建築音響研究会資料 AA2016-09, 2016.

英語学習に役立つ音声コントロールアプリ

2020年12月23日にデモ大会で発表した内容です。

音声の速度変化などができるアプリを作ることで、

特にリスニングでの勉強をしやすくするために作成しました。

＜開発環境＞

Android Studio 4.1.1

＜実行機器＞

ASUS ZenFone 3 Laser

＜概要＞

音声ファイルの速度変化(0.5倍,0.75倍,1.0倍)

音量変化(最大、最小は実行機器に依存)

再生位置の変更(任意の位置を設定可能)

以上3つを実装しています。詳しくは以下のスライドをご覧ください。

*スライド中のデモの様子は以下となります。

[概要]
目的音の方向が既知の場合を設定して、ビームフォーミングの性能を知ることを目的としています。目的音（録音した音声）と白色雑音を用意して、目的音の方向からの音源を強調するビームフォーミングを実行します。実行後、SNRと音の波形で性能を評価しました。
※ビームフォーミングとはマイクロンアレイを用いて指向性を制御する信号処理技術です。
※SNRとは信号と雑音の比率のことで値が大きいほど雑音が少なくなります。

[動作環境]
MATLAB R2013b

[スライド]

[音源]
目的音