音メディア処理研究室

 
デモ大会2023

独立低ランク分析を用いた楽曲の音源分離

2023年度のデモ大会で発表した内容です。

<概要>

独立低ランク分析を用いた楽曲の音源分離
ボーカルと楽器ごとに分離するプログラムをPythonで作成しました。

 

<開発環境>

開発言語:Python

環境  :Visual Studio Code

OS    :Windows 11

CPU      :11th Gen Intel(R) Core(TM) i7-1165G7 CPU @ 2.80GHz 2.80 GHz

 

<手法>

Vocalと楽器のそれぞれ独立した音源をコンピュータ内で畳み込み、その混合音を楽器ごとに分離しました。

このプログラムを、音源の数を2つから4つの場合で実行し分離結果を比較しました。

 

<使用した音源>

Young  Griffo/Facade(DSD100 | SigSepより)

 

<実行結果>

2音源(Vocal,Guitar)

・分離前

・分離後(vocal)

・分離後(Guitar)

3音源(Vocal,Guitar,Drums)

・分離前

・分離後(vocal)

・分離後(Guitar)

・分離後(Drums)

 

4音源(Vocal,Guitar,Drums,Bass)

・分離前

・分離後(vocal)

・分離後(Guitar)

・分離後(Drums)

・分離後(Bass)

 

<まとめ>

VocalとGuitarの音源が2つの場合では、混合前の音源と比較してもきれいに分離できました。しかし、音源数を増やすにつれて後ろでほかの楽器が小さく聞こえており、分離の精度は下がっていきました。特に、音源が4つの場合の分離後のVocalにDrumsとBassの音がにじみ出ていました。

<参考文献>

  • 戸上真人.”Pythonで学ぶ音源分離“.(2023/12/17)
  • Daichi Kitamura.“研究成果デモンストレーション”.2023/11/30. Daichi Kitamura (d-kitamura.net)(2023/12/17)

音楽と映像の調和と違和感

2022年に行ったデモ大会の資料です。

【概要】

音楽と映像における親和性または違和感について、動画を用いて以下の項目で比較、検討しました。

●1つの動画の音声のみを3パターン分に編集したものを視聴し、どれに違和感を覚えたかを検証

❶単音

❷会話音

❸歩行音

❹音楽

 

単一指向性マイクとアンビソニックマイクを用いたVR動画

2023 年 12 月に行われたデモ大会の内容です。

コロナ禍で自宅で気軽に音楽鑑賞をしたいという需要が増えているので、今回は VR 動画と立体音響に注目しました。

VR オーディオを簡単に制作できる手法の一つとしてアンビソニックマイクがあります。これは 360 度音を収音することが可能なマイクのことです。

<スライド1:アンビソニックマイク>

VR オーディオについては単一指向性のマイクでも作成することが可能であることを知り、単一指向性のマイクの本数が 2 本の時と 6 本の時とアンビソニックマイクの時でどのような違いが出るのか比較するために動画を撮影して比較してみました。

<スライド2, 3:背景・目的>

 

提案手法としてはまずアンビソニックマイクを 1 本と単一指向性マイクを合計 8 本を使って同時に収音し、THATA で撮影した映像と重ねます。
収音した音声については以下のように各マイク、本数ごとにフォルダを分けました。

<フォルダ一覧>
・アンビソニックマイク 1 本
・単一指向性マイク 2 本
・単一指向性マイク 6 本

単一指向性マイクで集音した音声については Adobe Premiere Pro を使い、立体的に聞こえるように編集しました。
また、使用した機材については以下の通りです。

<スライド4, 5:提案手法・使用機材>

 

撮影した環境は以下のようにしました。
マイクの位置関係は上からアンビソニックマイク、単一指向性マイク(6 本 → 2 本)です。

<スライド6:環境>

 

撮影して編集した動画については youtube にアップロードしました。
URL はこちらです。
1. アンビソニックマイク H3-VR(Ambisonics)
2. 単一指向性マイク 2 本
3. 単一指向性マイク 6 本

<スライド7:動画>

 

最後に課題とまとめについてです。

まとめとしてはアンビソニックマイクであるH3-VRを使って収音したものが一番立体的に聞こえました。
また比較した主観としては、単一指向性マイクが6本ときのほうがわずかに2本の時よりも聞き心地がよかったです。

課題としては単一指向性マイクを6本で撮影した動画を編集するとき、映像に対して右側に当たるマイク 3 本が左側のおよそ 2 – 2.5 倍ほど音量が大きく音量バランスを調整するのにもっと良い塩梅にすることができたということが挙げられます。

<スライド8:課題、まとめ>

 

参考文献は以下の通りです。

<スライド9:参考文献>

 

短時間フーリエ変換を用いた咳音検出

2023年度のデモ大会で発表した内容です。

【概要】

Google Colaboration上のフォルダ内の音声ファイルに咳音があれば文字で報告するプログラムを作成しました。

【背景・目的】

 現在、新型コロナウイルスの影響で、スマートフォンやPCを利用したオンライン受診が広まっています。また、豚などの家畜の健康状態を把握するための咳音検出システムの研究・開発が進められています。そこで、私はPCで咳音検出を検出するプログラムが作成できるのではないかと考え、デモ大会に向けてプログラムに取り組みました。

【システム説明】

下図は、咳音のスペクトログラムと波形です。

波形やスペクトログラムの類似度を計算すれば、咳音の判定に使えるのではないかと考えました。

音声分析を行うために「短時間フーリエ変換」を用いました。

 スペクトログラムの差分、及び類似度を計算し、閾値を用いて咳音かどうかを判断します。類似度が830000以上1150000以下の時は咳と判定します。

 

【プログラムの使い方】

まず、スマートフォンで自身の咳や声の音を録音します。次に、その音声ファイルをパソコンに送り、Google Colaboration上のフォルダに入れます。プログラムを実行すると咳音かどうかが判断されます。

【デモ大会での実験】

デモ大会では11個の音声ファイルで実験しました。音声ファイルの内訳は、咳音が8個、「こんにちは」という音声が1個、「あー」と発した音声が2個、無音の音声ファイルが1個となっています。

【実験結果】

下図はコンソール上での出力結果です。

11個の音声ファイルのうち10個が適切に判別されました。誤って咳音が検出されたのは、「こんにちは」という音声でした。

【開発環境】

使用言語:Python

環境:Google Colaboration

【使用した音源】

自身で咳をしてスマートフォンで録音しました。咳音以外も自分の声で録音しました。録音には、スマートフォンアプリの「ボイスメモ」を使用しました。

<咳音の例>

 

<「あー」という音声の例>

 

【参考文献】

音声分析におけるフーリエ変換とスペクトログラムを理解する  Qihttps://qiita.com/shirowanisan/items/6af2cc4c4be0c57bef06ta

『咳音検知技術/SoundTalksTM』を活用した飼養豚の体調管理に関する「日本初」の実証実験開始について https://www.boehringer-ingelheim.com/jp/press-release/20211101-02