人工知能第一研究室

 
楽曲の印象・雰囲気と調和した映像の自動表示システムの研究

研究背景と目的

 近年PCや携帯端末の普及等により、音楽を聴く機会が増加ている。

音楽は映像と同時に鑑賞することでより臨場感・高揚感を味わえるようになるが、そのためには音楽の印象(明るい、激しい等)とマッチしている必要がある。

映像は外の風景・PV(プロモーションビデオ)・ライブ映像など様々だが、今回着目したのはビジュアライザ(音の波形を元に 動的な模様を作成し表示するソフトウェア )である。

ビジュアライザの使用により、いつどこでも音楽と映像を楽しむことが可能。

しかし、既存のビジュアライザには音楽の印象・雰囲気に応じて映像を変化させる機能は乏しいようにみえる。

それを改善させるため今研究は、楽曲の印象を自動的に推定し、それに合った映像を表示するシステムを構築することを目的としている。

 システム概要
システム概要

流れとしては「解析処理」と「映像処理」の2つに分けて考える。

解析処理では楽曲解析によりゆらぎ特徴を求め、印象を自動的に推定する。

推定された印象のデータを映像生成の部分に引渡した後、それに見合った映像を生成し、最終的に画面に出力する。

 

 

従来研究

従来研究は楽曲解析の側面において、ゆらぎ特徴を用いた方法がある。ゆらぎとは「繰り返されるパターンが時間的に変化する現象」で音楽にもゆらぎがある。

周波数のパワースペクトル

上の図のように、音楽のジャンルによって周波数のパワースペクトルの傾きが異なり、このようなゆらぎ特徴を用いて楽曲印象を推定する。

映像に関する従来研究では、音楽と映像の相互作用についての研究がある。

音楽と映像が組み合わされたときに、私たちはそれに対し何らかの調和感もしくは非調和感を感じる。

例えば、赤色や紫色は楽曲印象を「迫力のある」ものにし、長調でテンポが速く明るい楽曲は「緑・黄・シアン」と相性が良いとされる。またクラシックのような伴奏形態をもつ音楽は、他のものと比べて映像作品に「拡がった」印象を与え、ロックは「拡がりのない」印象を与える。

このように、音楽と映像との間には様々な関係性が存在する。

 

 

予備実験

ゆらぎ特徴を用いて楽曲印象を推定した。印象は「明るい・暗い」と「激しい・穏やか」の2つで楽曲データは12曲用意した。

あらかじめ主観評価で分類した結果「明るい・暗い」「激しい・穏やか」ともに各6曲づつに分類された。その後解析した結果

akarui_kurai hagesi_odayaka

上図は「明るい・暗い」と分類した曲。下図は「激しい・穏やか」と分類した曲。図から青色と緑色の丸がそれぞれまとまっていることが分かり、これにより各印象値の閾値を決定することが可能になる。

この閾値を用いて、未知の楽曲データの印象を推定する。楽曲は伴奏のみの曲を無作為に30 曲選択し、まず主観評価で各楽曲の推印象を判別した。印象は「明るい- 暗い」「激しい- 穏やか」の2 対とした。そして、ゆらぎ特徴を用いた印象推定手法を使い楽曲の印象を推定し、最終的に主観評価で判別した印象と、推定手法で推定した印象が合致しているかどうかを確認した。

結果として、30 曲中、2 つの印象とも合致した数は11 曲、「明るい‐暗い」の印象のみ合致した数は6 曲、「激しい‐穏やか」の印象のみ合致した数は10 曲、2 つの印象とも合致しなかった数は3曲となった。

 

 

映像実験

提案するシステムの実現のために、映像において、単体の映像要素ではなく複数の要素が組み合わさった映像と音楽との関係性について検討する必要がある。

本研究では、映像の要素として「高速、低速」「高密度、低密度」の条件、さらに「上下左右」の4 方向に移動する条件を加え、全1 6 種類( 2 条件× 2 条件× 4 条件)の映像素材を用意する。

音楽素材は「長調、短調」「テンポが速い、テンポが遅い」という条件と設定し、それぞれを組み合わせた計4 曲を使用した。

提示された映像素材ごとに、「調和しているー調和していない」という形容詞対を7 段階([非常に調和していない][やや調和していない][少し調和していない][どちらでもない][少し調和している][やや調和している][非常に調和している]) で評価してもらう。これを映像素材16 パターン× 楽曲データ4 曲の64 通り全て行う。

提示される映像と音楽の組み合わせはランダムに選択される。

下図は実験内容の図である。右ウィンドウは映像パターンの表示、左ウィンドウは各種操作をする。

jikken2

 

被験者は健康体である男女8 人(20 代:7 人、50 台:1 人 男:7 人 女:1人) とした。被験者はパソコンを自らで操作してもらう。

 結果:各楽曲の特徴ごとにおける各映像要素との交互作用の値を下図 にまとめた。

hyou2

 

観測された分散比の値がF 境界値よりも大きいと、「両者に交互作用がある」といえ、少ないと「両者に交互作用があるとはいえない」とみなせる。
・ 映像要素の「方向」において、「曲調」「テンポ」ともに「両者に交互作用があるとはいえない」といえる。
 ・「速度」においては、「曲調」「テンポ」共に観測された分散比の値がF 境界値よりも上回っているので、2 つの特徴とも「両者に交互作用がある」とみなせる。
 ・「密度」においては、「テンポ」のみ「両者に交互作用がある」と言え、「曲調」は「両者に交互作用があるとはいえない」とみなせる。

つまり、楽曲の曲調は映像の速度と関連性が強く、楽曲のテンポは映像の速度とテンポとの関連性が強いと言える。

 

また、評価値のデータを楽曲ごとにまとめると以下の様になった。

tan_haya tan_oso tyou_haya tyou_oso

・短調で遅いテンポの楽曲では、映像の速度に関していえば「低速」の映像が評価値が高い。方向においては若干ながら「下」方向の調和度が高い。密度においては、「高密度」の映像パターンのほうが評価値は高めである。
 ・短調で速いテンポの楽曲では、全体的に「高速」の映像が評価値が高いが、「低速/高密度」の映像も同程度に評価値が高い。密度においては、「高密度」の映像が高い。では、若干ではあるが「下方向」の評価値が高い。また、短調で遅いテンポと比べてみると、全体的に標準誤差が大きい。(表5.6)
 ・長調で遅いテンポの楽曲では、それぞれの映像パターンとの差は小さい。速度においては「低速」の映像が高く、密度においては「低密度」よりも「高密度」の映像が全体的に高いが、「右/低速/低密度」の映像パターンは最も評価値が高い。
・ 長調で速いテンポの曲では、速度は「高速」のものが評価値が高い。密度においては同じ方向、速度において「高密度」が高い場合もあれば「低密度」が高い場合もある。方向においては「上方向」の評価値が高めである。

 考察:

 映像の方向において分散分析の結果、楽曲の「曲調」「テンポ」共に相互作用があるとは言えないと見れるが、楽曲ごとに詳しく見てみると、「短調」では「下方向」、「長調」では「上方向」において調和度が高くみれる。しかし、他の方向と比べて若干高い程度であるので、関連性が高いとはいえない。また、テンポによる調和度の違いはあるといえない。

密度においては、テンポに対して「遅いテンポ」であれば低密度と、「速いテンポ」であれば高密度と調和する傾向にある。また、曲調との関連性は弱いようにみえる。

速度においては、「曲調」「テンポ」共に相互作用があり、「テンポ」との相互作用のほうが強い。「高速」の映像ではテンポであれば「速いテンポ」と、曲調であれば「長調」と調和する傾向にある。楽曲ごとでみると「長調で速いテンポ」のものと最も調和している。「短調で速いテンポ」の楽曲とも調和しているが、「長調で速いテンポ」と比べると平均値は低く、標準誤差も高い。逆に「低速」の映像であれば「遅いテンポと」「短調」と調和する傾向にある。よって「短調で遅いテンポ」の楽曲と最も調和し、「長調で速いテンポ」に比べて標準誤差も少ない。

 

どの楽曲においても速度との関係性が強い。要因として、他の映像要素よりも楽曲印象とのイメージが結びつきやすいためではないかと推測される。

例えば「アップテンポな曲」であれば「高速の映像」を連想しやすく、「暗い曲」であれば「低速の映像」を連想しやすいように、「速さ」という因子が映像と音楽の大きな要素として存在するからではないかと予想される。

以上のことから、「短調でテンポの遅い」楽曲であれば「下方向に低密度で低速に移動する映像」を、「短調でテンポの速い」楽曲であれば「下方向に高密度で高速に移動する映像」、「長調でテンポの遅い」楽曲であれば「低速に移動する映像」を、「長調でテンポの速いい」楽曲であれば「上方向に高密度で高速に移動する映像」を、表示するのが適切であると示される。曲調ごとでは、「短調」の楽曲であれば「低速で高密度」の映像、「長調」の楽曲であれば「高速で低密度」の映像を表示すると、調和しやすい。テンポごとにおいては、「遅いテンポ」であれば「低速で高密度」の映像と、「速いテンポ」であれば「高速で低密度」の映像と調和しやすいことがわかる。

 

 

 

まとめ

これまでの結論として、ゆらぎ解析によりある程度の印象推定が可能とみなせる。

楽曲印象の自動推定を実現するための要素技術として、ゆらぎ情報を用いて楽曲特徴を抽出し、正準判別分析によって印象を推定する手法を用いた。本研究ではCDA を用いて未知の楽曲の印象を自動推定し、その印象が事前に主観的に判別しておいた印象と合致しているのかを確認した。その結果、30 曲中、2 つの印象とも合致した数は11 曲、「明るいー暗い」の印象のみ合致した数は6 曲、「激しいー穏やか」の印象のみ合致した数は10 曲、2 つの印象とも合致しなかった数は3 曲であった。両印象とも不正解であるのは3 曲と少ないが、両印象とも正解した楽曲は11 曲と決して多いとは言えないが、片方の印象のみ正答している楽曲16 曲を含めると正答率は多いとみなせる。このことからゆらぎ情報を用いた楽曲印象推定はある程度有用であると判断できる。

また、楽曲の印象と調和した映像を表示するために、映像と音楽の相互作用及び映像が音楽の印象に与える影響について調査した。複数の映像パターンと、複数の特徴を持つ楽曲を同時に視聴し、「調和している- 調和していない」の形容詞対尺度を元に、7 段階評価してもらった。結果として、楽曲の印象に応じて、調和する傾向にある映像パターンが存在することが確認された。また、映像の要素の観点から見ても、調和する楽曲とそうでない楽曲が存在することが明らかになった。特に映像の速度は楽曲との相互作用が強く、速度の変化によって楽曲との調和度が大きく変化することが判明した。方向や密度においても楽曲印象との相互作用が無いとは言えないが、速度と比べると若干有るという程度であった。しかし、楽曲との調和感に多少ながらも影響は与えていることが判明した。

 

本来音楽には様々な印象が含まれており、「明るい-暗い」、「激しい-穏やか」だけでは音楽全体の印象を捉えることは難しいと考えられる。また、より確実に印象推定するためには、分析データの増加、解析時間、計算時間なども考慮すべきである。映像面に関しても、本論文では映像の要素を3 条件としたが実際には、色彩、形状、大きさなども要素として考えられ、それらを組み合わせるとなると、膨大な量の映像パターンになり、実験をするのは困難となる。システムの実現のために音楽の印象にとってどのような映像要素が大きく影響を与えるかを明らかにしていくべきである。