音響情報を用いた講義音声の自動要約の研究

◆研究目的

・たくさんの音声コンテンツがあることによって自分に必要な情報がどれか分からない
・時間がない中で必要な情報のみを抜き出して聞きたい

私の研究では上に述べたような背景から、音声情報を要約した情報にすることを目的としています。
また、要約をする際には、単語の意味を理解しながら要約をするものが多いですが、
今回の研究では主に音声情報を用いることによってより単語学習の必要のない要約を目指しています。

◆音声情報について

今回用いる音声情報は周波数、パワー、話速、単語の繰り返しです。

周波数とは…声の高さに相当する
パワーとは…声の大きさに相当する

◆提案手法

【システム】

下記のシステムの提案をします。

system

>話速、周波数、パワー、単語の繰り返しの情報をSVMを用いることによって重要な文か重要な文でないかを判断します。

◆実験方法

【正解データ作成】

被験者　7名

重要文を20%～30%抽出してもらう

→3人以上が重要とした文章を正解データとする

【提案手法データ作成】

data1

上図のデータのように要約したいデータではない残りのデータ(ABC)の重要文データをSVMでモデル化した後に

要約したいデータ(D)の韻律情報データのみをSVMの式で計算することにより要約データの作成をする。

(ここで重要文データとは韻律情報と正解データのことをさす)

【比較手法データ作成】

比較手法作成においては今回は音声認識結果をそのまま言語解析ソフトで要約した。

◆実験結果

実験結果

平均では提案手法が一番高いことが分かった。

しかし、分散分析を行った結果、分散比の値がF境界値より小さかったため差があるとはいえないという結果となった。

◆実験からの考察

①優位な差が得られなかった

データ数が少ない

②パワーの値の影響

一致率の一番低かったCのデータはパワーの値の標準偏差が他のデータに比べて大きい

→パワーの値のばらつきによって大きな影響を受けているのではないか

③従来研究に比べて一致率が低い

韻律情報データのモデルが少ない

韻律情報の種類が少ない

◆まとめ

・音声認識率の低い状態での音声要約手法の提案

– 韻律情報のみを用いることによって音声要約を行う

・結果

-言語情報を用いて要約するよりも平均の一致率が高い

パワーの値のばらつきが分類に影響を与えるのではないか

・課題

– 優位な差が得られなかったため,今後データを増やすことによってより正確なデータにする

– 一致率を従来研究に近づける

– 音声データの時間を増やす

« 個人性を失わない音声合成に向けた短時間録音での音声データ作成法の研究多チャンネル収音による頭部運動追従型高臨場感ヘッドホン再生の研究 »

音メディア処理研究室

ブログ