Query-by-Humming system に関する論文

獅々堀,大西,柘植,北,Earth Mover's Distance を用いたハミングによる類似音楽検索手法,情報処理学会論文誌, Vol.48, No.1, pp.300-311 (2007)

(距離尺度の効果に焦点を絞るため)採譜ソフトで変換した MIDI 音楽データを入力とする.また,データベースに格納するデータは「予め主旋律を抽出した」ものを用いる.
この論文はレビューもしっかりしており,特に音調推移/ユークリッド距離を用いる手法の問題点を分かり易い例を用いて説明している.
類似度として EMD を用いており,輸送問題における供給地数として「メロディ片内の音符数」,各供給地の供給量として「各音符の長さ」,音符間の輸送コストには「各音符の出現時間,前音との音高差,音高推移情報からなる特徴量を用いて,特徴ベクトル間のユークリッド距離を輸送コストとする.
実験の結果,音高推移を利用したユークリッド距離に比べて正解率が優れ,音長と音高差の距離の挿話を用いた DPマッチングと比べて(上位 20以内では DPマッチングの方が優れるものの)30位以内に全ての正解データを検索できた.
また,EMD に付随する「膨大な計算時間を要する」という問題点についても解決策を提案している

E.Pollastri, An audio front end for query-bu-humming system, Proc. of Int. Symposium on MIR (2001)

http://ismir2001.ismir.net/pdf/haus.pdf
周波数から MIDI note number へ変換する手法を述べている.
未読

W.P.Birmingham et.al., MUSART : Music Retrieval Via Aural Queries

http://ismir2001.ismir.net/pdf/birmingham.pdf
未読

R.B.Dannenberg et al., The MUSART Testbed for Query-By-Humming Evaluation, Proc. 4th Int. Conf. on Music Information Retrieval, pp.41-50 (2003).

未読

G.E.Poliner and D.P.W.Ellis, A Classification Approach to Melody Transciption

http://www.ee.columbia.edu/~dpwe/pubs/ismir05-melody.pdf

J.Shifrin, B.Pardo, C.Meek and W.Birmingham, HMM-based musical query retrieval, Proc. of Symposium on MIR, 2001.

http://www.cs.northwestern.edu/~pardo/publications/shifrin-pardo-meek-birmingham-jcdl02.pdf

  1. 音符列を「『前音との相対音高』と『次音との相対音長』の組の列」で表現する.
  2. データベース内の音符列から,各フレーズ毎に HMM モデルを作る.
  3. クエリ(ハミング)から音符列(1.に書いた値の例)を作り,尤も一致するモデルを選択する.

S. Pauws, CubyHum: A fully operational query by humming system, Proc. ISMIR 2002, pp. 187-196 (2002).

Philips Research Eindhoven で開発された QBH システムであり,動的計画法に基づいて検索する.
Google search では見付からないため,未読

R.B.Dannenberg and N.Hu, Understanding Search Performace in Query-By-Humming Systems, Proc. 5th Int.Symposium on Music Information Retrieval, pp.232-237 (2004)

http://ismir2004.ismir.net/proceedings/p043-page-232-paper236.pdf

  • note ベースの検索.特徴量として音高(pitch, relative pitch),,音長(IOI, IOI ratio, Log IOI Ratio)を用いる.音高と音長の特徴量の組み合わせを試して(組み合わせ比率をいくつか試す)検索し,評価にはMRR (mean reciprocal rank)を用いる.
  • 検討の対象は以下のとおり:
    • 類似度計算は近似文字列マッチング(note-based dynamic programming)\\を利用(本論文では NOTE-SIMPLE と呼ぶ)すると,relative pitch and Log IOI ratio が最良.ただし,この手法は最適化されていない.文献[7] "The MUSART Testbed for Query-By-Humming Evaluation" の方が洗練されているそうだ.
    • 動的計画法を用いる他のシステムである)CubyHum との性能比較.
    • (NOTE-SIMPLE は検索に時間がかかるため)n-gram を利用.また,データベースからの N-gram search によって検索対象データ数を削減し,それにたいして note-interval search を試みる.
  • N-gram search では,最初にノート列から note-interval を計算する.また,IOI, Pitch とも粗い量子化を行い,完全なマッチングを行う.特徴ベクトルは(relative pitch 1, IOI ration 1, relative pitch 2, IOI ration 2, ...)である.n-gram は,音符をひとつずつずらしながら作られる(trigram の場合,"notes 1,2,3", "notes 2,3,4", ...となる).類似度の計算の基本路線は,target 内の n-gram と一致する,クエリ内の n-gram の数を数えることである.具体的にはテキスト検索の手法を援用し,それらを組み合わせた.
    • TF weighting の変種
    • IDF weighting
    • locality constraint
    • n-gram 特徴の選択 : relative pitch and IOI ratio,
    • only relative pitch, only IOI ratio
    • パラメータ n は 1, 2, 3, 4 を試した.

n=3, relative pitch と IOI ratio の組み合わせ,local constraint なし,IDF を利用,tf を利用しない場合に最良の性能を示した.しかし,検索時間の短縮は実現されるが,first stage となる n-gram search において,正解の25-60% がカットされており,問題が残る.

N.Hu and R.B.Dannenberg, A Comparison of Melodic Database Retrieval Techniques Using Sung Queries, Proc. JCDL 2002, pp. 301-307 (2002).

[www.cs.cmu.edu/~rbd/papers/hu_dannenberg_jcdl2002.pdf]
R.B.Dannenberg and N.Hu, Understanding Search Performace in Query-By-Humming Systems で使われている consolidation と fragmentation の概念および計算方法については,この論文を読めばよい(? 未読だから,詳細は不明

A comparative evaluation of search techniques for query-by-humming using the MUSART testbed,Journal of the American Society for Information Science and Technology, Volume 58 , Issue 5, pp.687-701 (March 2007).

ACM Portal で入手可能
未読

M.Colin abd B.William, Johnny Can’t Sing: A Comprehensive Error Model for Sung Music Queries, Proc. 3rd Int.Symposium on Music Information Retrieval, pp.124-132 (2002)

http://ismir2002.ismir.net/proceedings/02-FP04-4.pdf
note の挿入や削除を表現するため,same, join, elaboration という概念を用いてクエリと target(データベース内の所望のフレーズ)との関係を間接的に表現し,これを HMM における状態とする.

Jyh-Shing Roger Jang, Chao-Ling Hsu & Hong-Ru Lee, Continuous HMM And Its Enhancement For Singing/Humming Query Retrieval, Proc. 6th Int.Syposium on Music Information Retrieval, pp.546-551 (2005)

http://ismir2005.ismir.net/proceedings/1064.pdf
"ta" や "la" による(限定された)ハミング入力でなく,任意の形式(例えば歌詞をそのまま歌う)に対応するには連続 HMM がよいのではないか?という提案.その背景は,連続 HMM が大規模語彙・不特定話者 speech recognition において高い性能を示しているからというもの.
この論文のチェックは,次の段階で十分

G.E.Poliner and D.P.W.Ellis, A Classification Approach to Melody Transcription

http://www.ee.columbia.edu/~dpwe/pubs/ismir05-melody.pdf
未読

R.Kline, E.Glinert, Approximate matching algorithms for music information retrieval using vocal input, Proc. of 11th ACM Int'l Conference on Multimedia, pp.130-139 (2003).

相対的な音長を用いて検索する手法を提案.
また,"3.Related work" の中で以下の点に触れている.

  • fast matching using contours

音高差を U,D,S で表し,それらから 4-gram を作成し,これを base-3 number(奇数 3 の数値)に変換することにより高速な検索が可能となる.しかし,Kline 自身の実験では「検索精度が不十分」としている.

  • approximate pattern maching

音高差を U,D,S で表し,2つの文字列の比較をとるもの."3.2.2 Previous Applications" において,insert / delettion / transform に対するペナルティの与え方について複数の論文をレビューしている.

M.Carre, P.Philippe, and C.Apelian, New query-by-humming music retrieval systems conception and evaluation based in a query nature study, Conf. on Digital Audio Effects (DAFX-01). (2001).

recall の求め方(特に正解集合の求め方)が section 6 のはじめに書いてある.

R.J.McNab et al., Tune retrieval in the multimedia library, Multimedia Tools and Applications, Vol.10, pp.113-132 (2000)

http://citeseer.ist.psu.edu/mcnab96tune.html
未読

W.P.Birmingham et.al., MUSART : Music Retrieval Via Aural Queries

Proc. ISMIR らしい(出典の詳細は調べていない)
http://ismir2001.ismir.net/pdf/birmingham.pdf
未読

J.Foote, An overview of audio information retrieval, Multimedia Systems, Vol.7, No.1, pp.2-10 (1999)

タイトルからしてサーベイ論文
未読

M.Kurimo, Indexing audio documents by using latent semantic analysis and SOM, In Kohonen Maps, E.Oja and S.Kaski (Eds.), Elsevier Science, pp.363-374 (1999)

http://citeseer.ist.psu.edu/221638.html
未読

C-W.Chang et al, A Practical Music Retrieval System Based on Sliding Melodic Contour, Int.Computer Symposium, Dec.15-17, 2004, Taipe,Taiwan.

http://140.134.132.124:8080/dspace/bitstream/2377/1901/1/ce07ics002004000201.pdf
未読

小杉,小島,片岡,串間,大規模音楽データベースのハミング検索システム,情報処理学会論文誌, Vol.43, No.2, pp.287-298 (Feb. 2002).

歌声を市販ソフトを用いて MIDI 化し,それをデータベース内の MIDI と比較する手法.利用された特徴,検索精度の検討方法に関する記述あり.

小杉,櫻井,森本, 電話を用いたハミング検索システム, 情報処理学会論文誌:データベース,Vol.45, No.SIG 10(TOD 23), pp.49-60 (Sep. 2004).

手元に電子ファイルあり

小杉,櫻井,山室,串間,Sound Compass: ハミングによる音楽検索システム, 情報処理学会論文誌,Vol.45, No.1, pp.333-345 (2004).

M.Carre, P.Philippe, and C.Apelian, New query-by-humming music retrieval systems conception and evaluation based in a query nature study, Conf. on Digital Audio Effects (DAFX-01). (2001).

未読

M.A.Raju, B.Sundaram and P.Rao, TANSEN: A query-by-humming based music retrieval system, National Conference on Communicatios, NCC 2003 (2003).

未読

獅々堀,大西,柘植,北,Earth Mover's Distance を用いたハミングによる類似音楽検索手法, 情報処理学会論文誌, Vol.48, No.1, pp.300-311 (2007).

  • 距離尺度として Earth Mover's Distance (EMD) -- 線形計画法のひとつである輸送問題を解く -- を用いる.
  • 既存の拍ベースの特徴抽出(小杉らの SoundCompass)の問題点を指摘している.具体的には音長の情報が失われること,および音高推移特徴ベクトルを生成する場合の基準音の選択に関する問題点.
  • ハミングを採譜ソフトを用いて MIDI に変換する.

帆足,上月,菅谷,楽曲配信サービスを支える音楽情報検索技術,電子情報通信学会誌,Vol.88, No.7, pp.529-534 (2005).

手元に雑誌あり.

後藤,平田,音楽情報処理の最近の研究,日本音響学会誌, Vol.60, No.11, pp.675-681 (2004)

http://staff.aist.go.jp/m.goto/PAPER/JASJ200411goto.pdf

Multimedia Information Retrieval

http://www.computing.dcu.ie/research/papers/1999/1099.ps
ざっと見たところイラストも多く,音楽情報処理の概要を知るには読み易そうな感じ
未読