OS5-O2 TRECVID Semantic Indexing...
Transcript of OS5-O2 TRECVID Semantic Indexing...
![Page 1: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/1.jpg)
OS5-O2
TRECVID Semantic Indexing TaskとMultimedia Event Detection Taskへの取り組み
樋爪 和也,柳井 啓司(電気通信大学)
![Page 2: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/2.jpg)
背景
コンテンツベースの映像検索手法が盛んに
◦ TRECVID:国際的な評価ワークショップ
膨大なデータ処理の必要性
◦ 4000時間の大規模データ
![Page 3: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/3.jpg)
本発表について
TRECVIDの概要
◦ SINタスク
◦ MEDタスク
参加タスクに対する実行手法
![Page 4: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/4.jpg)
TRECVIDとは
映像検索技術に関連する競争型ワークショップ
TRECVID2012の6つのタスク Semantic indexing (SIN)
Known-item search (KIS)
Interactive surveillance event detection (SED)
Instance search (INS)
Multimedia event detection (MED)
Multimedia event recounting (MER)
NISTとDTOが主催
東工大、NTT、IBM、コロンビア大、アムステルダム大など各国の研究チームが参加
本研究はSINタスク、MEDタスクに関連
![Page 5: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/5.jpg)
Semantic INdexing task
ショット (=シーンごとの短い動画)の認識
主に対象となるのは
物体、人 :Chair、George_Bush、Skier...
動作 :Singing、Sitting_down、Walking_Running...
風景 :Hill、Kitchen、Forest...
Airplane Bus Hand
1ショットあたり、最長で3.5分
![Page 6: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/6.jpg)
Semantic INdexing task
カテゴリ数:346
20(2008, 09)、130(2010)と増加
カテゴリ数を減らしたlight、組み合わせたpairも
• 最終結果を提出できないチームも多い
学習データ :403,800ショット(600時間)
テストデータ:145,634ショット(200時間)
データ
テストデータは翌年の学習データに
ランキング付けした上位結果からサンプリングして計算
カテゴリごとに上位2000ショットが対象
評価形式:平均適合率
2011、2012は東工大チームがTOP
![Page 7: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/7.jpg)
Multimedia Event Detection task
複雑なイベントの判定
SINタスクよりも複合的な高次概念を検出
動作:Reparing an appliance、Rock climbing…
状態:Birthday party、Winning a race without a vehicle…
Working on a
sewing project
Parade Birthday party
![Page 8: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/8.jpg)
Multimedia Event Detection task
イベント数:20+5
事前に告知されるイベント20、追加のAdHocイベント5
Ad Hocイベント
データ SINデータと異なり、ショット分割が行われていないビデオクリップが対象
SIN MED
ビデオ
ショット 学習データ :47430クリップ(1474時間)
テストデータ:98117クリップ(3722時間)
• 締め切りまでの期間が短く
• メタデータも十分でない状態
![Page 9: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/9.jpg)
Multimedia Event Detection task
評価形式
各チームが独自にThresholdと、スコアを決定
正解、非正解データのエラー率が対象
Normalized Detection Cost(NDC) • MEDでのシステム全体の評価指針
NDC = FN ∗ 0.08 + FP ∗ 0.999
0.08
NDCが低い=FN、FPが低いほど高性能
FN= 誤分類した正解データ数
全正解データ数 FP=
誤分類した非正解データ数
全非正解データ数
未検出率 誤検出率
![Page 10: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/10.jpg)
認識手法:SINタスク
特徴抽出 データ
特徴抽出
BoFベクトル変換
SVM学習、分類
画像特徴:全フレームから
SURF
RGB色特徴
時空間特徴
[Noguchi et al. 2010]
![Page 11: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/11.jpg)
認識手法:SINタスク
Bag-of-Features表現に変換 データ
特徴抽出
BoFベクトル変換
SVM学習、分類
soft assignment
複数のコードワードへの割り当て
空間ピラミッド表現
(1+2×2)
画像特徴はコードワード1000
時空間特徴はコードワード
5000
![Page 12: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/12.jpg)
認識手法:SINタスク
Multiple Kernel Learning-SVM データ
特徴抽出
BoFベクトル変換
SVM学習、分類
複数の特徴を統合
出力値をソートしてランキング付け
𝐾 𝑥, 𝑥′ = 𝛽𝑗𝑘𝑗 𝑥, 𝑥′ 𝛽𝑗≥ 0, 𝛽𝑗 = 1
𝐾
𝑗=1
𝐾
𝑗=1
0% 20% 40% 60% 80% 100%
Airplane
Airplane_Flying
Basketball
Boat_Ship
SURF 色 時空間
![Page 13: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/13.jpg)
SINタスクの手法をMEDに適用
認識手法:MEDタスク
上位500ショットをそのカテゴリのポジティブショットとして使用
学習・分類
MEDデータはショット分割がされていない
ビデオ ショット分割
ビデオスコア ショットスコア
学習データにイベントを
含まないショットが存在する
![Page 14: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/14.jpg)
認識手法:MEDタスク
学習データの中からショットを選択
VisualRank:教師なしショットランキング
ランキング上位のショットを学習に使用
上位500ショットをそのカテゴリのポジティブショットとして使用
Birthday party
![Page 15: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/15.jpg)
元のビデオクリップのスコア決定
認識手法:MEDタスク
上位500ショットをそのカテゴリのポジティブショットとして使用
学習・分類
ビデオ ショット分割
ビデオスコア ショットスコア
元の動画のスコア =𝑆1 + 𝑆2 + 𝑆33
𝑆𝑖:上位𝑖番目のショットスコア
![Page 16: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/16.jpg)
認識手法:MEDタスク
ショット分割結果
最大3000フレーム(100秒分)
ランキング上位500ショットをポジティブに
学習データ数
(25クラス) テストデータ
元動画 4225 98118
分割後ショット数 48792 733764
使用した
ポジティブデータ 12500 ー
![Page 17: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/17.jpg)
実験環境
80台のクラスタマシン
4コアCPU、8GBメモリ AMD:Phenom II X4 (3.00GHz)
Intel :Xeon X3230 (2.66GHz)、Xeon X3363 (2.83GHz)、
Core2 Quad Q9650(3.00GHz)、Core i7 870 (2.93GHz)、
Core i7-2600 (3.40GHz)
計320コア、計算に使用したのは平均3コア/マシン
全行程の計算時間
SINタスク : 約4日
MEDタスク: 約6日
ただし、実時間は表記以上
マシンの不具合、エラーファイルチェック、etc…
特徴抽出の時間は約80%
![Page 18: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/18.jpg)
0
0.2
0.4
0.6
0.8
1
1.2
max
median
ours
SINタスク認識結果
346カテゴリ中46カテゴリが評価対象
全チームの最大値、中央値と比較 Average
max :0.321
median:0.187
ours :0.115
![Page 19: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/19.jpg)
0
0.2
0.4
0.6
0.8
1
1.2
max
median
ours
SINタスク認識結果
346カテゴリ中46カテゴリが評価対象
全チームの最大値、中央値と比較 Average
max :0.321
median:0.187
ours :0.115
1.0
![Page 20: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/20.jpg)
0
0.2
0.4
0.6
0.8
1
1.2
max
median
ours
SINタスク認識結果
346カテゴリ中46カテゴリが評価対象
全チームの最大値、中央値と比較 Average
max :0.321
median:0.187
ours :0.115
![Page 21: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/21.jpg)
SINタスク全チーム結果
.
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
F_A
_T
okyo
Tech
Can
on2_brn
_2
F_A
_T
okyo
Tech
Can
on1_brn
_1
F_A
_T
okyo
Tech
Can
on3_brn
_3
F_A
_T
okyo
Tech
Can
on4_4
F_A
_U
vA.S
held
on_1
F_A
_U
vA.R
aj_2
F_A
_U
vA.L
eonar
d_4
F_A
_-Q
uae
ro1_1
F_A
_-Q
uae
ro3_3
F_A
_-Q
uae
ro4_4
F_A
_-Q
uae
ro2_2
F_A
_IR
IM1_1
F_A
_IR
IM3_3
F_A
_Pic
SOM
_1_1
F_A
_Pic
SOM
_2_2
F_A
_IR
IM2_2
F_A
_Pic
SOM
_3_3
F_A
_IR
IM4_4
F_A
_nii.
Kitty
-AF1_1
F_A
_FT
RD
BJ-
SIN
-1_1
F_A
_C
MU
4_4
F_A
_C
MU
3_1
F_A
_C
MU
1_3
F_A
_C
MU
2_2
F_A
_Pic
SOM
_4_4
F_A
_FT
RD
BJ-
SIN
-2_2
F_A
_nii.
Kitty
-AF2_2
F_A
_V
IREO
.Bas
elin
e_2
F_A
_IB
M_2
F_A
_IB
M_3
F_A
_IT
I_C
ER
TH
_4
F_A
_IT
I_C
ER
TH
_1
F_A
_IT
I_C
ER
TH
_2
F_A
_U
EC
1_1
F_A
_IT
I_C
ER
TH
_3
F_A
_C
EA
LIS
T_1
F_A
_N
HK
STR
L1_1
F_A
_C
EA
LIS
T_2
F_A
_N
HK
STR
L3_3
F_A
_N
HK
STR
L2_2
F_A
_N
HK
STR
L4_4
F_A
_FIU
-UM
-1-b
rn_1
F_A
_C
EA
LIS
T_3
F_A
_FIU
-UM
-2_2
F_A
_FIU
-UM
-4_4
F_A
_FIU
-UM
-3-b
rn_3
F_A
_C
EA
LIS
T_4
34/47
![Page 22: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/22.jpg)
SINタスク上位手法:東工大
特徴量(画像特徴5+音響特徴1)
SIFT-Har, SIFT-Hes, SIFTH-Dense, HOG-Dense,
LBP-Dense, MFCC
木構造GMMを用いたFast MAP Adaptationにより高速化
http://www-nlpir.nist.gov/projects/tvpubs/tv11.slides/tv11.tokyotechcanon.sin.slides.pdfより
GMM Supervector SVM
![Page 23: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/23.jpg)
0
0.5
1
1.5
2
2.5
3
NDC
FN
FP
MEDタスク全チーム結果
FN:0.6429
FP :0.1559
コストが高い
=NDCに大きく影響
![Page 24: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/24.jpg)
MEDタスク上位手法:CMU
• SIFT, C-SIFT, Transformed Color
Histogram
• Semantic Indexing Concept,
Object Bank
• Optical Character Recognition
画像特徴
• Motion SIFT, STIP, Dense Trajectory
• MFCC, AUDs
• Acoustic Scene Analysis
• Automatic Speech Recognition
動画像特徴
BoF GMM Tiling
SVM (early, late) fusion KR (early, late) fusion
score
![Page 25: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/25.jpg)
まとめ
映像検索のワークショップ
TRECVIDの概要
実行手法の紹介
TRECVID全チームの手法は公開済み
http://trecvid.nist.gov/
Semantic Indexingタスク
Multimedia Event Detectionタスク
![Page 26: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/26.jpg)
ご清聴ありがとうございました
![Page 27: OS5-O2 TRECVID Semantic Indexing Taskとimg.cs.uec.ac.jp/pub/conf12/121206hizume_5_ppt.pdf1ショットあたり、最長で3.5分 Semantic INdexing task カテゴリ数:346 20(2008,](https://reader036.fdocuments.in/reader036/viewer/2022071114/5feaf0c7b4a6b600d26f1213/html5/thumbnails/27.jpg)
MEDタスク全チーム結果
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
random
VisualRank top500
VisualRank top100
• random:全ショットからランダムに100ショット
• top500:VisualRank上位500からランダムに100ショット(今回の手法)
• top100:VisualRank上位100