FineGym: A Hierarchical Video Dataset for Fine-grained Action...

FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding

Dian Shao, Yue Zhao, Bo Dai, Dahua Lin

CVPR 2020 Oral

STRUCT Group Paper Reading

Presented by Xiao Wu2020.4.19

Outline◦Authorship◦ Introduction◦Dataset◦Experiments◦Conclusion

2020/4/25 STRUCT PAPER READING 2

Introduction


◦Coarse-grained Action Dataset:◦ UCF101: only category labels◦ THUMOS, ActivityNet: + temporal locations◦ or: + spatial-temporal bounding boxes

◦Problems:◦ Background > Action, e.g. hockey vs gymnastics

Introduction


◦Fine-grained Action Dataset:◦ Breakfast: action-> many units, e.g., juice = cut orange + …◦ Diving48: label-> 4 attributes, e.g., diving = back + 15som + 15twist +free

◦Problems:◦ Limited classes (~50)◦ Limited structure hierarchy

Introduction


◦ FineGym with rich annotation◦ Recognition, detection, auto-scoring, generation…◦ 3 semantical level, 2 temporal level

Outline◦Authorship◦Related Work◦Dataset◦Experiments◦Conclusion


Dataset


Dataset


◦ Gymnastics = 10 action (6 man + 4 woman)4 woman action(跳马，平衡木，自由体操，高低杠)

= 15 subaction(e.g.,平衡木转身)= 530 subsubaction(e.g., 3次屈体转体)

◦ Release:◦ Gym99 – balanced distribution◦ Gym288, Gym530

Dataset


◦ Stats:◦ action(~55s), subaction(~2s)◦ Mostly 720p+

Outline◦Authorship◦Related Work◦Dataset◦Experiments◦Conclusion


Experiments


◦ Event/Set (action, subaction) Recognition◦ 3 frames is enough for event-/set-level recognition◦ RGB > Flow at this level

Experiments


◦ Element (subsubaction) Recognition◦ Long-tail overfitting◦ Flow > RGB in fine-grained◦ TSM, TRN > TSN

◦ Temporal dynamics is important◦ Pretrained ImageNet≈Kinetics◦ Skeleton methods suffer from

estimation

Experiments


Experiments


◦ Temporal Action Localization◦ Localizing sub-actions is much more challenging

Experiments


◦ Ablation on sparse sampling◦ Accuracy saturated slowly when # Frame increases◦ Every frame counts in fine-grained action◦ Sample rate on UCF(2.7%, 5-frame), on FineGym(30%, 12)

Experiments


◦ Other Ablations◦ (a) Flow contributes in subsubaction recognition◦ (b) Frame order matters significantly in TRN

Experiments


◦ Other Ablations◦ (c) TSN is more robust than TSM when # test frames vary◦ (d) on UCF101, pretrain I3D 84.5%->97.9%

on FineGym, not helpfulHypothesis: gaps in terms of temporal pattern

Experiments


◦ Challenging Classes from Confusion Matrix◦ Intense motion (e.g. salto, often < 1s)

◦ Subtle spatial semantics (e.g. legs bent or straight)

◦ Complex temporal dymamics (e.g. direction of motion, degree ofrotation, counting times of saltos)

Outline◦Authorship◦ Introduction◦Dataset◦Experiments◦Conclusion


Conclusion


◦ Coarse -> Fine-grained, RGB -> Flow

◦ Temporal localization: not well solved for fine-grained dataset

◦ Sparse Sampling: disapproved on fine-grained dataset

◦ Shuffle frame will degrade TRN, increase #test frame will degradeTSM

◦ Pretrained model hard to transfer

Thank you!Presented by Xiao Wu


FineGym: A Hierarchical Video Dataset for Fine-grained Action...

Documents

Transcript of FineGym: A Hierarchical Video Dataset for Fine-grained Action...

Hierarchical Bucket Queuing for Fine-grained Priority ... · physical limitations. Instead, hardware and software have turned towards parallelization as an answer to the ever growing

MapRDD: Finer Grained Resilient Distributed Dataset for ...wrap.warwick.ac.uk/103496/1/WRAP-MapRDD-finer... · Zhenyu and Jarvis, Stephen A. (2018) MapRDD : finer grained resilient

AnimalWeb: A Large-Scale Hierarchical Dataset of …AnimalWeb: A Large-Scale Hierarchical Dataset of Annotated Animal Faces Muhammad Haris Khan 1, John McDonagh2, Salman Khan , Muhammad

HIEDS: A Generic and Efficient Approach to Hierarchical Dataset Summarization

Fine-Grained Comparisons with Attributesshoe dataset for fine-grained comparisons. We find that for fin e-grained compar-isons, more labeled data is not necessarily preferable to

Hierarchical Bilinear Pooling for Fine-Grained Visual Recognition · 2018. 8. 28. · Hierarchical Bilinear Pooling for Fine-Grained Visual Recognition Chaojian Yu[0000−0002−8182−6570],

FineGym: A Hierarchical Video Dataset for Fine-Grained Action … · 2020-06-28 · The remarkable progress in action recognition [39, 42, 40, 25, 37, 49], particularly the development

GoEmotions: A Dataset of Fine-Grained Emotions · 2020. 5. 5. · Sentiment balancing. We reduce sentiment bias by removing subreddits with little representation of positive, negative,

GoEmotions: A Dataset of Fine-Grained EmotionsTable 1: Example annotations from our dataset. siﬁcation into Ekman (Ekman,1992b) or Plutchik (Plutchik,1980) emotions. Recently,Bostan

Hierarchical Bilinear Pooling for Fine-Grained Visual Recognitionopenaccess.thecvf.com/content_ECCV_2018/papers/Chaojian... · 2018. 8. 28. · 3.1 Factorized Bilinear Pooling Factorized

Fine-Grained Categorization and Dataset Bootstrapping … · · 2016-05-16Yin Cui1,2 Feng Zhou3 Yuanqing Lin3 Serge Belongie1,2 1Department of Computer Science, Cornell University

Makeup Instructional Video Dataset for Fine-grained Dense ...fiver.eecs.umich.edu/abstracts/CVPRW_2018_FIVER_X_Lin.pdf · user-uploaded instructional videos of complex tasks on the

VegFru: A Domain-Specific Dataset for Fine-Grained …openaccess.thecvf.com/content_ICCV_2017/papers/Hou... · VegFru: A Domain-Speciﬁc Dataset for Fine-grained Visual Categorization

Fine-grained Walking Activity Recognition via Driving ...“near-miss driving recorder (DR) dataset” by dividing several activities– crossing, walking straight, turning, standing

A Large-Scale Multi-View RGB-D Object Dataset€¦ · A Large-Scale Hierarchical Multi-View RGB-D Object Dataset Kevin ... both subtrees under the Instrumentation category that covers

Fine-grained or coarse-grained? Strategies for ...

Yoga-82: A New Dataset for Fine-grained Classiﬁcation of ...

AnimalWeb: A Large-Scale Hierarchical Dataset of Annotated ...openaccess.thecvf.com/content_CVPR_2020/papers/Khan_AnimalWe… · AnimalWeb: A Large-Scale Hierarchical Dataset of Annotated

The GrassClover Image Dataset for Semantic and Hierarchical … · 2019-06-10 · The GrassClover Image Dataset for Semantic and Hierarchical Species Understanding in Agriculture

A RUGD Dataset for Autonomous Navigation and Visual ...rugd.vision/pdfs/RUGD_IROS2019.pdf · grained semantic understanding of the environment is nec-essary such as learning traversal