R-CNN - TAUweb.eng.tau.ac.il/deep_learn/wp-content/uploads/2017/01/RCNN.pdfย ยท R-CNN Test Time per...

Post on 17-Jan-2020

5 views 0 download

Transcript of R-CNN - TAUweb.eng.tau.ac.il/deep_learn/wp-content/uploads/2017/01/RCNN.pdfย ยท R-CNN Test Time per...

R-CNN

R-CNN

Over 2180

citations !

R-CNN

R-CNN

๐‘ด๐’†๐’•๐’‰๐’๐’… โ†’ ๐‘ฉ๐’‘ โˆ’ ๐‘ท๐’“๐’†๐’…๐’Š๐’„๐’•๐’†๐’… ๐‘ฉ๐’๐’–๐’๐’…๐’Š๐’๐’ˆ ๐‘ฉ๐’๐’™

๐‘ช๐’๐’๐’‡๐’Š๐’…๐’†๐’๐’„๐’† ๐’”๐’„๐’๐’“๐’† ๐’‘๐’†๐’“ ๐’…๐’†๐’•๐’†๐’„๐’•๐’Š๐’๐’

๐‘ฎ๐’“๐’๐’–๐’๐’… ๐‘ป๐’“๐’–๐’•๐’‰ โ†’ ๐‘ฉ๐’ˆ๐’• โˆ’ ๐‘จ๐’„๐’•๐’–๐’‚๐’ ๐‘ฉ๐’๐’–๐’๐’…๐’Š๐’๐’ˆ ๐‘ฉ๐’๐’™

R-CNN

๐‘จ๐’“๐’†๐’‚ ๐‘ถ๐’—๐’†๐’“๐’๐’‚๐’‘ โ‰œ ๐‘ฐ๐’๐‘ผ โ‰œ๐‘จ๐’“๐’†๐’‚(๐‘ฉ๐’‘ โˆฉ ๐‘ฉ๐’ˆ๐’•)

๐‘จ๐’“๐’†๐’‚(๐‘ฉ๐’‘ โˆช ๐‘ฉ๐’ˆ๐’•)

๐‘ด๐’†๐’•๐’‰๐’๐’… โ†’ ๐‘ฉ๐’‘ โˆ’ ๐‘ท๐’“๐’†๐’…๐’Š๐’„๐’•๐’†๐’… ๐‘ฉ๐’๐’–๐’๐’…๐’Š๐’๐’ˆ ๐‘ฉ๐’๐’™

๐‘ช๐’๐’๐’‡๐’Š๐’…๐’†๐’๐’„๐’† ๐’”๐’„๐’๐’“๐’† ๐’‘๐’†๐’“ ๐’…๐’†๐’•๐’†๐’„๐’•๐’Š๐’๐’

๐‘ฎ๐’“๐’๐’–๐’๐’… ๐‘ป๐’“๐’–๐’•๐’‰ โ†’ ๐‘ฉ๐’ˆ๐’• โˆ’ ๐‘จ๐’„๐’•๐’–๐’‚๐’ ๐‘ฉ๐’๐’–๐’๐’…๐’Š๐’๐’ˆ ๐‘ฉ๐’๐’™

๐‘ช๐’๐’“๐’“๐’†๐’„๐’• ๐‘ซ๐’†๐’•๐’†๐’„๐’•๐’Š๐’๐’: ๐‘ฐ๐’๐‘ผ >๐Ÿ

๐Ÿ

R-CNN

๐‘ด๐’†๐’•๐’‰๐’๐’… โ†’ ๐‘ฉ๐’‘ โˆ’ ๐‘ท๐’“๐’†๐’…๐’Š๐’„๐’•๐’†๐’… ๐‘ฉ๐’๐’–๐’๐’…๐’Š๐’๐’ˆ ๐‘ฉ๐’๐’™

๐‘ช๐’๐’๐’‡๐’Š๐’…๐’†๐’๐’„๐’† ๐’”๐’„๐’๐’“๐’† ๐’‘๐’†๐’“ ๐’…๐’†๐’•๐’†๐’„๐’•๐’Š๐’๐’

๐‘ฎ๐’“๐’๐’–๐’๐’… ๐‘ป๐’“๐’–๐’•๐’‰ โ†’ ๐‘ฉ๐’ˆ๐’• โˆ’ ๐‘จ๐’„๐’•๐’–๐’‚๐’ ๐‘ฉ๐’๐’–๐’๐’…๐’Š๐’๐’ˆ ๐‘ฉ๐’๐’™

๐‘จ๐’—๐’†๐’“๐’‚๐’ˆ๐’† ๐‘ท๐’“๐’†๐’„๐’Š๐’”๐’Š๐’๐’ โ‰œ ๐‘จ๐‘ท

๐‘จ๐’“๐’†๐’‚ ๐‘ถ๐’—๐’†๐’“๐’๐’‚๐’‘ โ‰œ ๐‘ฐ๐’๐‘ผ โ‰œ๐‘จ๐’“๐’†๐’‚(๐‘ฉ๐’‘ โˆฉ ๐‘ฉ๐’ˆ๐’•)

๐‘จ๐’“๐’†๐’‚(๐‘ฉ๐’‘ โˆช ๐‘ฉ๐’ˆ๐’•)

๐‘ช๐’๐’“๐’“๐’†๐’„๐’• ๐‘ซ๐’†๐’•๐’†๐’„๐’•๐’Š๐’๐’: ๐‘ฐ๐’๐‘ผ >๐Ÿ

๐Ÿ

R-CNN

๐‘ด๐’†๐’•๐’‰๐’๐’… โ†’ ๐‘ฉ๐’‘ โˆ’ ๐‘ท๐’“๐’†๐’…๐’Š๐’„๐’•๐’†๐’… ๐‘ฉ๐’๐’–๐’๐’…๐’Š๐’๐’ˆ ๐‘ฉ๐’๐’™

๐‘ช๐’๐’๐’‡๐’Š๐’…๐’†๐’๐’„๐’† ๐’”๐’„๐’๐’“๐’† ๐’‘๐’†๐’“ ๐’…๐’†๐’•๐’†๐’„๐’•๐’Š๐’๐’

๐‘ฎ๐’“๐’๐’–๐’๐’… ๐‘ป๐’“๐’–๐’•๐’‰ โ†’ ๐‘ฉ๐’ˆ๐’• โˆ’ ๐‘จ๐’„๐’•๐’–๐’‚๐’ ๐‘ฉ๐’๐’–๐’๐’…๐’Š๐’๐’ˆ ๐‘ฉ๐’๐’™

๐‘ด๐’†๐’‚๐’ ๐‘จ๐’—๐’†๐’“๐’‚๐’ˆ๐’† ๐‘ท๐’“๐’†๐’„๐’Š๐’”๐’Š๐’๐’ โ‰œ ๐’Ž๐‘จ๐‘ท โ‰œ๐‘ด๐’†๐’‚๐’( ๐‘จ๐‘ท ๐’๐’—๐’†๐’ ๐’‚๐’๐’ ๐’„๐’๐’‚๐’”๐’” )

๐‘จ๐’—๐’†๐’“๐’‚๐’ˆ๐’† ๐‘ท๐’“๐’†๐’„๐’Š๐’”๐’Š๐’๐’ โ‰œ ๐‘จ๐‘ท

๐‘จ๐’“๐’†๐’‚ ๐‘ถ๐’—๐’†๐’“๐’๐’‚๐’‘ โ‰œ ๐‘ฐ๐’๐‘ผ โ‰œ๐‘จ๐’“๐’†๐’‚(๐‘ฉ๐’‘ โˆฉ ๐‘ฉ๐’ˆ๐’•)

๐‘จ๐’“๐’†๐’‚(๐‘ฉ๐’‘ โˆช ๐‘ฉ๐’ˆ๐’•)

๐‘ช๐’๐’“๐’“๐’†๐’„๐’• ๐‘ซ๐’†๐’•๐’†๐’„๐’•๐’Š๐’๐’: ๐‘ฐ๐’๐‘ผ >๐Ÿ

๐Ÿ

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

Input image

R-CNN

Input image

Regions of interest (ROI)

from a proposal method

(~2k)

R-CNN

Input image

Warped image regions

Regions of interest (ROI)

from a proposal method

(~2k)

R-CNN

Input image

Forward each region

through ConvNet

Warped image regions

Regions of interest (ROI)

from a proposal method

(~2k)

R-CNN

Classify each region with SVMs

Regions of interest (ROI)

from a proposal method

(~2k)

Warped image regions

Forward each region

through ConvNet

Input image

R-CNN

R-CNN

mini batch size

of 128

R-CNN

R-CNN

Better

mAP of

3-5%

R-CNN

R-CNN

R-CNN

R-CNN

Input image

Regions of interest

(ROI) from a proposal

method (~2k)

Warped image regions

Forward each region

through ConvNet

Classify each region with

SVMsApply

bounding box

regressors

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

arXiv: 1504.08083 (2015):

By: Ross Girshick, Microsoft Reasearch

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

๐‘ณ ๐’‘, ๐’–, ๐’•๐’–, ๐’— = ๐‘ณ๐’„๐’๐’”(๐’‘, ๐’–) + ๐บ โˆ™ ๐’– โ‰ฅ ๐Ÿ โˆ™ ๐‘ณ๐’๐’๐’„(๐’•๐’–, ๐’—)

p = ๐‘0, ๐‘1, โ€ฆ , ๐‘๐พ

๐‘ก๐‘˜ = ๐‘ก๐‘ฅ๐‘˜ , ๐‘ก๐‘ฆ

๐‘˜ , ๐‘ก๐‘ค๐‘˜ , ๐‘กโ„Ž

๐‘˜

over K + 1 categories

For each of the K object classes, indexed by k

๐’– be the ground truth class of the RoI

๐’— be the ground truth bounding box

R-CNN

๐‘ณ ๐’‘, ๐’–, ๐’•๐’–, ๐’— = ๐‘ณ๐’„๐’๐’”(๐’‘, ๐’–) + ๐บ โˆ™ ๐’– โ‰ฅ ๐Ÿ โˆ™ ๐‘ณ๐’๐’๐’„(๐’•๐’–, ๐’—)

๐‘ณ๐’„๐’๐’” ๐’‘, ๐’– = โˆ’๐’๐’๐’ˆ ๐’‘๐’–

๐บ โˆ’ ๐‘น๐’†๐’ˆ๐’–๐’๐’“๐’Š๐’›๐’‚๐’•๐’Š๐’๐’ ๐’‘๐’‚๐’“๐’‚๐’Ž๐’†๐’•๐’†๐’“

๐’– โ‰ฅ ๐Ÿ โˆ’ ๐‘ญ๐’๐’“๐’†๐’ˆ๐’“๐’๐’–๐’๐’… ๐’‚๐’„๐’•๐’Š๐’—๐’‚๐’•๐’Š๐’๐’

๐‘ณ๐’๐’๐’„ ๐’•๐’–, ๐’— =

๐’Šโˆˆ ๐’™,๐’š,๐’˜,๐’‰

๐’”๐’Ž๐’๐’๐’•๐’‰๐‘ณ๐Ÿ(๐’•๐’Š๐’– โˆ’ ๐’—๐’Š)

๐’”๐’Ž๐’๐’๐’•๐’‰๐‘ณ๐Ÿ ๐’™ = ๐ŸŽ. ๐Ÿ“ โˆ™ ๐’™๐Ÿ, ๐’™ < ๐Ÿ๐’™ โˆ’ ๐ŸŽ. ๐Ÿ“, ๐’™ โ‰ฅ ๐Ÿ

R-CNN

๐’š๐’“๐’‹ = ๐’™๐’Š โˆ—(๐’“,๐’‹)

๐’Š โˆ— (๐’“, ๐’‹) = ๐š๐ซ๐ ๐ฆ๐š๐ฑ๐’Šโ€ฒโˆˆ ๐“ก ๐’“,๐’‹

๐’™๐’Šโ€ฒ

๐๐‘ณ

๐๐’™๐’Š=

๐’“

๐’‹

[๐’Š = ๐’Šโˆ—(๐’“, ๐’‹)]๐๐‘ณ

๐๐’š๐’“๐’‹

R-CNN

R-CNN

R-CNN

R-CNN

R-CNN

Neural Information Processing Systems (NIPS), 2015:

By: S. Ren, K. He, R. Girshick, J. Sun, Microsoft Research

R-CNN

R-CNN

R-CNN

R-CNN

OR

R-CNN

๐‘ณ ๐’‘๐’Š , ๐’•๐’Š =๐Ÿ

๐‘ต๐’„๐’๐’”

๐’Š

๐‘ณ๐’„๐’๐’”(๐’‘๐’Š, ๐’‘๐’Šโˆ—) + ๐บ โˆ™

๐Ÿ

๐‘ต๐’“๐’†๐’ˆ

๐’Š

๐’‘๐’Šโˆ— โˆ™ ๐‘ณ๐’“๐’†๐’ˆ(๐’•๐’Š, ๐’•๐’Š

โˆ—)

OR

R-CNN

๐‘ณ ๐’‘๐’Š , ๐’•๐’Š =๐Ÿ

๐‘ต๐’„๐’๐’”

๐’Š

๐‘ณ๐’„๐’๐’”(๐’‘๐’Š, ๐’‘๐’Šโˆ—) + ๐บ โˆ™

๐Ÿ

๐‘ต๐’“๐’†๐’ˆ

๐’Š

๐’‘๐’Šโˆ— โˆ™ ๐‘ณ๐’“๐’†๐’ˆ(๐’•๐’Š, ๐’•๐’Š

โˆ—)

๐’Š โˆ’ ๐’‚๐’๐’„๐’‰๐’๐’“ ๐’Š๐’๐’…๐’†๐’™

๐’‘๐’Š โˆ’ ๐’‘๐’“๐’†๐’…๐’Š๐’„๐’•๐’†๐’… ๐’‘๐’“๐’๐’ƒ๐’‚๐’ƒ๐’Š๐’๐’Š๐’•๐’š ๐’๐’‡ ๐’‚๐’๐’„๐’‰๐’๐’“ ๐’Š ๐’ƒ๐’†๐’Š๐’๐’ˆ ๐’‚๐’ ๐’๐’ƒ๐’‹๐’†๐’„๐’•

๐’‘๐’Šโˆ— =

๐Ÿ , ๐’Š๐’‡๐’‚๐’๐’„๐’‰๐’๐’“ ๐’Š ๐’Š๐’” ๐‘ท๐’๐’”๐’Š๐’•๐’Š๐’—๐’†๐ŸŽ , ๐’Š๐’‡๐’‚๐’๐’„๐’‰๐’๐’“ ๐’Š ๐’Š๐’” ๐‘ต๐’†๐’ˆ๐’†๐’•๐’Š๐’—๐’†

๐‘ณ๐’„๐’๐’” ๐’‘๐’Š, ๐’‘๐’Šโˆ— โˆ’ ๐’๐’๐’ˆ ๐’๐’๐’”๐’” ๐’๐’—๐’†๐’“ ๐’•๐’˜๐’ ๐’„๐’๐’‚๐’”๐’”๐’†๐’”

๐‘ต๐’„๐’๐’” โˆ’ ๐’•๐’‰๐’† ๐’Ž๐’Š๐’๐’Š โˆ’ ๐’ƒ๐’‚๐’•๐’„๐’‰ ๐’”๐’Š๐’›๐’† (๐Ÿ๐Ÿ“๐Ÿ”)

R-CNN

๐‘ณ ๐’‘๐’Š , ๐’•๐’Š =๐Ÿ

๐‘ต๐’„๐’๐’”

๐’Š

๐‘ณ๐’„๐’๐’”(๐’‘๐’Š, ๐’‘๐’Šโˆ—) + ๐บ โˆ™

๐Ÿ

๐‘ต๐’“๐’†๐’ˆ

๐’Š

๐’‘๐’Šโˆ— โˆ™ ๐‘ณ๐’“๐’†๐’ˆ(๐’•๐’Š, ๐’•๐’Š

โˆ—)

๐‘ณ๐’“๐’†๐’ˆ ๐’•๐’Š, ๐’•๐’Šโˆ— = ๐’”๐’Ž๐’๐’๐’•๐’‰๐‘ณ๐Ÿ(๐’•๐’Š โˆ’ ๐’•๐’Š

โˆ—)

๐‘ก๐‘ฅ = ๐‘ฅ โˆ’ ๐‘ฅ๐‘Ž /๐‘ค๐‘Ž

๐‘ก๐‘ฅโˆ— = ๐‘ฅโˆ— โˆ’ ๐‘ฅ๐‘Ž /๐‘ค๐‘Ž

๐‘ก๐‘ฆ = ๐‘ฆ โˆ’ ๐‘ฆ๐‘Ž /โ„Ž๐‘Ž

๐‘ก๐‘ฆโˆ— = ๐‘ฆโˆ— โˆ’ ๐‘ฆ๐‘Ž /โ„Ž๐‘Ž

๐‘ก๐‘ค = ๐‘™๐‘œ๐‘” ๐‘ค/๐‘ค๐‘Ž

๐‘ก๐‘คโˆ— = ๐‘™๐‘œ๐‘” ๐‘คโˆ—/๐‘ค๐‘Ž

๐‘กโ„Ž = ๐‘™๐‘œ๐‘” โ„Ž/โ„Ž๐‘Ž

๐‘กโ„Žโˆ— = ๐‘™๐‘œ๐‘” โ„Žโˆ—/โ„Ž๐‘Ž

๐‘ต๐’“๐’†๐’ˆ โˆ’ ๐’•๐’‰๐’† ๐’๐’–๐’Ž๐’ƒ๐’†๐’“ ๐’๐’‡ ๐’‚๐’๐’„๐’‰๐’๐’“ ๐’๐’๐’„๐’‚๐’•๐’Š๐’๐’๐’” (~๐Ÿ, ๐Ÿ’๐ŸŽ๐ŸŽ)

๐‘ท๐’‚๐’“๐’‚๐’Ž๐’†๐’•๐’†๐’“๐’Š๐’›๐’‚๐’•๐’Š๐’๐’๐’” ๐’๐’‡ ๐’‚๐’๐’ ๐’•๐’‰๐’† ๐’•๐’Š ๐’–๐’”๐’Š๐’๐’ˆ ๐’•๐’‰๐’† ๐’‚๐’๐’„๐’‰๐’๐’“๐’”:

๐‘ฅ โˆ’ ๐‘กโ„Ž๐‘’ ๐‘๐‘Ÿ๐‘’๐‘‘๐‘–๐‘๐‘ก๐‘’๐‘‘ ๐‘๐‘œ๐‘ ๐‘–๐‘ก๐‘–๐‘œ๐‘›๐‘ก = (๐‘ก๐‘ฅ , ๐‘ก๐‘ฆ, ๐‘ก๐‘ค , ๐‘กโ„Ž) ๐‘ฅ๐‘Ž โˆ’ ๐‘กโ„Ž๐‘’ ๐‘Ž๐‘›๐‘โ„Ž๐‘œ๐‘Ÿ ๐‘๐‘œ๐‘ ๐‘–๐‘ก๐‘–๐‘œ๐‘›

๐‘ฅโˆ— โˆ’ ๐‘กโ„Ž๐‘’ ๐บ๐‘‡ ๐‘๐‘œ๐‘ ๐‘–๐‘ก๐‘–๐‘œ๐‘›

R-CNN

R-CNN

R-CNN

Test Time per Image

using VGG-16

Detection mAP on

PASCAL VOC

201220102007

47 Sec58.553.762.4R-CNN

300 mSec(Excluding object proposal time

For 2K proposals)

7068.868.4Fast R-CNN

200 mSecOverall time

73.2---70.4Faster R-CNN

R-CNN

Thank You

For Listening

-

Any Questions ?