Post on 17-Jan-2020
R-CNN
R-CNN
Over 2180
citations !
R-CNN
R-CNN
๐ด๐๐๐๐๐ โ ๐ฉ๐ โ ๐ท๐๐๐ ๐๐๐๐๐ ๐ฉ๐๐๐๐ ๐๐๐ ๐ฉ๐๐
๐ช๐๐๐๐๐ ๐๐๐๐ ๐๐๐๐๐ ๐๐๐ ๐ ๐๐๐๐๐๐๐๐
๐ฎ๐๐๐๐๐ ๐ป๐๐๐๐ โ ๐ฉ๐๐ โ ๐จ๐๐๐๐๐ ๐ฉ๐๐๐๐ ๐๐๐ ๐ฉ๐๐
R-CNN
๐จ๐๐๐ ๐ถ๐๐๐๐๐๐ โ ๐ฐ๐๐ผ โ๐จ๐๐๐(๐ฉ๐ โฉ ๐ฉ๐๐)
๐จ๐๐๐(๐ฉ๐ โช ๐ฉ๐๐)
๐ด๐๐๐๐๐ โ ๐ฉ๐ โ ๐ท๐๐๐ ๐๐๐๐๐ ๐ฉ๐๐๐๐ ๐๐๐ ๐ฉ๐๐
๐ช๐๐๐๐๐ ๐๐๐๐ ๐๐๐๐๐ ๐๐๐ ๐ ๐๐๐๐๐๐๐๐
๐ฎ๐๐๐๐๐ ๐ป๐๐๐๐ โ ๐ฉ๐๐ โ ๐จ๐๐๐๐๐ ๐ฉ๐๐๐๐ ๐๐๐ ๐ฉ๐๐
๐ช๐๐๐๐๐๐ ๐ซ๐๐๐๐๐๐๐๐: ๐ฐ๐๐ผ >๐
๐
R-CNN
๐ด๐๐๐๐๐ โ ๐ฉ๐ โ ๐ท๐๐๐ ๐๐๐๐๐ ๐ฉ๐๐๐๐ ๐๐๐ ๐ฉ๐๐
๐ช๐๐๐๐๐ ๐๐๐๐ ๐๐๐๐๐ ๐๐๐ ๐ ๐๐๐๐๐๐๐๐
๐ฎ๐๐๐๐๐ ๐ป๐๐๐๐ โ ๐ฉ๐๐ โ ๐จ๐๐๐๐๐ ๐ฉ๐๐๐๐ ๐๐๐ ๐ฉ๐๐
๐จ๐๐๐๐๐๐ ๐ท๐๐๐๐๐๐๐๐ โ ๐จ๐ท
๐จ๐๐๐ ๐ถ๐๐๐๐๐๐ โ ๐ฐ๐๐ผ โ๐จ๐๐๐(๐ฉ๐ โฉ ๐ฉ๐๐)
๐จ๐๐๐(๐ฉ๐ โช ๐ฉ๐๐)
๐ช๐๐๐๐๐๐ ๐ซ๐๐๐๐๐๐๐๐: ๐ฐ๐๐ผ >๐
๐
R-CNN
๐ด๐๐๐๐๐ โ ๐ฉ๐ โ ๐ท๐๐๐ ๐๐๐๐๐ ๐ฉ๐๐๐๐ ๐๐๐ ๐ฉ๐๐
๐ช๐๐๐๐๐ ๐๐๐๐ ๐๐๐๐๐ ๐๐๐ ๐ ๐๐๐๐๐๐๐๐
๐ฎ๐๐๐๐๐ ๐ป๐๐๐๐ โ ๐ฉ๐๐ โ ๐จ๐๐๐๐๐ ๐ฉ๐๐๐๐ ๐๐๐ ๐ฉ๐๐
๐ด๐๐๐ ๐จ๐๐๐๐๐๐ ๐ท๐๐๐๐๐๐๐๐ โ ๐๐จ๐ท โ๐ด๐๐๐( ๐จ๐ท ๐๐๐๐ ๐๐๐ ๐๐๐๐๐ )
๐จ๐๐๐๐๐๐ ๐ท๐๐๐๐๐๐๐๐ โ ๐จ๐ท
๐จ๐๐๐ ๐ถ๐๐๐๐๐๐ โ ๐ฐ๐๐ผ โ๐จ๐๐๐(๐ฉ๐ โฉ ๐ฉ๐๐)
๐จ๐๐๐(๐ฉ๐ โช ๐ฉ๐๐)
๐ช๐๐๐๐๐๐ ๐ซ๐๐๐๐๐๐๐๐: ๐ฐ๐๐ผ >๐
๐
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
Input image
R-CNN
Input image
Regions of interest (ROI)
from a proposal method
(~2k)
R-CNN
Input image
Warped image regions
Regions of interest (ROI)
from a proposal method
(~2k)
R-CNN
Input image
Forward each region
through ConvNet
Warped image regions
Regions of interest (ROI)
from a proposal method
(~2k)
R-CNN
Classify each region with SVMs
Regions of interest (ROI)
from a proposal method
(~2k)
Warped image regions
Forward each region
through ConvNet
Input image
R-CNN
R-CNN
mini batch size
of 128
R-CNN
R-CNN
Better
mAP of
3-5%
R-CNN
R-CNN
R-CNN
R-CNN
Input image
Regions of interest
(ROI) from a proposal
method (~2k)
Warped image regions
Forward each region
through ConvNet
Classify each region with
SVMsApply
bounding box
regressors
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
arXiv: 1504.08083 (2015):
By: Ross Girshick, Microsoft Reasearch
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
๐ณ ๐, ๐, ๐๐, ๐ = ๐ณ๐๐๐(๐, ๐) + ๐บ โ ๐ โฅ ๐ โ ๐ณ๐๐๐(๐๐, ๐)
p = ๐0, ๐1, โฆ , ๐๐พ
๐ก๐ = ๐ก๐ฅ๐ , ๐ก๐ฆ
๐ , ๐ก๐ค๐ , ๐กโ
๐
over K + 1 categories
For each of the K object classes, indexed by k
๐ be the ground truth class of the RoI
๐ be the ground truth bounding box
R-CNN
๐ณ ๐, ๐, ๐๐, ๐ = ๐ณ๐๐๐(๐, ๐) + ๐บ โ ๐ โฅ ๐ โ ๐ณ๐๐๐(๐๐, ๐)
๐ณ๐๐๐ ๐, ๐ = โ๐๐๐ ๐๐
๐บ โ ๐น๐๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐
๐ โฅ ๐ โ ๐ญ๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐
๐ณ๐๐๐ ๐๐, ๐ =
๐โ ๐,๐,๐,๐
๐๐๐๐๐๐๐ณ๐(๐๐๐ โ ๐๐)
๐๐๐๐๐๐๐ณ๐ ๐ = ๐. ๐ โ ๐๐, ๐ < ๐๐ โ ๐. ๐, ๐ โฅ ๐
R-CNN
๐๐๐ = ๐๐ โ(๐,๐)
๐ โ (๐, ๐) = ๐๐ซ๐ ๐ฆ๐๐ฑ๐โฒโ ๐ก ๐,๐
๐๐โฒ
๐๐ณ
๐๐๐=
๐
๐
[๐ = ๐โ(๐, ๐)]๐๐ณ
๐๐๐๐
R-CNN
R-CNN
R-CNN
R-CNN
R-CNN
Neural Information Processing Systems (NIPS), 2015:
By: S. Ren, K. He, R. Girshick, J. Sun, Microsoft Research
R-CNN
R-CNN
R-CNN
R-CNN
OR
R-CNN
๐ณ ๐๐ , ๐๐ =๐
๐ต๐๐๐
๐
๐ณ๐๐๐(๐๐, ๐๐โ) + ๐บ โ
๐
๐ต๐๐๐
๐
๐๐โ โ ๐ณ๐๐๐(๐๐, ๐๐
โ)
OR
R-CNN
๐ณ ๐๐ , ๐๐ =๐
๐ต๐๐๐
๐
๐ณ๐๐๐(๐๐, ๐๐โ) + ๐บ โ
๐
๐ต๐๐๐
๐
๐๐โ โ ๐ณ๐๐๐(๐๐, ๐๐
โ)
๐ โ ๐๐๐๐๐๐ ๐๐๐ ๐๐
๐๐ โ ๐๐๐๐ ๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐ ๐ ๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐
๐๐โ =
๐ , ๐๐๐๐๐๐๐๐ ๐ ๐๐ ๐ท๐๐๐๐๐๐๐๐ , ๐๐๐๐๐๐๐๐ ๐ ๐๐ ๐ต๐๐๐๐๐๐๐
๐ณ๐๐๐ ๐๐, ๐๐โ โ ๐๐๐ ๐๐๐๐ ๐๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐
๐ต๐๐๐ โ ๐๐๐ ๐๐๐๐ โ ๐๐๐๐๐ ๐๐๐๐ (๐๐๐)
R-CNN
๐ณ ๐๐ , ๐๐ =๐
๐ต๐๐๐
๐
๐ณ๐๐๐(๐๐, ๐๐โ) + ๐บ โ
๐
๐ต๐๐๐
๐
๐๐โ โ ๐ณ๐๐๐(๐๐, ๐๐
โ)
๐ณ๐๐๐ ๐๐, ๐๐โ = ๐๐๐๐๐๐๐ณ๐(๐๐ โ ๐๐
โ)
๐ก๐ฅ = ๐ฅ โ ๐ฅ๐ /๐ค๐
๐ก๐ฅโ = ๐ฅโ โ ๐ฅ๐ /๐ค๐
๐ก๐ฆ = ๐ฆ โ ๐ฆ๐ /โ๐
๐ก๐ฆโ = ๐ฆโ โ ๐ฆ๐ /โ๐
๐ก๐ค = ๐๐๐ ๐ค/๐ค๐
๐ก๐คโ = ๐๐๐ ๐คโ/๐ค๐
๐กโ = ๐๐๐ โ/โ๐
๐กโโ = ๐๐๐ โโ/โ๐
๐ต๐๐๐ โ ๐๐๐ ๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐ (~๐, ๐๐๐)
๐ท๐๐๐๐๐๐๐๐๐๐๐๐๐๐๐๐ ๐๐ ๐๐๐ ๐๐๐ ๐๐ ๐๐๐๐๐ ๐๐๐ ๐๐๐๐๐๐๐:
๐ฅ โ ๐กโ๐ ๐๐๐๐๐๐๐ก๐๐ ๐๐๐ ๐๐ก๐๐๐๐ก = (๐ก๐ฅ , ๐ก๐ฆ, ๐ก๐ค , ๐กโ) ๐ฅ๐ โ ๐กโ๐ ๐๐๐โ๐๐ ๐๐๐ ๐๐ก๐๐๐
๐ฅโ โ ๐กโ๐ ๐บ๐ ๐๐๐ ๐๐ก๐๐๐
R-CNN
R-CNN
R-CNN
Test Time per Image
using VGG-16
Detection mAP on
PASCAL VOC
201220102007
47 Sec58.553.762.4R-CNN
300 mSec(Excluding object proposal time
For 2K proposals)
7068.868.4Fast R-CNN
200 mSecOverall time
73.2---70.4Faster R-CNN
R-CNN
Thank You
For Listening
-
Any Questions ?