[Paper] Fast RCNN

Fast RCNN

Fast R-CNN은 R-CNN의 단점을 보완하여 개발한 Method이다. 기존의 RCNN은 위에서 보이는 그림과 같이 input image에 대해서 SS(Selective Search) 등 을 통해서 얻은 ROI별로 각각 Conv Net의 모델로 학습하고 학습된 Feature map을 통하셔 SVM을 통해서 Predict하는 형태로 많은 저장 공간과 느리다는 단점을 가지고 있었다. 그래서 Fast R-CNN이 등장하였고 기존의 각각의 ConVNet을 하나의 ConVNet을 사용할 수 있도록 Crop + Resize 된 동일한 형태의 fixed-size를 만들어 하나의 ConVNet 공간에서 학습 할 수 있도록 만들었고, 두개의 동일한 형태는 classification, regressor 의 output 이 출력되도록 설정하였다.

1. Fast RCNN은 먼저 전체 이미지와 Object proposals 세트의 입력을 받는다

2 Network는 먼저 전체의 이미지에 대하여 여러 개의 Convolutonal , Max-pooling layers를 이용하여 Conv feature map을 생성한다

3. 그 후에 각각의 object proposals 에 대해 RoI pooling layers는 feature map으로부터 하나의 fixed-length feature vector를 추출한다

4. 각각의 feature vector는 순차적으로 fully connected (fc) layers 입력되고, 두개의 똑 같은 output layers로 나누어 진다. ( 하나는 softmax probability estimates이며 K object class 에 background class를 더한 것이며, 다른 하나는 K object class에 대한 4가지 값을 출력하는 것이며, 이 4개의 값은 bounding –box의 좌표를 표시한다.

RoI(region of interest) Pooling

- max pooling을 사용하여 유요한 RoI 내부의 feature를 H x W의 고정된 범위로 작은 Feature map으로 변환하며, H와 W는 특정 RoI와 독립적인 하이퍼 파라미터이다.

각 RoI는 (r, c, h, w)의 좌표로 표현되는데 (r, c)는 top-left corner, 그리 고 (h, w) 높이와 넓이를 의미한다.

RoI max pooling 은 feature map 위에서 h/H x w/W크기 만큼 grid 를 만들어 max pooling을 하면 논문에서 설정했던 H x W 형태의 feature size로 변환된다. Pooling은 각 feature map 채널에 대해 독립적으로 실행

Ex) 7x5 영역을 2x2로 할때는 width 7/2 =3 height 5/2=2

- 즉, 다양한 크기의 입력으로부터 일정한 크기의 feature map 을 추출

- SPP (spatial pyramid pooling) 기법을 사용

Multi-task loss (softmax 와 bbox regressor)

- Fast RCNN은 두가지의 동일한 Output layers를 가지게 되며, 첫번째는 softmax에 대한 loss 값과 두번째 loss 는 bounding-box regression의을 수행하며 서로 다른 공식으로 사용한다

P: softmax computing ( K + 1 )

U: ground-truth class

T: bounding-box regression ( K )

V: ground-truth bounding-box regression targe

Softmax에 대한 loss는 기존의 (K)에 대한 categories 및 더하여 backgroung(필요하지 않다고 판단하는 categories)를 더하여 K + 1개의 fully connected layer를 계산한다.

다음은 bounding-box regression에 대한 loss

'Machine-Learning > paper' 카테고리의 다른 글

[Paper] Faster RCNN (0)	2022.10.06
[Paper] RCNN (0)	2022.10.06
[Paper] Attention (0)	2022.09.15
[CV Paper] Vision Transformer (0)	2022.08.25
[Paper] An overview of gradient descent optimization algorithms (0)	2022.08.23