[Object Detection] YOLO V2 (YOLO 9000) - Better, Faster, Stronger

728x90

지금부터 yolo9000에 대해서 알아보겠습니다.

Better

Object Detection dataset들은 Classification, tagging 등 dataset과 비교해서 너무 제한적입니다. 일반적으로 detection을 위한 dataset은 수십 ~ 수백개의 클래스를 포함한 수천~수십만개의 이미지를 포함하고 있는데, Classification을 위한 데이터셋은 수십만개의 클래스를 포함한 이미지가 수백만개가 있습니다.

이번 YOLO 9000모델에서는 수 많은 Classification 데이터를 함께 이용해서 현재 detection 시스템에 적용해보는 방법인 hierarchical view of object classification을 제안하고, detection과 classification data 모두를 이용하여 object detector를 학습시키는 joint training algorithm을 제안했습니다.

2.1 batch normalization

기존 YOLO v1모델은 Fast R-CNN을 비교했을 때 더 높은 localization error를 발생시켰습니다. 또 region proposal을 기반으로한 detection 방법들과 비교했을 때, 상대적으로 낮은 recall값을 보였습니다. YOLO9000에서는 localization error와 recall에 대해서 개선하면서 classification accuracy를 유지하는데 초점을 두었습니다.

Batch Normalization을 통해 YOLO model에서 다른 형태의 regularization을 하지 않아도 학습이 수렴하는데 큰 효과를 주었다고 합니다. batch normalization은 학습 과정에서 각 batch 단위 별로 데이터가 다양한 분포를 가지더라도 각 batch 별로 평균과 분산을 이용해 normalize하는 것을 뜻합니다. 위 그림을 보면 batch 단위나 layer에 따라서 입력 값의 분포가 모두 다르지만 정규화를 통하여 분포를 zero mean gaussian 형태로 만듭니다. 그러면 평균은 0, 표준 편차는 1로 데이터의 분포를 조정할 수 있습니다.
YOLO의 모든 convolutional layers에 Batch Normalization을 추가하는 것을 통해 mAP가 2% 이상 상승되는 것을 확인습니다. 또한 regularize효과가 있기 때문에 기존 모델에서 사용했던 Dropout layer를 제거했다고 합니다. 그런데 사실 Batch Normalization이랑 DropOut을 같이 쓰면 더 정규화 효과가 좋아진다는 결과도 있다고 합니다.

2.2 High resolution classifier

대부분의 state-of-the-art detection 방법들은 ImageNet 데이터에서 학습시킨 pre-trained classifier를 사용합니다. 기존 YOLO model은 darknet을 244 x 244로 classifier를 pre-train하고 입력 사이즈를 448 x 448로 증가시켜서 object detection model을 학습시켰습니다. 하지만 YOLO v2의 경우에는 처음부터 입력 사이즈를 448x448로 증가시키고 ImageNet에서 10 epoch동안 학습하고나서, detection학습을 진행했다고 합니다. 이를 통해 mAP가 4% 향상했다고 합니다.

2.3 Convolutional with Anchor Box

YOLO v1은 각 grid cell의 bounding box의 좌표가 0~1 사이의 값을 가지도록 랜덤으로 설정한 뒤 학습을 통해 최적의 값을 찾아가는 과정을 거쳤습니다. 하지만 Anchor Box를 사용해서 box의 offset만 예측하면 단순하기때문에 network를 학습하기 쉽다는 장점이 있습니다.

그래서 fully connected layer를 제거하고 anchor boxes를 사용하여 bounding box를 예측하게 했습니다. 먼저 convolution layer의 output이 더 높은 resolution을 가지도록 pooling layer를 제거했습니다. 그리고 기존의 448x448 입력 크기를 416x416로 변경하면서 최종 output feature map에서 width 및 height가 홀수가 되서, 가운데 single center cell이 존재할 수 있게 됩니다. 이렇게 만든 이유는 object가 큰 경우에는 정 가운데 cell을 차지하는 경우가 많은데, feature map이 짝수일 경우에는 center cell이 없기때문에 주변 cell 4개가 이러한 큰 object를 예측하게 됩니다. 하지만 feature map에 single center cell이 생길 경우 object를 더 잘 찾을 수 있기 때문에 성능이 더 좋아진다고 합니다.

YOLOv2는 416x416크기의 입력을 넣으면 downsample factor가 32이고, 13x13크기의 feature map을 얻게 됩니다. 그리고 Anchor box의 갯수만큼 class와 object가 있는지에 대한 여부를 예측한다고 합니다.

ex) Anchor가 3개라면 출력 벡터가 [{objectness, x_offset, y_offset, w_offset, h_offset, C1 ... Cn}, {objectness, x_offset, y_offset, w_offset, h_offset, C1 ... Cn}, {objectness, x_offset, y_offset, w_offset, h_offset, C1 ... Cn}] 형태

기존의 YOLO가 입력 이미지 당 98개 box를 예측했습니다. Anchor Box를 사용하는 경우 accuracy가 살짝 떨어지지만 1000개 이상의 bounding box를 예측할 수 있습니다. Anchor Box를 적용하지 않을 경우 mAP가 69.5에 81%의 recall을 기록했지만, Anchor Box 적용 후에는 mAP가 69.2%, 88%의 recall을 얻을 수 있었습니다. mAP가 감소했지만 recall이 증가했으므로 모델이 더 향상될 여지가 있다고 판단했습니다.

Recall은 전체 물체 갯수분의 잘 검출한 물체 갯수로 true detection만 고려하는 지표입니다. 따라서 recall 값이 높다는 것은 model이 실제 object의 위치를 예측한 비율이 높음을 의미합니다. YOLO v1이 recall 값이 낮은 이유는 region proposal 기반의 model에 비해 이미지 당 상대적으로 적은 수의 bounding box를 예측하기 때문입니다. 하지만 YOLO v2에서 anchor box를 통해 더 많은 수의 bounding box를 예측하면서 실제 object의 위치를 보다 잘 포착하게 되어서 recall 값이 상승하게 됩니다.

2.4 Dimension Clusters

YOLO에 Anchor Box를 도입하면서 2가지의 문제점이 생겼는데, 그 중 하나는 bounding box의 dimension들은 hand-pick 된다는 겁니다. 이를 network가 학습하게 할 수 있지만, 사전에 좋은 anchor box를 선택해준다면 network가 학습하는데 더 쉬울 것이라고 생각했습니다. YOLO 9000에서는 k-mean를 통해서 학습 데이터에서 가장 좋은 anchor box의 후보군을 찾게됩니다. 일반적으로 k-means는 Euclidean distance를 사용하여 centroid와 sample간 거리를 계산합니다. 하지만 euclidean distance를 사용하면 큰 bounding box의 경우에는 작은 bounding box와 비교했을 때 더 큰 error값을 발생하는 문제가 있습니다.

bounding box의 크기와 무관하게 선택한 prior이 좋은 IoU 값을 가지도록 하기 위해서 새로운 distance metric을 사용합니다. 이distance값은 bounding box와 centroid의 IoU값이 클수록 겹치는 영역이 크기 때문에 1에서 빼면 값이 작아지기 때문에 거리가 가깝다는 것을 의미합니다.

논문에서는 다양한 k으로 k-means clustering을 진행하였고, k=5일 때 모델의 복잡도와 recall 값이 적절한 trade-off를 보여주었습니다.

표를 보면 clustering방법으로 최적의 prior를 선택하면 network가 detection task를 보다 쉽게 학습함을 의미합니다.

2.5 Direct location prediction

YOLO와 anchor box를 함께 사용했을 때의 또 다른 문제점은 초기 iteration시 model이 불안정하다는 것입니다. 대부분의 불안정성은 box의 (x,y) 좌표위치를 예측하는데서 일어나는데, region proposal 계열의 네트워크들은 tx, ty같은 계수 값들을 이용해서 이 값들을 여기 식처럼 계산하게 됩니다.

계수 값이 양수라면 Box를 오른쪽으로, 음수라면 박스를 왼쪽으로 움직이게 합니다. 위의 식은 이렇게 제한이 없기 때문에 box가 어느쪽으로나 이동이 가능해지게 되고 안정적인 offset값을 학습하는데 많은 시간이 걸립니다. 그래서 YOLO 9000에서는 YOLO의 방식을 사용하여 grid cell에 상대적인 위치 좌표를 예측하는 방법을 선택하여 offset의 값을 0, 1사이 범위에서 제한해 주고, 이렇게 얻은 tx,ty값에 logistic activation을 적용해서 해결합니다.
네트워크는 각 cell마다 tx,ty,tw,th,to 이렇게 총 5개의 bounding box 요소값을 예측합니다.

최종 objectness와 box에 대한 요소는 아래 식으로 구할 수 있습니다. 여기서 cx,cy는 해당 grid cell의 왼쪽 상단 좌표를 이야기하고, pw,ph값은 anchor box의 사전 width, height값을 의미합니다.

예측하는 위치의 범위가 정해짐으로써 network는 안정적으로 학습을 진행하는 것이 가능해집니다. Dimension clustering을 통해 최적의 prior를 선택하고 bounding box 중심부 좌표를 직접 예측했을 때 recall값이 5% 정도 향상된다고 합니다.

2.6 Fine-Grained Features

YOLO v2는 최종적으로 13x13 크기의 feature map 출력합니다. feature map의 크기가 작은 경우 큰 객체를 예측하기 용이한 반면 작은 객체는 예측하기 어렵다는 문제가 있습니다.
문제를 해결하기 위해 마지막 pooling을 수행하기 전에 feature map을 추출하여 26x26(x512) 크기의 feature map을 얻습니다. 그 다음 channel은 유지하면서 4개로 분할한 후 concat하여 13x13(x2048)크기의 feature map을 얻습니다. 이 feature map은 작은 객체에 대한 정보를 함축하고 있다고 합니다. 이 feature map을 original feature map인 13x13(x1024) feature map에 추가하여 13x13(x3072) 크기의 feature map을 얻습니다.

최종적으로 3x3 conv와 1x1 conv를 적용하여 13x13(x125) 크기의 feature map을 얻습니다. 여기서 channel 수가 125인 이유는 각 grid cell별로 5개의 bounding box마다 20개의 class score와 (confidence, x, y, w, h)를 예측하기 때문입니다(=5개의 bounding box x [20개의 class score + (conf, x, y, w, h)]). 이렇게 fine-grained feature를 사용함으로써 1% 정도의 성능을 향상시켰다고 합니다.

-Input : 416 x 416 x 3

-Output : 13 x 13 x 1024 feature map

2.7 Multi-scale Training

기존 YOLO에서 사용하던 입력크기를 448x448를 416x416으로 변경하고 Anchor Box도 도입했지만, YOLO가 convolutional과 Pooling layer를 사용하기 때문에 feature map의 정보들이 layer를 지날수록 작아지게 됩니다. 논문에서는 YOLO를 강인하게 만들고 싶어서 모델 학습시 10 epochs마다 Input Size를 random하게 변경해주면서 학습해줍니다. 모델은 이미지를 1/32배로 downsampling시키기 때문에 입력 이미지 크기를 32배수 {320, 352, ..., 608} 중에서 선택하도록 했습니다. 320x320 크기의 이미지가 가장 작은 입력 이미지이고 608x608 크기의 이미지가 입력될 수 있는 가장 큰 이미지입니다.

이 방법을 통해 network는 다양한 크기의 이미지를 입력받을 수 있고, 속도와 정확도 사이의 trade-off를 제공합니다. 작은 크기의 입력이면 높은 FPS를 가지고 큰 크기의 입력이면 높은 mAP를 가지게 됩니다.

2.8 Further Experiments

PASSCAL VOC 2012와 COCO dataset에 대한 결과도 있습니다.

Faster

3.1 Darknet-19

YOLO v2에서는 Darknet-19라는 새로운 Classification Model을 제안합니다. VGG모델과 비슷하게 3x3 kernel filter를 사용하고 모든 pooling step 이후에 channel수를 2배로 해줍니다. YOLO v1 모델은 네트워크 마지막에 fc layer를 통해 예측을 수행했습니다. 하지만 fc layer로 인해 parameter 수가 증가하고 detection 속도가 느려진다는 단점이 있어서, YOLO v2의 Darknet-19는 마지막 layer에 global average pooling을 사용하여 fc layer를 제거하여 parameter 수를 감소시키고, detection 속도를 향상시켰습니다.

global average pooling이란 Max(Average) Pooling 보다 더 급격하게 feature의 수를 줄이는 것입니다. 같은 channel의 feature들을 모두 평균을 낸 다음, channel 갯수만큼의 원소를 가지는 벡터로 만듭니다. global average pooling의 목적은 Max Pooling과는 다르게 feature를 1차원 벡터로 만들기 위함입니다.

그리고 1x1 filter를 사용해서 3x3 convolution feature map을 압축하는 방식을 사용하고, batch normalization을 사용해서 regularization을 했습니다.

3.2 Training for classification/detection

Darknet-19는 class의 수가 1000개인 ImageNet 데이터셋을 통해 160 epochs동안 SGD를 사용하고 learning rate는 0.1로 학습시킵니다. 위의 Darknet-19 네트워크에서 마지막에 global average pooling 후 ouput의 수가 1000개인 이유가 이것 때문입니다. 학습한 결과로 top-1 정확도는 76.5%, top-5 정확도는 93.3%의 성능을 보였습니다.

Darknet-19를 detection을 위한 network로 사용하기 위해 마지막 convolutional layer를 제거하고 3x3x1024 convolutional layer로 대체하고, 이후 1x1 conv layer를 추가합니다. 1x1 convolutional layer의 channel 수는 예측할 때 필요한 수로, 각 grid cell마다 5개의 bounding box 각각 마다 5개의 값(confidence score, x, y, w, h)과, PASCAL VOC 데이터셋을 사용하여 학습하기 때문에 20개의 class score를 예측합니다. 따라서 1x1 conv layer에서 channel 수를 5x(5+20) = 125개로 지정합니다.

Stronger

4.1 Hierarchical Classification

YOLO v2는 classification data와 detection data를 함께 사용하여 학습시킴으로써 많은 class를 예측할 수 있습니다. 하지만 detection dataset은 일반적이고 범용적인 object에 대한 정보를 가지고 있는 반면, classification dataset은 세부적인 object에 대한 정보를 가지고 있습니다.
예를 들어 detection dataset은 모든 개 이미지를 "개"라는 하나의 class로 분류하는 반면, classification 데이터셋은 "요크셔테리어"처럼 종류별로 세부적인 class로 분류합니다. 이렇게 두 data를 섞어 학습시킬 경우 모델이 "개"와 "요크셔 테리어"를 별개의 class로 분류할 가능성이 있습니다.

Classification에서는 softmax layer를 쓰는데, 이는 각 class들이 베타적(mutually exclusive)이라는 가정하에 진행하는 방식입니다. 하지만 dataset을 합치게 되면 "개"와 "요크셔 테리어"를 mutually exclusive하게 생각하기 때문에 softmax layer를 사용하는건 조금 무리가 있기떄문에 dataset들이 서로 베타적(mutually exclusive)이지 않다는 가정하에 multi-label model을 사용하게됩니다.

이 문제를 해결하기 위해 ImageNet label로부터 계층적인 트리(Hierarchical tree)인 WordTree를 구성합니다. 이때 softmax를 아예 안쓰는게 아니라, 어느정도 독립적인 부분에 대해서는 softmax를 사용해서 softmax를 여러개를 사용하게됩니다. WordTree에서 각 node는 categories를 의미하고 하위 category는 자식 node가 되는 구조입니다. 먼저 물리적 객체(physical object)를 root node로 두고, 하위 category는 자식 node가 되어 점차 뻗어나갑니다. ImageNet 데이터셋을 통해 WordTree를 구성할 경우, 최상위 node부터 최하위 node까지 총 1369개의 categories가 존재합니다.

WordTree에서 특정 category에 속할 확률은 root node로부터 해당 category의 node까지의 조건부 확률의 곱으로 표현할 수 있습니다. 만약 입력으로 들어온 이미지가 요크셔 테리어라면, 확률은 아래 식으로 계산할 수 있습니다.
만약 label이 주어졌다고 하면, 위에서 만든 tree를 역추적해서 대분류 category를 알 수 있기 때문에 이를 이용해 multi-label을 학습시킬 수 있습니다.

4.2 Dataset combination with WordTree

사진과 같은 방법을 통해 ImageNet data와 COCO data를 합쳐 WordTree를 구성할 수 있습니다.

4.3 Joint classification and Detection

COCO dataset과 ImageNet dataset을 합쳐 9418개의 classes를 가지는 WordTree를 학습시킵니다. 이 때 ImageNet과 COCO dataset의 비율이 4:1이 되도록 조정합니다. YOLO v2에서는 grid cell별로 5개가 아닌 3개의 anchor box를 사용하여 학습시킵니다.

Classification Dataset과 detection dataset을 가지고 9000개의 class를 예측하기위한 Detector를 학습시킬 때, Detection label에 대해서는 그냥 기존 방식으로 학습을 진행하면 됩니다. 하지만 classification label이 "dog"라고 주어지면 tree의 상위 node는 알 수 있지만 그 하위 node에 대한 정보가 없어서 상위 node에 대해서만 학습을 진행하기 때문에, 하위 node는 모두 틀렸다는 error값을 주게 됩니다.

만약 network가 classification dataset의 이미지를 보면 classification loss에 대해서만 backward pass를 수행합니다. 이 때 ground truth box와 IoU 값이 0.3 이상인 경우에만 backpropagate를 수행합니다.

Joint training 방식을 통해 YOLO 9000는 COCO dataset을 활용하여 image 내에서 object를 찾는 detection task와 ImageNet dataset을 통해 보다 넓은 범주의 object를 classify할 수 있습니다.

YOLO 9000 model을 ImageNet에서 성능을 측정했을 때, 새로운 종이나 동물은 잘 학습했지만, clothing이나 equipment들은 어려움을 겪었습니다. COCO dataset에서 동물 data가 많기때문에 잘 일반화되어 학습되었지만, clothing같은 label은 없기때문에 학습하지 못한 것을 확인할 수 있습니다.

https://herbwood.tistory.com/17

YOLO v2 논문(YOLO9000:Better, Faster, Stronger) 리뷰

이번 포스팅에서는 YOLO v2 논문(YOLO9000:Better, Faster, Stronger)을 읽고 리뷰해도록 하겠습니다. 입력 이미지의 크기가 300x300인 SSD300 모델은 detection 속도가 빠르지만 정확도가 낮으며, SSD512 모델은..

herbwood.tistory.com

이 분 블로그를 참고했습니다.

728x90

'AI > 논문' 카테고리의 다른 글

[object detection] SSD(Single Shot MultiBox Detector) (1)	2022.10.09
[Object Detection] YOLO V4 : Optimal Speed and Accuracy of Object Detection (0)	2022.08.26
[Object Detection] YOLO V3 code review - detection_demo.py (0)	2022.08.05
[Object Detection] YOLO V3 : An Incremental Improvement (0)	2022.08.02
[Object Detection] YOLO(You Only Look Once) V1 (0)	2022.07.17

Daily_AI💻

[Object Detection] YOLO V2 (YOLO 9000) - Better, Faster, Stronger

Better

2.1 batch normalization

2.2 High resolution classifier

2.3 Convolutional with Anchor Box

2.4 Dimension Clusters

2.5 Direct location prediction

2.6 Fine-Grained Features

2.7 Multi-scale Training

2.8 Further Experiments

Faster

3.1 Darknet-19

3.2 Training for classification/detection

Stronger

4.1 Hierarchical Classification

4.2 Dataset combination with WordTree

4.3 Joint classification and Detection

'AI > 논문' 카테고리의 다른 글

티스토리툴바

[Object Detection] YOLO V2 (YOLO 9000) - Better, Faster, Stronger

Better

2.1 batch normalization

2.2 High resolution classifier

2.3 Convolutional with Anchor Box

2.4 Dimension Clusters

2.5 Direct location prediction

2.6 Fine-Grained Features

2.7 Multi-scale Training

2.8 Further Experiments

Faster

3.1 Darknet-19

3.2 Training for classification/detection

Stronger

4.1 Hierarchical Classification

4.2 Dataset combination with WordTree

4.3 Joint classification and Detection

'AI > 논문' 카테고리의 다른 글

'AI/논문' Related Articles

티스토리툴바