๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

AI/๋…ผ๋ฌธ

[Object Detection] YOLO V2 (YOLO 9000) - Better, Faster, Stronger

728x90
๋ฐ˜์‘ํ˜•

 

YOLO9000.pdf
6.76MB

 

์ง€๊ธˆ๋ถ€ํ„ฐ yolo9000์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

Better

 

 

Object Detection dataset๋“ค์€ Classification, tagging ๋“ฑ dataset๊ณผ ๋น„๊ตํ•ด์„œ ๋„ˆ๋ฌด ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ detection์„ ์œ„ํ•œ dataset์€ ์ˆ˜์‹ญ ~ ์ˆ˜๋ฐฑ๊ฐœ์˜ ํด๋ž˜์Šค๋ฅผ ํฌํ•จํ•œ ์ˆ˜์ฒœ~์ˆ˜์‹ญ๋งŒ๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ๋Š”๋ฐ, Classification์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์…‹์€ ์ˆ˜์‹ญ๋งŒ๊ฐœ์˜ ํด๋ž˜์Šค๋ฅผ ํฌํ•จํ•œ ์ด๋ฏธ์ง€๊ฐ€ ์ˆ˜๋ฐฑ๋งŒ๊ฐœ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. 

์ด๋ฒˆ YOLO 9000๋ชจ๋ธ์—์„œ๋Š” ์ˆ˜ ๋งŽ์€ Classification ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ์ด์šฉํ•ด์„œ ํ˜„์žฌ detection ์‹œ์Šคํ…œ์— ์ ์šฉํ•ด๋ณด๋Š” ๋ฐฉ๋ฒ•์ธ hierarchical view of object classification์„ ์ œ์•ˆํ•˜๊ณ , detection๊ณผ classification data ๋ชจ๋‘๋ฅผ ์ด์šฉํ•˜์—ฌ object detector๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” joint training algorithm์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.

 

 

2.1 batch normalization

๊ธฐ์กด YOLO v1๋ชจ๋ธ์€ Fast R-CNN์„ ๋น„๊ตํ–ˆ์„ ๋•Œ ๋” ๋†’์€ localization error๋ฅผ ๋ฐœ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ๋˜ region proposal์„ ๊ธฐ๋ฐ˜์œผ๋กœํ•œ detection ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ์€ recall๊ฐ’์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. YOLO9000์—์„œ๋Š” localization error์™€ recall์— ๋Œ€ํ•ด์„œ ๊ฐœ์„ ํ•˜๋ฉด์„œ classification accuracy๋ฅผ ์œ ์ง€ํ•˜๋Š”๋ฐ ์ดˆ์ ์„ ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. 


Batch Normalization์„ ํ†ตํ•ด YOLO model์—์„œ ๋‹ค๋ฅธ ํ˜•ํƒœ์˜ regularization์„ ํ•˜์ง€ ์•Š์•„๋„ ํ•™์Šต์ด ์ˆ˜๋ ดํ•˜๋Š”๋ฐ ํฐ ํšจ๊ณผ๋ฅผ ์ฃผ์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. batch normalization์€ ํ•™์Šต ๊ณผ์ •์—์„œ ๊ฐ batch ๋‹จ์œ„ ๋ณ„๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹ค์–‘ํ•œ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง€๋”๋ผ๋„ ๊ฐ batch ๋ณ„๋กœ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์ด์šฉํ•ด normalizeํ•˜๋Š” ๊ฒƒ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. ์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด batch ๋‹จ์œ„๋‚˜ layer์— ๋”ฐ๋ผ์„œ ์ž…๋ ฅ ๊ฐ’์˜ ๋ถ„ํฌ๊ฐ€ ๋ชจ๋‘ ๋‹ค๋ฅด์ง€๋งŒ ์ •๊ทœํ™”๋ฅผ ํ†ตํ•˜์—ฌ ๋ถ„ํฌ๋ฅผ zero mean gaussian ํ˜•ํƒœ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ํ‰๊ท ์€ 0, ํ‘œ์ค€ ํŽธ์ฐจ๋Š” 1๋กœ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 
YOLO์˜ ๋ชจ๋“  convolutional layers์— Batch Normalization์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ํ†ตํ•ด mAP๊ฐ€ 2% ์ด์ƒ ์ƒ์Šน๋˜๋Š” ๊ฒƒ์„ ํ™•์ธ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ regularizeํšจ๊ณผ๊ฐ€ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์กด ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉํ–ˆ๋˜ Dropout layer๋ฅผ ์ œ๊ฑฐํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์‚ฌ์‹ค Batch Normalization์ด๋ž‘ DropOut์„ ๊ฐ™์ด ์“ฐ๋ฉด ๋” ์ •๊ทœํ™” ํšจ๊ณผ๊ฐ€ ์ข‹์•„์ง„๋‹ค๋Š” ๊ฒฐ๊ณผ๋„ ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. 

 

 

2.2 High resolution classifier

๋Œ€๋ถ€๋ถ„์˜ state-of-the-art detection ๋ฐฉ๋ฒ•๋“ค์€ ImageNet ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šต์‹œํ‚จ pre-trained classifier๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด YOLO model์€ darknet์„ 244 x 244๋กœ classifier๋ฅผ pre-trainํ•˜๊ณ  ์ž…๋ ฅ ์‚ฌ์ด์ฆˆ๋ฅผ 448 x 448๋กœ ์ฆ๊ฐ€์‹œ์ผœ์„œ object detection model์„ ํ•™์Šต์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ YOLO v2์˜ ๊ฒฝ์šฐ์—๋Š” ์ฒ˜์Œ๋ถ€ํ„ฐ ์ž…๋ ฅ ์‚ฌ์ด์ฆˆ๋ฅผ 448x448๋กœ ์ฆ๊ฐ€์‹œํ‚ค๊ณ  ImageNet์—์„œ 10 epoch๋™์•ˆ ํ•™์Šตํ•˜๊ณ ๋‚˜์„œ, detectionํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด mAP๊ฐ€ 4% ํ–ฅ์ƒํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

 

 

2.3 Convolutional with Anchor Box

YOLO v1์€ ๊ฐ grid cell์˜ bounding box์˜ ์ขŒํ‘œ๊ฐ€ 0~1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ€์ง€๋„๋ก ๋žœ๋ค์œผ๋กœ ์„ค์ •ํ•œ ๋’ค ํ•™์Šต์„ ํ†ตํ•ด ์ตœ์ ์˜ ๊ฐ’์„ ์ฐพ์•„๊ฐ€๋Š” ๊ณผ์ •์„ ๊ฑฐ์ณค์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ Anchor Box๋ฅผ ์‚ฌ์šฉํ•ด์„œ box์˜ offset๋งŒ ์˜ˆ์ธกํ•˜๋ฉด ๋‹จ์ˆœํ•˜๊ธฐ๋•Œ๋ฌธ์— network๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์‰ฝ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. 


๊ทธ๋ž˜์„œ fully connected layer๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  anchor boxes๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ bounding box๋ฅผ ์˜ˆ์ธกํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ € convolution layer์˜ output์ด ๋” ๋†’์€ resolution์„ ๊ฐ€์ง€๋„๋ก pooling layer๋ฅผ ์ œ๊ฑฐํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ธฐ์กด์˜ 448x448 ์ž…๋ ฅ ํฌ๊ธฐ๋ฅผ 416x416๋กœ ๋ณ€๊ฒฝํ•˜๋ฉด์„œ ์ตœ์ข… output feature map์—์„œ width ๋ฐ height๊ฐ€ ํ™€์ˆ˜๊ฐ€ ๋˜์„œ, ๊ฐ€์šด๋ฐ single center cell์ด ์กด์žฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋งŒ๋“  ์ด์œ ๋Š” object๊ฐ€ ํฐ ๊ฒฝ์šฐ์—๋Š” ์ • ๊ฐ€์šด๋ฐ cell์„ ์ฐจ์ง€ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์€๋ฐ, feature map์ด ์ง์ˆ˜์ผ ๊ฒฝ์šฐ์—๋Š” center cell์ด ์—†๊ธฐ๋•Œ๋ฌธ์— ์ฃผ๋ณ€ cell 4๊ฐœ๊ฐ€ ์ด๋Ÿฌํ•œ ํฐ object๋ฅผ ์˜ˆ์ธกํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ feature map์— single center cell์ด ์ƒ๊ธธ ๊ฒฝ์šฐ object๋ฅผ ๋” ์ž˜ ์ฐพ์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์„ฑ๋Šฅ์ด ๋” ์ข‹์•„์ง„๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. 

YOLOv2๋Š” 416x416ํฌ๊ธฐ์˜ ์ž…๋ ฅ์„ ๋„ฃ์œผ๋ฉด downsample factor๊ฐ€ 32์ด๊ณ , 13x13ํฌ๊ธฐ์˜ feature map์„ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  Anchor box์˜ ๊ฐฏ์ˆ˜๋งŒํผ class์™€ object๊ฐ€ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์—ฌ๋ถ€๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. 

ex) Anchor๊ฐ€ 3๊ฐœ๋ผ๋ฉด ์ถœ๋ ฅ ๋ฒกํ„ฐ๊ฐ€ [{objectness, x_offset, y_offset, w_offset, h_offset, C1 ... Cn}, {objectness, x_offset, y_offset, w_offset, h_offset, C1 ... Cn}, {objectness, x_offset, y_offset, w_offset, h_offset, C1 ... Cn}] ํ˜•ํƒœ


๊ธฐ์กด์˜ YOLO๊ฐ€ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ๋‹น 98๊ฐœ box๋ฅผ ์˜ˆ์ธกํ–ˆ์Šต๋‹ˆ๋‹ค. Anchor Box๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ accuracy๊ฐ€ ์‚ด์ง ๋–จ์–ด์ง€์ง€๋งŒ 1000๊ฐœ ์ด์ƒ์˜ bounding box๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Anchor Box๋ฅผ ์ ์šฉํ•˜์ง€ ์•Š์„ ๊ฒฝ์šฐ mAP๊ฐ€ 69.5์— 81%์˜ recall์„ ๊ธฐ๋กํ–ˆ์ง€๋งŒ, Anchor Box ์ ์šฉ ํ›„์—๋Š” mAP๊ฐ€ 69.2%, 88%์˜ recall์„ ์–ป์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. mAP๊ฐ€ ๊ฐ์†Œํ–ˆ์ง€๋งŒ recall์ด ์ฆ๊ฐ€ํ–ˆ์œผ๋ฏ€๋กœ ๋ชจ๋ธ์ด ๋” ํ–ฅ์ƒ๋  ์—ฌ์ง€๊ฐ€ ์žˆ๋‹ค๊ณ  ํŒ๋‹จํ–ˆ์Šต๋‹ˆ๋‹ค. 

 


Recall์€ ์ „์ฒด ๋ฌผ์ฒด ๊ฐฏ์ˆ˜๋ถ„์˜ ์ž˜ ๊ฒ€์ถœํ•œ ๋ฌผ์ฒด ๊ฐฏ์ˆ˜๋กœ true detection๋งŒ ๊ณ ๋ คํ•˜๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ recall ๊ฐ’์ด ๋†’๋‹ค๋Š” ๊ฒƒ์€ model์ด ์‹ค์ œ object์˜ ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•œ ๋น„์œจ์ด ๋†’์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. YOLO v1์ด recall ๊ฐ’์ด ๋‚ฎ์€ ์ด์œ ๋Š” region proposal ๊ธฐ๋ฐ˜์˜ model์— ๋น„ํ•ด ์ด๋ฏธ์ง€ ๋‹น ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ ์ˆ˜์˜ bounding box๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ YOLO v2์—์„œ anchor box๋ฅผ ํ†ตํ•ด ๋” ๋งŽ์€ ์ˆ˜์˜ bounding box๋ฅผ ์˜ˆ์ธกํ•˜๋ฉด์„œ ์‹ค์ œ object์˜ ์œ„์น˜๋ฅผ ๋ณด๋‹ค ์ž˜ ํฌ์ฐฉํ•˜๊ฒŒ ๋˜์–ด์„œ recall ๊ฐ’์ด ์ƒ์Šนํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

2.4 Dimension Clusters

YOLO์— Anchor Box๋ฅผ ๋„์ž…ํ•˜๋ฉด์„œ 2๊ฐ€์ง€์˜ ๋ฌธ์ œ์ ์ด ์ƒ๊ฒผ๋Š”๋ฐ, ๊ทธ ์ค‘ ํ•˜๋‚˜๋Š” bounding box์˜ dimension๋“ค์€ hand-pick ๋œ๋‹ค๋Š” ๊ฒ๋‹ˆ๋‹ค. ์ด๋ฅผ network๊ฐ€ ํ•™์Šตํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์‚ฌ์ „์— ์ข‹์€ anchor box๋ฅผ ์„ ํƒํ•ด์ค€๋‹ค๋ฉด network๊ฐ€ ํ•™์Šตํ•˜๋Š”๋ฐ ๋” ์‰ฌ์šธ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค. YOLO 9000์—์„œ๋Š” k-mean๋ฅผ ํ†ตํ•ด์„œ ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ๊ฐ€์žฅ ์ข‹์€ anchor box์˜ ํ›„๋ณด๊ตฐ์„ ์ฐพ๊ฒŒ๋ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ k-means๋Š” Euclidean distance๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ centroid์™€ sample๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ euclidean distance๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ํฐ bounding box์˜ ๊ฒฝ์šฐ์—๋Š” ์ž‘์€ bounding box์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ ๋” ํฐ error๊ฐ’์„ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. 

bounding box์˜ ํฌ๊ธฐ์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ ์„ ํƒํ•œ prior์ด ์ข‹์€ IoU ๊ฐ’์„ ๊ฐ€์ง€๋„๋ก ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ƒˆ๋กœ์šด distance metric์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ดdistance๊ฐ’์€ bounding box์™€ centroid์˜ IoU๊ฐ’์ด ํด์ˆ˜๋ก ๊ฒน์น˜๋Š” ์˜์—ญ์ด ํฌ๊ธฐ ๋•Œ๋ฌธ์— 1์—์„œ ๋นผ๋ฉด ๊ฐ’์ด ์ž‘์•„์ง€๊ธฐ ๋•Œ๋ฌธ์— ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊น๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. 


๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์–‘ํ•œ k์œผ๋กœ k-means clustering์„ ์ง„ํ–‰ํ•˜์˜€๊ณ , k=5์ผ ๋•Œ ๋ชจ๋ธ์˜ ๋ณต์žก๋„์™€ recall ๊ฐ’์ด ์ ์ ˆํ•œ trade-off๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. 


ํ‘œ๋ฅผ ๋ณด๋ฉด clustering๋ฐฉ๋ฒ•์œผ๋กœ ์ตœ์ ์˜ prior๋ฅผ ์„ ํƒํ•˜๋ฉด network๊ฐ€ detection task๋ฅผ ๋ณด๋‹ค ์‰ฝ๊ฒŒ ํ•™์Šตํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

2.5 Direct location prediction

YOLO์™€ anchor box๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ์˜ ๋˜ ๋‹ค๋ฅธ ๋ฌธ์ œ์ ์€ ์ดˆ๊ธฐ iteration์‹œ model์ด ๋ถˆ์•ˆ์ •ํ•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๋ถˆ์•ˆ์ •์„ฑ์€ box์˜ (x,y) ์ขŒํ‘œ์œ„์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š”๋ฐ์„œ ์ผ์–ด๋‚˜๋Š”๋ฐ, region proposal ๊ณ„์—ด์˜ ๋„คํŠธ์›Œํฌ๋“ค์€ tx, ty๊ฐ™์€ ๊ณ„์ˆ˜ ๊ฐ’๋“ค์„ ์ด์šฉํ•ด์„œ ์ด ๊ฐ’๋“ค์„ ์—ฌ๊ธฐ ์‹์ฒ˜๋Ÿผ ๊ณ„์‚ฐํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.


๊ณ„์ˆ˜ ๊ฐ’์ด ์–‘์ˆ˜๋ผ๋ฉด Box๋ฅผ ์˜ค๋ฅธ์ชฝ์œผ๋กœ, ์Œ์ˆ˜๋ผ๋ฉด ๋ฐ•์Šค๋ฅผ ์™ผ์ชฝ์œผ๋กœ ์›€์ง์ด๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์œ„์˜ ์‹์€ ์ด๋ ‡๊ฒŒ ์ œํ•œ์ด ์—†๊ธฐ ๋•Œ๋ฌธ์— box๊ฐ€ ์–ด๋Š์ชฝ์œผ๋กœ๋‚˜ ์ด๋™์ด ๊ฐ€๋Šฅํ•ด์ง€๊ฒŒ ๋˜๊ณ  ์•ˆ์ •์ ์ธ offset๊ฐ’์„ ํ•™์Šตํ•˜๋Š”๋ฐ ๋งŽ์€ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฝ๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ YOLO 9000์—์„œ๋Š” YOLO์˜ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ grid cell์— ์ƒ๋Œ€์ ์ธ ์œ„์น˜ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์„ ํƒํ•˜์—ฌ offset์˜ ๊ฐ’์„ 0, 1์‚ฌ์ด ๋ฒ”์œ„์—์„œ ์ œํ•œํ•ด ์ฃผ๊ณ , ์ด๋ ‡๊ฒŒ ์–ป์€ tx,ty๊ฐ’์— logistic activation์„ ์ ์šฉํ•ด์„œ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. 
๋„คํŠธ์›Œํฌ๋Š” ๊ฐ cell๋งˆ๋‹ค tx,ty,tw,th,to ์ด๋ ‡๊ฒŒ ์ด 5๊ฐœ์˜ bounding box ์š”์†Œ๊ฐ’์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

์ตœ์ข… objectness์™€ box์— ๋Œ€ํ•œ ์š”์†Œ๋Š” ์•„๋ž˜ ์‹์œผ๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ cx,cy๋Š” ํ•ด๋‹น grid cell์˜ ์™ผ์ชฝ ์ƒ๋‹จ ์ขŒํ‘œ๋ฅผ ์ด์•ผ๊ธฐํ•˜๊ณ , pw,ph๊ฐ’์€ anchor box์˜ ์‚ฌ์ „ width, height๊ฐ’์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.


์˜ˆ์ธกํ•˜๋Š” ์œ„์น˜์˜ ๋ฒ”์œ„๊ฐ€ ์ •ํ•ด์ง์œผ๋กœ์จ network๋Š” ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค. Dimension clustering์„ ํ†ตํ•ด ์ตœ์ ์˜ prior๋ฅผ ์„ ํƒํ•˜๊ณ  bounding box ์ค‘์‹ฌ๋ถ€ ์ขŒํ‘œ๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ–ˆ์„ ๋•Œ recall๊ฐ’์ด 5% ์ •๋„ ํ–ฅ์ƒ๋œ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. 

 

 

2.6 Fine-Grained Features

YOLO v2๋Š” ์ตœ์ข…์ ์œผ๋กœ 13x13 ํฌ๊ธฐ์˜ feature map ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค. feature map์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ ํฐ ๊ฐ์ฒด๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์šฉ์ดํ•œ ๋ฐ˜๋ฉด ์ž‘์€ ๊ฐ์ฒด๋Š” ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋งˆ์ง€๋ง‰ pooling์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์ „์— feature map์„ ์ถ”์ถœํ•˜์—ฌ 26x26(x512) ํฌ๊ธฐ์˜ feature map์„ ์–ป์Šต๋‹ˆ๋‹ค. ๊ทธ ๋‹ค์Œ channel์€ ์œ ์ง€ํ•˜๋ฉด์„œ 4๊ฐœ๋กœ ๋ถ„ํ• ํ•œ ํ›„ concatํ•˜์—ฌ 13x13(x2048)ํฌ๊ธฐ์˜ feature map์„ ์–ป์Šต๋‹ˆ๋‹ค. ์ด feature map์€ ์ž‘์€ ๊ฐ์ฒด์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ํ•จ์ถ•ํ•˜๊ณ  ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด feature map์„ original feature map์ธ 13x13(x1024) feature map์— ์ถ”๊ฐ€ํ•˜์—ฌ 13x13(x3072) ํฌ๊ธฐ์˜ feature map์„ ์–ป์Šต๋‹ˆ๋‹ค. 

https://herbwood.tistory.com/17


์ตœ์ข…์ ์œผ๋กœ 3x3 conv์™€ 1x1 conv๋ฅผ ์ ์šฉํ•˜์—ฌ 13x13(x125) ํฌ๊ธฐ์˜ feature map์„ ์–ป์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ channel ์ˆ˜๊ฐ€ 125์ธ ์ด์œ ๋Š” ๊ฐ grid cell๋ณ„๋กœ 5๊ฐœ์˜ bounding box๋งˆ๋‹ค 20๊ฐœ์˜ class score์™€ (confidence, x, y, w, h)๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค(=5๊ฐœ์˜ bounding box x [20๊ฐœ์˜ class score + (conf, x, y, w, h)]). ์ด๋ ‡๊ฒŒ fine-grained feature๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ 1% ์ •๋„์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. 

https://herbwood.tistory.com/17

-Input : 416 x 416 x 3
-Output : 13 x 13 x 1024 feature map
 

2.7 Multi-scale Training

๊ธฐ์กด YOLO์—์„œ ์‚ฌ์šฉํ•˜๋˜ ์ž…๋ ฅํฌ๊ธฐ๋ฅผ 448x448๋ฅผ 416x416์œผ๋กœ ๋ณ€๊ฒฝํ•˜๊ณ  Anchor Box๋„ ๋„์ž…ํ–ˆ์ง€๋งŒ, YOLO๊ฐ€ convolutional๊ณผ Pooling layer๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— feature map์˜ ์ •๋ณด๋“ค์ด layer๋ฅผ ์ง€๋‚ ์ˆ˜๋ก ์ž‘์•„์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” YOLO๋ฅผ ๊ฐ•์ธํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ  ์‹ถ์–ด์„œ ๋ชจ๋ธ ํ•™์Šต์‹œ 10 epochs๋งˆ๋‹ค Input Size๋ฅผ randomํ•˜๊ฒŒ ๋ณ€๊ฒฝํ•ด์ฃผ๋ฉด์„œ ํ•™์Šตํ•ด์ค๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€๋ฅผ 1/32๋ฐฐ๋กœ downsampling์‹œํ‚ค๊ธฐ ๋•Œ๋ฌธ์— ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํฌ๊ธฐ๋ฅผ 32๋ฐฐ์ˆ˜ {320, 352, ..., 608} ์ค‘์—์„œ ์„ ํƒํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. 320x320 ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๊ฐ€ ๊ฐ€์žฅ ์ž‘์€ ์ž…๋ ฅ ์ด๋ฏธ์ง€์ด๊ณ  608x608 ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๊ฐ€ ์ž…๋ ฅ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ€์žฅ ํฐ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.  

์ด ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด network๋Š” ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ๋ฐ›์„ ์ˆ˜ ์žˆ๊ณ , ์†๋„์™€ ์ •ํ™•๋„ ์‚ฌ์ด์˜ trade-off๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ž‘์€ ํฌ๊ธฐ์˜ ์ž…๋ ฅ์ด๋ฉด ๋†’์€ FPS๋ฅผ ๊ฐ€์ง€๊ณ  ํฐ ํฌ๊ธฐ์˜ ์ž…๋ ฅ์ด๋ฉด ๋†’์€ mAP๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. 

 

2.8 Further Experiments

PASSCAL VOC 2012์™€ COCO dataset์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

 

 

 

 

 

Faster

 

3.1 Darknet-19

YOLO v2์—์„œ๋Š” Darknet-19๋ผ๋Š” ์ƒˆ๋กœ์šด Classification Model์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. VGG๋ชจ๋ธ๊ณผ ๋น„์Šทํ•˜๊ฒŒ 3x3 kernel filter๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ๋ชจ๋“  pooling step ์ดํ›„์— channel์ˆ˜๋ฅผ 2๋ฐฐ๋กœ ํ•ด์ค๋‹ˆ๋‹ค. YOLO v1 ๋ชจ๋ธ์€ ๋„คํŠธ์›Œํฌ ๋งˆ์ง€๋ง‰์— fc layer๋ฅผ ํ†ตํ•ด ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ fc layer๋กœ ์ธํ•ด parameter ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ  detection ์†๋„๊ฐ€ ๋Š๋ ค์ง„๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์–ด์„œ, YOLO v2์˜ Darknet-19๋Š” ๋งˆ์ง€๋ง‰ layer์— global average pooling์„ ์‚ฌ์šฉํ•˜์—ฌ fc layer๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ parameter ์ˆ˜๋ฅผ ๊ฐ์†Œ์‹œํ‚ค๊ณ , detection ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. 


global average pooling์ด๋ž€ Max(Average) Pooling ๋ณด๋‹ค ๋” ๊ธ‰๊ฒฉํ•˜๊ฒŒ feature์˜ ์ˆ˜๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ™์€ channel์˜ feature๋“ค์„ ๋ชจ๋‘ ํ‰๊ท ์„ ๋‚ธ ๋‹ค์Œ, channel ๊ฐฏ์ˆ˜๋งŒํผ์˜ ์›์†Œ๋ฅผ ๊ฐ€์ง€๋Š” ๋ฒกํ„ฐ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค. global average pooling์˜ ๋ชฉ์ ์€ Max Pooling๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ feature๋ฅผ 1์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค.


๊ทธ๋ฆฌ๊ณ  1x1 filter๋ฅผ ์‚ฌ์šฉํ•ด์„œ 3x3 convolution feature map์„ ์••์ถ•ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๊ณ , batch normalization์„ ์‚ฌ์šฉํ•ด์„œ regularization์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

 

 

3.2 Training for classification/detection

Darknet-19๋Š” class์˜ ์ˆ˜๊ฐ€ 1000๊ฐœ์ธ ImageNet ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด 160 epochs๋™์•ˆ SGD๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  learning rate๋Š” 0.1๋กœ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์œ„์˜ Darknet-19 ๋„คํŠธ์›Œํฌ์—์„œ ๋งˆ์ง€๋ง‰์— global average pooling ํ›„ ouput์˜ ์ˆ˜๊ฐ€ 1000๊ฐœ์ธ ์ด์œ ๊ฐ€ ์ด๊ฒƒ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ํ•™์Šตํ•œ ๊ฒฐ๊ณผ๋กœ top-1 ์ •ํ™•๋„๋Š” 76.5%, top-5 ์ •ํ™•๋„๋Š” 93.3%์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Darknet-19๋ฅผ detection์„ ์œ„ํ•œ network๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด ๋งˆ์ง€๋ง‰ convolutional layer๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  3x3x1024 convolutional layer๋กœ ๋Œ€์ฒดํ•˜๊ณ , ์ดํ›„ 1x1 conv layer๋ฅผ ์ถ”๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 1x1 convolutional layer์˜ channel ์ˆ˜๋Š” ์˜ˆ์ธกํ•  ๋•Œ ํ•„์š”ํ•œ ์ˆ˜๋กœ, ๊ฐ grid cell๋งˆ๋‹ค 5๊ฐœ์˜ bounding box ๊ฐ๊ฐ ๋งˆ๋‹ค 5๊ฐœ์˜ ๊ฐ’(confidence score, x, y, w, h)๊ณผ, PASCAL VOC ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์— 20๊ฐœ์˜ class score๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ 1x1 conv layer์—์„œ channel ์ˆ˜๋ฅผ 5x(5+20) = 125๊ฐœ๋กœ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค. 

 

 

 

 

 

Stronger

 

4.1 Hierarchical Classification

 

YOLO v2๋Š” classification data์™€ detection data๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต์‹œํ‚ด์œผ๋กœ์จ ๋งŽ์€ class๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ detection dataset์€ ์ผ๋ฐ˜์ ์ด๊ณ  ๋ฒ”์šฉ์ ์ธ object์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ˜๋ฉด, classification dataset์€ ์„ธ๋ถ€์ ์ธ object์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 
์˜ˆ๋ฅผ ๋“ค์–ด detection dataset์€ ๋ชจ๋“  ๊ฐœ ์ด๋ฏธ์ง€๋ฅผ "๊ฐœ"๋ผ๋Š” ํ•˜๋‚˜์˜ class๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฐ˜๋ฉด, classification ๋ฐ์ดํ„ฐ์…‹์€ "์š”ํฌ์…”ํ…Œ๋ฆฌ์–ด"์ฒ˜๋Ÿผ ์ข…๋ฅ˜๋ณ„๋กœ ์„ธ๋ถ€์ ์ธ class๋กœ ๋ถ„๋ฅ˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋‘ data๋ฅผ ์„ž์–ด ํ•™์Šต์‹œํ‚ฌ ๊ฒฝ์šฐ ๋ชจ๋ธ์ด "๊ฐœ"์™€ "์š”ํฌ์…” ํ…Œ๋ฆฌ์–ด"๋ฅผ ๋ณ„๊ฐœ์˜ class๋กœ ๋ถ„๋ฅ˜ํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค. 

Classification์—์„œ๋Š” softmax layer๋ฅผ ์“ฐ๋Š”๋ฐ, ์ด๋Š” ๊ฐ class๋“ค์ด ๋ฒ ํƒ€์ (mutually exclusive)์ด๋ผ๋Š” ๊ฐ€์ •ํ•˜์— ์ง„ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ dataset์„ ํ•ฉ์น˜๊ฒŒ ๋˜๋ฉด "๊ฐœ"์™€ "์š”ํฌ์…” ํ…Œ๋ฆฌ์–ด"๋ฅผ mutually exclusiveํ•˜๊ฒŒ ์ƒ๊ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— softmax layer๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๊ฑด ์กฐ๊ธˆ ๋ฌด๋ฆฌ๊ฐ€ ์žˆ๊ธฐ๋–„๋ฌธ์— dataset๋“ค์ด ์„œ๋กœ ๋ฒ ํƒ€์ (mutually exclusive)์ด์ง€ ์•Š๋‹ค๋Š” ๊ฐ€์ •ํ•˜์— multi-label model์„ ์‚ฌ์šฉํ•˜๊ฒŒ๋ฉ๋‹ˆ๋‹ค. 


์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ImageNet label๋กœ๋ถ€ํ„ฐ ๊ณ„์ธต์ ์ธ ํŠธ๋ฆฌ(Hierarchical tree)์ธ WordTree๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ softmax๋ฅผ ์•„์˜ˆ ์•ˆ์“ฐ๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ, ์–ด๋Š์ •๋„ ๋…๋ฆฝ์ ์ธ ๋ถ€๋ถ„์— ๋Œ€ํ•ด์„œ๋Š” softmax๋ฅผ ์‚ฌ์šฉํ•ด์„œ softmax๋ฅผ ์—ฌ๋Ÿฌ๊ฐœ๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ๋ฉ๋‹ˆ๋‹ค. WordTree์—์„œ ๊ฐ node๋Š” categories๋ฅผ ์˜๋ฏธํ•˜๊ณ  ํ•˜์œ„ category๋Š” ์ž์‹ node๊ฐ€ ๋˜๋Š” ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ๋จผ์ € ๋ฌผ๋ฆฌ์  ๊ฐ์ฒด(physical object)๋ฅผ root node๋กœ ๋‘๊ณ , ํ•˜์œ„ category๋Š” ์ž์‹ node๊ฐ€ ๋˜์–ด ์ ์ฐจ ๋ป—์–ด๋‚˜๊ฐ‘๋‹ˆ๋‹ค. ImageNet ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด WordTree๋ฅผ ๊ตฌ์„ฑํ•  ๊ฒฝ์šฐ, ์ตœ์ƒ์œ„ node๋ถ€ํ„ฐ ์ตœํ•˜์œ„ node๊นŒ์ง€ ์ด 1369๊ฐœ์˜ categories๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. 


WordTree์—์„œ ํŠน์ • category์— ์†ํ•  ํ™•๋ฅ ์€ root node๋กœ๋ถ€ํ„ฐ ํ•ด๋‹น category์˜ node๊นŒ์ง€์˜ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์˜ ๊ณฑ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด์˜จ ์ด๋ฏธ์ง€๊ฐ€ ์š”ํฌ์…” ํ…Œ๋ฆฌ์–ด๋ผ๋ฉด, ํ™•๋ฅ ์€ ์•„๋ž˜ ์‹์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 
๋งŒ์•ฝ label์ด ์ฃผ์–ด์กŒ๋‹ค๊ณ  ํ•˜๋ฉด, ์œ„์—์„œ ๋งŒ๋“  tree๋ฅผ ์—ญ์ถ”์ ํ•ด์„œ ๋Œ€๋ถ„๋ฅ˜ category๋ฅผ ์•Œ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ ์ด์šฉํ•ด multi-label์„ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

 

4.2 Dataset combination with WordTree

์‚ฌ์ง„๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ImageNet data์™€ COCO data๋ฅผ ํ•ฉ์ณ WordTree๋ฅผ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

4.3 Joint classification and Detection

COCO dataset๊ณผ ImageNet dataset์„ ํ•ฉ์ณ 9418๊ฐœ์˜ classes๋ฅผ ๊ฐ€์ง€๋Š” WordTree๋ฅผ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ๋•Œ ImageNet๊ณผ COCO dataset์˜ ๋น„์œจ์ด 4:1์ด ๋˜๋„๋ก ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. YOLO v2์—์„œ๋Š” grid cell๋ณ„๋กœ 5๊ฐœ๊ฐ€ ์•„๋‹Œ 3๊ฐœ์˜ anchor box๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. 

Classification Dataset๊ณผ detection dataset์„ ๊ฐ€์ง€๊ณ  9000๊ฐœ์˜ class๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ์œ„ํ•œ Detector๋ฅผ ํ•™์Šต์‹œํ‚ฌ ๋•Œ, Detection label์— ๋Œ€ํ•ด์„œ๋Š” ๊ทธ๋ƒฅ ๊ธฐ์กด ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ classification label์ด "dog"๋ผ๊ณ  ์ฃผ์–ด์ง€๋ฉด tree์˜ ์ƒ์œ„ node๋Š” ์•Œ ์ˆ˜ ์žˆ์ง€๋งŒ ๊ทธ ํ•˜์œ„ node์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์—†์–ด์„œ ์ƒ์œ„ node์— ๋Œ€ํ•ด์„œ๋งŒ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ํ•˜์œ„ node๋Š” ๋ชจ๋‘ ํ‹€๋ ธ๋‹ค๋Š” error๊ฐ’์„ ์ฃผ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋งŒ์•ฝ network๊ฐ€ classification dataset์˜ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋ฉด classification loss์— ๋Œ€ํ•ด์„œ๋งŒ backward pass๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋•Œ ground truth box์™€ IoU ๊ฐ’์ด 0.3 ์ด์ƒ์ธ ๊ฒฝ์šฐ์—๋งŒ backpropagate๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. 

Joint training ๋ฐฉ์‹์„ ํ†ตํ•ด YOLO 9000๋Š” COCO dataset์„ ํ™œ์šฉํ•˜์—ฌ image ๋‚ด์—์„œ object๋ฅผ ์ฐพ๋Š” detection task์™€ ImageNet dataset์„ ํ†ตํ•ด ๋ณด๋‹ค ๋„“์€ ๋ฒ”์ฃผ์˜ object๋ฅผ classifyํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

YOLO 9000 model์„ ImageNet์—์„œ ์„ฑ๋Šฅ์„ ์ธก์ •ํ–ˆ์„ ๋•Œ, ์ƒˆ๋กœ์šด ์ข…์ด๋‚˜ ๋™๋ฌผ์€ ์ž˜ ํ•™์Šตํ–ˆ์ง€๋งŒ, clothing์ด๋‚˜ equipment๋“ค์€ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. COCO dataset์—์„œ ๋™๋ฌผ data๊ฐ€ ๋งŽ๊ธฐ๋•Œ๋ฌธ์— ์ž˜ ์ผ๋ฐ˜ํ™”๋˜์–ด ํ•™์Šต๋˜์—ˆ์ง€๋งŒ, clothing๊ฐ™์€ label์€ ์—†๊ธฐ๋•Œ๋ฌธ์— ํ•™์Šตํ•˜์ง€ ๋ชปํ•œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

 

 

https://herbwood.tistory.com/17

 

YOLO v2 ๋…ผ๋ฌธ(YOLO9000:Better, Faster, Stronger) ๋ฆฌ๋ทฐ

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” YOLO v2 ๋…ผ๋ฌธ(YOLO9000:Better, Faster, Stronger)์„ ์ฝ๊ณ  ๋ฆฌ๋ทฐํ•ด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๊ฐ€ 300x300์ธ SSD300 ๋ชจ๋ธ์€ detection ์†๋„๊ฐ€ ๋น ๋ฅด์ง€๋งŒ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์œผ๋ฉฐ, SSD512 ๋ชจ๋ธ์€..

herbwood.tistory.com

์ด ๋ถ„ ๋ธ”๋กœ๊ทธ๋ฅผ ์ฐธ๊ณ ํ–ˆ์Šต๋‹ˆ๋‹ค.

728x90
๋ฐ˜์‘ํ˜•