Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

Twowinn

[AI Research] 01 - You Only Look Once:Unified, Real-Time Object Detection 본문

카테고리 없음

[AI Research] 01 - You Only Look Once:Unified, Real-Time Object Detection

내일모레는 코딩왕 2025. 11. 4. 18:06

작성 목적

YOLOv1 원논문을 핵심 문장과 수식 위주로 정리하고, 실무(자율주행)에서 쓰는 최신 YOLO 계열과 연결한다.

Abstract

원문 핵심 문장

“We present YOLO, a new approach to object detection… a single neural network predicts bounding boxes and class probabilities directly from full images in one evaluation…”

1. 새로운 접근법

YOLO는 객체 탐지(object detection)를 완전히 새롭게 정의했다.

기존 탐지 방식(R-CNN 등)은 분류기(classifier)를 재활용하여 객체를 탐지하는 구조였다.

YOLO는 이 대신, 탐지를 회귀(regression) 문제로 바라본다.

즉, 이미지를 공간적으로 나눈 뒤 각 영역의 바운딩박스 좌표와 클래스 확률을 함께 예측한다.

→ “탐지를 분류의 연속이 아닌, ‘입력 → (좌표+확률)’ 회귀로 단일화했다.”

2. End-to-End 단일 네트워크

YOLO는 하나의 단일 신경망이 전체 이미지를 한 번만 보고

모든 객체의 위치(박스) 와 종류(클래스) 를 동시에 예측한다.

이 구조는 완전히 end-to-end로 최적화할 수 있어,

중간 후보영역 제안(Region Proposal) 같은 복잡한 단계를 제거했다.

3. 실시간 처리 속도

YOLO의 통합된 아키텍처는 극도로 빠르다.

기본 모델: 초당 45프레임 (45 FPS)
경량 모델(Fast YOLO): 초당 155프레임 (155 FPS)평균 정확도(mAP)는 그들의 2배 이상이다.
속도는 다른 실시간 탐지기보다 훨씬 빠르면서도, 평균 정확도(mAP)는 그들의 2배 이상이다.

4. 성능 특성 (Localization Error & False Positives)

YOLO는 속도가 빠른 대신 약간의 Localization Error(박스 위치 오차)가 존재한다.

하지만 반대로, 배경을 객체로 잘못 인식하는 False Positive는 훨씬 적다.

장점: 배경에서 잘못된 탐지를 거의 하지 않음
단점: 객체의 위치 좌표를 약간 부정확하게 잡을 수 있음

→ “YOLO makes more localization errors but is less likely to predict false positives on background.”

5. 일반화 능력 (Generalization)

YOLO는 객체의 일반적 표현(feature representation) 을 매우 잘 학습한다.

그래서 자연 이미지 외의 도메인(예: 그림, 예술 작품) 으로 확장했을 때도

R-CNN, DPM보다 성능이 잘 유지된다.

→ “YOLO learns very general representations of objects… performs well when generalizing to other domains like artwork.”

Abstract 요약

YOLO는 기존의 분류기 재활용 방식과 달리, 탐지를 회귀 문제로 단일화하여

하나의 네트워크로 위치+클래스를 동시에 예측한다.

이 통합 구조는 end-to-end 학습이 가능하고, 실시간 속도(45~155 FPS) 를 달성했다.

YOLO는 배경 오탐지(false positive) 을 줄이는 대신 위치 오차(localization error) 가 약간 있으며,

다른 탐지기보다 범용적 특성 표현을 잘 학습해 도메인 전이에도 강하다.

Part 01. Introduction

인간은 이미지를 잠깐 보는 것만으로도 그 안의 객체가 무엇인지, 어디에 있는지, 어떻게 상호작용하는지를 직관적으로 파악할 수 있다.

이처럼 인간의 시각 시스템은 빠르고 정확하며, 이는 운전처럼 복잡한 작업도 거의 무의식적으로 수행할 수 있게 해준다.

객체 탐지(Object Detection)가 이 수준에 도달한다면,

별도의 특수 센서 없이 차량이 주변을 인식
시각 보조 장치가 실시간으로 환경 정보를 전달
범용 로봇 시스템이 사람처럼 환경에 반응

기존 탐지 시스템의 한계

기존 객체 탐지 시스템은 주로 분류기(Classifier) 를 재활용하는 방식이었다.

DPM(Deformable Parts Model) 같은 시스템은 슬라이딩 윈도우(sliding window) 기반으로, 이미지를 일정 간격으로 잘라가며 모든 위치·크기마다 분류기를 실행한다.
R-CNN 계열은 좀 더 발전된 방식으로 Region Proposal(후보 영역) 을 먼저 생성한 뒤, 각 후보 박스를 분류기에 넣어 “찾기 + 분류” 과정을 거친다.

하지만 이 접근법들은 다음과 같은 문제를 가진다.

후보 영역을 찾고 분류하는 복잡한 파이프라인
분류 후 후처리 단계(박스 재정의, 중복 제거, 점수 재할당)
그리고 각 구성요소를 별도로 학습해야 하는 구조

결과적으로 이 방식은 느리고 최적화가 어렵다.

YOLO의 새로운 접근

YOLO는 객체 탐지를 하나의 회귀(Regression) 문제로 재정의한다.

이미지의 픽셀을 직접 입력받아,

바운딩박스 좌표 + 클래스 확률을 동시에 예측하는 방식이다.

즉, “이 이미지 안에 어떤 객체가 있고, 그것이 어디에 위치하는가?“를 한 번의 예측(one look) 으로 수행한다.

Using our system, you only look once (YOLO) at an image to predict what objects are present and where they are.

Figure 1 — YOLO Detection System

YOLO의 처리 과정은 단순하다.

입력 이미지를 448×448로 리사이즈
단일 합성곱 신경망(CNN) 으로 전체 이미지 한 번 처리
예측된 결과를 confidence thresholding + NMS로 필터링

이 과정을 통해 YOLO는 이미지 전체를 한 번만 보고 객체를 탐지한다.

YOLO의 세 가지 핵심 특징

1. Fast - 빠르다

YOLO는 복잡한 후보영역 탐색이나 분류 단계를 제거했기 때문에 극도로 빠르다.

기본 YOLO: 45 FPS (실시간)
Fast YOLO: 155 FPS (초당 155장)
실시간 영상(25ms 미만 지연)에도 적용 가능하며, 평균 정확도(mAP)는 다른 실시간 탐지기보다 2배 이상 높다.

2. Global Reasoning - 전체 맥락을 본다

YOLO는 슬라이딩 윈도우나 region proposal과 달리, 이미지 전체를 한 번에 본다.

이 덕분에 객체 간의 맥락(context) 과 배경 정보를 함께 학습한다.

예를 들어, R-CNN은 배경 패턴을 객체로 오인할 때가 많지만,

YOLO는 전체 이미지를 보기 때문에 이런 오탐(false positive)을 절반 이하로 줄였다.

3. Generalization - 일반화 능력이 뛰어나다

YOLO는 자연 이미지(natural image) 로 학습하더라도,

예술 작품(artwork) 이나 다른 도메인에서도 높은 성능을 유지한다.

이는 YOLO가 객체의 본질적인 표현(feature representation) 을 잘 학습하기 때문이다.

즉, 새로운 입력·환경에도 잘 적응하며,

“unseen domain”에서도 성능이 급격히 떨어지지 않는다.

정리

YOLO는 “단순함과 속도, 그리고 범용성”이라는 세 가지 강점을 가진다.

이 unified 모델은 기존 R-CNN류의 복잡한 구조를 대체하며,

실시간 객체 탐지의 새로운 패러다임을 열었다.

Part 02. Unified Detection

2-1. YOLO의 핵심 아이디어

YOLO의 가장 큰 특징은 “탐지를 회귀(regression) 문제로 본다”는 점이다.

즉, 이미지에서 객체를 찾는 문제를

“이미지 → 바운딩박스 좌표 + 클래스 확률로 직접 예측” 하는 단일 함수 학습 문제로 바꿔버린 것이다.

이 과정을 위해 YOLO는 전체 이미지를 S×S의 그리드(grid) 로 나누고,

각 셀이 자신의 영역 안 중심점(center) 을 가진 객체를 탐지하도록 한다.

2-2. YOLO의 출력 텐서 구조

YOLO의 모델 출력은 하나의 거대한 텐서(Tensor)다.

구성 요소	설명
S×S grid	이미지를 S×S 셀로 분할
B bounding boxes	각 셀이 B개의 바운딩박스 예측
C classes	전체 클래스 개수
각 박스 구성 요소	(x, y, w, h, confidence) — 총 5개 값

따라서 전체 출력 텐서의 형태는 다음과 같다.

Output Tensor = S x S x (B x 5 + C)

PASCAL VOC 기준

S = 7
B = 2
C = 20
→ 최종 출력 크기: 7×7×30

2-3. Bounding Box 구성요소

각 셀에서 예측하는 B개의 박스는 다음 5개 항목으로 구성된다.

항목	설명
x, y	그리드 셀 내부에서의 박스 중심 좌표 (0~1 사이 정규화)
w, h	이미지 전체 대비 폭과 높이 (0~1 정규화)
confidence	“이 박스 안에 객체가 존재하며, 정확히 예측했다”는 신뢰도

2-4. Confidence의 정의

Confidence = Pr(Object) x IoU(pred, truth)

Pr(Object) : 이 셀에 객체가 존재할 확률
IoU(pred, truth) : 예측 박스와 실제 박스의 겹치는 비율 (Intersection over Union)

따라서

객체가 없으면 Pr(Object) = 0 → confidence = 0
객체가 있으면 confidence = IoU(pred, truth)

즉, YOLO의 신뢰도는

“이 위치에 객체가 실제로 존재할 확률 × 예측이 얼마나 정확한가" 를 함께 반영한다.

2-5. 클래스 확률과 최종 Confidence

각 셀은 또한 C개의 클래스 조건부 확률을 예측한다.

Pr(Class i | Object)

즉, “그 셀에 객체가 있다면, 그 객체가 i번째 클래스일 확률”이다.

테스트 시에는 클래스 확률과 박스 신뢰도(confidence) 를 곱해서

최종적으로 클래스별 신뢰도(class-specific confidence) 를 구한다.

Pr(Class i | Object) x Pr(Object) x IoU = Pr(Class i ) x IoU

이 값이 높을수록 “그 박스가 해당 클래스일 가능성이 높고, 정확도도 높다”는 의미다.

2-6. Figure 2 — YOLO Detection Pipeline

Step 1. 이미지를 S×S grid로 분할
Step 2. 각 셀이 B개의 박스와 C개의 클래스 확률 예측
Step 3. 모든 예측을 하나의 텐서로 결합
Step 4. confidence가 높은 박스만 필터링 (NMS 사용)

이 과정을 통해 YOLO는 “이미지 한 장 → 예측 텐서 한 번”으로

모든 객체를 한꺼번에 탐지한다.

2-7. PASCAL VOC 실험 설정

논문에서는 PASCAL VOC Detection Dataset을 사용했다.

20개의 객체 클래스(C = 20)
이미지 전체를 7×7 grid로 나누어 예측
각 셀에서 2개의 박스(B = 2)를 예측
따라서 7×7×30의 출력 구조가 된다.

2-8. 이 구조가 주는 장점

YOLO의 Unified Detection 구조는 기존 방법보다 다음과 같은 장점을 가진다.

항목	설명
단일 네트워크	탐지 전 과정을 하나의 CNN으로 수행
End-to-End 학습	중간 파이프라인 없이 loss를 직접 최적화
실시간 속도	한 번의 forward pass로 전체 예측
간단한 후처리	confidence threshold + NMS만 적용

정리

YOLO는 이미지를 S×S 그리드로 나누어,

각 셀에서 B개의 바운딩박스와 C개의 클래스 확률을 동시에 예측한다.

Confidence는 객체 존재 확률 × IoU로 정의되며,

테스트 시에는 클래스 확률과 곱해 클래스별 신뢰도를 산출한다.

결과적으로 YOLO는

“한 번의 예측으로 이미지 전체의 객체 위치와 종류를 모두 추론하는 통합 회귀 모델”

Part 03. Network Design & Training

3-1. 네트워크 설계 개요

YOLO의 탐지 네트워크는 GoogLeNet 아키텍처에서 영감을 받았지만,

복잡한 Inception 모듈 대신 더 단순한 1×1 축소(reduction) + 3×3 convolution 구조를 사용한다.

이로써 모델 복잡도는 줄이면서, 지역적·전역적 특징을 동시에 추출할 수 있다 .

구조 요약:
- 24개의 Convolutional Layer
- 2개의 Fully Connected Layer
- 1×1 conv: feature dimension 축소
- 3×3 conv: 시각적 패턴 추출
- 최종 출력: 7×7×30 예측 텐서

Figure 3 – YOLO Architecture

24개의 합성곱층(conv)과 2개의 완전연결층(fc)로 구성된 구조.
1×1 합성곱층은 feature 공간을 축소하고,
마지막 fully connected layer가 바운딩박스 + 클래스 확률을 예측한다 .

3-2. Fast YOLO — 실시간 탐지 한계 극복

YOLO 논문은 “실시간 한계”를 극복하기 위해 Fast YOLO라는 경량 버전도 함께 제안했다.

레이어 수: 9개 conv layer (기본 YOLO의 24개 → 9개로 축소)
필터 수: 각 층의 채널 수 감소
나머지 파라미터 (학습률, 배치 등)는 동일

Fast YOLO는 정확도는 약간 낮지만, 155 FPS라는 극단적인 속도를 달성한다 .

3-3. 사전 학습 (Pretraining)

YOLO는 단순히 scratch에서 학습되지 않는다.

ImageNet 1000-class dataset으로 먼저 사전 학습(pretraining)을 수행한다.

사용 구조:
- Figure 3의 앞쪽 20개 conv layer
- Average Pooling layer + Fully Connected layer
입력 크기: 224×224
학습 기간: 약 1주일
성능: ImageNet Top-5 Accuracy = 88% (GoogLeNet 수준 성능과 유사)

3-4. 탐지 전환 (Detection Fine-tuning)

사전 학습된 분류 모델을 기반으로, YOLO는 탐지 전용 구조로 변환한다.

새로 추가: 4개의 conv layer + 2개의 FC layer (랜덤 초기화)
입력 해상도 증가: 224×224 → 448×448 (더 세밀한 공간 정보 학습)
최종 출력층: 클래스 확률 + 바운딩박스 좌표 동시 예측

3-5. 활성화 함수 (Activation)

YOLO는 대부분의 레이어에서 Leaky ReLU를 사용한다.

이는 ReLU보다 음수 입력의 gradient 소멸 문제를 완화하고,

학습 안정성을 높인다 .

3-6. 손실 함수 (Loss Function)

YOLO는 단순한 Sum-squared Error (MSE) 기반 손실을 사용한다.

하지만 단순 MSE는 탐지의 다양한 목적(분류·위치·존재 여부)을 동일하게 다루기 때문에

다음의 보정이 추가된다.

항목보정	내용	하이퍼파라미터
좌표 손실 강화	바운딩박스 좌표 예측의 손실 가중치 ↑	λ_coord = 5
비객체 셀 약화	객체가 없는 셀의 confidence 손실 ↓	λ_noobj = 0.5

→ 객체가 없는 셀의 손실이 학습을 지배하지 않도록 조정함 .

또한, 작은 객체의 좌표 오차가 큰 영향을 주는 문제를 완화하기 위해

너비(w), 높이(h) 대신 √w, √h를 예측한다 .

3-7. 학습 설정 (Training Schedule)

총 Epoch: 약 135회
데이터셋: PASCAL VOC 2007 + 2012 train/val set
Batch size: 64
Momentum: 0.9
Weight Decay: 0.0005
Learning Rate 스케줄:
1. 초반엔 1e−3 → 1e−2까지 천천히 상승 (불안정 방지)
2. 1e−2로 75 epoch
3. 1e−3로 30 epoch
4. 1e−4로 30 epoch

3-8. Regularization 및 Data Augmentation

Dropout: 0.5 (첫 FC layer 이후)
→ layer co-adaptation 방지
Data Augmentation:
- 랜덤 스케일/이동 (±20%)
- HSV 색 공간에서 밝기·채도 1.5배 변형
- → 과적합 방지 및 도메인 다양성 향상

정리

YOLO의 네트워크는 GoogLeNet에서 단순화된 24 conv + 2 fc 구조로, 1×1 + 3×3 convolution 조합을 통해 특징을 추출한다.

ImageNet으로 사전학습 후 448×448 해상도 탐지용으로 미세조정(fine-tuning)하며,

손실함수는 λ_coord=5, λ_noobj=0.5, √w/h 보정을 포함한 MSE 기반이다.

총 135 epoch 학습, dropout(0.5)과 강력한 데이터 증강으로 일반화 성능을 확보했다.

Part 04. Inference & Limitations

4-1. Inference (추론 단계)

YOLO의 테스트 과정은 학습 때와 동일하게 이미지를 한 번만 네트워크에 통과시키는 방식이다.

기존의 R-CNN, DPM처럼 후보 영역(region proposal)을 만들거나 분류기를 여러 번 호출할 필요가 없다.

YOLO 추론 과정

① 입력 전처리 (Preprocessing) : 입력 이미지를 448×448로 리사이즈하고 정규화한다.

② Forward Pass : 단 한 번의 신경망 연산으로 전체 이미지에서S×S×(B·5 + C) 형태의 텐서를 출력한다.

③ Confidence 계산 : 각 셀마다Pr(Object) × IoU로 confidence를 산출한다.

④ NMS (Non-Maximum Suppression) : 겹치는 박스 중 confidence가 가장 높은 것만 남긴다.

⑤ 최종 출력 (Post-Processing) : 남은 박스에 클래스별 색상 및 라벨을 표시한다.

한 이미지당 Forward Pass 1회 + 간단한 NMS 1회면 탐지 완성.
이것이 YOLO가 실시간 처리가 가능한 가장 큰 이유이다.

성능 비교

Model	FPS	mAP	성능
YOLO (Full)	45	63.4	실시간 탐지 기준 모델
Fast YOLO	155	52.7	초고속 경량 모델
Fast R-CNN	0.5	70.0	정확도 높지만 매우 느림

YOLO는 기존 실시간 모델보다 최대 100배 빠르고, 정확도 손실 없이 실시간 적용 가능한 최초의 고정밀 탐지기로 평가된다.

4-2. Limitations of YOLO (한계)

YOLO는 빠르고 효율적이지만, 구조적인 제약으로 인한 한계가 존재한다.

구분	설명
1. Spatial Constraint	각 셀(Cell)은 최대 두 개의 bounding box만 예측하고, 한 클래스만 가능하다. → 따라서 근접한 객체가 있을 경우(예: 군중, 새 떼 등) 탐지가 어려움.
2. Generalization 약함	Bounding box를 데이터로부터 직접 학습하므로 새로운 비율, 형태, 배치에 약하다.
3. Coarse Feature Map	이미지가 여러 번 다운샘플링되기 때문에, 작은 객체의 세부 정보가 손실된다.
4. Loss Function 불균형	작은 객체의 오차가 IoU에 훨씬 큰 영향을 주므로, 작은 박스일수록 Localization Error가 커진다.

“YOLO의 주요 오류 원인은 Localization Error이다.”

Part 05. Comparison to Other Detection Systems

YOLO는 기존의 탐지기들과 접근 방식 자체가 다르다.

이 절에서는 YOLO가 기존 시스템(DPM, R-CNN 등)과 어떤 차이를 가지는지를 정리한다.

기존 탐지 시스템 개요

System	방식	특징
DPM (Deformable Parts Model)	슬라이딩 윈도우(sliding window) 기반으로 이미지 전체를 훑으며 각 위치마다 분류 수행	고정된 feature(HOG 등)를 추출 후, 각 영역을 분류하고 bounding box를 조정함. 파이프라인이 복잡하고 느림.
R-CNN 계열 (R-CNN, Fast/Faster R-CNN)	Region Proposal → Feature Extraction → Classification → Bounding Box Regression → NMS	후보영역(Selective Search) 생성 후 각 영역을 CNN으로 분류. 단계가 많아 각기 별도 튜닝 필요, 느리지만 정확도 높음.
YOLO	단일 회귀(Regression) 기반 CNN	한 번의 네트워크로 전체 이미지에서 위치와 클래스 동시 예측. 파이프라인을 제거하고 전체 탐지를 end-to-end로 수행.

기존 탐지 시스템과의 차이 정리

항목	기존 탐지기 (DPM/R-CNN)	YOLO
탐지 방식	분류 기반 (classification-based)	회귀 기반 (regression-based)
연산 구조	후보영역 + 분류 + 후처리 단계별 구성	단일 CNN으로 통합
속도	수 초 단위 (0.5~7 FPS)	실시간 (45~155 FPS)
학습 구조	단계별 독립적 학습	End-to-End joint optimization
오탐률 (False Positive)	배경 영역 오탐 많음	배경 인식 정확, 오탐 적음

YOLO는 “이미지를 한 번만 보고 어디에 무엇이 있는지를 예측”한다.
즉, 분류(classification)에서 탐지(detection)로의 전환점을 만든 모델이다.

정리

YOLO의 Inference 과정은 단 한 번의 Forward Pass로 끝나며, 이전의 DPM이나 R-CNN처럼 복잡한 파이프라인이 필요하지 않다.

그 결과 45~155 FPS의 실시간 성능을 달성했지만, 셀 단위 구조로 인해 작은 객체나 밀집된 영역에서는 여전히 한계가 있다.

그럼에도 YOLO는 최초로 탐지를 회귀문제로 통합한 단일 네트워크 모델로서 현대 실시간 객체 탐지기의 기초를 세웠다.

Part 06. Experiments & Evaluation

6-1. Experiments (PASCAL VOC 실험)

YOLO는 PASCAL VOC 2007 / 2012 데이터셋을 기준으로

기존 탐지기들과 정확도(mAP) 및 처리 속도(FPS)를 비교하였다.

이 실험은 YOLO가 단순히 빠른 모델이 아니라,

실시간 성능과 정확도를 모두 달성한 최초의 탐지기임을 보여준다.

실험 개요

Dataset: PASCAL VOC 2007, 2012
Training: 135 epoch
Batch size: 64
Learning rate: 1e-2 → 1e-3 → 1e-4
Optimizer: SGD
Hardware: Titan X GPU

실험 결과 (Table 1)

Model	Train Set	mAP	FPS	특징
Fast YOLO	VOC2007+2012	52.7	155	초고속 경량화 버전
YOLO (Full)	VOC2007+2012	63.4	45	실시간 기준 모델
Fast R-CNN	VOC2007+2012	70.0	0.5	높은 정확도, 매우 느림
Faster R-CNN (VGG16)	VOC2007+2012	73.2	7	정확도 최고, 실시간 불가
DPM (Deformable Parts Model)	VOC2007+2012	33.7	30	고전적 구조, 느림

YOLO는 Fast R-CNN보다 100배 빠르며, 기존 실시간 탐지기보다 10mAP 이상 높은 정확도를 달성했다.
실시간으로 동작하는 최초의 고정밀 객체 탐지기로 평가된다.

6-2. Error Analysis (오류 분석)

YOLO와 Fast R-CNN의 탐지 결과를 비교한 결과,

YOLO는 Localization Error가 많지만 배경 오탐(Background Error)은 훨씬 적다.

Error Type	YOLO	Fast R-CNN	설명
Correct Detection	63.5%	71.6%	전체 정확 탐지율
Localization Error	10.9%	8.6%	박스 좌표 불정확
Background Error	4.75%	13.6%	배경을 객체로 오탐
Class Error	3.6%	5.1%	클래스 혼동

YOLO는 이미지를 전역적(global)으로 보기 때문에 배경을 객체로 착각하는 일이 매우 적다.
다만 localization는 상대적으로 부정확한 편이다.
“YOLO makes less than half the number of background errors compared to Fast R-CNN.”

6-3. Combination Experiments (모델 결합 실험)

YOLO와 Fast R-CNN을 **결합(ensemble)**하면

서로의 약점을 보완하여 더 높은 성능을 낸다.

Model	mAP	Gain
Fast R-CNN (VGG-M)	59.2	-
Fast R-CNN (VGG-16)	71.8	-
YOLO	63.4	-
Fast R-CNN + YOLO	75.0	+3.2 ↑

Fast R-CNN → Localization 강점
YOLO → Background 억제 강점

두 모델 결합 시 mAP +3~4% 상승, 배경 오탐 감소, 정확도와 속도 균형을 달성했다.

6-4. VOC 2012 Results

YOLO는 PASCAL VOC 2012 리더보드에서도 상위권 성능을 기록했다.

다른 모델들에 비해 정확도는 약간 낮지만, 속도와 효율성 면에서 독보적이었다.

Fast R-CNN과 HyperNet 같은 모델이 mAP 70~71을 기록하던 시기,

YOLO는 63.4 mAP를 달성하면서도 45 FPS의 실시간 속도를 유지했다.

더 나아가 Fast R-CNN과 YOLO를 결합하면 75.0 mAP까지 향상되어, 두 접근법이 서로를 보완할 수 있음을 보여줬다.

YOLO는 “정확도는 약간 낮지만, 실시간 동작이 가능한 유일한 고정밀 탐지기”였다.

6-5. Generalization — 새로운 도메인에서도 강하다

YOLO는 자연 이미지를 넘어, 예술 작품에서도 성능을 평가했다.

Picasso Dataset과 People-Art Dataset을 활용해 도메인이 전혀 다른 환경에서도 얼마나 견고한지를 측정했다.

결과적으로, R-CNN은 비정형적 스타일의 이미지에서 성능이 급격히 떨어졌지만

YOLO는 feature representation을 학습했기 때문에 예술 작품에서도 2~3배 높은 정확도(AP)를 유지했다.

즉, YOLO는 “자연 이미지”에만 국한되지 않고, 새로운 시각적 도메인에도 일반화되는 표현 능력을 갖추었다.

6-6. Qualitative Results

Figure 6에서는 YOLO의 실제 탐지 결과가 시각적으로 제시된다.

사람, 자동차, 동물 등 다양한 객체를 안정적으로 감지하며, 예술 작품이나 합성 이미지에서도 전체 맥락을 이해하는 능력을 보였다.

사람의 팔을 비행기 날개로 잘못 인식하는 것처럼 일부 장면에서는 맥락적 착각이 발생했지만,

그럼에도 YOLO는 단순한 픽셀 기반 분류가 아닌 “의미적 맥락(Contextual Detection)”을 수행한다는 점에서 의미가 크다.

6-7. Real-Time Detection in the Wild

YOLO는 정적 이미지를 넘어 실시간 영상에서도 완전한 성능을 유지한다.

웹캠 입력을 연결하면 약 45 FPS, 25ms 이하의 지연(latency)로 동작하며

움직이는 객체를 끊김 없이 감지하고 추적 수준의 반응성을 보여준다.

결과적으로 YOLO는 단순한 “탐지기(detector)”를 넘어, “트래킹에 가까운 실시간 인식 시스템”으로 진화할 수 있음을 입증했다.

6-8. Conclusion — YOLO의 의미

YOLO는 객체 탐지를 하나의 통합된 회귀(Regression) 문제로 정의한 최초의 모델이다.

기존의 복잡한 파이프라인(Region Proposal → Classification → Refinement)을 완전히 버리고,

단일 신경망으로 이미지를 한 번에 처리하여 위치와 클래스 확률을 동시에 예측한다.

모델 구조는 단순하지만 강력하다.

YOLO는 전체 이미지를 입력받아 End-to-End 방식으로 학습되며, Loss function 또한 탐지 성능에 직접적으로 연결되어 있다.

즉, “탐지를 위한 Loss”로 학습된다는 점에서 기존의 “분류를 위한 Loss” 기반 접근법과 본질적으로 다르다.

“Our model is simple to construct and can be trained directly on full images.”

실무 적용 사례 — YOLO 계열 모델의 현장 활용

1. MORAI 자율주행 대회 — YOLOP 경량화 적용 (LaneNet 대체 목적)

MORAI Simulator 대회에서는 차선 인식과 주행 가능 영역(Drivable Area) 판단이 핵심이었다.

기존에는 LaneNet을 사용했지만, 조명·곡선 구간에서 차선 검출이 불안정했고 객체 탐지와의 통합이 어려웠다.

그래서 LaneNet 대신 YOLOP(You Only Look Once for Panoptic Driving Perception)을 도입했다.

YOLOP는 하나의 네트워크로 Lane Detection + Drivable Area + Object Detection을 동시에 수행할 수 있어,

보다 안정적인 End-to-End 인지 시스템 구성이 가능했다.

다만 원본 YOLOP는 연산량이 커서 시각화 단계에서 latency가 발생했다.

이를 해결하기 위해 Segmentation branch를 단순화하고 Detection 중심으로 경량화하여

실시간 25FPS 수준으로 개선했다.

YOLOP는 LaneNet보다 일관된 차선 인식 성능을 제공했으며,
경량화 이후에는 MORAI 시뮬레이터 환경에서도 실시간으로 안정적인 차선 인식이 가능했다.

2. (국토부) 대학생 창작 모빌리티 대회 — YOLOv8 & YOLOv7 적용

배달 미션에서는 표지판 인식 + 위치 정합(Sensor Fusion) 구조를 구현했다.

카메라에서 YOLOv8이 배달 표식(Delivery Sign)을 인식하면,

LiDAR에서 얻은 좌표값과 매칭시켜 차량이 정확한 위치에 정차하도록 했다.

YOLOv8은 Anchor-free 구조 덕분에 작은 표식 인식에 강했고, 실시간 60FPS로 구동되었다.

신호등 인식 미션에서는 YOLOv7을 적용했다.

빨강·초록·노랑 신호를 실시간으로 탐지해 정지·직진·좌회전·우회전을 결정하는 구조였다.

E-ELAN Backbone을 기반으로 조명·날씨 변화에도 안정적이었으며,

mAP 약 92%, 오탐율 5% 이하로 실시간 의사결정에 충분한 정확도를 확보했다.

마무리

YOLO 논문은 객체 탐지를 단일 신경망으로 통합한 첫 모델로, 이후 실시간 인지의 표준이 된 YOLO 시리즈의 출발점이었다.

실제 프로젝트에서도 YOLO 계열 모델은 속도와 안정성 면에서 여전히 유효했고,

상황에 맞는 구조 선택이 성능에 큰 차이를 만들었다.

MORAI 대회에서는 YOLOP를 경량화해 차선 인식 안정성과 실시간성을 확보했고,

국토부 무인모빌리티 대회에서는 YOLOv8 + LiDAR 센서퓨전으로 배달 위치 인식,

YOLOv7으로 신호등 인식 및 제어 연동을 수행했다.

YOLO의 핵심은 단순히 “탐지 속도”가 아니라,

하나의 네트워크로 복잡한 인지를 효율적으로 수행할 수 있다는 점이다.

이 철학은 지금까지도 최신 모델(v8, YOLO-World, YOLO-NAS 등)에 이어지고 있다.