BLOG
YOLO(You Only Look Once) 완벽 가이드
객체 탐지 AI의 표준이 된 실시간 컴퓨터 비전 기술
YOLO는 내가 자주 사용하고 있는 실시간 객체 탐지 딥러닝 모델이다. 현재는 CCTV에 연결하여 현장관리 SaaS 프로그램을 구축하고 있다.
YOLO(You Only Look Once)는 이미지나 영상 속에서 객체(Object)를 한 번의 신경망 추론(One Forward Pass)만으로 찾아내는 실시간 객체 탐지(Object Detection) 딥러닝 모델이다.
기존 객체 탐지 알고리즘은
- 객체 후보 영역 생성
- 후보 영역 분류
- 위치 보정
과정을 여러 번 반복하였다.
반면 YOLO는
이미지 전체를 한 번만 분석하여
- 무엇이 있는지(Classification)
- 어디에 있는지(Localization)
를 동시에 수행한다.
그래서 이름도
You Only Look Once
이다.
현재는 자율주행, CCTV, 산업 AI, 의료 AI, 스마트팜, 로봇, 드론 등 대부분의 Vision AI 시스템에서 가장 많이 사용하는 모델이다.
YOLO의 핵심 원리
YOLO는 입력 이미지를 일정한 Grid로 나눈 후
각 Grid에서
- 객체 존재 여부
- 객체 종류(Class)
- Bounding Box 위치
- Confidence Score
를 한 번에 예측한다.
Image
↓
CNN / Backbone
↓
Feature Map
↓
Bounding Box
+
Class
+
Confidence
이 모든 과정이 하나의 신경망에서 동시에 이루어진다.
YOLO가 혁신적인 이유
기존 방식(R-CNN 계열)은
Region Proposal
↓
CNN
↓
Classification
↓
Regression
위와 같이 여러 단계를 수행하였다.
반면에 YOLO는
Image
↓
One Network
↓
Prediction
으로 끝난다.
따라서
- 매우 빠르고
- GPU 사용량이 적으며
- 실시간 영상 처리에 적합하다.
현재 버섯을 재배하는 스마트팜 헤커톤 프로젝트에 사용하고 있다.
Bounding Box란?
객체의 위치를 나타내는 사각형이다.
예를 들어
사람
자동차
신호등
을 각각 사각형으로 감싸서
x
y
width
height
를 예측한다.
YOLO는 이 Bounding Box와 객체 종류를 동시에 예측한다.
Confidence Score
YOLO는
객체일 확률을 함께 계산한다.
예를 들어
Person
0.97
이라면
97% 확률로 사람이라는 의미이다.
Confidence가 낮으면
Non-Maximum Suppression(NMS)
과정을 거쳐 제거된다.
YOLO의 발전 과정
| 버전 | 특징 |
|---|---|
| YOLOv1 | 최초의 실시간 Object Detection |
| YOLOv2 | Anchor Box 도입 |
| YOLOv3 | Darknet53 Backbone |
| YOLOv4 | CSPDarknet, Mosaic Augmentation |
| YOLOv5 | PyTorch 기반으로 대중화 |
| YOLOv6 | 산업용 최적화 |
| YOLOv7 | 정확도 향상 |
| YOLOv8 | Detection, Segmentation, Pose 지원 |
| YOLOv9 | Programmable Gradient Information |
| YOLO11 | 경량화와 정확도 향상, 다양한 Vision Task 통합 |
참고로 YOLOv5와 YOLO8/YOLO11은 동일한 개발 계보가 아니다. YOLOv5 이후에는 다양한 연구 그룹과 기업이 발전을 이어왔으며, 최근에는 Ultralytics의 YOLO11이 탐지, 분할, 자세 추정, 분류 등을 지원하는 최신 계열 중 하나로 널리 활용되고 있다.
YOLO 모델 종류
YOLO11 기준
| 모델 | 크기 | 속도 | 정확도 | 용도 |
|---|---|---|---|---|
| YOLO11n | 매우 작음 | 매우 빠름 | 낮음 | 모바일, IoT |
| YOLO11s | 작음 | 빠름 | 높음 | 실시간 시스템 |
| YOLO11m | 중간 | 보통 | 매우 높음 | 산업용 |
| YOLO11l | 큼 | 느림 | 매우 높음 | 서버 |
| YOLO11x | 가장 큼 | 가장 느림 | 최고 | 연구용 |
어떤 모델을 선택해야 할까?
YOLO11n (Nano)
장점
- 초고속
- Raspberry Pi
- Jetson Nano
- Edge Device
추천 분야
- IoT
- 드론
- 스마트카메라
YOLO11s (Small)
가장 많이 사용하는 모델이다.
장점
- 빠름
- 정확도 우수
- GPU 부담 적음
추천
- CCTV
- 산업 AI
- 스마트팜
- 의료 AI
- 모바일 앱
대부분의 프로젝트는
YOLO11s 하나로 충분하다.
YOLO11m (Medium)
정확도가 많이 향상된다.
추천
- 제조업 검사
- 불량 검출
- 스마트팩토리
- 연구
YOLO11l
고성능 GPU가 필요하다.
추천
- 대규모 AI 서버
- 클라우드 분석
- 고해상도 영상
YOLO11x
가장 높은 정확도를 제공한다.
추천
- AI 연구
- 논문
- Benchmark
YOLO 응용 분야
1. 자율주행
객체
- 차량
- 사람
- 자전거
- 신호등
- 차선
실시간으로 탐지한다.
2. 스마트팩토리
제품
- 불량
- 파손
- 균열
- 스크래치
- 조립 여부
자동 검사한다.
3. 스마트팜
YOLO는 농업 분야에서도 매우 활발히 활용된다.
생육상태 분석
예)
- 정상
- 건조
- 과습
- 병해
- 수확 적기
과일 검출
- 사과
- 딸기
- 토마토
수확량 계산
객체 개수를 자동으로 센다.
병충해 탐지
- 잎마름
- 곰팡이
- 병반
4. 의료 AI
객체
- 종양
- 병변
- 출혈
- 폐 결절
영상에서 자동 검출한다.
5. 드론
드론 영상에서
- 사람
- 차량
- 화재
- 산불
- 침입자
를 탐지한다.
6. 보안 CCTV
실시간으로
- 침입
- 월담
- 쓰러짐(Fall Detection)
- 화재
- 연기
를 탐지한다.
7. 로봇
AMR
AGV
협동로봇
에서
객체 인식에 가장 많이 사용된다.
8. 스포츠 분석
- 선수 추적
- 공 추적
- 자동 판독
- 경기 분석
9. 소매 및 물류
- 상품 인식
- 재고 관리
- 고객 동선 분석
- 피킹 자동화
- 팔레트 및 박스 계수
창고 자동화와 무인 매장 시스템에서도 핵심 기술로 사용된다.
보안 CCTV에서는 실시간성과 정확도를 모두 고려해야 합니다. 단순히 “가장 큰 모델이 최고”가 아니라, 설치 환경과 목적에 따라 최적의 모델이 달라집니다.
1. 일반적인 AI CCTV (가장 추천)
⭐ YOLO11s
추천도: ★★★★★
가장 많이 사용되는 모델입니다.
장점
- 실시간 30~60 FPS 가능(GPU 환경)
- 사람, 차량, 오토바이 등 객체 탐지에 충분한 정확도
- 메모리 사용량이 적음
- 서버 비용 절감
적용 사례
- 공장
- 건물
- 주차장
- 학교
- 아파트
- 창고
대부분의 AI CCTV 프로젝트는 YOLO11s만으로도 충분한 성능을 제공합니다.
2. 산업현장·공장
⭐ YOLO11m
추천도: ★★★★★
공장에서는
- 안전모
- 안전조끼
- 위험구역 침입
- 불꽃
- 연기
- 장비
등 작은 객체를 더 정확하게 검출해야 합니다.
YOLO11m은 s보다 정확도가 높아 산업용으로 많이 선택됩니다.
3. 도시 관제센터
⭐ YOLO11l
추천 환경
- 4K CCTV
- 다수의 사람
- 교통관제
- 군중 분석
GPU 서버가 필요하지만 정확도가 매우 높습니다.
4. 엣지 AI 카메라
⭐ YOLO11n
추천 장비
- Raspberry Pi
- Jetson Nano
- RK3588
- Orange Pi
저전력 AI 카메라에 적합합니다.
CCTV에서 객체 탐지만으로는 부족하다
실제 보안 시스템은 YOLO만으로 완성되지 않습니다. 객체 탐지 후 추적과 이벤트 분석을 결합해야 합니다.
추천 아키텍처는 다음과 같습니다.
RTSP Camera
↓
YOLO11s
(객체 탐지)
↓
ByteTrack
(객체 추적)
↓
Rule Engine
(이벤트 판단)
↓
LLM
(상황 설명)
↓
Dashboard
↓
SMS
카카오톡
이메일
사이렌
객체 추적(Object Tracking)
YOLO는
사람이 있다.
까지만 알려줍니다.
하지만
같은 사람이 계속 이동하는가?
는 알지 못합니다.
그래서 ByteTrack을 함께 사용합니다.
예)
Person #12
↓
5초 동안 이동
↓
위험구역 진입
↓
경고 발생
행동 인식(Action Recognition)
보안에서는 다음과 같은 행동도 중요합니다.
- 쓰러짐(Fall Detection)
- 싸움
- 배회
- 침입
- 월담
- 폭력
- 절도
이런 기능은 YOLO만으로는 어렵고 행동 인식 모델을 추가하는 것이 일반적입니다.
추천 모델은
- YOLO + ByteTrack + ST-GCN
- YOLO + ByteTrack + SlowFast
- YOLO + ByteTrack + X3D
입니다.
추천 조합
| 목적 | 추천 구성 |
|---|---|
| 사람·차량 검출 | YOLO11s |
| 사람 추적 | ByteTrack |
| 다중 카메라 추적 | ByteTrack + ReID(예: OSNet, FastReID) |
| 침입 감지 | Rule Engine |
| 위험구역 감지 | Polygon Zone |
| 월담 | Rule Engine + Tracking |
| 쓰러짐 | YOLO + Pose Estimation + ST-GCN |
| 화재·연기 | 전용 Fire/Smoke Detection 모델 |
| 번호판 인식 | YOLO + OCR(예: PaddleOCR) |
| 얼굴 인식 | YOLO + Face Detection + Face Recognition |
제가 추천하는 상용 수준의 AI CCTV 구성
당신이 이전에 개발했던 VisionGuard AI와 같은 SaaS를 기준으로 한다면 다음 구성이 가장 현실적이고 확장성이 좋습니다.
RTSP Camera
│
▼
YOLO11s (객체 탐지)
│
▼
ByteTrack (객체 추적)
│
▼
Rule Engine (침입, 배회, 위험구역, 월담)
│
▼
LLM (상황 요약 및 자연어 설명)
│
▼
Dashboard + 이벤트 로그 + 카카오톡/SMS 알림
이 구조는 성능, 비용, 확장성의 균형이 뛰어나며, 실제 공장, 물류센터, 스마트빌딩, 학교, 주차장 등 다양한 보안 CCTV 시스템에 적용하기에 적합한 아키텍처입니다.
YOLO가 지원하는 Vision AI Task
최근 YOLO는 단순한 객체 탐지를 넘어 다양한 비전 과제를 지원한다.
| AI Task | 설명 | 대표 활용 분야 |
|---|---|---|
| Object Detection | 객체 위치와 종류 탐지 | CCTV, 자율주행, 스마트팜 |
| Instance Segmentation | 객체 윤곽 분할 | 의료영상, 제조 검사 |
| Semantic Segmentation | 픽셀 단위 분류 | 도로, 농지, 위성영상 |
| Image Classification | 이미지 전체 분류 | 품질 검사, 질병 분류 |
| Pose Estimation | 사람 관절 추정 | 스포츠, 헬스케어 |
| Object Tracking | 영상 속 객체 추적 | 물류, 감시 시스템 |
| Counting | 객체 개수 계산 | 농작물 수확량, 물류 |
| Oriented Bounding Box (OBB) | 회전된 객체 탐지 | 항공사진, 문서 분석, PCB 검사 |
산업별 추천 모델
| 분야 | 추천 모델 | 이유 |
|---|---|---|
| 스마트팜 | YOLO11s | 실시간 생육 분석과 병해 탐지에 적합 |
| 제조업 불량 검사 | YOLO11m | 작은 결함도 높은 정확도로 탐지 |
| CCTV | YOLO11s | 속도와 정확도의 균형 |
| 의료 AI | YOLO11l | 높은 민감도와 정밀도 확보 |
| 드론 | YOLO11n | 제한된 연산 자원에서도 실시간 처리 |
| 자율주행 연구 | YOLO11x | 최고 수준의 정확도 |
| 모바일 AI | YOLO11n | 저전력 환경에 적합 |
| Edge AI | YOLO11s | 다양한 엣지 장치에서 안정적인 성능 |
YOLO와 다른 대표 모델 비교
| 모델 | 강점 | 약점 | 적합한 분야 |
|---|---|---|---|
| YOLO | 매우 빠른 실시간 탐지 | 극소형 객체에서는 성능 저하 가능 | CCTV, 스마트팜, 로봇 |
| Faster R-CNN | 높은 정확도 | 느린 추론 속도 | 연구, 의료 |
| SSD | 빠르고 구조가 단순 | 최신 모델 대비 정확도 낮음 | 모바일 |
| RetinaNet | 작은 객체 탐지에 강점 | 추론 속도가 상대적으로 느림 | 항공영상 |
| EfficientDet | 정확도와 효율성 균형 | 설정과 튜닝이 다소 복잡 | 산업 검사 |
| DETR | Transformer 기반, NMS 불필요 | 학습 시간이 길고 데이터 요구량이 큼 | 연구, 차세대 비전 |
YOLO 학습 과정
데이터 수집
↓
Labeling
↓
YOLO Format 변환
↓
Data Augmentation
↓
Train
↓
Validation
↓
Test
↓
Export
↓
Inference
↓
Deployment
실제 산업 현장에서는 이 과정에 데이터 품질 관리, 모델 재학습(MLOps), 성능 모니터링을 추가하여 지속적으로 성능을 개선한다.
앞으로의 YOLO
YOLO는 단순한 객체 탐지 모델을 넘어 멀티태스크 컴퓨터 비전 플랫폼으로 진화하고 있다. 앞으로는 Vision Transformer(ViT), 멀티모달 AI, 3D 비전, 생성형 AI와의 결합이 활발해질 것으로 예상되며, 엣지 AI 환경에서도 더 높은 성능과 낮은 전력 소비를 제공하는 방향으로 발전하고 있다.
특히 제조업, 스마트팜, 의료, 물류, 자율주행 등 실시간 의사결정이 필요한 산업에서는 YOLO 기반 비전 시스템이 핵심 인프라로 자리 잡고 있으며, 향후에는 센서 데이터와 LLM을 결합한 멀티모달 AI의 중요한 구성 요소로 활용 범위가 더욱 확대될 전망이다.
마무리
YOLO는 속도와 정확도를 동시에 만족시키는 대표적인 객체 탐지 모델로, 현재 가장 널리 사용되는 컴퓨터 비전 기술 중 하나입니다. 프로젝트의 목적과 하드웨어 환경에 따라 적절한 모델 크기(n, s, m, l, x)를 선택하면 모바일 기기부터 대규모 서버까지 다양한 환경에서 최적의 성능을 구현할 수 있습니다.
스마트팩토리의 불량 검사, 스마트팜의 생육 분석, 자율주행의 객체 인식, 의료 영상 분석, CCTV의 이상 상황 감지 등 실시간 비전 AI가 필요한 거의 모든 분야에서 YOLO는 강력한 선택지가 될 것입니다.