Amplus AI

BLOG

YOLO(You Only Look Once) 완벽 가이드

2026. 7. 1.5 min read

객체 탐지 AI의 표준이 된 실시간 컴퓨터 비전 기술

YOLO는 내가 자주 사용하고 있는 실시간 객체 탐지 딥러닝 모델이다. 현재는 CCTV에 연결하여 현장관리 SaaS 프로그램을 구축하고 있다.

YOLO(You Only Look Once)는 이미지나 영상 속에서 객체(Object)를 한 번의 신경망 추론(One Forward Pass)만으로 찾아내는 실시간 객체 탐지(Object Detection) 딥러닝 모델이다.

기존 객체 탐지 알고리즘은

  • 객체 후보 영역 생성
  • 후보 영역 분류
  • 위치 보정

과정을 여러 번 반복하였다.

반면 YOLO는

이미지 전체를 한 번만 분석하여

  • 무엇이 있는지(Classification)
  • 어디에 있는지(Localization)

를 동시에 수행한다.

그래서 이름도

You Only Look Once

이다.

현재는 자율주행, CCTV, 산업 AI, 의료 AI, 스마트팜, 로봇, 드론 등 대부분의 Vision AI 시스템에서 가장 많이 사용하는 모델이다.

YOLO의 핵심 원리

YOLO는 입력 이미지를 일정한 Grid로 나눈 후

각 Grid에서

  • 객체 존재 여부
  • 객체 종류(Class)
  • Bounding Box 위치
  • Confidence Score

를 한 번에 예측한다.

Image

CNN / Backbone

Feature Map

Bounding Box

+

Class

+

Confidence

이 모든 과정이 하나의 신경망에서 동시에 이루어진다.

YOLO가 혁신적인 이유

기존 방식(R-CNN 계열)은

Region Proposal

CNN

Classification

Regression

위와 같이 여러 단계를 수행하였다.

반면에 YOLO는

Image

One Network

Prediction

으로 끝난다.

따라서

  • 매우 빠르고
  • GPU 사용량이 적으며
  • 실시간 영상 처리에 적합하다.

현재 버섯을 재배하는 스마트팜 헤커톤 프로젝트에 사용하고 있다.

Bounding Box란?

객체의 위치를 나타내는 사각형이다.

예를 들어

사람

자동차

신호등

을 각각 사각형으로 감싸서

x
y
width
height

를 예측한다.

YOLO는 이 Bounding Box와 객체 종류를 동시에 예측한다.

Confidence Score

YOLO는

객체일 확률을 함께 계산한다.

예를 들어

Person

0.97

이라면

97% 확률로 사람이라는 의미이다.

Confidence가 낮으면

Non-Maximum Suppression(NMS)

과정을 거쳐 제거된다.


YOLO의 발전 과정

버전특징
YOLOv1최초의 실시간 Object Detection
YOLOv2Anchor Box 도입
YOLOv3Darknet53 Backbone
YOLOv4CSPDarknet, Mosaic Augmentation
YOLOv5PyTorch 기반으로 대중화
YOLOv6산업용 최적화
YOLOv7정확도 향상
YOLOv8Detection, Segmentation, Pose 지원
YOLOv9Programmable Gradient Information
YOLO11경량화와 정확도 향상, 다양한 Vision Task 통합

참고로 YOLOv5YOLO8/YOLO11은 동일한 개발 계보가 아니다. YOLOv5 이후에는 다양한 연구 그룹과 기업이 발전을 이어왔으며, 최근에는 Ultralytics의 YOLO11이 탐지, 분할, 자세 추정, 분류 등을 지원하는 최신 계열 중 하나로 널리 활용되고 있다.

YOLO 모델 종류

YOLO11 기준

모델크기속도정확도용도
YOLO11n매우 작음매우 빠름낮음모바일, IoT
YOLO11s작음빠름높음실시간 시스템
YOLO11m중간보통매우 높음산업용
YOLO11l느림매우 높음서버
YOLO11x가장 큼가장 느림최고연구용

어떤 모델을 선택해야 할까?

YOLO11n (Nano)

장점

  • 초고속
  • Raspberry Pi
  • Jetson Nano
  • Edge Device

추천 분야

  • IoT
  • 드론
  • 스마트카메라

YOLO11s (Small)

가장 많이 사용하는 모델이다.

장점

  • 빠름
  • 정확도 우수
  • GPU 부담 적음

추천

  • CCTV
  • 산업 AI
  • 스마트팜
  • 의료 AI
  • 모바일 앱

대부분의 프로젝트는

YOLO11s 하나로 충분하다.


YOLO11m (Medium)

정확도가 많이 향상된다.

추천

  • 제조업 검사
  • 불량 검출
  • 스마트팩토리
  • 연구

YOLO11l

고성능 GPU가 필요하다.

추천

  • 대규모 AI 서버
  • 클라우드 분석
  • 고해상도 영상

YOLO11x

가장 높은 정확도를 제공한다.

추천

  • AI 연구
  • 논문
  • Benchmark

YOLO 응용 분야

1. 자율주행

객체

  • 차량
  • 사람
  • 자전거
  • 신호등
  • 차선

실시간으로 탐지한다.


2. 스마트팩토리

제품

  • 불량
  • 파손
  • 균열
  • 스크래치
  • 조립 여부

자동 검사한다.


3. 스마트팜

YOLO는 농업 분야에서도 매우 활발히 활용된다.

생육상태 분석

예)

  • 정상
  • 건조
  • 과습
  • 병해
  • 수확 적기

과일 검출

  • 사과
  • 딸기
  • 토마토

수확량 계산

객체 개수를 자동으로 센다.

병충해 탐지

  • 잎마름
  • 곰팡이
  • 병반

4. 의료 AI

객체

  • 종양
  • 병변
  • 출혈
  • 폐 결절

영상에서 자동 검출한다.


5. 드론

드론 영상에서

  • 사람
  • 차량
  • 화재
  • 산불
  • 침입자

를 탐지한다.


6. 보안 CCTV

실시간으로

  • 침입
  • 월담
  • 쓰러짐(Fall Detection)
  • 화재
  • 연기

를 탐지한다.


7. 로봇

AMR

AGV

협동로봇

에서

객체 인식에 가장 많이 사용된다.


8. 스포츠 분석

  • 선수 추적
  • 공 추적
  • 자동 판독
  • 경기 분석

9. 소매 및 물류

  • 상품 인식
  • 재고 관리
  • 고객 동선 분석
  • 피킹 자동화
  • 팔레트 및 박스 계수

창고 자동화와 무인 매장 시스템에서도 핵심 기술로 사용된다.


보안 CCTV에서는 실시간성정확도를 모두 고려해야 합니다. 단순히 “가장 큰 모델이 최고”가 아니라, 설치 환경과 목적에 따라 최적의 모델이 달라집니다.

1. 일반적인 AI CCTV (가장 추천)

⭐ YOLO11s

추천도: ★★★★★

가장 많이 사용되는 모델입니다.

장점

  • 실시간 30~60 FPS 가능(GPU 환경)
  • 사람, 차량, 오토바이 등 객체 탐지에 충분한 정확도
  • 메모리 사용량이 적음
  • 서버 비용 절감

적용 사례

  • 공장
  • 건물
  • 주차장
  • 학교
  • 아파트
  • 창고

대부분의 AI CCTV 프로젝트는 YOLO11s만으로도 충분한 성능을 제공합니다.


2. 산업현장·공장

⭐ YOLO11m

추천도: ★★★★★

공장에서는

  • 안전모
  • 안전조끼
  • 위험구역 침입
  • 불꽃
  • 연기
  • 장비

등 작은 객체를 더 정확하게 검출해야 합니다.

YOLO11m은 s보다 정확도가 높아 산업용으로 많이 선택됩니다.


3. 도시 관제센터

⭐ YOLO11l

추천 환경

  • 4K CCTV
  • 다수의 사람
  • 교통관제
  • 군중 분석

GPU 서버가 필요하지만 정확도가 매우 높습니다.


4. 엣지 AI 카메라

⭐ YOLO11n

추천 장비

  • Raspberry Pi
  • Jetson Nano
  • RK3588
  • Orange Pi

저전력 AI 카메라에 적합합니다.


CCTV에서 객체 탐지만으로는 부족하다

실제 보안 시스템은 YOLO만으로 완성되지 않습니다. 객체 탐지 후 추적과 이벤트 분석을 결합해야 합니다.

추천 아키텍처는 다음과 같습니다.

RTSP Camera



YOLO11s
(객체 탐지)



ByteTrack
(객체 추적)



Rule Engine
(이벤트 판단)



LLM
(상황 설명)



Dashboard



SMS
카카오톡
이메일
사이렌

객체 추적(Object Tracking)

YOLO는

사람이 있다.

까지만 알려줍니다.

하지만

같은 사람이 계속 이동하는가?

는 알지 못합니다.

그래서 ByteTrack을 함께 사용합니다.

예)

Person #12



5초 동안 이동



위험구역 진입



경고 발생

행동 인식(Action Recognition)

보안에서는 다음과 같은 행동도 중요합니다.

  • 쓰러짐(Fall Detection)
  • 싸움
  • 배회
  • 침입
  • 월담
  • 폭력
  • 절도

이런 기능은 YOLO만으로는 어렵고 행동 인식 모델을 추가하는 것이 일반적입니다.

추천 모델은

  • YOLO + ByteTrack + ST-GCN
  • YOLO + ByteTrack + SlowFast
  • YOLO + ByteTrack + X3D

입니다.


추천 조합

목적추천 구성
사람·차량 검출YOLO11s
사람 추적ByteTrack
다중 카메라 추적ByteTrack + ReID(예: OSNet, FastReID)
침입 감지Rule Engine
위험구역 감지Polygon Zone
월담Rule Engine + Tracking
쓰러짐YOLO + Pose Estimation + ST-GCN
화재·연기전용 Fire/Smoke Detection 모델
번호판 인식YOLO + OCR(예: PaddleOCR)
얼굴 인식YOLO + Face Detection + Face Recognition

제가 추천하는 상용 수준의 AI CCTV 구성

당신이 이전에 개발했던 VisionGuard AI와 같은 SaaS를 기준으로 한다면 다음 구성이 가장 현실적이고 확장성이 좋습니다.

RTSP Camera


YOLO11s (객체 탐지)


ByteTrack (객체 추적)


Rule Engine (침입, 배회, 위험구역, 월담)


LLM (상황 요약 및 자연어 설명)


Dashboard + 이벤트 로그 + 카카오톡/SMS 알림

이 구조는 성능, 비용, 확장성의 균형이 뛰어나며, 실제 공장, 물류센터, 스마트빌딩, 학교, 주차장 등 다양한 보안 CCTV 시스템에 적용하기에 적합한 아키텍처입니다.

YOLO가 지원하는 Vision AI Task

최근 YOLO는 단순한 객체 탐지를 넘어 다양한 비전 과제를 지원한다.

AI Task설명대표 활용 분야
Object Detection객체 위치와 종류 탐지CCTV, 자율주행, 스마트팜
Instance Segmentation객체 윤곽 분할의료영상, 제조 검사
Semantic Segmentation픽셀 단위 분류도로, 농지, 위성영상
Image Classification이미지 전체 분류품질 검사, 질병 분류
Pose Estimation사람 관절 추정스포츠, 헬스케어
Object Tracking영상 속 객체 추적물류, 감시 시스템
Counting객체 개수 계산농작물 수확량, 물류
Oriented Bounding Box (OBB)회전된 객체 탐지항공사진, 문서 분석, PCB 검사

산업별 추천 모델

분야추천 모델이유
스마트팜YOLO11s실시간 생육 분석과 병해 탐지에 적합
제조업 불량 검사YOLO11m작은 결함도 높은 정확도로 탐지
CCTVYOLO11s속도와 정확도의 균형
의료 AIYOLO11l높은 민감도와 정밀도 확보
드론YOLO11n제한된 연산 자원에서도 실시간 처리
자율주행 연구YOLO11x최고 수준의 정확도
모바일 AIYOLO11n저전력 환경에 적합
Edge AIYOLO11s다양한 엣지 장치에서 안정적인 성능

YOLO와 다른 대표 모델 비교

모델강점약점적합한 분야
YOLO매우 빠른 실시간 탐지극소형 객체에서는 성능 저하 가능CCTV, 스마트팜, 로봇
Faster R-CNN높은 정확도느린 추론 속도연구, 의료
SSD빠르고 구조가 단순최신 모델 대비 정확도 낮음모바일
RetinaNet작은 객체 탐지에 강점추론 속도가 상대적으로 느림항공영상
EfficientDet정확도와 효율성 균형설정과 튜닝이 다소 복잡산업 검사
DETRTransformer 기반, NMS 불필요학습 시간이 길고 데이터 요구량이 큼연구, 차세대 비전

YOLO 학습 과정

데이터 수집



Labeling



YOLO Format 변환



Data Augmentation



Train



Validation



Test



Export



Inference



Deployment

실제 산업 현장에서는 이 과정에 데이터 품질 관리, 모델 재학습(MLOps), 성능 모니터링을 추가하여 지속적으로 성능을 개선한다.


앞으로의 YOLO

YOLO는 단순한 객체 탐지 모델을 넘어 멀티태스크 컴퓨터 비전 플랫폼으로 진화하고 있다. 앞으로는 Vision Transformer(ViT), 멀티모달 AI, 3D 비전, 생성형 AI와의 결합이 활발해질 것으로 예상되며, 엣지 AI 환경에서도 더 높은 성능과 낮은 전력 소비를 제공하는 방향으로 발전하고 있다.

특히 제조업, 스마트팜, 의료, 물류, 자율주행 등 실시간 의사결정이 필요한 산업에서는 YOLO 기반 비전 시스템이 핵심 인프라로 자리 잡고 있으며, 향후에는 센서 데이터와 LLM을 결합한 멀티모달 AI의 중요한 구성 요소로 활용 범위가 더욱 확대될 전망이다.


마무리

YOLO는 속도와 정확도를 동시에 만족시키는 대표적인 객체 탐지 모델로, 현재 가장 널리 사용되는 컴퓨터 비전 기술 중 하나입니다. 프로젝트의 목적과 하드웨어 환경에 따라 적절한 모델 크기(n, s, m, l, x)를 선택하면 모바일 기기부터 대규모 서버까지 다양한 환경에서 최적의 성능을 구현할 수 있습니다.

스마트팩토리의 불량 검사, 스마트팜의 생육 분석, 자율주행의 객체 인식, 의료 영상 분석, CCTV의 이상 상황 감지 등 실시간 비전 AI가 필요한 거의 모든 분야에서 YOLO는 강력한 선택지가 될 것입니다.

Twitter 공유