YOLO(You Only Look Once)는 이미지 내 객체의 위치와 클래스를 실시간으로 탐지하는 객체 탐지 알고리즘의 한 종류이다.
CNN의 발전 과정, 대표적인 모델들에 대해 알아보자 (MNIST, LeNet, AlexNet, VGGNet, GoogLeNet, ResNet, DenseNet,
1. MNIST 데이터셋MNIST 데이터셋은 손으로 쓴 글자 데이터셋에서 숫자만 따로 뽑아낸 데이터셋(28×28 흑백 손글씨 숫자 이미지) 을 의미한다. 이를 분류하기 위해 처음 사용되었던 방법은 MLP를 사
salmon1113.tistory.com
위 게시글에서 다룬 ResNet, GoogleNet, VGG와 같은 네트워크들을 백본 네트워크라고하는데, 백본 네트워크는 전체 신경망 구조에서 "기초" 또는 "뼈대" 역할을 하여 특징 추출(Feature Extraction)을 담당하게 된다.
YOLO는 이러한 백본 모델을 사용하여 객체 탐지에 최적화된 구조로 발전시킨 신경망을 뜻한다.
1. YOLO의 핵심 원리
본 게시글에서 다룰 YOLO 모델은 YOLOv3로, DarkNet-53을 백본으로 사용한다.
- Darknet-53의 역할:
- 입력 이미지에서 객체 탐지에 필요한 특징을 추출한다.
- ResNet에서 영감을 받은 잔차 블록(Residual Blocks)을 사용하여 더 깊은 네트워크를 안정적으로 학습한다.
- 52x52, 26x26, 13x13 크기의 feature map을 추출하여 다양한 크기의 객체를 탐지할 수 있게 한다.
Darknet 백본 네트워크를 통해 이미지에서 객체 탐지에 필요한 특징을 추출하게 되면, 추출된 특징 맵은 YOLO와 같은 모델의 탐지 헤드로 보내진다.
- 탐지 헤드의 역할
- 바운딩 박스 예측: 각 특징 맵의 격자 셀(grid cell)에서 객체의 위치(좌표: x, y, 너비, 높이)를 계산한다.
- 클래스 분류: 객체가 속한 클래스(예: 사람, 자동차 등)를 예측한다.
- 신뢰도 점수: 객체가 실제로 존재할 확률을 계산한다.
2. 동작 흐름 예시
- 입력: 416x416 RGB 이미지가 Darknet-53에 들어간다.
- 특징 추출: Darknet-53이 52x52, 26x26, 13x13 크기의 특징 맵을 생성한다.
- 탐지: 탐지 헤드가 각 특징 맵에서 바운딩 박스, 클래스, 신뢰도를 예측한다.
- 출력: 화면에 객체의 위치와 종류(예: "강아지, [x, y, w, h]")가 표시된다.
'이론 공부 > COMPUTER VISION' 카테고리의 다른 글
Computer Vision - LAB 07. Detecting Image Using YOLOv4(Darknet) (0) | 2025.03.05 |
---|---|
Computer Vision - LAB 06. Image Classification (CNN) (0) | 2025.02.27 |
Computer Vision - Basic Knowledge of CNN (0) | 2025.02.27 |
Computer Vision - LAB 05. Image Classification (OpenCV, Keras) (0) | 2025.02.24 |
Computer Vision - Basic Knowledge of Neural Network (0) | 2025.02.18 |