AI 기술의 급속한 발전과 함께, 대규모 인공지능 모델의 학습과 추론에 필요한 컴퓨팅 파워도 기하급수적으로 증가하고 있다. 이러한 추세 속에서 NVIDIA의 고대역폭 메모리(HBM, High Bandwidth Memory)가 AI 분야에서 주목받고 있다.
AI 모델, 특히 GPT, BERT, Llama와 같은 대형 언어 모델들은 수십억에서 수천억 개에 이르는 매개변수(파라미터)를 처리해야 한다. 이 과정에서 가장 중요한 것은 이러한 방대한 양의 가중치(Weight) 데이터를 얼마나 빠르게 처리할 수 있느냐이다. NVIDIA의 HBM은 이러한 AI의 핵심 요구사항을 충족시키는 데 탁월한 성능을 보여주고 있다.
HBM은 기존의 DDR이나 GDDR 메모리와는 달리, 3D 적층 구조와 TSV(Through-Silicon Via) 기술을 활용하여 데이터 전송 속도를 획기적으로 향상시켰다. 더불어, HBM은 높은 에너지 효율성을 자랑한다. AI 연산에 필요한 전력 소모를 줄이면서도 뛰어난 성능을 제공하여 NVIDIA는 AI 하드웨어 시장에서 선두 위치를 공고히 하고 있으며, 차세대 AI 기술 발전을 선도하고 있다.
GPU를 사용하여 AI 모델 학습한다 가정했을 때, Weight 값은 저장장치(SSD) → DRAM(HBM/GDDR) → AI 가속기(GPU) 로 로드되며 연산에 활용된다. Weight 값이 DRAM에 한번 로드된 후에는 필요할 때마다 DRAM에서 불러오게 된다. 근래의 Transformer 기반 모델 (GPT, BERT, Llama 등) 은 수십~수천억 개의 파라미터(Weight 값)를 처리해야 하는데, GDDR 메모리로는 충분한 속도를 제공하기 어려워 병목(Bottleneck)이 발생하게 된다.
이런 이유로 높은 대역폭(빠른 속도)을 제공하는 HBM이 각광받기 시작한 것이다.
위 사진은 Roofline 모델은 컴퓨팅 시스템의 성능을 시각적으로 표현하는 직관적인 성능 모델이다.
- Memory Bound: 메모리 대역폭이 성능을 제한한다는 것을 뜻한다. (메모리 속도로 인한 병목)
- Compute Bound: 프로세서의 연산 능력이 성능을 제한합니다. (연산 속도로 인한 병목)
HBM의 Roofline 모델을 보면 높은 대역폭으로 인해 메모리 바운드 영역에서 성능이 향상되어 L1, L2, L3 캐시와 비교할 수 있을정도로 빨라진 것을 볼 수 있다..
'이론 공부 > AI HARDWARE' 카테고리의 다른 글
Model Compression - Winograd Convolution (0) | 2025.02.07 |
---|---|
Model Compression for DNN (0) | 2025.02.06 |
CPU, GPU, TPU, AI 가속기 (FPGA, ASIC(NPU))에 관하여 (0) | 2025.02.06 |
CNN의 발전 과정, 대표적인 모델들에 대해 알아보자 (MNIST, LeNet, AlexNet, VGGNet, GoogLeNet, ResNet, DenseNet, ConvNeXt) (1) | 2025.02.06 |
CNN(Convolution Neural Networks) 기초 지식 (0) | 2025.02.05 |