Output Layer에서는 Sigmoid, Softmax 함수 중 어떤 걸 사용해야 하는가?
·
이론 공부/AI HARDWARE
이미지를 분류하는 문제의 신경망 출력층에서는 주로 Sigmoid와 Softmax가 사용된다. 두 함수의 특징과 적합한 사용 사례에 대해 알아보자.1. Sigmoid입력값을 0과 1 사이의 값으로 변환하며, 각 출력 노드가 독립적으로 확률을 나타낸다. 각 출력이 서로 독립적이어서, 다른 결과에 신경 쓰지 않고 "예/아니오"를 따로따로 판단할 수 있다. 즉, 주로 이진 분류에서 사용되는 활성화 함수이다. 스팸 메일 분류(스팸/비스팸)질병 진단(양성/음성).2. Softmax출력층의 모든 노드 값을 정규화하여 합이 1이 되도록 만든다. 클래스 간의 상대적인 확률을 나타내며, Multi-class 상황에 적합하다.즉, 여러 선택지 중에서 하나만 골라야 할 때, 각 선택지의 확률을 계산해서 전체 합이 1이 되도록..
Model Compression - Winograd Convolution
·
이론 공부/AI HARDWARE
덧셈 연산과 비교했을 때, 곱셈 연산은 여러 번의 덧셈과 시프트 연산을 포함하기 때문에 더 복잡한 회로, 더 높은 연산 시간과 에너지 소비를 가진다. ADDER Algorithm : Carry-Lookahead Adder, Carry-Select Adder, Carry-Skip AdderCPU(중앙 처리 장치)는 다양한 구성 요소로 이루어져 있으며, 그 중 ALU는 산술 연산(덧셈, 뺄셈 등)과 논리 연산(AND, OR, XOR 등)을 수행하는 장치이다. ALU는 CPU에서 계산을 담당하는 중요한 요소이salmon1113.tistory.com Multiplier Algorithm : Array Multiplier, Booth Multiplier, Wallace Tree Multiplier0. 개요 Add..
Model Compression for DNN
·
이론 공부/AI HARDWARE
DNN(Deep Neural Network)은 일반적으로 수백만~수억 개의 가중치를 가지며, 연산량이 많아 고성능 하드웨어(GPU, TPU)와 많은 전력이 필요하다. 하지만 모든 CPU, 모바일 디바이스, 임베디드 시스템에서 고성능 하드웨어를 사용할 수 있는 것은 아니다. 이를 해결하기 위해 Training 단계에서는 높은 정확성을 유지하기 위한 Full-Precision(보통 float32)로 학습을 진행하고, Inference 단계에서는 모델을 경량화하여 연산 속도를 높이고, 메모리 사용을 줄이는 Model Compression 기술이 활용된다. Model Compression에는 학습된 모델을 압축하는 방법(Quantization, Knowledge Distillation)이 있는데 이에 대해..
AI에서 HBM이 주목받고 있는 이유
·
이론 공부/AI HARDWARE
AI 기술의 급속한 발전과 함께, 대규모 인공지능 모델의 학습과 추론에 필요한 컴퓨팅 파워도 기하급수적으로 증가하고 있다. 이러한 추세 속에서 NVIDIA의 고대역폭 메모리(HBM, High Bandwidth Memory)가 AI 분야에서 주목받고 있다.AI 모델, 특히 GPT, BERT, Llama와 같은 대형 언어 모델들은 수십억에서 수천억 개에 이르는 매개변수(파라미터)를 처리해야 한다. 이 과정에서 가장 중요한 것은 이러한 방대한 양의 가중치(Weight) 데이터를 얼마나 빠르게 처리할 수 있느냐이다. NVIDIA의 HBM은 이러한 AI의 핵심 요구사항을 충족시키는 데 탁월한 성능을 보여주고 있다.HBM은 기존의 DDR이나 GDDR 메모리와는 달리, 3D 적층 구조와 TSV(Through-Sili..
CPU, GPU, TPU, AI 가속기 (FPGA, ASIC(NPU))에 관하여
·
이론 공부/AI HARDWARE
최근 AI 기술의 발전과 함께 GPU와 AI의 관계는 더욱 밀접해졌다는 이야기를 많이 듣게 된다. 하지만, 실제로 AI와 관련된 처리 장치(Processing Unit)는 GPU뿐만 아니라 다양한 장치들이 있다. CPU, GPU, TPU, AI 가속기 모두 AI 작업을 지원하며, 각각의 처리 장치들은 고유의 특성과 목적에 맞춰 설계되었다. 이 글에서는 AI와 관련된 주요 처리 장치들의 관계성과 차별화된 특성을 알아보겠다.Processing Unit장점사용 사례CPU순차적 작업 처리에 강하고 유연성 있음운영체제 실행, 일반 컴퓨팅 작업GPU고도의 병렬 처리 능력, 높은 연산 능력, 딥러닝 훈련에 적합그래픽 렌더링, 딥러닝 (훈련), 비디오 처리 등TPU딥러닝 모델에 최적화된 고속 연산, 높은 효율성딥러..