넘스탯

DATA ANALYTICS & INSIGHTS

확률에서 LLM까지 – 데이터 사이언스 전문 교육 플랫폼

학습 메뉴

도움말

홈

활성화 함수 실습실

Sigmoid · Tanh · ReLU · Leaky ReLU · GELU — 비선형성이 신경망을 가능하게 한다

원하는 개념·랩·가이드를 검색해보세요

Ctrl K

딥러닝 이론으로 상세 이론 학습

선을 그어서는 풀 수 없는 문제, 비선형이 답이다

활성화 함수가 없으면 아무리 층을 쌓아도 신경망은 결국 하나의 직선(선형 모델)일 뿐입니다. 비선형 활성화 함수가 있어야 곡선처럼 복잡한 경계를 학습할 수 있습니다. ReLU·Sigmoid·Tanh를 바꿔가며 그 차이를 직접 확인해 보세요.

이 페이지에서 배우고 나면

활성화 함수가 없으면 왜 층을 쌓아도 소용없는지 이해할 수 있습니다.
ReLU·Sigmoid·Tanh의 모양과 특성 차이를 직접 비교할 수 있습니다.
활성화 함수 선택이 학습에 어떤 영향을 주는지 관찰할 수 있습니다.

왜 활성화 함수가 신경망의 핵심인가?

활성화 함수 없는 신경망은 아무리 깊어도 결국 하나의 선형 변환과 같습니다. 비선형 활성화가 도입되어야 복잡한 패턴을 학습할 수 있고, 어떤 활성화를 쓰느냐가 학습 가능성·속도·일반화 성능을 모두 결정합니다.

📐 5종 활성화 함수 한눈에 보기

왼쪽은 함수 자체, 오른쪽은 미분. 미분이 곧 gradient의 원천이므로 미분 모양이 학습 동작을 결정합니다.

5종 활성화 함수와 그 미분 — Sigmoid·Tanh·ReLU·Leaky ReLU·GELU

활성화 함수 인터랙티브 비교

5종 활성화 함수의 모양과 미분을 동시에 비교하고, 특정 입력값에서의 정확한 값을 슬라이더로 확인하세요.

표시할 활성화 함수

입력값 x = 0.50

Leaky ReLU α = 0.10

α=0이면 일반 ReLU와 동일

활성화 함수 f(x)— 좌축: Bounded(Sigmoid/Tanh), 우축: Unbounded(ReLU 계열)

미분 f'(x) — Gradient의 원천

x = 0.50에서의 값 비교

Sigmoid: f=0.622, f'=0.235

Tanh: f=0.462, f'=0.786

ReLU: f=0.500, f'=1.000

Leaky ReLU: f=0.500, f'=1.000

GELU: f=0.346, f'=0.867

깊이 효과: 10층에서 활성화 미분 곱

네트워크 깊이 = 10층

Sigmoid: 5.77e-9

Tanh: 1.05e-4

ReLU: 9.77e-4

Leaky ReLU: 2.53e-3

GELU: 9.77e-4

깊이 누적 = (평균 미분)^층수. Sigmoid는 깊이 10층만 되어도 1e-9로 vanishing 영역에 진입합니다.

실험 시나리오

Sigmoid 포화 확인: Sigmoid만 켜고 x를 5 이상으로 옮겨보세요. 함수 출력은 1에 가깝지만 미분은 거의 0
ReLU의 Dead 영역: ReLU에서 x를 음수로 옮기면 출력·미분 모두 0. 학습 중 음수 입력만 받으면 영원히 죽음
Leaky ReLU의 해결: Leaky ReLU 활성 + α=0.1. x가 음수여도 미분이 0.1로 유지 → Dead 방지
GELU의 부드러움: GELU는 ReLU와 거의 같지만 x=0 근처에서 부드러움. Transformer가 GELU를 선호하는 이유
깊이 효과: 깊이를 15층 이상으로 올리고 Sigmoid의 누적 미분을 보세요 — 1e-13 이하로 학습 불가능

📉 Sigmoid의 포화 문제 — Vanishing의 원흉

Sigmoid 미분의 최대값은 0.25, 양 끝에서는 거의 0. 10층 깊이만 누적되어도 gradient 곱이0.25¹⁰ ≈ 1e-6로 사라집니다 — 2010년대 이전 깊은 신경망 학습 실패의 주된 원인이었습니다.

Sigmoid의 양 끝 포화 영역: 미분이 거의 0이 되어 gradient가 사라짐

💀 Dead ReLU 문제와 Leaky ReLU의 해결책

ReLU는 음수 영역 미분이 정확히 0. 학습 중 어떤 뉴런이 한 번 음수 입력만 받게 되면 gradient가 0이어서 영원히 학습되지 않습니다 — Dead ReLU. Leaky ReLU는 작은 음수 기울기 α를 두어 이를 방지합니다.

ReLU의 Dead 뉴런 증가 vs Leaky ReLU의 안정 활성

깊이 누적 효과 — 활성화 선택이 학습 가능성을 결정

체인룰로 활성화 미분이 곱해집니다. 평균 미분이 작을수록 깊이 누적이 빠르게 vanishing 영역에 진입합니다. ReLU 계열(평균 ≈ 0.5)만이 깊은 네트워크에서 살아남는 이유입니다.

활성화별 깊이 누적 미분 — Sigmoid는 8층 만에 1e-6 이하로 소실

출력층 활성화 함수 선택 가이드

은닉층에는 ReLU 계열이 표준이지만, 출력층은 문제 유형에 따라 달라집니다. 회귀는 선형, 이진 분류는 Sigmoid, 다중 분류는 Softmax, 다중 라벨은 독립 Sigmoid.

출력층 활성화 함수 선택: 문제 유형이 결정한다

활성화 함수 선택 가이드

ReLU — 은닉층의 기본값

계산 빠르고 vanishing 없음. CNN의 표준. 다만 Dead ReLU 주의.

CNN

MLP

기본값

Leaky ReLU / PReLU

Dead ReLU 문제 회피. α=0.01~0.2 일반적. GAN에서 자주 사용.

GAN

Dead 방지

GELU / Swish — Transformer 표준

x=0 근처 부드러움이 학습 안정성에 기여. BERT/GPT/ViT의 표준.

Transformer

BERT/GPT

Sigmoid / Tanh — 출력층 또는 게이트

은닉층 사용 비추천. 이진 분류 출력층(Sigmoid)이나 LSTM 게이트(Tanh)에 적합.

이진 분류

LSTM 게이트

직접 해보기 — 실습 과제

포화 영역 체감: Sigmoid만 활성. 입력 x를 ±5로 옮기면 미분이 거의 0임을 확인.
Dead ReLU: ReLU만 활성. x = -2로 두면 출력 0, 미분 0 — 학습 신호 없음.
Leaky ReLU 비교: Leaky ReLU 활성 + α=0.1. 같은 x = -2에서 미분 0.1 → 학습 가능.
GELU의 부드러움: GELU와 ReLU를 동시에 활성. x = 0 근처에서 GELU는 부드럽지만 ReLU는 꺾임.
깊이 누적 확인: 깊이를 15층 이상으로 올리세요. Sigmoid는 vanishing, ReLU/Leaky/GELU는 살아있음.

📖 더 깊이 학습하기

Glorot et al., Deep Sparse Rectifier (AISTATS 2011): ReLU의 효과 분석
He et al., PReLU (ICCV 2015): Parametric ReLU와 He 초기화
Hendrycks & Gimpel, GELU (2016): GELU 원논문 (Transformer의 표준)
Ramachandran et al., Swish (2017): Swish/SiLU 자동 탐색