[논문 리뷰] A Theory of Generalization in Deep Learning
TL;DR
이 논문은 딥러닝 모델이 훈련 데이터보다 훨씬 많은 파라미터를 가졌음에도 어떻게 새로운 데이터에 대해 일반화에 성공하는지에 대한 근본적인 질문에 답하는 새로운 이론을 제시합니다. 핵심 아이디어는 훈련 과정에서 모델의 출력 공간(output space)이 '신호 채널(Signal Channel)'과 '저수지(Reservoir)'라는 두 개의 직교 공간으로 분할된다는 것입니다. 미니배치 SGD는 일관된 패턴인 '신호'는 신호 채널로 빠르게 보내고(드리프트), 데이터별 노이즈는 저수지에 가두는(확산) 역할을 합니다. 결정적으로, 저수지에 갇힌 오차는 테스트 데이터에 보이지 않아 일반화 성능에 해를 끼치지 않습니다. 이 이론을 바탕으로, 저자들은 검증 데이터 없이 단일 훈련 과정에서 모집단 위험(population risk)을 직접 최적화하는 실용적인 알고리즘을 제안합니다. 이 알고리즘은 Adam 옵티마이저에 그래디언트의 신호 대 잡음비(SNR)에 기반한 게이트(gate)를 추가하는 간단한 방식으로, 그로킹(grokking)을 5배 가속하고, 물리 정보 신경망(PINNs)의 노이즈 암기를 억제하며, 잡음이 섞인 데이터에서의 LLM 미세조정(DPO) 성능을 크게 향상시킵니다.
연구 배경 및 동기
현대 딥러닝의 가장 큰 미스터리 중 하나는 '일반화(generalization)'입니다. 수십억 개의 파라미터를 가진 거대 모델이 훈련 데이터 포인트를 훨씬 초과함에도 불구하고, 어떻게 훈련 데이터의 노이즈까지 전부 암기하지 않고 새로운 데이터에 대해 높은 성능을 보일 수 있을까요? 이는 고전적인 통계학의 편향-분산 트레이드오프(Bias-Variance Tradeoff) 관점으로는 쉽게 설명되지 않습니다. 고전 이론에 따르면, 모델의 용량(capacity)이 특정 지점을 넘어서면 훈련 오차는 계속 감소하지만 테스트 오차는 증가하는 과적합(overfitting)이 발생해야 합니다.
하지만 딥러닝에서는 '이중 하강(Double Descent)' 현상이 관찰되는 등, 모델이 훈련 데이터를 완벽하게 보간(interpolate)하는, 즉 훈련 오차가 0에 도달하는 과파라미터(overparameterized) 영역에서도 일반화 성능이 뛰어난 경우가 많습니다. 이를 '양성 과적합(Benign Overfitting)'이라고 부릅니다.
이러한 현상을 설명하기 위해 신경망 접선 커널(Neural Tangent Kernel, NTK)과 같은 이론들이 등장했습니다. NTK는 무한히 넓은 신경망이 훈련 중에 커널 회귀(kernel regression)처럼 동작하며, 커널이 고정되어 있다고 가정합니다. 그러나 이 가정은 딥러닝의 핵심 능력인 특성 학습(feature learning), 즉 훈련을 통해 데이터의 표현 자체를 바꾸는 과정을 포착하지 못하는 중대한 한계를 가집니다. 실제 딥러닝 훈련에서는 커널이 역동적으로 변화하며, 바로 이 변화가 성능의 핵심입니다.
따라서 다음과 같은 근본적인 질문이 남습니다.
- 커널이 역동적으로 변하는 실제 특성 학습 과정에서 일반화는 어떻게 이루어지는가?
- 미니배치 확률적 경사 하강법(minibatch SGD)은 어떻게 신호(signal)와 노이즈(noise)를 구분하여 학습하는가?
- 양성 과적합, 이중 하강, 그로킹과 같은 다양한 현상들을 하나의 일관된 프레임워크로 설명할 수 있는가?
이 논문은 바로 이 간극을 메우기 위해, 커널의 변화를 적극적으로 고려하는 새로운 동역학적 이론을 제시하고, 이를 통해 딥러닝 일반화의 비밀을 파헤칩니다.
관련 연구
딥러닝 일반화를 이해하려는 노력은 여러 방향에서 이루어져 왔습니다. 본 논문은 기존 연구들의 성과를 바탕으로 더 포괄적인 설명을 제공합니다.
-
신경망 접선 커널 (Neural Tangent Kernel, NTK): 무한 너비(infinite-width) 신경망이 경사 하강법으로 훈련될 때, 가중치 변화가 미미하여 전체 훈련 과정이 고정된 커널을 사용한 선형 모델의 훈련과 같아진다는 이론입니다. 딥러닝의 초기 학습 동역학을 잘 설명하지만, 커널이 고정되어 있다는 가정 때문에 특성 학습을 설명하지 못하는 한계가 있습니다.
-
암묵적 편향 (Implicit Bias): 동일한 훈련 데이터를 완벽하게 학습하는 무수히 많은 해(solution) 중에서, SGD와 같은 특정 최적화 알고리즘이 왜 일반화 성능이 좋은 해를 선호하는지를 연구하는 분야입니다. 예를 들어, 선형 모델에서 SGD는 최소 노름(norm)을 갖는 해를 찾는 경향이 있으며, 이는 일종의 정규화 효과를 낳습니다.
-
SVD 기반 필터링 분석: 일부 연구는 데이터 행렬의 특이값 분해(SVD)를 통해 학습 과정을 분석합니다. 이 관점에서 경사 하강법은 특이값이 큰(데이터의 분산이 큰) 주요 패턴부터 학습하는 '필터' 역할을 합니다. 릿지 회귀(Ridge Regression)와 같은 정규화 기법은 특이값이 작은(노이즈일 가능성이 높은) 모드의 학습을 억제하는 필터로 해석될 수 있습니다. 이 접근법은 선형 모델의 암묵적 편향을 명확히 보여주지만, 딥러닝의 비선형적 특성 학습을 직접 다루기는 어렵습니다.
-
양성 과적합 (Benign Overfitting): 훈련 오차가 0임에도 불구하고 테스트 오차가 낮은 현상을 설명하려는 연구들입니다. 대부분 특정 데이터 분포나 모델 구조 하에서, 노이즈가 모델의 출력에 미치는 영향이 특정 방향으로 제한되어 일반화 성능을 해치지 않음을 보입니다.
-
그로킹 (Grokking): 훈련 정확도는 100%에 도달한 후에도 한참 동안 테스트 정확도가 오르지 않다가, 특정 시점에 갑자기 급상승하는 현상입니다. 이는 모델이 처음에는 데이터를 암기했다가, 훈련이 더 진행되면서 일반화 가능한 패턴을 학습하는 과정으로 해석됩니다.
| 연구 분야 | 핵심 아이디어 | 본 논문과의 차별점 |
|---|---|---|
| NTK | 무한 너비 네트워크는 고정된 커널을 가진 선형 모델처럼 동작한다. | 커널이 역동적으로 변화하는 유한 너비의 특성 학습 과정을 직접 모델링한다. |
| 암묵적 편향 | SGD는 특정 종류의 '단순한' 해를 선호한다. | SGD가 출력 공간에서 신호와 노이즈를 동역학적으로 분리하는 메커니즘(드리프트-확산)을 구체적으로 제시한다. |
| SVD 필터링 | 학습은 데이터 공분산 행렬의 스펙트럼을 필터링하는 과정이다. | 파라미터/특성 공간이 아닌 출력 공간의 분할(신호 채널/저수지)을 통해 일반화를 설명한다. |
| 양성 과적합 | 특정 조건 하에서 노이즈가 일반화에 해를 끼치지 않는다. | 노이즈가 '저수지'라는 테스트에 보이지 않는 공간에 갇히는 메커니즘을 통해 양성 과적합을 자연스럽게 설명한다. |
| 그로킹 | 암기에서 일반화로의 상전이(phase transition)가 존재한다. | 그로킹을 신호가 저수지에서 신호 채널로 이동하는 과정으로 설명하고, 이를 가속하는 알고리즘을 제안한다. |
핵심 기여
본 논문의 주요 기여는 다음과 같이 요약할 수 있습니다.
-
새로운 일반화 이론 제시: 훈련 과정에서 모델의 출력 공간이 **신호 채널(Signal Channel)**과 **저수지(Reservoir)**로 동적으로 분할된다는 이론을 제시했습니다. 신호 채널은 일반화 성능에 기여하는 방향이며, 저수지는 테스트 데이터에 보이지 않아 노이즈를 가두는 역할을 합니다. 이는 커널이 크게 변하는 특성 학습 상황에서도 유효합니다.
-
미니배치 SGD의 역할 규명: 미니배치 SGD가 신호 채널 내에서 드리프트-확산 분리(Drift-Diffusion Separation) 메커니즘을 통해 신호와 노이즈를 분리함을 증명했습니다. 일관된 신호는 빠른 선형 드리프트()로 축적되고, 무작위 노이즈는 느린 확산()으로 억제됩니다.
-
통합적 설명 프레임워크: 제안된 이론은 양성 과적합, 이중 하강, 암묵적 편향, 그로킹 등 기존에 파편적으로 이해되던 딥러닝 현상들을 하나의 일관된 프레임워크 안에서 자연스럽게 설명합니다.
-
실용적인 최적화 알고리즘 제안: 이론적 분석으로부터 검증 데이터 없이 모집단 위험을 직접 최적화하는 새로운 알고리즘을 유도했습니다. 이 알고리즘은 Adam과 같은 기존 옵티마이저에 그래디언트의 신호 대 잡음비(SNR)를 기반으로 한 게이트를 추가하는 간단한 방식으로, 추가 계산 비용이 거의 없이 일반화 성능을 크게 향상시킵니다.
제안 방법론
1. 이론적 기반: 신호 채널과 저수지
이론의 핵심은 훈련 중인 모델의 출력 공간을 두 개의 직교하는 부분 공간으로 나누는 것입니다. 이 분할은 누적 소멸(Cumulative Dissipation) 행렬 에 의해 결정됩니다.
- 경험적 신경 탄젠트 커널 (Empirical NTK, ): 훈련 데이터 에 대한 모델 출력의 야코비안 를 사용하여 로 정의됩니다. 이는 특정 시점에서 파라미터 변화가 훈련 데이터 출력에 어떤 영향을 미치는지를 나타냅니다.
- 누적 소멸 행렬 (): 훈련 시간 전체에 걸쳐 NTK가 손실을 감소시킨 누적량을 나타냅니다. 시간 에 대한 NTK를 라 할 때, 는 이를 시간 적분한 것과 관련이 있습니다.
이 행렬은 훈련 과정 전체의 '기억'을 담고 있습니다.
이 를 통해 출력 공간은 다음과 같이 분할됩니다.
- 신호 채널 (Signal Channel): 의 치역(range), 즉
range()입니다. 이곳은 훈련 과정에서 실제로 손실이 감소한 방향들의 집합입니다. 이 채널을 통해 학습된 정보는 테스트 성능에 직접적인 영향을 미칩니다. - 저수지 (Reservoir): 의 영공간(kernel), 즉
ker()입니다. 이곳은 훈련 과정에서 손실이 전혀 감소하지 않은 방향들의 집합입니다. 이 논문의 결정적인 발견은 이 저수지 공간이 **테스트 데이터에 보이지 않는다(test-invisible)**는 것입니다. 따라서 훈련 데이터의 노이즈나 잔여 오차가 이 공간에 갇히면 일반화 성능에 해를 끼치지 않습니다. 이것이 바로 양성 과적합의 메커니즘입니다.
2. 모집단 위험 최적화
이론을 실용적인 알고리즘으로 연결하기 위해, 저자들은 경험적 위험(훈련 데이터 손실) 대신 **모집단 위험(보이지 않는 데이터에 대한 손실)**을 직접 줄이는 방법을 모색합니다. 미니배치 내 데이터의 교환성(exchangeability)을 활용하여, Leave-One-Out(LOO) 위험을 근사하는 방식을 사용합니다.
이는 미니배치 내의 서로 다른 데이터 샘플들이 특정 파라미터 업데이트 방향에 대해 얼마나 "동의"하는지를 측정하는 것으로 귀결됩니다. 여러 데이터가 공통적으로 지지하는 업데이트 방향은 일반화 가능성이 높은 '신호'일 가능성이 크고, 특정 데이터에만 의존하는 방향은 '노이즈'일 가능성이 높습니다.
이 아이디어를 수학적으로 공식화하면, 각 파라미터 업데이트가 모집단 위험을 감소시키기 위한 조건이 유도됩니다.
3. 핵심 수식 및 알고리즘
이론적 분석을 통해 유도된 최종 알고리즘은 놀랍도록 간단한 형태를 가집니다. 각 파라미터 는 그래디언트의 신호 대 잡음비(SNR)가 특정 임계값을 넘을 때만 업데이트되어야 한다는 '게이트' 조건으로 요약됩니다.
핵심 업데이트 규칙 (Corollary 6.3): 파라미터 는 다음 조건을 만족할 때만 업데이트됩니다.
각 항의 의미는 다음과 같습니다.
- : 미니배치 내에서 파라미터 에 대한 그래디언트의 평균(mean). 이는 여러 데이터가 공통적으로 가리키는 **신호(signal)**의 강도를 나타냅니다.
- : 미니배치 내에서 파라미터 에 대한 그래디언트의 분산(variance). 이는 데이터별 특성이나 노이즈로 인한 변동성, 즉 **잡음(noise)**의 크기를 나타냅니다.
- : 미니배치 크기(batch size).
이 조건은 신호의 제곱이 정규화된 잡음보다 클 때만 학습을 진행하라는 직관적인 의미를 가집니다. 즉, 불확실하고 노이즈가 많은 업데이트는 걸러내고, 신뢰할 수 있는 신호에 기반한 업데이트만 수행하여 과적합을 억제하고 일반화를 촉진합니다.
이 규칙은 Adam과 같은 기존 옵티마이저에 쉽게 통합될 수 있습니다. Adam은 이미 그래디언트의 1차 모멘트(평균, )와 2차 모멘트()를 추정하고 있습니다. 여기에 그래디언트 제곱의 이동 평균을 저장할 추가적인 상태 벡터 하나만 추가하면 분산 을 추정할 수 있으므로, 메모리 및 계산 비용 증가가 거의 없습니다.
실험 설정
제안된 '모집단 위험 훈련(Population Risk Training)' 알고리즘의 효과를 검증하기 위해, 세 가지 까다로운 벤치마크에서 표준 AdamW 옵티마이저와 성능을 비교했습니다.
-
데이터셋:
- 모듈러 나눗셈 (Modular Division):
a * b^-1 mod 97을 예측하는 알고리즘적 과제. 이 문제는 일반화가 매우 늦게 일어나는 '그로킹' 현상으로 유명합니다. - 1D Burgers' Equation: 노이즈가 섞인 초기 조건에서 편미분 방정식(PDE)을 푸는 물리 정보 신경망(PINNs) 과제. PINNs는 노이즈에 과적합되기 쉬운 것으로 알려져 있습니다.
- Anthropic-HH-RLHF: 30%의 노이즈(선호도 레이블이 뒤바뀐 데이터)가 포함된 데이터셋으로, Qwen2.5-0.5B 모델을 DPO(Direct Preference Optimization) 방식으로 미세조정하는 과제.
- 모듈러 나눗셈 (Modular Division):
-
평가 지표:
- 그로킹: 95% 테스트 정확도 도달까지의 훈련 스텝 수
- PINNs: 목표 테스트 오차 도달까지의 반복 횟수
- DPO: 최종 보상 정확도 및 원본 참조 모델과의 차이(KL 발산)
-
베이스라인: AdamW 옵티마이저 (각 과제에 맞게 최적으로 튜닝됨)
| 하이퍼파라미터 | 그로킹 | PINNs | DPO (LLM) |
|---|---|---|---|
| 모델 | 2-layer Transformer | 4-layer MLP | Qwen2.5-0.5B |
| 옵티마이저 | AdamW vs. 제안 방법 | AdamW vs. 제안 방법 | AdamW vs. 제안 방법 |
| 배치 크기 | 512 | 1024 | 64 |
| 학습률 | 1e-3 | 1e-3 | 5e-7 |
| 가중치 감소 | 1.0 | 0 | 0 |
실험 결과 분석
제안된 방법은 세 가지 어려운 과제 모두에서 표준 AdamW를 압도하는 성능을 보였습니다.
| 과제 | 메트릭 | AdamW | 제안 방법 | 성능 향상 |
|---|---|---|---|---|
| 그로킹 | 95% 정확도 도달 스텝 | 29,450 | 5,950 | 4.95배 빠름 |
| PINNs | 목표 오차 도달 반복 횟수 | 10,000+ | 4,100 | 2.44배 빠름 |
| DPO (LLM) | 최종 보상 정확도 | 0.566 | 0.641 | +13.3% |
| 참조 모델과의 거리 | 0.45 | 0.15 | 3.0배 가까움 |
-
그로킹 가속화: 제안된 방법은 불필요한 암기 과정을 억제하고 일반화에 필요한 신호에 집중함으로써, AdamW보다 약 5배 빠르게 그로킹을 달성했습니다. 이는 SNR 게이트가 암기를 유발하는 노이즈성 그래디언트를 효과적으로 필터링했음을 시사합니다.
-
PINNs의 노이즈 억제: PINNs 훈련에서 제안된 방법은 노이즈가 섞인 초기 조건에 과적합되는 경향을 크게 줄였습니다. 그 결과, 최적으로 튜닝된 AdamW보다 2.4배 적은 반복으로 목표 테스트 오차에 도달하여 훈련 효율성과 최종 성능을 모두 개선했습니다.
-
DPO 미세조정 안정성 향상: 30%의 노이즈가 포함된 선호도 데이터로 LLM을 미세조정하는 까다로운 상황에서, 제안된 방법은 최종 보상 정확도를 크게 향상시켰습니다. 더 중요한 것은, 원본 참조 모델과의 정책 차이를 3배 더 작게 유지했다는 점입니다. 이는 노이즈에 과적합되어 모델이 불안정해지는 것을 막고, 더 안정적이고 신뢰할 수 있는 미세조정을 가능하게 함을 의미합니다.
비판적 평가
강점
- 통합적이고 강력한 이론: 이 논문은 특성 학습을 포함하는 딥러닝 일반화에 대한 포괄적인 이론을 제시하며, 기존의 여러 현상을 일관되게 설명합니다.
- 이론과 실천의 연결: 심오한 이론적 분석에서 출발하여, 매우 간단하고 실용적인 최적화 알고리즘을 유도해냈습니다.
- 낮은 추가 비용: 제안된 알고리즘은 기존 Adam 옵티마이저에 상태 벡터 하나만 추가하면 되므로, 계산 및 메모리 오버헤드가 거의 없습니다.
- 인상적인 실험 결과: 그로킹, PINNs, LLM DPO와 같이 서로 다르고 도전적인 분야에서 일관되게 뛰어난 성능 향상을 보여주어 방법론의 일반성과 효과를 입증했습니다.
한계점 및 개선 방향
- 이론의 복잡성: 제안된 이론은 미분 기하학 및 동역학 시스템에 대한 깊은 이해를 요구하여 접근성이 다소 낮을 수 있습니다.
- 하이퍼파라미터 민감도: SNR 임계값은 배치 크기 에 의존합니다. 매우 크거나 작은 배치 크기에서 이 관계가 어떻게 변하는지에 대한 추가적인 분석이 필요할 수 있습니다.
- 다양한 아키텍처/옵티마이저: 논문은 트랜스포머와 MLP에 대한 실험을 보여주었지만, CNN이나 다른 종류의 아키텍처, 혹은 AdaGrad나 RMSProp과 같은 다른 옵티마이저와의 상호작용에 대한 연구가 더 필요합니다.
향후 연구 방향
이 연구는 딥러닝 일반화와 최적화에 대한 새로운 길을 열어줍니다. 향후 연구는 다음과 같은 방향으로 확장될 수 있습니다.
- 다른 분야로의 확장: 제안된 옵티마이저를 컴퓨터 비전, 강화학습, 음성 인식 등 더 넓은 분야의 벤치마크에 적용하여 그 효과를 검증할 수 있습니다.
- 이론의 정교화: 신호 채널과 저수지의 구조가 모델 아키텍처, 데이터 분포, 손실 함수에 따라 어떻게 변하는지 심층적으로 분석하는 연구가 가능합니다.
- 다른 정규화 기법과의 관계: SNR 게이팅이 드롭아웃(Dropout)이나 가중치 감소(Weight Decay)와 같은 다른 정규화 기법과 어떻게 상호작용하는지, 그리고 이들을 결합했을 때 시너지 효과가 있는지 탐구할 수 있습니다.
- 적응형 임계값: 현재 고정된 SNR 임계값을 훈련 과정에 따라 동적으로 조절하는 적응형(adaptive) 메커니즘을 개발하여 성능을 더욱 향상시킬 수 있습니다.
실무 적용 가이드
이 논문에서 제안한 알고리즘을 실제 프로젝트에 적용하려는 개발자를 위한 가이드는 다음과 같습니다.
-
언제 사용해야 하는가?:
- 훈련 데이터에 노이즈가 많다고 의심될 때 (예: 레이블 오류, 불완전한 데이터)
- 모델이 훈련 데이터는 잘 맞추지만 검증 성능이 오르지 않는 과적합 경향을 보일 때
- 그로킹 현상처럼 일반화가 매우 느리게 일어나는 문제를 다룰 때
- PINNs나 NeRF(신경 방사 필드)와 같이 함수를 근사하는 문제에서 암기를 억제하고 싶을 때
-
구현 시 고려사항:
- 구현은 기존 Adam/AdamW 옵티마이저 코드를 수정하여 비교적 쉽게 할 수 있습니다. 핵심은 그래디언트의 1차 모멘트()와 2차 모멘트() 외에, 그래디언트 제곱의 이동 평균을 추적하는 세 번째 상태 벡터()를 추가하는 것입니다.
- 매 업데이트 스텝마다, 와 를 사용하여 그래디언트 평균의 제곱()과 분산()을 계산합니다.
- 조건을 만족하는 파라미터에 대해서만 업데이트를 수행하는 이진 마스크(binary mask)를 생성하여 원래의 Adam 업데이트에 곱해줍니다.
- 추가적인 하이퍼파라미터 튜닝이 거의 필요 없다는 것이 큰 장점입니다. 기존의 학습률, 배치 크기 등을 그대로 사용하면서 시작해볼 수 있습니다.
결론
"A Theory of Generalization in Deep Learning"은 딥러닝의 핵심 미스터리인 일반화를 신호 채널과 저수지라는 새로운 렌즈를 통해 명쾌하게 설명하는 기념비적인 연구입니다. 이 논문은 딥러닝 모델이 어떻게 특성 학습 과정에서 신호와 노이즈를 분리하는지에 대한 깊은 통찰을 제공할 뿐만 아니라, 이 통찰을 검증 데이터 없이 모집단 위험을 직접 최적화하는 간단하고 강력한 알고리즘으로 구체화했습니다. 그로킹 가속화부터 노이즈가 많은 LLM 미세조정에 이르기까지, 다양한 문제에서 보여준 압도적인 성능은 이 이론의 타당성과 실용성을 강력하게 뒷받침합니다. 이 연구는 앞으로 딥러닝 모델의 훈련 방식을 근본적으로 바꾸고, 더 안정적이고 효율적인 AI 시스템을 구축하는 데 중요한 이론적, 실용적 토대를 제공할 것입니다.
참고 자료
- 논문 원문 (arXiv): https://arxiv.org/abs/2605.01172
- 코드 저장소: (논문 출판 시 공개될 예정)
- 관련 자료:
- 신경망 접선 커널(NTK) 소개: The Neural Tangent Kernel in a Nutshell
- 이중 하강(Double Descent) 현상 설명: OpenAI - Deep Double Descent

![[논문 리뷰] A Theory of Generalization in Deep Learning](/assets/images/blog/20260509-paper-2605-01172-a-theory-of-generalization-in-.jpg)