[논문 리뷰] Language Models Need Sleep
TL;DR
트랜스포머 기반 대형 언어 모델(LLM)은 고정된 문맥 창(context window) 때문에 긴 텍스트를 처리하는 데 한계가 있습니다. 이 논문은 인간의 수면 중 기억 통합 과정에서 영감을 얻은 '각성-수면(wake-sleep)' 주기를 LLM에 도입합니다. 각성 상태에서는 새로운 정보를 빠르게 처리하고, 주기적인 수면 상태에서는 쌓인 정보를 '빠른 가중치(fast weights)'에 압축하여 장기 기억으로 통합합니다. 이 접근법을 통해 모델은 각성 상태에서 빠른 추론 속도를 유지하면서도, 수면을 통해 사실상 무한한 길이의 문맥을 깊이 있게 이해할 수 있습니다. 실험 결과, 매우 긴 수학 문제나 다중 홉(multi-hop) 추론 과제에서 기존 모델을 압도하는 성능을 보였습니다.
연구 배경 및 동기
트랜스포머 아키텍처는 현대 LLM의 근간이지만, 핵심적인 셀프 어텐션(self-attention) 메커니즘은 문맥 길이()에 따라 계산량이 제곱()으로 증가하는 문제를 안고 있습니다. 이로 인해 모델이 한 번에 처리할 수 있는 문맥의 길이가 제한되며, 이 한계를 넘어서는 정보는 유실되거나 제대로 활용되지 못합니다. 이는 LLM이 장편 소설을 이해하거나, 방대한 코드베이스를 분석하는 등 긴 문맥을 요구하는 작업을 수행하는 데 큰 제약이 됩니다.
본 연구는 이러한 한계를 극복하기 위해 생물학적 영감을 도입합니다. 인간이 낮 동안 겪은 경험(단기 기억)을 잠자는 동안 뇌에서 정리하고 통합하여 장기 기억으로 전환하는 것처럼, LLM에도 '수면' 단계를 도입합니다. 모델은 '각성' 상태에서 새로운 토큰들을 처리하며 얻은 정보를 임시 캐시(단기 기억)에 저장하고, '수면' 단계에서 이 캐시의 정보를 여러 번 반복 처리하여 모델 내부의 '빠른 가중치'(장기 기억)에 압축합니다. 이 메커니즘을 통해 모델은 문맥 창의 물리적 한계를 넘어설 수 있습니다.
관련 연구
트랜스포머의 문맥 처리 한계를 극복하려는 시도는 꾸준히 이어져 왔습니다.
| 연구 분야 | 주요 접근법 | 본 논문과의 차별점 |
|---|---|---|
| 효율적 어텐션 | 어텐션 계산을 근사(approximation)하여 복잡도를 낮춤 (예: Linformer, Reformer) | 계산 효율성에 초점을 맞추지만, 여전히 고정된 창 내에서 작동. 본 논문은 창의 크기를 넘어선 정보 통합에 집중. |
| 메모리 네트워크 | 모델 외부에 별도의 메모리 모듈을 두어 정보를 저장하고 필요시 참조 (예: Transformer-XL) | 외부 메모리 참조 방식. 본 논문은 모델 내부의 '빠른 가중치'에 정보를 압축하여 내재화하는 방식. |
| 상태 공간 모델 (SSM) | RNN과 유사한 순환적(recurrent) 상태 업데이트로 정보를 선형적으로 처리 (예: Mamba) | 선형적 복잡도를 가지지만, 단일 패스로 정보를 처리. 본 논문은 수면 중 다중 패스를 통해 더 깊은 정보 통합을 추구. |
본 논문은 기존 접근법들과 달리, **주기적인 깊은 연산(수면)**을 통해 문맥 정보를 모델의 내재된 상태로 압축 및 통합한다는 점에서 독창적입니다.
핵심 기여
- 각성-수면 주기 도입: LLM이 빠른 실시간 처리(각성)와 깊이 있는 정보 통합(수면)을 번갈아 수행하는 새로운 패러다임을 제안합니다.
- 빠른 가중치를 통한 기억 통합: 수면 중 반복적인 순환 패스(recurrent passes)를 통해 단기 기억(KV 캐시)을 장기 기억(빠른 가중치)으로 효과적으로 압축합니다.
- 실험적 성능 입증: 매우 긴 문맥을 요구하는 다양한 벤치마크에서 수면 메커니즘이 모델의 추론 능력을 극적으로 향상시킴을 실험적으로 증명했습니다.
제안 방법론
핵심 아이디어는 모델의 작동을 **각성(Awake)**과 수면(Sleep) 두 가지 상태로 나누는 것입니다.
각성(Awake) 상태
- 이 상태에서 모델은 일반적인 트랜스포머처럼 작동합니다.
- 새로운 토큰이 입력되면 순차적으로 처리하고, 생성된 Key-Value 쌍을 KV 캐시에 저장합니다.
- 이 과정은 매우 빠르지만, KV 캐시의 크기는 제한되어 있습니다.
수면(Sleep) 상태
- KV 캐시가 가득 차면, 모델은 수면 상태로 전환됩니다.
- 수면 상태에서 모델은 외부로부터 새로운 입력을 받지 않고, 대신 KV 캐시에 쌓인 정보()를 여러 번(회) 반복적으로 처리합니다.
- 이 반복적인 과정을 통해 캐시의 정보를 빠른 가중치(fast weights) 에 통합(압축)합니다.
- 빠른 가중치는 상태 공간 모델(SSM)과 같은 순환 신경망(RNN) 계열의 구성 요소로 구현되어, 모델의 '기억' 역할을 수행합니다.
- 기억 통합이 끝나면 KV 캐시는 비워지고, 모델은 다시 각성 상태로 돌아가 새로운 정보를 처리할 준비를 합니다.
핵심 수식
수면 중 빠른 가중치 의 업데이트 과정은 다음과 같이 표현할 수 있습니다. 기존 빠른 가중치를 , KV 캐시의 내용을 라고 할 때, 번의 순환 패스를 통한 업데이트는 다음과 같습니다.
여기서 는 캐시 전체에 대해 한 번의 순환 패스를 수행하여 빠른 가중치를 업데이트하는 함수를 의미합니다. 은 이 함수를 번 재귀적으로 적용하는 것을 나타냅니다. 이 전체 과정은 미분 가능하도록 설계되어, 모델이 역전파를 통해 가장 효율적인 기억 통합 방법을 스스로 학습할 수 있습니다.
실험 설정
수면 메커니즘의 효과를 검증하기 위해, 매우 긴 문맥에서의 추론 능력을 요구하는 까다로운 과제들을 사용했습니다.
- Cellular Automaton Task: 간단한 규칙을 수만 번 반복 적용하여 특정 패턴을 생성해야 하는 과제. 규칙을 정확히 학습하고 장기간 기억하는 능력을 평가합니다.
- Depo Task: 여러 문서에 흩어져 있는 정보 조각들을 조합해야 답을 찾을 수 있는 다중 홉 질의응답 과제. 정보 연결 및 통합 능력을 평가합니다.
- GSM-Infinite Task: 매우 긴 문맥의 수학 응용 문제를 푸는 과제. 장문 속에서 핵심 수치와 논리를 추출하여 계산하는 능력을 평가합니다.
비교 모델로는 표준 트랜스포머와 Transformer-XL과 같은 메모리 기반 모델을 사용했으며, 정확도와 추론 성공률을 주요 지표로 삼았습니다.
실험 결과 분석
실험 결과, 수면 메커니즘을 도입한 모델이 모든 과제에서 기존 모델들을 큰 차이로 능가했습니다.
(실제 논문의 그래프를 설명하는 텍스트) 수면 중 순환 패스 횟수()를 늘릴수록 모델의 성능이 비약적으로 향상되는 경향이 뚜렷하게 나타났습니다. 예를 들어, Cellular Automaton 과제에서 일 때는 성능이 낮았지만, 을 16, 32로 늘리자 정확도가 거의 100%에 수렴했습니다. 이는 **반복적인 연산(수면의 깊이)**이 모델이 복잡한 규칙을 내재화하고 장기 의존성을 파악하는 데 결정적인 역할을 한다는 것을 시사합니다.
| 과제 | 주요 발견 |
|---|---|
| Cellular Automaton | 수면 패스 횟수() 증가에 따라 성능이 극적으로 향상. 깊은 수면이 규칙 내재화에 필수적임을 보임. |
| Depo Task | 흩어진 정보를 통합하는 능력에서 기존 메모리 모델 대비 월등한 성능을 기록. |
| GSM-Infinite | 수만 토큰에 달하는 긴 문제 상황에서도 핵심 정보를 놓치지 않고 정확한 수학적 추론을 수행. |
Ablation study(제거 연구)를 통해 수면 메커니즘의 각 요소가 성능에 기여함을 확인했으며, 특히 다중 패스의 중요성이 다시 한번 입증되었습니다.
비판적 평가
이 연구는 LLM의 문맥 한계를 극복할 독창적인 방법을 제시했지만, 몇 가지 한계점도 존재합니다.
- 학습 비용 및 안정성: 수면 중 번의 깊은 순방향 및 역방향 패스는 상당한 계산 비용을 요구하며, 학습 과정을 불안정하게 만들 수 있습니다. (e.g., 그래디언트 소실/폭주 문제)
- 수면 주기의 트레이드오프: 각성 상태의 길이(KV 캐시 크기)와 수면의 빈도/깊이() 사이에는 트레이드오프가 존재합니다. 최적의 주기를 찾는 것은 특정 과제에 따라 달라질 수 있는 하이퍼파라미터 튜닝 문제입니다.
- 추론 시 지연: 각성 상태에서의 추론은 빠르지만, 주기적으로 발생하는 '수면' 단계는 실시간 응답성을 요구하는 애플리케이션에서 지연(latency)을 유발할 수 있습니다.
향후 연구 방향
수면 메커니즘은 다양한 분야로 확장될 잠재력이 큽니다.
- 멀티모달 모델 적용: 긴 비디오나 오디오 스트림을 처리하는 멀티모달 모델에 적용하여 시청각 정보의 장기적 맥락을 이해하도록 할 수 있습니다.
- 에이전트 및 평생 학습: 자율 에이전트가 장기간의 경험을 통합하고 새로운 기술을 학습하는 평생 학습(lifelong learning) 시나리오에 활용될 수 있습니다.
- 학습 효율화: 수면 과정의 계산 비용을 줄이고 안정성을 높이는 알고리즘 연구가 필요합니다.
실무 적용 가이드
수면 메커니즘을 실제 서비스에 도입할 경우 다음 사항을 고려해야 합니다.
- 애플리케이션 특성 분석: 실시간 상호작용이 중요한 챗봇이라면 수면 주기를 짧고 얕게 가져가고, 방대한 문서를 분석하는 작업이라면 길고 깊은 수면을 허용하는 등 서비스의 요구사항에 맞게 수면 전략을 설계해야 합니다.
- 구현 최적화: 수면 단계의 계산 부하를 줄이기 위해 학습 시 그래디언트 체크포인팅(gradient checkpointing)과 같은 메모리 최적화 기법을 적용하고, 추론 시에는 하드웨어 가속을 최대한 활용해야 합니다.
- 점진적 도입: 기존 트랜스포머 모델에 수면 모듈을 추가하는 형태로 점진적으로 도입하여 안정성과 성능을 검증하는 것이 바람직합니다.
결론
"Language Models Need Sleep"은 LLM이 고정된 문맥 창의 제약을 넘어, 사실상 무한한 길이의 정보를 처리할 수 있는 혁신적인 길을 열었습니다. 빠른 실시간 반응(각성)과 깊이 있는 연산을 통한 기억 통합(수면)이라는 두 가지 상태를 분리하고 주기적으로 전환함으로써, 모델의 효율성과 추론 능력이라는 두 마리 토끼를 모두 잡았습니다. 이 연구는 앞으로 LLM이 더욱 복잡하고 장기적인 과제를 해결하는 데 중요한 기반이 될 것입니다.

![[논문 리뷰] Language Models Need Sleep](/assets/images/blog/20260526-paper-2605-26099-language-models-need-sleep.jpg)