[논문 리뷰] LT2: Linear-Time Looped Transformers
TL;DR
트랜스포머는 자연어 처리의 혁신을 이끌었지만, 시퀀스 길이가 길어질수록 계산량이 제곱으로 증가하는() 이차 복잡도 문제가 있습니다. LT2(Linear-Time Looped Transformers)는 이 문제를 해결하기 위해 제안되었습니다. LT2는 동일한 트랜스포머 레이어를 반복 사용하는 '루프(Loop)' 구조로 파라미터 효율성을 높이고, 계산량이 많은 소프트맥스 어텐션을 선형 시간 복잡도()를 갖는 어텐션으로 대체합니다. 이를 통해 긴 시퀀스를 매우 효율적으로 처리할 수 있습니다. 다양한 변형 모델(선형, 희소, 하이브리드)을 통해 성능과 효율성의 균형을 맞추었으며, 실험 결과 기존 모델 대비 긴 컨텍스트 처리 능력과 속도에서 월등한 성능을 보였습니다. 이는 초장문 처리와 온디바이스 AI의 새로운 가능성을 엽니다.
연구 배경 및 동기
트랜스포머 아키텍처는 자연어 처리(NLP) 분야의 표준이 되었지만, 핵심적인 한계를 안고 있습니다. 바로 어텐션 메커니즘의 이차 시간 복잡도() 문제입니다. 여기서 $N$은 시퀀스 길이, $d$는 모델의 차원입니다. 이 문제는 시퀀스 내 모든 토큰 쌍에 대한 어텐션 점수를 계산하기 때문에 발생하며, 시퀀스 길이가 수천을 넘어가면 메모리 사용량과 계산 시간이 기하급수적으로 증가합니다. 이로 인해 긴 문서 요약, 장편 소설 분석, 대규모 코드베이스 이해와 같은 초장문(very long context) 태스크에는 트랜스포머를 적용하기 어렵습니다.
이 문제를 해결하기 위해 '루프 트랜스포머(Looped Transformer)'가 제안되었지만, 파라미터를 재사용하여 모델 크기를 줄였을 뿐, 여전히 내부의 어텐션 계산은 $O(N^2)$ 복잡도에 묶여 있었습니다. LT2는 바로 이 지점에서 출발합니다. 루프 트랜스포머의 파라미터 효율성은 그대로 유지하면서, 어텐션 계산 자체를 선형 시간 복잡도로 혁신하여 긴 시퀀스 처리의 병목을 근본적으로 해결하고자 합니다.
관련 연구
트랜스포머의 효율성을 높이려는 연구는 크게 두 가지 방향으로 진행되었습니다.
- 희소 어텐션 (Sparse Attention): 모든 토큰을 보는 대신, 일부 중요한 토큰에만 집중합니다.
- Longformer: 로컬 윈도우 어텐션과 일부 글로벌 어텐션을 결합하여 계산량을 줄였습니다.
- Reformer: LSH(Locality-Sensitive Hashing)를 사용하여 유사한 토큰끼리만 어텐션을 계산합니다.
- 선형 근사 어텐션 (Linearized Attention): 소프트맥스 함수를 커널 함수로 근사하여 계산 순서를 변경, 복잡도를 낮춥니다.
- Linformer: 저차원 행렬로 투영(projection)하여 어텐션 행렬의 크기를 줄입니다.
- Performer: FAVOR+ 메커니즘을 통해 소프트맥스 어텐션을 수학적으로 근사합니다.
LT2는 이러한 연구들과 달리, 구조적 변경(루프)과 선형 시간 어텐션을 직접 결합하여 파라미터 효율성과 계산 효율성을 동시에 극대화한다는 점에서 차별점을 가집니다.
핵심 기여
- 선형 시간 어텐션 도입: 기존 이차 복잡도의 소프트맥스 어텐션을 커널 기반의 선형 시간 근사 어텐션으로 대체하여, 시퀀스 길이에 따른 계산량 증가를 획기적으로 줄였습니다.
- 루프 구조와의 시너지: 동일한 트랜스포머 레이어를 반복 적용하는 루프 구조를 통해, 파라미터 수를 늘리지 않고도 모델의 유효 깊이(effective depth)를 늘려 표현력을 강화했습니다.
- 다양한 하이브리드 모델 제안: 선형 어텐션, 희소 어텐션, 게이트 메커니즘 등을 결합한 여러 하이브리드 모델을 제안하여, 특정 태스크에 맞춰 성능과 효율성의 최적점을 찾을 수 있도록 했습니다.
- 실험적 성능 검증: 긴 시퀀스 처리 벤치마크인 LRA(Long-Range Arena)를 포함한 다양한 실험에서 LT2가 기존 모델들보다 뛰어난 성능과 효율성을 보임을 입증했습니다.
제안 방법론
LT2의 핵심 아이디어는 루프 구조와 선형 시간 어텐션의 결합입니다.
1. 루프 구조: 파라미터 효율성 극대화
표준 트랜스포머는 여러 개의 고유한 레이어를 순차적으로 쌓습니다. 반면, 루프 트랜스포머는 소수의 레이어(또는 단일 레이어)를 여러 번 반복해서 사용합니다.
# 표준 트랜스포머 (Standard Transformer)
# L개의 서로 다른 레이어
def standard_transformer(x, layers):
for layer in layers:
x = layer(x)
return x
# 루프 트랜스포머 (Looped Transformer)
# 1개의 레이어를 N번 반복
def looped_transformer(x, shared_layer, num_loops):
for _ in range(num_loops):
x = shared_layer(x) # 동일한 파라미터를 반복 사용
return x
이 구조는 적은 파라미터로 깊은 모델의 효과를 낼 수 있어 메모리 효율성이 매우 높습니다.
2. 선형 시간 어텐션: 계산 복잡도 해결
표준 어텐션의 병목은 $QK^T$ 행렬 곱셈에서 발생합니다.
여기서 $Q, K \in \mathbb{R}^{N \times d_k}$ 이므로, $QK^T$는 $N \times N$ 크기의 행렬이 되어 $O(N^2)$의 계산량을 유발합니다.
LT2는 커널 함수 $\phi$를 사용하여 소프트맥스를 근사하고, 행렬 곱셈의 순서를 변경합니다.
이렇게 하면 $\phi(K)^T V$를 먼저 계산하게 되는데, 이는 $d_k \times d_v$ 크기의 작은 행렬을 만듭니다. 전체 계산 복잡도는 $O(N \cdot d^2)$로 줄어들어, 시퀀스 길이 $N$에 대해 선형적으로 증가하게 됩니다.
3. 하이브리드 모델: 성능과 효율성의 조화
LT2는 단일 어텐션 방식에만 의존하지 않고, 여러 메커니즘을 결합한 하이브리드 모델을 제안합니다.
- GDN (Gated Linear Attention): 선형 어텐션에 게이트 메커니즘을 추가하여 토큰별 정보 흐름을 동적으로 제어하고 표현력을 높입니다.
- DSA (Dynamic Slicing Attention): 일종의 희소 어텐션으로, 전체 시퀀스를 동적으로 분할하여 중요한 부분에만 집중적으로 어텐션을 적용합니다. 이들을 결합한 LT2-Hybrid 모델은 선형 어텐션의 효율성과 희소 어텐션의 표현력을 모두 활용하여 성능과 속도의 균형을 맞춥니다.
실험 설정
- 데이터셋:
- 언어 모델링: PG-19 (장편 도서), C4 (대규모 웹 텍스트)
- 긴 컨텍스트 처리: Long-Range Arena (LRA) 벤치마크
- 평가 지표: Perplexity (PPL), 정확도(Accuracy), 디코딩 속도, 메모리 사용량
- 모델 구성: 물리적 레이어 스택을 4번 반복(loop)하여 유효 깊이를 4배로 늘리는 설정을 기본으로 사용했으며, LT2-Linear, LT2-Sparse, LT2-Hybrid 등 다양한 변형을 실험했습니다.
- 옵티마이저: AdamW
실험 결과 분석
LT2는 다양한 벤치마크에서 기존 LT 및 표준 트랜스포머 모델 대비 뛰어난 성능과 효율성을 입증했습니다.
| 항목 | 결과 요약 |
|---|---|
| 언어 모델링 (PPL) | PG-19와 C4 데이터셋에서 기존 루프 트랜스포머(LT)보다 낮은 Perplexity를 달성하며 우수한 모델링 능력을 보였습니다. |
| 긴 컨텍스트 처리 (LRA) | LRA 벤치마크의 모든 태스크에서 기존 SOTA 모델들을 압도하는 성능을 기록하며, 초장문 이해 능력을 입증했습니다. |
| 디코딩 속도 | 시퀀스 길이가 128k 토큰일 때, 표준 트랜스포머 대비 최대 20배 빠른 디코딩 속도를 기록했습니다. |
| 메모리 효율성 | 메모리 사용량이 시퀀스 길이에 따라 선형적으로 증가하여, 기존 모델이 처리 불가능한 길이의 시퀀스도 안정적으로 처리했습니다. |
특히 긴 시퀀스에서의 속도와 메모리 효율성 개선이 두드러져, LT2의 핵심 목표가 성공적으로 달성되었음을 보여줍니다.
비판적 평가
-
강점:
- 확장성: 선형 시간 복잡도 덕분에 이론적으로 무한한 길이의 시퀀스를 처리할 수 있습니다.
- 효율성: 루프 구조와 선형 어텐션의 결합으로 파라미터, 계산량, 메모리 사용량 측면에서 매우 효율적입니다.
- 유연성: 하이브리드 아키텍처를 통해 특정 태스크의 요구사항에 맞춰 성능과 효율성을 조절할 수 있습니다.
-
한계점:
- 근사의 한계: 선형 어텐션은 커널 함수를 사용한 근사치이므로, 이론적으로 소프트맥스 어텐션의 모든 표현력을 담아내지 못할 수 있습니다. 이는 특정 태스크에서 미세한 성능 저하로 이어질 수 있습니다.
- 설계 복잡성: 하이브리드 모델은 다양한 메커니즘을 결합하므로, 최적의 조합을 찾기 위한 설계 및 하이퍼파라미터 튜닝이 복잡할 수 있습니다.
- 하이퍼파라미터 민감성: 루프 횟수, 게이트 메커니즘의 종류 등 새로운 하이퍼파라미터에 모델 성능이 민감하게 반응할 수 있습니다.
-
재현성: 논문 저자들은 코드베이스와 사전 학습된 모델 체크포인트를 공개하여 누구나 LT2의 성능을 직접 확인하고 연구에 활용할 수 있도록 했습니다.
향후 연구 방향
LT2는 초장문 처리와 경량 AI 모델의 가능성을 열었습니다. 이를 기반으로 다음과 같은 분야로 확장될 수 있습니다.
- 초장문 멀티모달 처리: 매우 긴 비디오나 오디오 신호를 텍스트와 함께 처리하는 멀티모달 모델에 적용할 수 있습니다.
- 대규모 코드 생성 및 분석: 전체 코드베이스를 컨텍스트로 이해하고 버그를 수정하거나 새로운 코드를 생성하는 AI 개발 도구에 활용될 수 있습니다.
- 온디바이스 AI 및 엣지 컴퓨팅: 적은 메모리와 계산 자원으로도 강력한 성능을 내므로, 스마트폰이나 IoT 기기에서 직접 구동되는 언어 모델 개발에 기여할 수 있습니다.
실무 적용 가이드
LT2를 실무에 도입할 때 다음 사항을 고려할 수 있습니다.
- 언제 사용해야 하는가?: 처리해야 할 텍스트의 길이가 8,192 토큰을 초과하는 경우 (예: 법률/의료 문서 분석, 전체 소스 코드 리뷰, 장시간 회의록 요약 등) LT2는 기존 트랜스포머보다 훨씬 나은 선택입니다.
- 어떤 모델을 선택할 것인가?:
- 최고 속도와 최소 메모리가 필요하다면
LT2-Linear모델을 선택합니다. - 성능이 가장 중요하다면, 약간의 오버헤드를 감수하고
LT2-Hybrid모델을 선택하는 것이 좋습니다.
- 최고 속도와 최소 메모리가 필요하다면
- 주의할 점: 선형 어텐션의 근사로 인해 발생하는 미세한 정보 손실을 최소화하기 위해, 태스크에 맞는 커널 함수 선택과 하이퍼파라미터 튜닝이 중요할 수 있습니다.
결론
LT2는 루프 트랜스포머의 파라미터 효율성과 선형 시간 어텐션의 계산 효율성을 성공적으로 결합하여, 기존 언어 모델의 핵심적인 한계였던 이차 복잡도 문제를 극복하는 중요한 이정표를 제시했습니다. 이는 단순히 긴 시퀀스를 처리하는 것을 넘어, 한정된 자원 내에서 더 강력한 AI를 구현하는 '지속 가능한 AI'의 방향과도 일치합니다. LT2는 향후 차세대 언어 모델의 기반이 될 강력한 잠재력을 품고 있습니다.
참고 자료
- 논문 링크: [arXiv (링크 추가 예정)]
- 코드 저장소: [GitHub Repository (링크 추가 예정)]
- 관련 자료: [LT2 논문 발표 슬라이드 (링크 추가 예정)]

![[논문 리뷰] LT2: Linear-Time Looped Transformers](/assets/images/blog/20260603-paper-2605-20670-lt2-linear-time-looped-transfo.jpg)