[논문 리뷰] Language Models are Practically Injective, and Therefore Invertible

TL;DR

최신 연구는 대규모 언어 모델(LLM)에서 서로 다른 입력이 동일한 내부 상태(hidden state)를 만들 확률이 수학적으로 0에 가깝다는 것을 증명했습니다. 이 연구는 트랜스포머 모델의 **단사성(injectivity)**을 수학적으로 보이고, **SIPIT(Successive Input-token Prediction via Iterative Targeting)**이라는 알고리즘을 통해 모델의 숨겨진 상태로부터 원본 입력을 100% 정확하게 복원함으로써 **가역성(infertibility)**을 실험적으로 입증합니다. 이는 모델의 내부 표현이 입력 정보를 완벽하게 보존함을 의미하며, 모델 해석 가능성과 보안 측면에서 중요한 시사점을 제공합니다.

연구 배경 및 동기

대규모 언어 모델(LLM)은 자연어 처리 분야에서 혁신을 이끌고 있지만, 그 내부 동작은 여전히 '블랙박스'로 여겨집니다. 특히, "서로 다른 입력이 동일한 내부 표현으로 압축될 수 있는가?"라는 질문은 모델의 안정성과 신뢰성에 직접적인 영향을 미칩니다. 만약 이러한 '충돌(collision)'이 발생한다면, 모델은 입력 간의 미세한 차이를 구분하지 못하게 되어 성능 저하로 이어질 수 있습니다. 기존 연구는 주로 성능 향상에 집중하여, 모델 내부 표현의 고유성과 정보 보존에 대한 근본적인 분석은 부족했습니다. 이 연구는 트랜스포머의 수학적 구조를 분석하여 이러한 '충돌' 가능성을 정면으로 다룹니다.

연구	주요 기여	본 연구와의 차별점
Vaswani et al. (2017)	어텐션 메커니즘 기반의 트랜스포머 아키텍처 제안	모델의 성능과 효율성에 집중, 내부 표현의 고유성 분석은 미포함
Devlin et al. (2018)	BERT를 통해 양방향 사전 학습의 효과 입증	모델의 문맥 이해 능력 향상에 집중, 단사성/가역성 분석 미흡
Brown et al. (2020)	GPT-3를 통해 대규모 모델의 few-shot 학습 능력 증명	모델 스케일업의 효과에 집중, 수학적 특성 증명은 없음
본 연구	단사성과 가역성을 수학적으로 증명하고 실험적으로 입증	트랜스포머의 근본적인 정보 보존 능력을 수학적, 실험적으로 규명

핵심 기여

트랜스포머의 단사성 증명: 트랜스포머를 구성하는 모든 요소(어텐션, MLP, 레이어 정규화 등)가 실해석적(real-analytic) 함수임을 보이고, 이들의 합성인 트랜스포머 전체 함수 역시 실해석적임을 증명했습니다. 이를 통해 서로 다른 입력이 동일한 출력으로 매핑될 확률이 '측도 0(measure zero)', 즉 거의 없음을 수학적으로 밝혔습니다.
SIPIT 알고리즘 개발: 모델의 최종 은닉 상태(final hidden state)만으로 원본 입력 토큰 시퀀스를 완벽하게 복원하는 SIPIT 알고리즘을 제안하여 모델의 가역성을 실험적으로 입증했습니다.
광범위한 실험적 검증: GPT-2, Llama 2, Pythia 등 다양한 모델과 데이터셋을 대상으로 수백만 개의 입력 쌍에 대한 충돌 실험을 수행하여, 단 한 건의 충돌도 발생하지 않음을 실증적으로 확인했습니다.

제안 방법론

1. 수학적 증명: 실해석적 함수와 단사성

이 연구의 핵심은 트랜스포머 모델 $f$ 가 **실해석적 함수(real-analytic function)**라는 것을 증명한 데 있습니다. 실해석적 함수는 무한히 미분 가능하고, 모든 지점에서 테일러 급수로 표현할 수 있는 '매우 부드러운' 함수입니다.

f(x) = \sum_{n=0}^{\infty} \frac{f^{(n)}(a)}{n!} (x-a)^n

트랜스포머의 주요 구성 요소인 어텐션, GeLU 활성화 함수, 레이어 정규화 등은 모두 실해석적 함수입니다. 그리고 실해석적 함수들을 합성한 결과 역시 실해석적입니다.

수학적으로, 정의역보다 공역의 차원이 크거나 같은 비상수 실해석적 함수 $f: \mathbb{R}^n \to \mathbb{R}^m$ ( $n \le m$ )는 **거의 모든 곳에서 단사(injective almost everywhere)**입니다. 이는 $f(x_1) = f(x_2)$ 를 만족하는 $x_1 \neq x_2$ 인 점들의 집합이 '측도 0'임을 의미합니다. 쉽게 말해, 무작위로 두 개의 다른 입력을 골랐을 때 출력이 같아질 확률이 0이라는 뜻입니다.

2. 실험적 검증: SIPIT 알고리즘

수학적 증명을 뒷받침하기 위해, 연구팀은 모델의 가역성을 직접 보여주는 SIPIT 알고리즘을 제안했습니다. 이 알고리즘은 모델의 최종 은닉 상태로부터 원본 입력 토큰을 역으로 추적합니다.

SIPIT 알고리즘 동작 방식:

목표 설정: 복원하고자 하는 원본 입력에 대한 최종 은닉 상태 $H_{target}$ 을 확보합니다.
마지막 토큰 추론: 입력 시퀀스의 마지막 토큰 $t_L$ 을 찾기 위해, 어휘사전(vocabulary)의 모든 토큰 $v$ 를 후보로 테스트합니다. 임의의 접두사(prefix) 뒤에 후보 토큰 $v$ 를 붙여 모델에 입력하고, 결과로 나온 은닉 상태가 $H_{target}$ 의 마지막 토큰 상태와 가장 가까운 $v$ 를 $t_L$ 로 선택합니다.
역방향 반복: 트랜스포머의 마지막 레이어부터 첫 레이어까지 역으로 계산을 수행하며, 각 레이어의 연산을 거슬러 올라가 이전 레이어의 은닉 상태를 복원합니다. 이 과정을 반복하여 $t_{L-1}, t_{L-2}, \dots, t_1$ 을 순차적으로 찾아냅니다.

아래는 SIPIT 알고리즘의 핵심 로직을 나타낸 의사코드입니다.

def SIPIT_reconstruction(model, target_hidden_state):
    """
    주어진 최종 은닉 상태로부터 원본 입력을 복원합니다.
    """
    num_layers = model.config.num_hidden_layers
    vocab_size = model.config.vocab_size
    sequence_length = target_hidden_state.shape[1]
    
    reconstructed_tokens = []
    
    # 마지막 토큰부터 첫 토큰까지 역순으로 복원
    for i in range(sequence_length - 1, -1, -1):
        # 현재 단계의 목표 은닉 상태 (이전 단계에서 복원됨)
        current_target = get_target_for_step(i)
        
        best_token_id = -1
        min_error = float('inf')
        
        # 어휘사전 전체를 탐색하여 최적의 토큰을 찾음
        for token_id in range(vocab_size):
            # 현재까지 복원된 토큰과 후보 토큰으로 모델 순전파
            input_ids = build_input_with_candidate(reconstructed_tokens, token_id)
            output_hidden_state = model(input_ids).hidden_states[num_layers]
            
            # 목표 상태와의 오차(L2 거리) 계산
            error = torch.norm(output_hidden_state[:, i, :] - current_target)
            
            if error < min_error:
                min_error = error
                best_token_id = token_id
        
        reconstructed_tokens.insert(0, best_token_id)
        # 다음 단계를 위해 이전 레이어의 은닉 상태를 복원 (모델의 역함수 계산)
        update_target_for_next_step(current_target)

    return reconstructed_tokens

실험 설정

연구팀은 다양한 크기와 아키텍처의 모델을 대상으로 광범위한 실험을 진행했습니다.

모델	모델군	테스트된 프롬프트 쌍	충돌 탐지 기준
GPT-2	Small, Medium, Large, XL	100만 개 이상	최종 은닉 상태 간 L2 거리 < $10^{-5}$
Llama 2	7B	100만 개 이상	최종 은닉 상태 간 L2 거리 < $10^{-5}$
Pythia	70M, 160M, 410M, 1B	100만 개 이상	최종 은닉 상태 간 L2 거리 < $10^{-5}$

실험 결과 분석

실험 결과는 이론적 예측과 완벽하게 일치했습니다.

충돌 없음: 테스트된 수백만 개의 프롬프트 쌍 중 단 한 건의 충돌도 발견되지 않았습니다. 이는 트랜스포머가 실제 환경에서도 사실상 단사적으로 동작함을 강력하게 뒷받침합니다.
완벽한 복원: SIPIT 알고리즘은 모든 실험에서 100%의 정확도로 원본 입력 텍스트를 완벽하게 복원했습니다. 이는 최종 은닉 상태가 입력 시퀀스의 모든 정보를 손실 없이 보존하고 있음을 의미합니다.

모델	충돌 발생 여부	SIPIT 복원 정확도
GPT-2 (모든 크기)	없음	100%
Llama 2 (7B)	없음	100%
Pythia (모든 크기)	없음	100%

이 결과는 모델의 최종 은닉 상태가 입력에 대한 고유한 '지문(fingerprint)' 역할을 할 수 있음을 시사합니다.

비판적 평가

이 연구는 트랜스포머의 근본적인 특성을 밝혀냈다는 점에서 매우 중요하지만, 몇 가지 고려할 점이 있습니다.

유한 정밀도의 한계: 수학적 증명은 무한 정밀도의 실수(real number)를 가정합니다. 하지만 실제 컴퓨터에서는 float32나 bfloat16과 같은 유한 정밀도 부동소수점 연산을 사용하며, 최근에는 int8 양자화도 널리 쓰입니다. 이러한 정밀도 손실이 단사성을 약화시킬 가능성에 대한 추가 연구가 필요합니다.
'근접 충돌'의 가능성: 이 연구는 정확한 충돌이 없음을 보였습니다. 하지만 의미적으로 완전히 다른 두 입력이 매우 유사한 은닉 상태를 생성하는 '근접 충돌(near collision)'이 발생할 수 있습니다. 이는 모델의 강건성(robustness) 측면에서 여전히 문제가 될 수 있습니다.
알고리즘의 계산 비용: SIPIT 알고리즘은 토큰을 하나 찾을 때마다 어휘사전 전체를 탐색해야 하므로 계산 비용이 매우 높습니다. 따라서 실시간 적용에는 한계가 있으며, 보다 효율적인 복원 방법이 필요합니다.

향후 연구 방향

양자화 모델의 단사성 분석: int8 등 저정밀도로 양자화된 모델에서도 단사성이 유지되는지, 혹은 어느 수준까지 약화되는지에 대한 분석이 필요합니다.
근접 충돌과 강건성 연구: 은닉 상태 공간에서의 거리와 입력의 의미론적 거리 사이의 관계를 분석하여, 모델의 강건성을 해칠 수 있는 근접 충돌 문제를 탐구할 수 있습니다.
가역성의 응용: 모델의 가역성을 활용한 새로운 기술, 예를 들어 모델의 특정 행동을 유발한 입력을 정확히 추적하는 디버깅 툴, 또는 모델의 출처를 증명하는 워터마킹 기법 개발이 가능할 것입니다.

실무 적용 가이드

이 연구 결과는 실무에 두 가지 상반된 시사점을 줍니다.

긍정적 측면 (해석 가능성): 모델의 내부 상태만으로 입력을 복원할 수 있으므로, 모델의 특정 예측이 어떤 입력에서 비롯되었는지 정확히 추적하고 디버깅하는 데 활용할 수 있습니다. 이는 모델의 투명성을 높이는 강력한 도구가 될 수 있습니다.
부정적 측면 (보안 및 프라이버시): 만약 모델의 중간 또는 최종 은닉 상태가 외부에 유출된다면(예: 공유 GPU 메모리 접근, API 응답에 포함 등), 공격자가 이를 이용해 사용자의 민감한 원본 입력을 완벽하게 복원할 수 있습니다. 이는 심각한 개인정보 유출로 이어질 수 있으므로, 모델의 내부 상태를 외부로부터 안전하게 보호하는 것이 매우 중요합니다.

결론

이 연구는 "서로 다른 입력은 서로 다른 내부 표현을 만든다"는 트랜스포머의 중요한 가정을 수학적, 실험적으로 증명했습니다. 트랜스포머가 사실상 단사적이고 가역적이라는 사실은 모델의 정보 처리 방식에 대한 깊은 이해를 제공하며, 해석 가능성 연구에 새로운 길을 열어줍니다. 동시에, 이는 모델의 내부 상태 유출이 곧 입력 데이터 유출로 이어질 수 있다는 중요한 보안 경고를 던져주며, 안전한 AI 시스템 설계에 반드시 고려해야 할 요소임을 상기시킵니다.

참고 자료

논문 원문: Souti, N., et al. (2024). Language Models are Practically Injective, and Therefore Invertible. arXiv:2405.01828

[논문 리뷰] Language Models are Injective and Hence Invertible