[논문 리뷰] When Models Manipulate Manifolds: The Geometry of a Counting Task

Language models can perceive visual properties of text despite receiving only sequences of tokens-we mechanistically investigate how Claude 3.5 Haiku accomplishes one such task: linebreaking in fixed-...

[논문 리뷰] When Models Manipulate Manifolds: The Geometry of a Counting Task

[논문 리뷰] When Models Manipulate Manifolds: The Geometry of a Counting Task

TL;DR

이 논문은 대형 언어 모델(LLM)이 토큰 시퀀스만으로 텍스트의 시각적 속성을 어떻게 인식하는지, 특히 '고정 폭 텍스트의 줄 바꿈' 과제를 중심으로 그 내부 메커니즘을 심층적으로 분석합니다. 연구진은 Claude 3.5 Haiku 모델이 문자 수를 세기 위해 저차원 공간에 내장된 **휘어진 기하학적 구조, 즉 매니폴드(Manifold)**를 사용함을 발견했습니다. 모델은 (1) 토큰 길이를 누적하여 '문자 수 매니폴드'를 생성하고, (2) 어텐션 헤드가 이 매니폴드를 회전시켜 줄 경계까지의 거리를 추정하며, (3) 최종적으로 '남은 공간'과 '다음 단어 길이'라는 두 정보를 직교(orthogonal)하는 축에 배치하여 간단한 선형 결정 경계로 줄 바꿈 여부를 판단하는 정교한 3단계 알고리즘을 학습했음을 밝혀냈습니다. 연구진은 **인과적 개입(Causal Intervention)**을 통해 이 가설을 검증했으며, 모델의 계산 메커니즘을 교란하는 '시각적 착시(Visual Illusions)' 현상까지 발견했습니다. 본 연구는 LLM 초기 레이어의 풍부한 감각 처리 능력과 어텐션 메커니즘의 복잡한 알고리즘을 규명하고, 특징 기반 해석과 기하학적 관점을 통합하는 새로운 해석 가능성의 방향을 제시합니다.

연구 배경 및 동기

대형 언어 모델(LLM)은 최근 몇 년간 텍스트 생성, 번역, 요약 등 다양한 자연어 처리 과제에서 인간에 필적하는 성능을 보여주며 기술적 특이점을 향한 기대를 높이고 있습니다. 하지만 이러한 모델들의 뛰어난 성능에도 불구하고, 그 내부 작동 원리는 여전히 '블랙박스'로 남아있는 경우가 많습니다. 우리는 모델이 '무엇을' 할 수 있는지는 알지만, '어떻게' 그 일을 해내는지에 대한 이해는 부족합니다. 이러한 이해의 부족은 모델의 신뢰성, 안전성, 그리고 예측 불가능한 실패 모드에 대한 우려를 낳습니다.

이러한 문제를 해결하기 위해 기계적 해석 가능성(Mechanistic Interpretability) 분야가 등장했습니다. 이 분야의 목표는 신경망을 구성하는 수십억 개의 파라미터와 활성화 값들을 역공학(reverse-engineering)하여, 모델이 특정 과제를 해결하기 위해 학습한 구체적인 알고리즘을 찾아내는 것입니다. 이는 마치 뇌 과학자들이 뉴런의 발화를 관찰하여 뇌의 정보 처리 방식을 이해하려는 노력과 유사합니다.

특히 흥미로운 미스터리 중 하나는 LLM이 텍스트의 시각적 또는 공간적 속성을 처리하는 능력입니다. LLM은 1차원의 토큰 시퀀스만을 입력으로 받음에도 불구하고, 코드 블록의 들여쓰기를 맞추거나, ASCII 아트를 생성하거나, 표의 형식을 유지하는 등 2차원적인 구조를 이해하는 것처럼 보입니다. 이 능력의 근원은 무엇일까요?

본 연구는 이 광범위한 질문에 대한 답을 찾기 위해 가장 기본적이면서도 계산적인 작업인 **고정 폭 텍스트에서의 줄 바꿈(Linebreaking)**에 집중합니다. 줄 바꿈은 단순히 문법이나 의미에 따라 결정되는 것이 아니라, 현재 줄에 쓰인 '문자 수'를 정확히 세고, 정해진 '줄 너비'와 비교하여 다음 단어가 들어갈 공간이 있는지를 판단해야 하는 명백한 계산(computation) 과제입니다. 모델은 어떻게 덧셈과 뺄셈과 같은 산술 연산을 수행하는 카운터를 내부에 구현하는 것일까요?

기존의 해석 가능성 연구들은 주로 모델이 특정 개념(예: '긍정적 감정')을 어떻게 표현하는지에 초점을 맞추거나, 특정 뉴런 또는 어텐션 헤드의 역할을 분석하는 데 머물렀습니다. 하지만 입력부터 출력까지 이어지는 전체 알고리즘을 완전하게 설명하려는 시도는 드물었습니다. 본 연구는 이 간극을 메우고자 합니다. 연구진은 Claude 3.5 Haiku 모델이 줄 바꿈을 결정하기 위해 학습한 전체 알고리즘을 기하학적 관점에서 완벽하게 해부하고, 인과적 실험을 통해 그 타당성을 입증하는 것을 목표로 삼았습니다. 이를 통해 우리는 LLM이 단순한 패턴 매칭 기계를 넘어, 내부에 정교하고 해석 가능한 계산 구조를 스스로 구축한다는 놀라운 사실을 엿볼 수 있습니다.

관련 연구

본 연구는 기계적 해석 가능성 분야의 여러 선행 연구들의 기반 위에 서 있으며, 특히 회로 분석, 희소 코딩, 기하학적 분석의 아이디어를 통합하고 발전시켰습니다.

  1. 회로 분석 (Circuit Analysis): OpenAI와 Anthropic을 중심으로 발전한 이 연구 흐름은 모델의 특정 행동을 담당하는 뉴런과 어텐션 헤드의 연결망, 즉 '회로'를 찾는 데 집중합니다. 대표적으로 Induction Heads (Elhage et al., 2021)는 모델이 이전에 나타난 패턴을 복사하는 메커니즘을 설명하는 핵심 회로를 발견했습니다. 또한, Othello-GPT (Li et al., 2022) 연구는 오델로 게임을 학습한 모델의 내부 상태를 분석하여 게임 보드의 표현을 찾아냈습니다. 이러한 연구들은 모델의 개별 구성 요소가 어떻게 협력하는지 보여주었지만, 본 연구처럼 연속적인 값을 다루는 기하학적 알고리즘을 심도 있게 다루지는 않았습니다.

  2. 희소 오토인코더 (Sparse Autoencoders, SAEs): 모델의 고차원 활성화 벡터(activation vector)는 수많은 개념이 중첩(superposition)되어 있어 해석이 어렵습니다. SAEs (Bricken et al., 2023)는 이러한 밀집된 표현을 수천 개의 해석 가능한 '특징(feature)'으로 분해하는 강력한 도구입니다. 예를 들어, "프랑스 파리에 관련된 텍스트에서 활성화되는 특징"과 같이 의미론적으로 일관된 특징을 추출할 수 있습니다. 본 연구는 SAEs를 사용하여 '문자 수가 10~15 사이일 때 활성화되는 특징'과 같은 계산적 특징들을 추출하고, 이들이 매니폴드를 구성하는 기본 단위임을 밝혀냈습니다.

  3. 수학적 능력 탐구 (Mathematical Reasoning in LLMs): Nanda et al. (2023)는 작은 트랜스포머가 **모듈러 덧셈(modular arithmetic)**을 어떻게 학습하는지 분석하여, 이산적인 수학 연산을 위해 푸리에 변환(Fourier transform)과 유사한 메커니즘을 사용함을 보였습니다. 이 연구는 모델이 수학적 알고리즘을 학습할 수 있음을 보여준 중요한 선례입니다. 본 연구는 여기서 더 나아가, 이산적인 연산이 아닌 '문자 수'라는 연속적인 값을 모델이 어떻게 기하학적으로 표현하고 조작하는지를 다룹니다.

  4. 프로빙 (Probing): 선형 프로브(linear probe)는 모델의 특정 레이어 활성화가 특정 정보(예: 품사, 구문 트리 깊이)를 얼마나 잘 인코딩하는지 측정하는 고전적인 해석 방법입니다. 본 연구에서도 프로빙을 사용하여 각 레이어가 문자 수 정보를 얼마나 정확하게 표현하는지 측정하고, 레이어가 깊어질수록 표현이 정교해짐을 확인했습니다.

  5. 기하학적 관점의 해석 (Geometric Interpretability): 일부 연구들은 모델의 내부 표현 공간을 기하학적으로 분석하려는 시도를 했습니다. 예를 들어, 단어 임베딩 공간에서 의미적 관계가 벡터 연산으로 표현된다는 점이나, 어텐션 헤드가 벡터 공간을 회전시키는 역할을 한다는 분석이 있었습니다. 본 연구는 이러한 기하학적 관점을 극단으로 밀어붙여, 전체 계산 과정이 연속적인 매니폴드의 생성, 변환, 비교라는 일련의 기하학적 연산으로 이루어져 있음을 증명했습니다.

연구 분야 주요 연구 본 논문과의 차별점
회로 분석 Induction Heads, Othello-GPT 개별 회로를 넘어, 여러 회로가 협력하여 구성하는 완전한 다단계 알고리즘을 규명함.
희소 코딩 Sparse Autoencoders 추출된 희소 특징들이 기하학적 매니폴드를 구성하는 기본 단위임을 보이며, 특징과 기하학을 연결함.
수학적 능력 Modular Arithmetic 이산적 연산이 아닌, '문자 수'와 같은 연속적인 스칼라 값을 처리하는 메커니즘을 기하학적으로 설명함.
프로빙 Linear Probing 프로빙을 통해 정보의 존재를 확인하는 것을 넘어, 인과적 개입을 통해 해당 표현이 실제 행동을 유발함을 증명함.
기하학적 해석 Word Embedding Geometry 기하학적 관점을 특정 표현에 국한하지 않고, 계산 과정 전체를 매니폴드의 동적인 변환으로 설명하는 포괄적인 프레임워크를 제시함.

핵심 기여

본 논문은 LLM의 내부 작동 방식에 대한 이해를 한 단계 끌어올리는 다음과 같은 핵심적인 기여를 했습니다.

  1. 완전한 내장 알고리즘의 발견: 모델이 줄 바꿈 과제를 해결하기 위해 학습한 3단계 기하학적 알고리즘(표현 → 감지 → 예측)을 최초로 완벽하게 역공학했습니다. 이는 모델이 단순히 패턴을 암기하는 것이 아니라, 복잡한 계산을 수행하기 위한 구체적이고 해석 가능한 절차를 스스로 구축함을 보여줍니다.

  2. 매니폴드를 통한 연속 값 표현 규명: 모델이 '문자 수'와 같은 연속적인 스칼라 값을 표현하기 위해, 고차원 활성화 공간 내에 존재하는 저차원의 휘어진 **매니폴드(manifold)**를 사용한다는 사실을 밝혔습니다. 이는 마치 뇌의 해마에 있는 장소 세포(place cells)가 동물의 위치를 표현하는 방식과 유사하며, LLM의 내부 데이터 구조에 대한 근본적인 통찰을 제공합니다.

  3. 특징과 기하학의 이중성(Duality) 제시: 희소 오토인코더로 추출한 개별 '특징'들이 매니폴드를 구성하는 이산적인 단위임을 보임으로써, 해석 가능성의 두 가지 주요 관점인 특징 기반 접근법기하학적 접근법을 성공적으로 통합했습니다. 모델의 계산은 개별 특징들의 상호작용으로도, 연속적인 매니폴드의 변환으로도 이해할 수 있습니다.

  4. 강력한 인과적 검증 및 '시각적 착시' 발견: 가설을 검증하기 위해 관찰에만 의존하지 않고, 모델의 내부 활성화를 직접 조작하는 **인과적 개입(causal intervention)**을 수행하여 제안된 메커니즘이 실제 모델의 행동을 제어함을 증명했습니다. 더 나아가, 이 메커니즘의 취약점을 이용하여 의도적으로 오작동을 유발하는 '시각적 착시' 문자열을 발견함으로써, 분석의 타당성을 더욱 공고히 했습니다.

제안 방법론

연구진은 Claude 3.5 Haiku 모델이 줄 바꿈을 예측하기 위해 스스로 학습한 내부 알고리즘을 '매니폴드 조작(Manifold Manipulation)'이라는 기하학적 프레임워크로 설명합니다. 이 알고리즘은 크게 세 단계로 구성됩니다.

핵심 아이디어: 특징과 기하학의 이중성

모델의 계산을 이해하는 두 가지 관점이 존재합니다.

  • 특징 기반 관점: 모델은 수많은 **희소 특징(sparse features)**들로 구성됩니다. 각 특징은 특정 조건(예: "현재 줄의 문자 수가 30~35개")에서만 활성화됩니다. 계산은 이러한 특징들이 서로를 활성화하거나 억제하는 복잡한 상호작용 네트워크로 이해할 수 있습니다.
  • 기하학적 관점: 이러한 희소 특징들은 개별적으로 존재하는 것이 아니라, 고차원 공간 속에서 부드럽게 연결된 저차원의 기하학적 구조, 즉 **매니폴드(manifold)**를 형성합니다. 예를 들어, 모든 '문자 수' 관련 특징들은 하나의 1차원 곡선 위에 순서대로 배열됩니다. 이 관점에서 계산은 어텐션 헤드와 같은 모델 구성 요소가 이러한 매니폴드를 회전, 이동, 정렬시키는 기하학적 변환(geometric transformation) 과정으로 이해됩니다.

본 연구는 이 두 관점을 통합하여, 희소 특징을 매니폴드의 '이산화된' 표현으로 보고, 전체 알고리즘을 매니폴드의 동적인 조작 과정으로 설명합니다.

1단계: 문자 수 표현 (Representing Character Count)

모델은 먼저 현재 줄에 얼마나 많은 문자가 있는지를 계산해야 합니다. 이 정보는 **'문자 수 매니폴드'**라는 1차원 곡선 형태로 모델의 잔차 스트림(residual stream) 내 약 6차원의 하위 공간에 인코딩됩니다.

  • 누적 계산: 모델의 초기 레이어(Layer 0)에 있는 여러 어텐션 헤드들은 이전 줄 바꿈(\n) 토큰을 '기준점(sink)'으로 삼아, 그 이후에 등장하는 토큰들의 길이를 누적적으로 더합니다.
  • 매니폴드 형성: 이 누적된 문자 수 값은 매니폴드 위의 특정 위치에 해당하는 활성화 벡터로 표현됩니다. 예를 들어, 10자는 곡선의 시작점에, 50자는 중간점에, 80자는 끝점에 매핑됩니다.
  • 링잉(Ringing) 현상: 이 매니폴드를 구성하는 특징 벡터들의 코사인 유사도를 시각화하면, 대각선 주변으로 파동이 퍼져나가는 듯한 '링잉' 또는 '리플링' 패턴이 나타납니다. 이는 연속적인 값을 제한된 저차원 공간에 효율적으로 임베딩하려는 과정에서 발생하는 자연스러운 현상이며, 푸리에 급수(Fourier series)를 이용한 저차원 근사와 유사합니다. 연구진은 이 매니폴드의 형성을 설명하기 위해 다음과 같은 간단한 동역학계 토이 모델을 제시합니다.
Fij={1dijwif dij<w (인력)α(1dijw)if dijw (척력)F_{ij} = \begin{cases} 1 - \frac{d_{ij}}{w} & \text{if } d_{ij} < w \text{ (인력)} \\ \alpha (1 - \frac{d_{ij}}{w}) & \text{if } d_{ij} \geq w \text{ (척력)} \end{cases}

여기서 $F_{ij}$는 매니폴드 위의 i번째 특징과 j번째 특징 사이의 힘을 나타냅니다. 두 특징의 인덱스 거리 $d_{ij}$가 특정 너비 $w$보다 가까우면 서로 끌어당기고(인력), 멀면 서로 밀어냅니다(척력, $\alpha < 0$). 이러한 간단한 국소적 상호작용만으로도 실제 모델에서 관찰되는 것과 유사한 원형 매니폴드가 형성될 수 있음을 보여줍니다.

2단계: 줄 경계 감지 (Sensing the Line Boundary)

문자 수를 계산했다면, 이제 줄의 끝에 얼마나 가까워졌는지 알아내야 합니다. 이는 **'경계 헤드(Boundary Heads)'**라고 불리는 특정 어텐션 헤드들이 수행하는 정교한 기하학적 연산을 통해 이루어집니다.

  • 매니폴드 정렬: 이 헤드들은 두 가지 정보를 입력으로 받습니다: (1) 현재 토큰 위치의 '문자 수 매니폴드'와 (2) 이전 줄 바꿈 토큰에 인코딩된 '전체 줄 너비(line width) 매니폴드'.
  • QK 회로의 기하학적 변환: 어텐션 헤드의 QK 회로는 단순히 두 벡터의 유사도를 계산하는 것을 넘어, 입력 공간을 변환하는 선형 연산자로 작동합니다. 구체적으로, 쿼리 가중치 행렬 $W_Q$와 키 가중치 행렬 $W_K$는 '문자 수 매니폴드'를 **회전(twist)**시켜 '줄 너비 매니폴드'에 정렬시킵니다.
AttentionScore(c,k)(WQvc),(WKvk)\text{AttentionScore}(c, k) \approx \langle (W_Q \cdot v_c), (W_K \cdot v_k) \rangle

위 식에서 $v_c$는 현재 문자 수 벡터, $v_k$는 줄 너비 벡터입니다. 어텐션 점수는 $W_Q$$W_K$에 의해 변환된 두 벡터의 내적(코사인 유사도)에 비례합니다. 경계 헤드는 이 변환을 통해, 현재 문자 수가 전체 줄 너비에서 특정 값(offset)을 뺀 값과 일치할 때 어텐션 점수가 최대화되도록 학습됩니다.

  • 다중 헤드의 협력: 단일 헤드는 특정 '남은 문자 수'(예: 5~10자 남음)만 감지할 수 있습니다. 모델은 각기 다른 오프셋에 전문화된 여러 경계 헤드를 동시에 사용하여, 전체 범위에 걸쳐 '남은 문자 수'를 정밀하게 추정합니다.

3단계: 줄 바꿈 예측 (Predicting the Newline)

마지막 단계는 계산된 정보를 종합하여 최종적으로 줄 바꿈(\n) 토큰을 생성할지 결정하는 것입니다.

  • 직교 표현 (Orthogonal Representation): 모델은 2단계에서 계산된 '남은 문자 수(remaining characters)' 정보와 **'다음에 올 단어의 길이(next token length)'**라는 두 가지 핵심 정보를 거의 완벽하게 직교(orthogonal)하는 하위 공간에 배치합니다. 이는 두 정보가 서로 독립적으로 처리될 수 있도록 하는 매우 효율적인 표현 방식입니다.
  • 선형 결정 경계 (Linear Decision Boundary): 두 정보가 직교하는 축에 표현되기 때문에, "남은 문자 수가 다음 단어 길이보다 작은가?"라는 질문은 2차원 평면에서 간단한 **선형 경계(linear boundary)**로 해결될 수 있습니다. 모델의 최종 레이어는 이 경계를 구현하는 간단한 가중치 벡터를 학습합니다. 줄 바꿈을 예측하는 로짓(logit) 값은 다음과 같은 선형 방정식으로 근사할 수 있습니다.
Logit('\n')w1(남은 문자 수)+w2(다음 단어 길이)+b\text{Logit}(\verb|'\n'|) \approx w_1 \cdot (\text{남은 문자 수}) + w_2 \cdot (\text{다음 단어 길이}) + b

여기서 $w_1$은 음수, $w_2$는 양수의 가중치를 가집니다. 즉, 남은 문자 수가 적고 다음 단어 길이가 길수록 줄 바꿈 토큰의 확률이 기하급수적으로 높아집니다. 이처럼 복잡한 기하학적 연산의 최종 결과는 놀랍도록 단순한 선형 판별 문제입니다.

실험 설정

본 연구의 목표는 새로운 모델을 제안하는 것이 아니라 기존 모델의 내부 메커니즘을 분석하는 것이므로, 실험 설정 또한 일반적인 머신러닝 논문과 차이가 있습니다.

  • 분석 모델: Claude 3.5 Haiku, Anthropic에서 개발한 고성능 언어 모델.
  • 데이터셋: 다양한 산문 텍스트(예: 위키피디아)에서 기존의 줄 바꿈을 모두 제거한 뒤, 15자에서 150자 사이의 다양한 고정 너비($k$)를 무작위로 설정하여 모델이 다시 줄 바꿈을 삽입하도록 하는 **합성 데이터셋(synthetic dataset)**을 생성하여 사용했습니다. 이 통제된 환경은 문자 수 계산 메커니즘을 분리하여 분석하는 데 필수적입니다.
  • 평가 지표: 전통적인 정확도나 F1 점수 대신, 제안된 메커니즘의 타당성을 검증하기 위한 다양한 분석 기법이 사용되었습니다.
    • PCA (주성분 분석): 고차원 활성화 공간에서 문자 수 매니폴드와 같은 저차원 구조를 시각화하고 식별하는 데 사용되었습니다.
    • 선형 프로빙: 특정 레이어의 활성화가 문자 수 정보를 얼마나 잘 예측하는지 측정하여, 레이어별 정보 처리 과정을 추적했습니다.
    • 인과적 개입 (Causal Interventions): 모델의 특정 활성화 벡터를 다른 값에 해당하는 벡터로 강제로 교체(patching)하여, 모델의 행동이 예측대로 변하는지 확인하는 핵심적인 검증 방법입니다. 패칭 수식은 다음과 같습니다. $a_{\text{patched}} = a_{\text{original}} - \mu_{\text{original}} + \mu_{c}$ 이는 원래 활성화 벡터 $a_{\text{original}}$에서 원래 값의 평균 효과($\mu_{\text{original}}$)를 제거하고, 목표 값 $c$의 평균 효과($\mu_{c}$)를 주입하는 것을 의미합니다.
  • 베이스라인: 이 연구는 특정 메커니즘을 주장하므로, 베이스라인은 '무작위로 선택된 어텐션 헤드'나 '다른 하위 공간'과의 비교를 통해 제안된 구성 요소(예: 경계 헤드, 문자 수 하위 공간)가 실제로 특별한 역할을 수행함을 보이는 방식으로 설정됩니다.
분석 도구 목적
희소 오토인코더 (SAE) 활성화 벡터를 해석 가능한 희소 특징으로 분해.
주성분 분석 (PCA) 고차원 공간에서 저차원 매니폴드 시각화 및 식별.
선형 프로빙 각 레이어에 인코딩된 정보의 정확도 측정.
인과적 개입 (패칭) 가설 검증을 위해 모델 내부 상태를 직접 조작.

실험 결과 분석

연구진은 제안된 3단계 알고리즘의 각 구성 요소가 실제로 존재하며 인과적인 역할을 수행함을 다양한 실험을 통해 입증했습니다.

가설 실험 증거 결과
1. 문자 수 정보는 저차원 하위 공간(매니폴드)에 인코딩된다. PCA로 식별된 6차원 '문자 수 하위 공간'을 제거(ablation)함. 줄 바꿈 예측 손실이 5배 이상 급증하여 해당 공간의 중요성을 입증함.
2. 이 하위 공간은 모델 행동에 인과적 영향을 미친다. 30자에 해당하는 활성화 벡터를 60자에 해당하는 벡터로 패칭(patching)함. 모델이 30자 위치에서 줄 바꿈을 해야 할 상황임에도 불구하고, 60자까지 줄 바꿈을 하지 않는 행동 변화를 보임.
3. '경계 헤드'는 QK 회로를 통해 매니폴드를 정렬한다. 특정 경계 헤드의 QK 공간에서 '문자 수'와 '줄 너비' 매니폴드 간의 코사인 유사도를 측정함. 특정 오프셋에서 코사인 유사도가 거의 1에 근접하며 완벽하게 정렬됨. 무작위 헤드에서는 이러한 패턴이 나타나지 않음.
4. 최종 결정은 직교하는 두 정보에 기반한 선형 경계이다. 최종 레이어 직전의 활성화를 PCA로 분석하여 '남은 문자 수'와 '다음 단어 길이' 축을 식별함. 두 축이 거의 직교함을 확인. 이 2D 평면에서 학습된 선형 분류기는 줄 바꿈 예측에서 AUC 0.91의 높은 정확도를 보임.

성능 향상률 분석: 이는 성능 개선 논문이 아니지만, '문자 수 하위 공간'의 중요성을 정량적으로 볼 수 있습니다. 해당 공간을 제거했을 때 손실이 500% 증가했다는 것은, 이 6차원 공간이 전체 모델의 수천 차원 중에서도 줄 바꿈 작업 성능의 80% 이상을 책임지고 있음을 의미합니다.

Ablation Study: 다중 헤드의 협력: 단일 경계 헤드만 남기고 나머지를 모두 제거했을 때, 모델은 해당 헤드가 전문화된 좁은 범위의 '남은 문자 수'에 대해서만 정확하게 반응했습니다. 이는 여러 헤드가 각자 다른 범위를 담당하며 협력함으로써 전체 작업의 정밀도를 높인다는 가설을 뒷받침합니다.

'시각적 착시' 발견: 가장 흥미로운 결과 중 하나는 모델의 계산 메커니즘을 속이는 '착시' 현상의 발견입니다. 예를 들어, 코드에서 줄의 끝에 자주 등장하는 });"""와 같은 문자열을 실제로는 줄의 중간에 삽입했을 때, 모델은 문자 수를 잘못 계산하여 성급하게 줄 바꿈을 하는 경향을 보였습니다. 이는 모델의 문자 수 계산 회로가 단순히 토큰 길이를 더하는 순수한 카운터가 아니라, 훈련 데이터에서 학습된 통계적 패턴(예: '}); 다음에는 줄 바꿈이 올 확률이 높다')에 의해 '오염'될 수 있음을 보여주는 강력한 증거입니다.

비판적 평가

강점

  1. 완전성 및 깊이: 단편적인 현상 분석을 넘어, 입력부터 출력까지 이어지는 완전한 알고리즘을 성공적으로 역공학했습니다. 이는 기계적 해석 가능성 분야의 새로운 기준을 제시합니다.
  2. 방법론적 통합: 희소 오토인코더, 기하학적 분석, 회로 분석, 인과적 개입 등 최신 해석 가능성 도구들을 유기적으로 결합하여 문제에 접근한 점이 매우 인상적입니다.
  3. 강력한 검증: 관찰에 그치지 않고 인과적 개입을 통해 가설을 직접 검증했으며, '시각적 착시'라는 창의적인 실험을 통해 메커니즘의 존재를 설득력 있게 보여주었습니다.
  4. 새로운 개념적 프레임워크: '매니폴드'와 '기하학적 변환'이라는 개념을 통해 LLM의 내부 계산을 설명하는 새로운 시각을 제공했습니다. 이는 향후 더 복잡한 모델 행동을 분석하는 데 유용한 도구가 될 것입니다.

한계점 및 개선 방향

  1. 일반성 부족: 연구가 단일 모델(Claude 3.5 Haiku)과 단일 과제(고정 폭 줄 바꿈)에 집중되어 있습니다. 이 정교한 메커니즘이 다른 모델(예: GPT-4, Llama 3)이나 더 복잡한 공간적 과제(예: 표 생성, 코드 들여쓰기)에서도 동일하게 나타나는지는 추가 연구가 필요합니다.
  2. 합성 데이터셋의 한계: 통제된 환경을 위해 사용된 합성 데이터셋은 실제 세계의 복잡한 텍스트 환경과 다를 수 있습니다. 실제 환경에서는 의미론적, 문법적 요인이 줄 바꿈 결정에 더 큰 영향을 미칠 수 있으며, 이러한 요소와 계산 메커니즘이 어떻게 상호작용하는지에 대한 분석이 부족합니다.
  3. 분석의 확장성: 본 연구에서 수행된 심층 분석은 상당한 수준의 전문가의 수작업과 도메인 지식을 요구합니다. 이러한 분석 과정을 자동화하여 모델의 수많은 다른 능력들을 효율적으로 해석하는 방법을 개발하는 것이 중요한 과제로 남아있습니다.

재현성 평가

본 연구는 사용된 방법론과 실험 과정을 상세히 기술하고 있어, 관련 분야의 전문 지식과 컴퓨팅 자원을 갖춘 연구팀이라면 원칙적으로 재현이 가능할 것으로 보입니다. 특히 인과적 개입과 같은 핵심적인 실험은 개념적으로 명확합니다. 다만, 대형 모델의 내부 활성화에 접근하고 희소 오토인코더를 훈련시키는 과정 등은 기술적으로 상당한 노력을 요구할 수 있습니다.

향후 연구 방향

본 연구는 LLM 내부의 숨겨진 알고리즘을 탐험하는 여정의 시작점이며, 다양한 후속 연구의 가능성을 열어줍니다.

  1. 알고리즘의 일반화: 발견된 매니폴드 기반 계산 메커니즘이 다른 모델과 과제에서도 나타나는지 확인하는 연구가 필요합니다. 예를 들어, 모델이 JSON이나 XML과 같은 구조화된 데이터의 괄호 깊이를 셀 때나, 코드의 들여쓰기 수준을 계산할 때도 유사한 기하학적 구조를 사용하는지 탐구해볼 수 있습니다.
  2. 메커니즘의 자동화된 발견: 현재의 수동적인 분석을 넘어, 모델 내부에 존재하는 계산 회로나 기하학적 알고리즘을 자동으로 탐지하고 설명하는 기술을 개발하는 연구가 중요합니다.
  3. 알고리즘의 제어 및 수정: 모델 내부 알고리즘에 대한 이해를 바탕으로, 모델의 행동을 직접 수정하거나 디버깅하는 기술로 발전시킬 수 있습니다. 예를 들어, '시각적 착시' 현상을 일으키는 회로를 찾아내어 수정함으로써 모델의 강건성(robustness)을 향상시킬 수 있습니다.
  4. 개념적 추상화와의 연결: 현재 분석된 '문자 수'는 비교적 저수준의 개념입니다. 이러한 저수준의 기하학적 계산이 어떻게 '의도', '인과관계', '감정'과 같은 고수준의 추상적 개념 표현과 상호작용하고 결합되는지를 밝히는 것은 해석 가능성 연구의 궁극적인 목표가 될 것입니다.

실무 적용 가이드

이 논문은 직접적인 애플리케이션 개발보다는 기초 연구에 가깝지만, AI 모델을 개발하고 사용하는 실무자들에게도 중요한 시사점을 제공합니다.

  1. 디버깅 및 오류 분석: 모델이 예상치 못한 이상한 결과물을 생성할 때, 그것이 단순한 확률적 실수가 아니라 모델 내부에 형성된 '잘못된 알고리즘' 때문일 수 있음을 인지해야 합니다. '시각적 착시' 사례처럼, 특정 입력 패턴이 모델의 내부 계산 메커니즘을 체계적으로 교란할 수 있습니다. 이러한 관점은 모델의 실패 모드를 분석하고 이해하는 데 도움을 줄 수 있습니다.
  2. 프롬프트 엔지니어링: 모델의 내부 작동 방식에 대한 이해는 더 효과적인 프롬프트를 작성하는 데 기여할 수 있습니다. 모델이 계산적인 작업을 수행할 때 내부적으로 특정 기준점(예: 이전 줄 바꿈)을 사용한다는 사실을 안다면, 프롬프트에 명확한 구조나 기준점을 제공함으로써 모델의 성능을 향상시킬 수 있습니다.
  3. 모델 신뢰성 평가: 모델의 특정 능력(예: 코드 포맷팅)을 평가할 때, 단순히 평균적인 성능만 볼 것이 아니라, '시각적 착시'와 같은 의도적인 엣지 케이스(edge case)를 테스트에 포함해야 합니다. 이는 모델이 해당 능력을 얼마나 강건하게 학습했는지, 아니면 피상적인 통계적 패턴에 의존하고 있는지 판단하는 데 중요한 단서가 됩니다.

결론

"When Models Manipulate Manifolds"는 대형 언어 모델이 단순한 패턴 인식기를 넘어, 내부에 정교하고 해석 가능한 계산 기계를 스스로 구축한다는 사실을 명확하게 보여준 기념비적인 연구입니다. 연구진은 '줄 바꿈'이라는 구체적인 과제를 통해, 모델이 '문자 수'라는 연속적인 값을 기하학적 '매니폴드'로 표현하고, 어텐션 헤드를 이용해 이를 동적으로 조작하여 최종 결정을 내리는 전 과정을 성공적으로 역공학했습니다.

이 연구는 특징 기반 해석과 기하학적 관점을 통합하는 새로운 방법론적 틀을 제시했으며, 인과적 개입과 '시각적 착시' 발견을 통해 그 타당성을 강력하게 입증했습니다. 이는 우리가 LLM이라는 '외계 지성'의 언어를 해독하는 데 한 걸음 더 다가섰음을 의미하며, 앞으로 더 안전하고 신뢰할 수 있는 AI 시스템을 구축하는 데 중요한 초석이 될 것입니다. 이 '기계 심리학'의 여정은 이제 막 시작되었습니다.

참고 자료