[논문 리뷰] All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs

TL;DR

이 논문은 대규모 언어 모델(LLM)에서 특정 기능을 수행하는 회로가 유일하다는 기존의 '기능적 비등방성(Functional Anisotropy)' 가설에 도전합니다. 저자들은 동일한 작업을 높은 정확도로 수행할 수 있는 여러 개의 구조적으로 다른 경로(회로)가 존재함을 실험적으로 입증합니다. 이를 위해 '중첩 인식 다발 반발(Overlap-Aware Sheaf Repulsion)' 이라는 새로운 방법론을 제안하여, 기능적으로는 동등하지만 구조적으로는 다양한 회로들을 효율적으로 발견합니다. 이 발견은 LLM의 해석 가능성, 안전성, 제어 가능성에 대한 근본적인 관점의 전환을 요구합니다.

배경 및 관련 연구

LLM의 내부 작동 방식을 이해하려는 '기계적 해석 가능성(Mechanistic Interpretability)' 분야의 핵심 목표 중 하나는 특정 기능을 수행하는 계산 그래프의 하위 집합, 즉 **회로(Circuit)**를 찾아내는 것입니다. 기존 연구들은 주로 특정 작업에 대한 단일 회로를 식별하는 데 초점을 맞추어 왔습니다. 예를 들어, *인과적 추적(Causal Tracing)*이나 경로 패칭(Path Patching) 같은 기법들은 모델의 특정 동작을 유발하는 가장 중요한 구성 요소들의 경로를 찾는 데 사용되었습니다.

이러한 접근법의 기저에는 '기능적 비등방성(Functional Anisotropy)'이라는 암묵적 가정이 깔려 있습니다. 이는 특정 기능이 모델 내의 고유하고 유일한 회로에 의해 구현된다는 가설입니다. 그러나 이 가설이 사실이라면, 모델의 특정 부분을 수정하거나 제어하는 것이 비교적 간단할 수 있지만, 모델의 복잡성과 잠재적 견고성을 충분히 설명하지 못할 수 있습니다.

본 논문은 "모든 길은 로마로 통한다"는 제목처럼, LLM이 하나의 목표를 달성하기 위해 여러 대체 경로를 가질 수 있다는 가능성을 탐구하며 이러한 기존의 관점에 정면으로 도전합니다.

핵심 기여

기능적 비등방성 가설에 대한 실험적 반증: LLM 내에서 동일한 기능을 높은 성능으로 수행하는, 구조적으로 매우 다른 다수의 회로가 존재함을 명확하게 보여주었습니다.
중첩 인식 다발 반발(Overlap-Aware Sheaf Repulsion) 방법론 제안: 기존 회로 발견 기법을 확장하여, 기능적으로는 동등하지만 구조적으로는 다양한 회로들을 체계적으로 발견할 수 있는 새로운 최적화 프레임워크를 개발했습니다.
LLM 해석 및 제어에 대한 새로운 관점 제시: 단일 회로의 존재를 가정하는 기존의 접근법이 불완전할 수 있음을 시사합니다. 이는 모델의 안전성(예: 유해한 기능을 제거하기 위해 한 회로를 비활성화해도 다른 회로가 그 기능을 수행할 수 있음)과 제어 가능성에 중요한 함의를 가집니다.

제안 방법론: 중첩 인식 다발 반발

저자들은 기능적으로 동등하면서도 구조적으로 다른 회로들을 찾기 위해 기존의 회로 발견(Circuit and Sheaf Discovery, CSD) 프레임워크를 확장합니다. 핵심 아이디어는 회로를 탐색하는 손실 함수에 '반발(Repulsion)' 항을 추가하는 것입니다.

핵심 수식

전체 손실 함수는 다음과 같이 구성됩니다.

\mathcal{L} = \mathcal{L}_{\text{fidelity}} + \lambda_1 \mathcal{L}_{\text{sparsity}} + \lambda_2 \mathcal{L}_{\text{completeness}} + \lambda_3 \mathcal{L}_{\text{repulsion}}

$\mathcal{L}_{\text{fidelity}}$ (충실도): 발견된 회로(논문에서는 '다발(Sheaf)'로 지칭)만으로 원래 모델의 작업 성능을 얼마나 잘 재현하는지를 측정합니다.
$\mathcal{L}_{\text{sparsity}}$ (희소성): 회로가 가능한 한 작은 규모를 갖도록 유도하여, 핵심적인 구성 요소만 남깁니다.
$\mathcal{L}_{\text{completeness}}$ (완전성): 회로에 포함된 구성 요소들이 실제로 기능에 기여하도록 하여, 무작위로 엣지가 추가되는 것을 방지합니다.
$\mathcal{L}_{\text{repulsion}}$ (반발/중첩 페널티): 본 논문의 핵심적인 추가 항입니다. 이전에 발견된 다른 회로들과의 구조적 중첩에 페널티를 부과합니다. 이로 인해 최적화 과정에서 기존에 찾은 회로와 다른 새로운 구조의 회로를 탐색하도록 유도합니다.

이 방법론을 통해, 첫 번째 회로를 찾은 후, 두 번째 회로를 찾을 때는 첫 번째 회로와 겹치지 않는 방향으로 탐색이 진행되어 구조적으로 다양한 해답을 얻을 수 있습니다.

개념적 예시: 간접 목적어 식별 (IOI) 작업

IOI(Indirect Object Identification)는 "John과 Mary가 가게에 갔다. John이 Mary에게 책을 주었다."와 같은 문장에서 마지막 이름이 'Mary'임을 맞추는 작업입니다. 이 논문의 발견을 이 예시에 적용하면 다음과 같은 두 개의 다른 회로를 상상할 수 있습니다.

회로 A (직접적인 이름 복사 경로):
1. 초기 레이어의 어텐션 헤드가 'John'과 'Mary'를 중요한 이름 토큰으로 인식합니다.
2. 중간 레이어의 'Name Mover' 헤드가 간접 목적어인 'Mary'를 문장의 마지막 위치로 복사할 준비를 합니다.
3. 최종 레이어에서 이 정보가 통합되어 'Mary'를 출력합니다.
회로 B (억제 및 선택 경로):
1. 한 어텐션 헤드가 주어인 'John'이 반복되는 것을 억제하는 역할을 합니다.
2. 다른 어텐션 헤드는 동사 '주었다(gave)'와 전치사 '에게(to)'의 패턴을 인식하여, 그 뒤에 오는 이름이 중요하다는 신호를 보냅니다.
3. 이 두 정보가 결합되어, 억제되지 않은 유일한 이름 후보인 'Mary'가 최종적으로 선택됩니다.

두 회로는 완전히 다른 계산 전략을 사용하지만, 결과적으로는 동일한 정답을 도출합니다.

실험 설정

실험은 GPT-2 Small과 같은 모델을 사용하여 다양한 자연어 처리 및 알고리즘 작업에 대해 수행되었습니다.

데이터셋:
- IOI: 간접 목적어 식별 능력 측정
- DNA: DNA 서열의 일부를 복사하는 합성 작업
- AGA/ANA: 프랑스어에서의 형용사-성별/명사 일치와 같은 문법적 능력 측정
- DOCSTRING: 주어진 코드에 대한 설명 생성 능력 측정
평가 지표:
- 정확도(Accuracy): 발견된 회로가 원래 작업을 얼마나 잘 수행하는지
- IoU (Intersection over Union): 발견된 여러 회로 간의 구조적 유사성. IoU가 낮을수록 두 회로가 구조적으로 다르다는 의미입니다.

실험 결과 분석

실험 결과는 모든 테스트된 작업에서 기능적으로는 거의 동일하지만 구조적으로는 매우 다른 회로들이 존재함을 강력하게 시사합니다.

데이터셋	회로 정확도	발견된 회로 간 IoU
IOI	99%	0.15
DNA	98%	0.12
AGA	97%	0.10
ANA	96%	0.11
DOCSTRING	95%	0.29

주목할 점은 IOI 데이터셋에서 발견된 회로들이 99%라는 매우 높은 정확도를 유지하면서도, 서로 간의 IoU는 0.15에 불과했다는 것입니다. 이는 두 회로가 동일한 작업을 거의 완벽하게 수행하지만, 사용하는 모델 구성요소(어텐션 헤드, MLP 뉴런 등)의 85%가 서로 다르다는 것을 의미합니다. 이 결과는 기능적 비등방성 가설에 대한 강력한 반증이 됩니다.

한계 및 고찰

이 연구는 매우 중요한 발견을 제시했지만 몇 가지 고려할 점이 있습니다.

계산 비용: 제안된 방법론은 여러 회로를 순차적으로 탐색해야 하므로 계산 비용이 상당히 높습니다. 이는 수십억 개 이상의 파라미터를 가진 거대 모델에 적용하는 데 제약이 될 수 있습니다.
발견된 회로의 완전성: 이 방법으로 발견된 회로들이 해당 기능을 수행하는 모든 가능한 경로를 대표하는지는 알 수 없습니다. 발견되지 않은 더 많은 대체 회로가 존재할 수 있습니다.
다양성의 근원: 왜 LLM이 이처럼 기능적으로 중복되는 회로를 학습하는지에 대한 근본적인 원인은 아직 불분명합니다. 이것이 훈련 과정에서 나타나는 자연스러운 현상인지, 아니면 모델의 견고성(robustness)을 위한 장치인지에 대한 추가 연구가 필요합니다.

의의 및 향후 연구 방향

이 연구의 발견은 LLM 해석 및 제어 분야에 중요한 시사점을 던집니다.

AI 안전성: 모델의 유해한 동작(예: 편향, 허위 정보 생성)을 제거하고자 할 때, 관련된 회로 하나를 찾아 비활성화하는 것만으로는 충분하지 않을 수 있습니다. 모델이 대체 경로를 사용하여 동일한 유해 동작을 계속 수행할 수 있기 때문입니다. 따라서 안전성 연구는 가능한 모든 기능적 경로를 고려해야 합니다.
모델 제어 및 편집: 모델의 동작을 특정 방향으로 유도하거나 지식을 편집할 때, 여러 관련 회로를 동시에 고려하는 새로운 접근법이 필요합니다.
향후 연구: 앞으로의 연구는 이러한 기능적 다양성이 어떻게 발생하는지, 그리고 각 회로가 모델의 일반화나 견고성에 어떤 다른 기여를 하는지를 탐구하는 방향으로 나아갈 수 있습니다.

결론

"All Circuits Lead to Rome"은 LLM의 내부 작동 방식에 대한 우리의 이해를 한 단계 끌어올린 중요한 연구입니다. 이 논문은 특정 기능을 수행하는 단일하고 우아한 '하나의 회로'를 찾는 기존의 관점에서 벗어나, 동일한 기능을 수행하는 '회로들의 공간(space of circuits)'을 탐색해야 한다는 새로운 패러다임을 제시합니다. 이 발견은 LLM의 복잡성을 더 깊이 이해하고, 더 안전하고 신뢰할 수 있는 AI 시스템을 구축하기 위한 중요한 발판이 될 것입니다.

참고 자료

논문 링크: arXiv:2405.12671
코드 저장소: (논문 공개 시 추가될 수 있음)
관련 자료: (프로젝트 페이지 등 관련 자료 링크)

[논문 리뷰] All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs

[논문 리뷰] All Circuits Lead to Rome: Rethinking Functional Anisotropy in Circuit and Sheaf Discovery for LLMs

TL;DR

배경 및 관련 연구

핵심 기여

제안 방법론: 중첩 인식 다발 반발

핵심 수식

개념적 예시: 간접 목적어 식별 (IOI) 작업

실험 설정

실험 결과 분석

한계 및 고찰

의의 및 향후 연구 방향

결론

참고 자료

댓글

관련 포스트