[논문 리뷰] From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning

TL;DR

이 연구는 정보 이론을 통해 대규모 언어 모델(LLM)과 인간의 개념 구조를 비교 분석합니다. 인간은 의미의 풍부함을 위해 압축을 희생하는 반면, LLM은 의미적 뉘앙스를 잃더라도 통계적 압축을 우선시합니다. 연구 결과, 인코더 모델(e.g., BERT)이 디코더 모델(e.g., GPT)보다 인간의 개념 구조와 더 유사했으며, LLM 학습 과정에서 개념이 형성되고 재구성되는 2단계 동역학이 관찰되었습니다. 이는 LLM이 인간과 같은 깊이 있는 이해를 위해서는 근본적인 아키텍처의 변화가 필요함을 시사합니다.

연구 배경 및 동기

대규모 언어 모델(LLM)은 다양한 자연어 처리 과제에서 인간 수준의 성능을 보여주지만, 그 내부 작동 방식이나 인간의 사고 과정과의 유사성은 여전히 미지의 영역입니다. 인간은 개념을 조직할 때, 단순히 정보를 압축하는 것을 넘어 의미의 풍부함과 유연성을 유지합니다. 예를 들어, '새'라는 범주에서 '로빈'은 전형적인 예시지만 '펭귄'이나 '타조'는 비전형적인 예시로 인식하는 것처럼, 범주 내에도 미세한 구조가 존재합니다.

이러한 인간의 정보 처리 방식은 **'압축-의미 상충관계(Compression-Meaning Trade-off)'**로 설명할 수 있습니다. 반면, LLM은 방대한 텍스트 데이터로부터 통계적 패턴을 학습하여 정보를 압축하는 데 최적화되어 있어, 이러한 의미적 뉘앙스를 종종 놓치곤 합니다. 본 연구는 이 차이점을 정보 이론적 관점에서 정량적으로 분석하고, LLM이 인간의 개념 구조를 얼마나 잘 모방하는지, 그리고 그 한계는 무엇인지 밝히고자 합니다.

연구	주요 기여	본 논문과의 차별점
Rosch (1975)	인간의 범주화(categorization)와 전형성(typicality) 효과에 대한 선구적 연구	LLM의 내부 표현과 직접 비교하여 정보 이론적 분석 수행
McCloskey & Glucksberg (1978)	개념의 경계가 명확하지 않고 유연하다는 점(conceptual flexibility)을 강조	LLM이 이러한 개념적 유연성을 얼마나 잘 모방하는지 정량적으로 평가
최근 LLM 연구	모델 성능 평가 및 특정 뇌 활동과의 상관관계 분석에 집중	인간의 '개념 구조' 자체를 평가 기준으로 삼아 모델 아키텍처 간 비교

핵심 기여

정보 이론적 프레임워크 제시: 정보 병목 이론(Information Bottleneck Theory)을 활용하여 LLM과 인간의 개념 구조를 정량적으로 비교하는 새로운 프레임워크를 제안했습니다.
고전 심리학 데이터의 현대적 활용: Rosch 등의 고전적인 인간 범주화 데이터를 디지털화하고 확장하여, LLM 평가를 위한 새로운 벤치마크를 구축했습니다.
아키텍처 간 비교 분석: 인코더(Encoder-only) 모델이 디코더(Decoder-only) 모델보다 인간의 개념 구조와 더 높은 유사성을 보임을 실험적으로 입증했습니다.
학습 동역학 규명: LLM의 사전 학습 과정에서 개념이 초기 형성 단계와 후기 재구성 단계라는 2단계 패턴을 거쳐 발전함을 발견했습니다.

제안 방법론

이 연구는 LLM과 인간의 개념 구조를 비교하기 위해 **정보 병목 이론(Information Bottleneck Theory)**을 핵심적인 분석 도구로 사용합니다.

정보 이론적 프레임워크

정보 병목 이론은 입력 데이터 $X$ 를 압축된 표현 $C$ 로 만들면서도, 우리가 관심 있는 변수 $Y$ 에 대한 정보는 최대한 보존하려는 원리입니다. 이를 비유하자면, 방대한 책의 내용을 핵심 줄거리(의미)는 유지하면서 가장 짧게 요약(압축)하는 것과 같습니다.

본 연구에서는 LLM이 생성한 단어 임베딩( $X$ )을 클러스터링하여 개념 구조( $C$ )를 만듭니다. 그리고 이 구조가 인간의 범주 판단 데이터(Human Judgment)와 얼마나 일치하는지를 평가합니다. 이 과정에서 압축과 의미 보존의 균형을 측정하기 위해 다음과 같은 목적 함수를 사용합니다.

\mathcal{L}(C) = \text{Distortion}(X, C) + \lambda \cdot I(X; C)

$\text{Distortion}(X, C)$ : 왜곡. 압축된 표현 $C$ 가 원래 임베딩 $X$ 의 의미를 얼마나 잘 보존하는지를 측정합니다. 클러스터 내 분산(거리의 제곱 합)으로 계산되며, 이 값이 낮을수록 의미 보존이 잘 된 것입니다. $\text{Distortion} = \frac{1}{N} \sum_{i=1}^{N} ||x_i - c_k||^2$
$I(X; C)$ : 상호 정보량(Mutual Information). 원본 데이터 $X$ 와 압축된 표현 $C$ 사이의 정보량으로, 압축의 정도를 나타냅니다. 이 값이 낮을수록 더 효율적으로 압축된 것입니다. $I(X; C) = H(X) - H(X|C)$
$\lambda$ : 압축과 의미 보존 사이의 중요도를 조절하는 하이퍼파라미터입니다.

평가 지표

AMI (Adjusted Mutual Information): LLM 임베딩의 클러스터링 결과와 인간의 범주 분류 결과가 얼마나 유사한지를 측정합니다. 1에 가까울수록 두 분류가 일치함을 의미합니다.
스피어만 상관계수 (Spearman Correlation): LLM이 판단한 항목의 전형성(클러스터 중심에서의 거리)과 인간이 판단한 전형성 점수 사이의 순위 상관관계를 측정합니다.

실험 설정

데이터셋: Rosch (1975) 등의 고전 인지과학 논문에서 사용된 데이터를 디지털화. 1,049개 항목(e.g., '사과', '독수리')과 34개의 범주(e.g., '과일', '새')로 구성.
모델: BERT, RoBERTa 등 인코더 모델과 GPT-2, Llama 2, Gemma 등 디코더 모델을 포함한 40개 이상의 LLM (파라미터 3억~700억 개).
분석 절차:
1. 각 항목(단어)에 대한 LLM의 마지막 레이어 임베딩을 추출합니다.
2. 추출된 임베딩을 K-means 알고리즘으로 클러스터링합니다.
3. 클러스터링 결과를 인간의 범주 데이터와 비교하여 AMI와 스피어만 상관계수를 계산합니다.

실험 결과 분석

핵심 발견

범주 정렬 (Category Alignment): 대부분의 LLM은 인간의 개념 범주와 상당히 유사한 구조(높은 AMI 점수)를 형성했습니다. 특히, 인코더 모델(BERT 계열)이 디코더 모델(GPT 계열)보다 평균적으로 5% 더 높은 AMI 점수를 기록하여, 인간의 범주화 방식과 더 잘 정렬되는 것으로 나타났습니다.
내부 구조 불일치 (Internal Structure Mismatch): 범주 경계는 잘 학습했지만, 범주 내의 미세한 의미 구조(전형성)는 제대로 포착하지 못했습니다. 예를 들어, LLM은 '로빈'과 '펭귄'을 모두 '새'라는 범주로 묶는 데는 성공했지만, '로빈'이 '펭귄'보다 더 전형적인 '새'라는 인간의 직관은 반영하지 못했습니다(낮은 스피어만 상관계수).
압축-의미 상충관계: 정보 이론적 분석 결과, 모든 LLM은 인간보다 정보를 더 공격적으로 압축하는 경향을 보였습니다. 즉, 약간의 의미적 부정확성을 감수하더라도 더 효율적인(통계적으로 단순한) 표현을 선호했습니다. 이는 LLM의 목적 함수가 '다음 단어 예측'이라는 통계적 목표에 치중하기 때문으로 해석됩니다.

아키텍처의 중요성

모델 크기, 아키텍처, 학습 데이터의 영향을 분석한 결과, 모델의 아키텍처가 개념 구조 형성에 가장 큰 영향을 미치는 요인으로 밝혀졌습니다. 인코더 모델은 양방향 문맥을 학습하여 풍부한 의미 표현을 만드는 데 유리한 반면, 디코더 모델은 단방향 문맥에서 다음 토큰을 예측하는 데 특화되어 있어 상대적으로 표면적인 통계 패턴에 집중하는 경향이 있습니다.

비판적 평가

강점

혁신적인 접근: 정보 이론이라는 엄밀한 수학적 도구를 사용하여 LLM과 인간의 인지 과정을 비교함으로써, 기존의 행동주의적 비교 연구를 넘어선 깊이 있는 분석을 제공합니다.
강력한 실험 설계: 40개 이상의 다양한 모델과 아키텍처를 체계적으로 비교하여 연구 결과의 일반화 가능성을 높였습니다.
학습 동역학 분석: LLM이 학습 과정에서 어떻게 개념을 형성해 나가는지를 보여줌으로써, 모델의 '지식 발달' 과정을 엿볼 수 있는 단서를 제공했습니다.

한계점

정적인 분석: 정적인 단어 임베딩을 사용해 분석하여, 문맥에 따라 의미가 유연하게 변하는 인간의 동적인 개념 사용 방식을 완전히 포착하지는 못했습니다.
영어 중심의 분석: 연구가 영어 데이터에 한정되어 있어, 다른 언어권에서의 개념 구조 차이를 반영하지 못합니다.
전형성 측정의 한계: 클러스터 중심에서의 거리를 전형성을 측정하는 유일한 지표로 사용한 것은 다소 단순화된 접근일 수 있습니다.

향후 연구 방향

다국어 및 다문화 확장: 다양한 언어 데이터셋을 활용하여 LLM의 개념 구조가 언어 및 문화적 배경에 따라 어떻게 달라지는지 비교 분석할 필요가 있습니다.
개선된 아키텍처 탐색: 인간의 '압축-의미 상충관계'를 더 잘 모방할 수 있는 새로운 모델 아키텍처나 목적 함수(Objective Function) 개발 연구가 필요합니다.
멀티모달 모델 분석: 텍스트뿐만 아니라 이미지, 소리 등 다양한 양식의 정보를 함께 학습하는 멀티모달 모델이 인간의 개념 구조와 더 유사한지를 탐색하는 연구도 흥미로울 것입니다.

실무 적용 가이드

구현 시 고려사항과 팁

과제에 맞는 모델 선택:
- 분류, 의미 검색, 감성 분석 등 입력 텍스트의 깊은 의미 이해가 중요한 과제에는 인코더 기반 모델(e.g., BERT, RoBERTa)의 임베딩을 활용하는 것이 더 나은 성능을 보일 수 있습니다.
- 텍스트 생성, 요약, 챗봇과 같은 과제는 디코더 모델이 필수적이지만, 모델이 미세한 의미 차이를 놓칠 수 있음을 인지하고 결과물을 검토해야 합니다.
임베딩 품질 평가: 단순 정확도 외에, 본 논문에서 제안한 AMI와 같은 정보 이론적 지표를 활용하여 내가 파인튜닝한 모델의 임베딩 공간이 해결하려는 문제의 개념 구조와 잘 정렬되는지 평가해볼 수 있습니다.
전형성을 활용한 데이터 증강: 특정 범주에서 비전형적인 데이터(e.g., '가구' 범주의 '그네')에 대한 모델 성능이 낮다면, 해당 데이터를 의도적으로 증강하여 모델의 강건성을 높일 수 있습니다.

결론

본 연구는 LLM이 인간의 개념 구조를 통계적으로 '모방'할 수는 있지만, 그 근본적인 정보 처리 방식에는 차이가 있음을 정보 이론을 통해 명확히 보여주었습니다. 특히 인코더 모델이 양방향 문맥 학습 덕분에 인간의 개념 구조와 더 유사하다는 발견은, 모델 아키텍처 선택의 중요성을 다시 한번 일깨워 줍니다. LLM이 진정으로 인간과 같이 '생각'하고 '이해'하기 위해서는, 단순한 스케일업을 넘어 인간의 인지적 특성을 반영한 새로운 아키텍처에 대한 고민이 필요할 것입니다.

참고 자료

논문 링크 (가상)
코드 저장소 (가상)
Rosch, E. (1975). Cognitive representations of semantic categories. Journal of Experimental Psychology: General.
McCloskey, M. E., & Glucksberg, S. (1978). Natural categories: Well defined or fuzzy sets? Memory & Cognition.

[논문 리뷰] From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning

[논문 리뷰] From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning

TL;DR

연구 배경 및 동기

관련 연구

핵심 기여

제안 방법론

정보 이론적 프레임워크

평가 지표

실험 설정

실험 결과 분석

핵심 발견

아키텍처의 중요성

비판적 평가

강점

한계점

향후 연구 방향

실무 적용 가이드

구현 시 고려사항과 팁

결론

참고 자료

댓글

관련 포스트