[논문 리뷰] GSM-Symbolic: 대규모 언어 모델의 수학적 추론, 정말 신뢰할 수 있을까?

TL;DR

최근 대규모 언어 모델(LLM)이 GSM8K와 같은 수학 벤치마크에서 높은 점수를 기록하며 뛰어난 추론 능력을 보이는 듯하지만, 이러한 능력이 과대평가되었을 수 있다는 지적이 나옵니다. 이 논문은 기존 벤치마크의 한계를 지적하며, 모델의 진정한 논리적, 수학적 추론 능력을 엄격하게 평가하기 위한 새로운 벤치마크 GSM-Symbolic을 제안합니다. GSM-Symbolic은 기존 문제의 논리 구조는 유지한 채 이름, 숫자 등 피상적인 요소를 바꾸거나 불필요한 정보를 추가하는 방식으로 수많은 변형 문제를 생성합니다. 실험 결과, 최신 LLM들조차 이러한 간단한 변화에 매우 민감하게 반응하며 성능이 급격히 저하되는 현상을 보였습니다. 이는 LLM이 문제의 본질을 이해하기보다 피상적인 패턴에 의존하고 있을 가능성을 시사하며, LLM의 추론 능력을 보다 깊이 있게 이해하고 신뢰성 있는 AI를 개발하는 데 중요한 통찰을 제공합니다.

연구 배경 및 동기

대규모 언어 모델(LLM)은 다양한 자연어 처리 과제에서 인간에 가까운 성능을 보여주며, 특히 수학 문제 해결 능력은 AI의 지능을 가늠하는 중요한 척도로 여겨져 왔습니다. GSM8K는 초등학교 수준의 수학 응용 문제로 구성된 대표적인 벤치마크로, 많은 LLM이 여기서 높은 정확도를 달성하며 그 능력을 입증했습니다.

하지만 이러한 성공이 진정한 '이해'에 기반한 것인지, 아니면 훈련 데이터에 존재하는 피상적인 패턴을 암기하고 모방하는 '숏컷 학습(Shortcut Learning)'의 결과인지에 대한 의문이 계속 제기되어 왔습니다. 예를 들어, 모델이 "사과 3개와 오렌지 5개가 있으면 총 몇 개일까?"라는 문제는 풀지만, "책 3권과 연필 5자루가 있으면 총 몇 개일까?"라는 문제에는 실패한다면, 이는 덧셈의 원리를 이해한 것이 아니라 '사과', '오렌지', '총'이라는 단어와 특정 숫자 조합에 과적합되었을 수 있습니다.

기존 벤치마크는 대부분 단일 정답 정확도만을 측정하기 때문에, 모델이 우연히 정답을 맞히거나 잘못된 과정으로 올바른 답을 도출하는 경우를 걸러내지 못합니다. 본 연구는 이러한 한계를 극복하고 LLM의 수학적 추론 능력의 **강건성(Robustness)과 일관성(Consistency)**을 정밀하게 측정하기 위해 GSM-Symbolic이라는 새로운 벤치마크를 제안합니다.

핵심 기여

GSM-Symbolic 벤치마크 제안: 기존 GSM8K 문제의 논리 구조를 유지하면서 이름, 숫자, 객체 등을 변수화한 템플릿을 생성하고, 이를 통해 수천 개의 변형 문제를 자동으로 만들어내는 새로운 벤치마크를 개발했습니다.
LLM 추론 능력의 취약성 입증: 실험을 통해 최신 LLM들이 문제의 본질과 무관한 피상적인 요소(예: 숫자 값 변경, 불필요한 정보 추가)에 매우 민감하게 반응하며 성능이 급격히 저하됨을 실험적으로 보였습니다.
새로운 평가 프레임워크 제시: 단일 정확도를 넘어, 원본 문제를 맞혔을 때 변형 문제도 맞힐 조건부 확률을 분석하여 모델의 추론 일관성을 평가하는 새로운 통계적 분석 관점을 제시했습니다. 이는 모델의 신뢰도를 측정하는 더 정교한 척도가 될 수 있습니다.
LLM의 한계에 대한 깊은 통찰: LLM의 수학적 추론 능력이 아직 인간처럼 유연하고 강건하지 않으며, 특정 패턴에 의존하는 경향이 있음을 명확히 보여주어 향후 모델 개발 방향에 중요한 시사점을 제공합니다.

제안 방법론

핵심 아이디어: 심볼릭 템플릿을 통한 변형 문제 생성

GSM-Symbolic의 핵심 아이디어는 수학 문제의 '표면적 형태'와 '논리적 구조'를 분리하는 것입니다. 이를 위해 기존 GSM8K 문제에서 구체적인 개체(이름, 사물)와 숫자 값을 변수로 대체하여 심볼릭 템플릿을 만듭니다.

GSM-Symbolic 데이터셋 생성 과정

심볼릭 템플릿 생성: 기존 GSM8K 문제에서 이름, 숫자, 사물 등 구체적인 요소를 {변수} 형태로 대체합니다.
- 원본 문제: "Natalia sold 48 cupcakes in the morning and 24 in the afternoon. How many cupcakes did she sell in total?"
- 심볼릭 템플릿: "{P1} sold {N1} {O1}s in the morning and {N2} in the afternoon. How many {O1}s did she sell in total?"
변형 인스턴스 생성: 생성된 템플릿의 변수에 새로운 값을 무작위로 채워 넣어 동일한 논리 구조를 가진 수많은 변형 문제를 생성합니다.
- 이름 변경: "John sold 48 cupcakes in the morning and 24 in the afternoon..."
- 숫자 변경: "Natalia sold 50 cupcakes in the morning and 30 in the afternoon..."
- 객체 변경: "Natalia sold 48 cookies in the morning and 24 in the afternoon..."
구조적 변형 데이터셋 생성: 더 나아가 문제의 복잡도를 조절하기 위해 구조 자체를 변경합니다.
- GSM-M1/P1/P2: 문제 해결에 필요한 문장(clause)을 제거(-1)하거나 추가(+1, +2)하여 난이도를 조절합니다.
- GSM-NoOp: 문제 해결과 전혀 관련 없는 문장(예: "Natalia has a blue hat.")을 추가하여, 모델이 핵심 정보를 식별하고 불필요한 정보를 무시하는 능력을 평가합니다.

핵심 수식 및 평가 지표

이 연구는 모델의 추론 일관성을 평가하기 위해 조건부 확률이라는 새로운 렌즈를 제시합니다.

P(x=\text{true} | o=\text{true})

$o$ : 원본 문제 (original)
$x$ : 원본 문제에서 파생된 변형 문제 (variant)

이 수식은 **"모델이 원본 문제를 맞혔다는 조건 하에, 그 문제의 변형 버전도 맞힐 확률"**을 의미합니다. 만약 모델이 진정한 논리적 추론을 한다면, 이름이나 숫자가 조금 바뀐다고 해서 정답률이 크게 달라지지 않아야 합니다. 따라서 이상적인 추론자라면 이 값은 1에 가까워야 합니다. 반대로 이 값이 낮다면, 모델이 피상적인 패턴에 의존하고 있음을 의미합니다.

실험 설정

데이터셋

원본 GSM8K 테스트셋의 1,319개 문제로부터 총 100개의 심볼릭 템플릿을 생성하고, 각 템플릿당 100개의 변형 인스턴스를 만들어 총 10,000개의 문제로 구성된 GSM-Symbolic 벤치마크를 구축했습니다.

평가 지표

전체 정확도(Overall Accuracy): 각 데이터셋 변형(이름 변경, 숫자 변경 등)에 대한 평균 정답률.
추론 일관성(Reasoning Consistency): 위에서 설명한 조건부 확률 $P(x=\text{true} | o=\text{true})$ 을 측정.

베이스라인

실험에는 다음과 같은 최신 대규모 언어 모델들이 사용되었습니다.

Gemma (7B)
Llama3 (8B, 70B)
Phi-3 (Mini, Medium)
GPT-4o

실험 결과 분석

주요 결과: 흔들리는 LLM의 성능

실험 결과는 충격적이었습니다. 동일한 논리 구조를 가진 문제임에도 불구하고, 어떤 변형 인스턴스에서는 100%에 가까운 정답률을 보이다가도 다른 인스턴스에서는 0%로 떨어지는 등 LLM의 성능이 극심하게 요동쳤습니다. 이는 단일 점수로 LLM의 수학 능력을 평가하는 기존 방식의 신뢰성에 큰 의문을 제기합니다.

피상적 변화에 대한 민감도 분석

이름 변경: 고유 명사(이름, 사물) 변경에는 대부분의 모델이 비교적 강건한 모습을 보였습니다.
숫자 변경: 하지만 문제의 숫자 값만 바꾸었을 때, 대부분 모델의 성능이 크게 하락했습니다. 이는 모델이 추상적인 연산 원리를 이해하기보다, 훈련 데이터에서 자주 본 특정 숫자 조합과 연산의 피상적인 패턴을 학습했을 가능성을 강력하게 시사합니다.

불필요한 정보에 대한 취약성: GSM-NoOp 결과

문제 해결과 아무런 관련이 없는 문장을 추가하는 GSM-NoOp 테스트에서 대부분의 LLM 성능이 급격히 저하되었습니다. 이는 LLM이 문제의 핵심 정보를 식별하고 불필요한 정보를 효과적으로 걸러내는 데 심각한 결함을 가지고 있음을 보여줍니다. 흥미롭게도 이러한 문제는 몇 가지 예시를 제공하는 퓨샷(few-shot) 학습이나 미세 조정을 통해서도 쉽게 해결되지 않아, 더 근본적인 아키텍처나 학습 방식의 개선이 필요함을 시사합니다.

비판적 평가

강점

창의적인 평가 방법론: 심볼릭 템플릿을 이용해 문제의 변형을 체계적으로 생성하고, 조건부 확률로 일관성을 측정하는 접근은 매우 독창적이고 효과적입니다.
명확한 문제 제기: LLM의 '진정한 추론 능력'에 대한 막연한 의심을 구체적인 데이터와 실험을 통해 명확하게 입증했습니다.
광범위한 실험: 최신 LLM들을 대상으로 한 광범위한 실험을 통해 제안된 방법론의 유효성과 문제의 심각성을 잘 보여주었습니다.

한계점과 개선 방향

GSM8K의 한계 상속: GSM-Symbolic은 GSM8K를 기반으로 하므로, 초등 수학 수준을 넘어서는 복잡하고 다단계의 추론 능력을 평가하는 데는 한계가 있습니다. 향후 MATH와 같은 더 어려운 데이터셋으로 확장할 필요가 있습니다.
템플릿 생성의 자동화: 현재 템플릿 생성은 수작업에 의존하는 부분이 있어, 이를 자동화하고 더 다양한 구조의 템플릿을 생성하는 연구가 필요합니다.

재현성 평가

논문에서 제안한 방법론과 데이터셋 생성 과정이 명확하게 설명되어 있어 재현성은 높아 보입니다. 연구진은 관련 코드와 데이터를 공개할 예정이라고 밝혀, 다른 연구자들이 다양한 LLM의 성능을 동일한 기준으로 평가하는 데 기여할 것으로 기대됩니다.

시사점 및 향후 과제

실무 적용 가이드

단일 벤치마크 점수 맹신 금지: LLM을 평가할 때 GSM8K 같은 단일 벤치마크의 점수만으로 성능을 판단해서는 안 됩니다. GSM-Symbolic과 같이 모델의 강건성과 일관성을 함께 테스트하는 것이 필수적입니다.
다양한 데이터 변형 테스트: 실제 서비스에 LLM을 적용하기 전, 입력 데이터에 다양한 변형(paraphrasing, 불필요한 정보 추가 등)을 가해 모델이 얼마나 안정적으로 작동하는지 스트레스 테스트를 수행해야 합니다.

향후 연구 방향

강건한 추론 모델 개발: 피상적인 패턴이 아닌, 문제의 근본적인 논리 구조를 학습할 수 있는 새로운 모델 아키텍처나 학습 방법론에 대한 연구가 필요합니다.
다양한 영역으로의 확장: 수학 문제를 넘어 법률, 과학, 상식 추론 등 다른 영역에서도 심볼릭 템플릿 기반의 강건성 평가 벤치마크를 개발하여 LLM의 일반화된 추론 능력을 검증해야 합니다.

결론

GSM-Symbolic 연구는 LLM의 수학적 추론 능력을 평가하는 데 있어 새로운 지평을 열었습니다. 이 연구는 최신 LLM들이 여전히 피상적인 패턴 학습에 크게 의존하며, 진정한 의미의 추상적, 논리적 추론 능력은 아직 부족하다는 점을 명확히 보여줍니다. 이는 우리가 LLM의 능력을 맹신하기보다, 그 한계를 정확히 이해하고 더 신뢰할 수 있는 AI 시스템을 만들기 위해 끊임없이 노력해야 함을 일깨워 줍니다.

참고 자료

논문 원문: Symbolic Mathematics for Evaluating the Mathematical Reasoning of Large Language Models (arXiv:2410.05229)
관련 데이터셋: GSM8K Dataset

[논문 리뷰] GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models