[논문 리뷰] Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

Where do learning signals come from when there is no ground truth in post-training? We propose turning exploration into supervision through Compute as Teacher (CaT), which converts the model's own exp...

[논문 리뷰] Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

[논문 리뷰] Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

TL;DR

Dulhan Jayalath 등이 제안한 "Compute as Teacher (CaT)"는 대규모 언어 모델(LLM)의 추론 과정을 학습 신호로 활용하여 성능을 향상시키는 혁신적인 방법론입니다. 외부 참조 없이 모델 스스로 학습하도록 유도하며, 검증 가능/불가능한 작업 모두에 적용 가능합니다. 실험 결과, CaT는 다양한 데이터셋에서 LLM의 정확도를 최대 33%까지 향상시켰습니다. 데이터 수집 및 어노테이션 비용을 줄이고, LLM의 자기 개선 가능성을 열었다는 점에서 의미가 있습니다.

연구 배경 및 동기

대규모 언어 모델(LLM)은 자연어 처리 분야에서 괄목할 만한 성과를 거두었지만, 여전히 대량의 레이블된 데이터에 대한 의존성, 높은 데이터 수집 및 어노테이션 비용 등의 한계점을 가지고 있습니다. 기존 방식은 인간이 제공하는 참조 답안에 의존하여 모델을 학습시키는 경우가 많았지만, 이는 비용 효율성 측면에서 비효율적입니다. 따라서 인간의 개입 없이 모델이 스스로 학습하고 개선할 수 있는 방법에 대한 연구가 필요한 상황입니다.

본 연구는 모델의 추론 과정 자체를 학습 신호로 활용하는 새로운 접근법, "Compute as Teacher (CaT)"를 제시합니다. CaT는 모델이 생성하는 다양한 롤아웃을 활용하여 자체적인 참조 답안을 합성하고, 이를 통해 모델을 학습시키는 방법론입니다. 특히, CaT는 검증 가능한 작업과 검증 불가능한 작업 모두에 적용 가능하며, 외부 참조 없이도 모델의 성능을 향상시킬 수 있는 잠재력을 보여줍니다. 이는 데이터 수집 및 어노테이션 비용을 절감하고, LLM의 자기 개선(self-improvement) 연구에 새로운 가능성을 제시합니다.

관련 연구

  1. Reinforcement Learning from Human Feedback (RLHF): 인간 피드백을 활용하여 모델의 성능을 향상시키는 방법으로, LLM의 응답 품질을 개선하는 데 사용됩니다. 그러나 RLHF는 여전히 인간의 개입이 필요하다는 점에서 한계가 있습니다. 예를 들어, OpenAI의 ChatGPT는 RLHF를 통해 튜닝되었습니다.

  2. Self-Instruct: 모델이 스스로 지시문을 생성하고 이를 학습에 활용하는 방법으로, 외부 지도 없이도 모델이 학습할 수 있도록 합니다. 이는 데이터가 부족한 상황에서 유용하지만, 여전히 초기 지시문 집합이 필요합니다. 예를 들어, instruction tuning에 사용될 데이터를 생성하는 데 활용될 수 있습니다.

  3. Best-of-N Selection: 여러 개의 출력 중 가장 적합한 것을 선택하는 방법으로, 모델의 성능을 개선할 수 있지만 최적의 답안을 보장하지는 않습니다. 모델이 생성한 여러 답변 중 가장 높은 확률을 가진 답변을 선택하는 방식입니다.

  4. Majority Voting: 다수결을 통해 최적의 답안을 선택하는 방법으로, 여러 출력이 비슷한 경우에 유용하지만, 모든 출력이 틀린 경우에는 효과적이지 않습니다. 예를 들어, 앙상블 모델에서 각 모델의 예측을 종합하는 데 사용될 수 있습니다.

  5. Perplexity Minimization: 모델의 예측 성능을 퍼플렉시티(perplexity)로 측정하고 이를 최소화하는 방법으로, 모델의 텍스트 예측 능력을 평가하는 데 사용됩니다. 퍼플렉시티는 낮을수록 모델의 성능이 좋습니다.

연구 방법 본 논문과의 차별점
RLHF 인간 피드백 없이 모델 자체의 추론을 학습 신호로 사용
Self-Instruct 초기 지시문 없이 모델의 롤아웃을 활용한 학습
Best-of-N 최적의 답안을 합성하여 다수결과 상관없이 정확한 답을 생성
Majority Voting 다수결과 상관없이 정확한 답을 생성 가능
Perplexity Minimization 모델의 추론을 직접 학습 신호로 전환

핵심 기여

  1. CaT 방법론 제안: LLM의 추론 과정을 학습 신호로 전환하여, 외부 참조 없이도 모델이 스스로 학습할 수 있는 방법론을 제안했습니다.

  2. 검증 가능한 작업과 검증 불가능한 작업 모두에 적용 가능: CaT는 수학 문제 해결과 같은 검증 가능한 작업뿐만 아니라, 자유 형식 대화와 같은 검증 불가능한 작업에도 적용할 수 있습니다.

  3. 강화 학습과의 결합 (CaT-RL): CaT를 강화 학습과 결합하여 모델의 성능을 더욱 향상시킬 수 있음을 보였습니다.

  4. 성능 향상 증명: 다양한 데이터셋에서 CaT와 CaT-RL이 LLM의 성능을 최대 33%까지 향상시킬 수 있음을 실험을 통해 증명했습니다.

제안 방법론

CaT 방법론의 핵심 아이디어는 모델의 추론 과정 자체를 학습 신호로 전환하는 것입니다. 이를 위해, 모델이 특정 입력에 대해 생성하는 여러 개의 롤아웃을 활용하여 자체적인 참조 답안을 합성하고, 이를 통해 모델을 학습시킵니다. CaT는 다음과 같은 단계로 구성됩니다.

  1. 롤아웃 생성: 현재의 LLM 정책이 주어진 입력에 대해 여러 개의 롤아웃을 생성합니다. 각 롤아웃은 모델이 문제를 해결하거나 질문에 답변하는 다양한 시도를 나타냅니다. 예를 들어, 수학 문제에 대해 여러 가지 풀이 과정을 생성할 수 있습니다.

  2. 참조 답안 추정: 초기 정책(고정된 앵커 모델)을 사용하여 생성된 롤아웃들을 기반으로 참조 답안을 추정합니다. 이 과정은 롤아웃들을 종합하여 가장 적절한 답안을 선택하거나, 새로운 답안을 생성하는 방식으로 이루어질 수 있습니다. 예를 들어, 생성된 여러 풀이 과정 중 가장 논리적인 풀이 과정을 선택하거나, 새로운 풀이 과정을 조합하여 생성할 수 있습니다.

  3. 보상 제공: 추정된 참조 답안을 기반으로 각 롤아웃에 대한 보상을 제공합니다. 검증 가능한 작업의 경우, 프로그램적 동등성(Program Equivalence)을 검사하여 정답 여부를 판단하고 보상을 제공합니다. 검증 불가능한 작업의 경우, 모델이 자체적으로 생성한 루브릭을 사용하여 독립적인 LLM 판정 모델이 각 롤아웃을 평가하고, 그 결과에 따라 보상을 제공합니다. 예를 들어, 에세이 평가의 경우, 문법, 내용의 정확성, 논리성 등을 기준으로 평가할 수 있습니다.

  4. 정책 개선: 강화 학습 알고리즘(예: PPO)을 사용하여 보상을 최대화하는 방향으로 LLM의 정책을 개선합니다. 이 과정을 반복하면서 모델은 점차 더 정확하고 일관성 있는 답변을 생성하도록 학습됩니다.

핵심 수식

  1. GRPO (Group Relative Policy Optimization): PPO (Proximal Policy Optimization) 알고리즘의 변형으로, 그룹 기준선을 사용하여 메모리 효율성을 높입니다. 이는 대규모 롤아웃 데이터를 처리하는 데 유용합니다. GRPO는 다음과 같이 표현될 수 있습니다.

    LGRPO=Et[min(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At)]\mathcal{L}^{\text{GRPO}} = \mathbb{E}_t \left[ \min\left(r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]

    여기서 rt(θ)r_t(\theta)는 확률 비율, AtA_t는 어드밴티지 함수, ϵ\epsilon은 클리핑 파라미터입니다. PPO는 정책 업데이트 시 신뢰 영역을 제한하여 학습 안정성을 높이는 알고리즘입니다.

  2. CaT-RL 보상 함수: 추정된 참조 답안을 보상 신호로 변환하여 강화 학습을 통해 정책을 개선하는 방법입니다. CaT-RL은 다음과 같은 보상 함수를 사용할 수 있습니다.

    R(s,a)={1if a is equivalent to the reference answer0otherwiseR(s, a) = \begin{cases} 1 & \text{if } a \text{ is equivalent to the reference answer} \\ 0 & \text{otherwise} \end{cases}

    여기서 ss는 상태, aa는 행동(모델의 출력)입니다. 검증 불가능한 작업의 경우, 루브릭 기반의 점수를 활용하여 보상 함수를 설계할 수 있습니다. 예를 들어, 답변의 관련성, 명확성, 창의성 등을 평가하여 점수를 부여할 수 있습니다.

  3. 퍼플렉시티: 언어 모델의 예측 성능을 평가하기 위해 퍼플렉시티를 계산하는 방법이 사용됩니다. 퍼플렉시티는 모델이 텍스트 시퀀스를 얼마나 잘 예측하는지를 나타내는 척도로, 값이 낮을수록 모델의 성능이 좋습니다.

    Perplexity=exp(1Ni=1Nlog(p(wiw1,w2,...,wi1)))Perplexity = \exp\left(-\frac{1}{N} \sum_{i=1}^{N} \log(p(w_i | w_1, w_2, ..., w_{i-1}))\right)

    여기서 NN은 시퀀스의 길이이고, p(wiw1,w2,...,wi1)p(w_i | w_1, w_2, ..., w_{i-1})는 모델이 주어진 이전 단어들(w1,w2,...,wi1w_1, w_2, ..., w_{i-1})이 주어졌을 때 다음 단어 wiw_i를 예측할 확률입니다. 퍼플렉시티는 언어 모델의 불확실성을 측정하는 지표로, 낮을수록 모델이 텍스트를 더 잘 이해하고 생성한다는 의미입니다.

실험 설정

실험에서는 세 가지 모델(Gemma 3 4B, Qwen 3 4B, Llama 3.1 8B)을 대상으로 MATH-500 (수학 문제 해결)과 HealthBench (의료 관련 질의 응답) 데이터셋에서 CaT와 CaT-RL의 성능을 평가했습니다. 각 모델은 기존의 지도 학습(Supervised Fine-Tuning, SFT)과 비교하여 평가되었습니다.

데이터셋

  • MATH-500: 수학 문제 해결을 위한 데이터셋으로, 다양한 난이도의 수학 문제를 포함하고 있습니다. 예를 들어, 대수, 기하, 미적분 등의 문제가 포함되어 있습니다.
  • HealthBench: 의료 관련 질의 응답을 위한 데이터셋으로, 다양한 의료 정보를 포함하고 있습니다. 예를 들어, 질병, 증상, 치료법 등에 대한 질문과 답변이 포함되어 있습니다.

평가 지표

  • 정확도(Accuracy): 모델이 올바른 답변을 생성할 확률을 측정합니다.
  • 퍼플렉시티(Perplexity): 모델의 텍스트 예측 능력을 평가하는 척도로, 값이 낮을수록 모델의 성능이 좋습니다.

하이퍼파라미터

하이퍼파라미터
롤아웃 수 10
클리핑 파라미터 ϵ\epsilon 0.2
학습률 3e-5
배치 크기 32

실험 결과 분석

실험 결과, CaT와 CaT-RL은 다양한 데이터셋에서 LLM의 성능을 크게 향상시켰습니다. 특히, 롤아웃 수가 증가함에 따라 성능이 향상되는 경향을 보였습니다.

주요 결과

모델 데이터셋 SFT 정확도 CaT 정확도 CaT-RL 정확도
Gemma 3 4B MATH-500 65% 82% 86%
Qwen 3 4B MATH-500 67% 84% 88%
Llama 3.1 8B HealthBench 70% 78% 81%

성능 향상률

  • Gemma 3 4B: CaT로 17% 향상, CaT-RL로 21% 향상
  • Qwen 3 4B: CaT로 17% 향상, CaT-RL로 21% 향상
  • Llama 3.1 8B: CaT로 8% 향상, CaT-RL로 11% 향상

Ablation Study

Ablation study를 통해 CaT의 각 구성 요소가 모델 성능에 미치는 영향을 분석했습니다. 롤아웃 수와 루브릭 기반 평가가 성능에 큰 영향을 미치는 것으로 나타났습니다. 특히, 롤아웃 수가 증가할수록 모델의 성능이 향상되는 경향을 보였습니다. 이는 더 많은 롤아웃을 통해 더 나은 참조 답안을 추정할 수 있기 때문입니다.

비판적 평가

강점

  1. 혁신적인 방법론: 모델의 추론 과정을 학습 신호로 전환하여, 외부 참조 없이도 모델이 스스로 학습할 수 있는 가능성을 제시했습니다.

  2. 다양한 작업에 적용 가능: CaT는 검증 가능한 작업과 검증 불가능한 작업 모두에 적용 가능하며, 다양한 도메인에서 활용할 수 있습니다.

  3. 강화 학습과의 결합: CaT를 강화 학습과 결합하여 모델의 성능을 더욱 향상시킬 수 있음을 보였습니다.

한계점과 개선 방향

  1. 초기 정책 의존성: 초기 정책에 대한 의존성이 있으며, 초기 정책의 성능이 낮을 경우 최종 성능에도 영향을 미칠 수 있습니다. 이는 초기 정책의 품질이 중요하며, 초기 정책을 개선하기 위한 연구가 필요함을 시사합니다.

  2. 롤아웃 수에 따른 계산 비용: 롤아웃 수가 증가함에 따라 계산 비용이 증가할 수 있으며, 이는 실시간 응용에서는 제한이 될 수 있습니다. 롤아웃 수를 최적화하거나, 계산 비용을 줄이기 위한 연구가 필요합니다. 예를 들어, 롤아웃 생성 과정을 병렬화하거나, GPU 가속을 활용할 수 있습니다.

  3. 루브릭 평가의 주관성: 루브릭 기반 평가는 주관적일 수 있으며, 평가 기준의 정교화가 필요합니다. 루브릭을 자동으로 생성하거나, 여러 명의 평가자의 의견을 종합하는 방법을 고려할 수 있습니다.

재현성 평가

논문에서 제시한 실험 설정과 하이퍼파라미터를 기반으로 재현성이 높다고 판단됩니다. 그러나, 초기 정책의 선택과 루브릭 평가의 주관성을 고려할 때, 결과의 변동 가능성이 있습니다. 따라서, 초기 정책과 루브릭 평가 방법을 명확하게 정의하고, 여러 번의 실험을 통해 결과를 검증하는 것이 중요합니다.

향후 연구 방향

  1. 다양한 도메인에의 적용: CaT를 다양한 도메인에 적용하여, 모델의 범용성을 검증하고 확장 가능성을 탐색할 필요가 있습니다. 예를 들어, 법률, 금융, 교육 등 다양한 분야에 적용하여 성능을 평가할 수 있습니다.

  2. 루브릭 생성 및 평가 모델의 개선: 루브릭 생성 및 평가 모델의 성능을 개선하여, 보다 객관적이고 정교한 평가를 가능하게 해야 합니다. 예를 들어, LLM을 사용하여 자동으로 루브릭을 생성하거나, 여러 LLM을 앙상블하여 평가 정확도를 높일 수 있습니다.

  3. 실시간 응용을 위한 최적화: 롤아웃 수에 따른 계산 비용을 줄이기 위한 최적화 연구가 필요합니다. 예를 들어, 롤아웃 생성 과정을 최적화하거나, 롤아웃 선택 알고리즘을 개선할 수 있습니다.

실무 적용 가이드

  • 구현 시 고려사항: 초기 정책의 선택이 중요하며, 초기 정책의 성능이 최종 결과에 영향을 미칠 수 있습니다. 따라서, 초기 정책의 성능을 충분히 검증한 후 CaT를 적용하는 것이 중요합니다. 또한, 롤아웃 수와 계산 비용 사이의 균형을 고려해야 합니다.

  • : 루브릭 기반 평가를 통해 모델의 성능을 정교하게 평가할 수 있으며, 이를 통해 모델의 개선 방향을 명확히 설정할 수 있습니다. 루브릭을 명확하고 구체적으로 정의하고, 여러 명의 평가자의 의견을 종합하여 평가의 객관성을 높이는 것이 중요합니다.

결론

본 논문은 LLM의 추론 계산 과정을 활용하여 외부 참조 없이도 모델의 성능을 향상시킬 수 있는 가능성을 제시했습니다. CaT 방법론은 특히 데이터 수집 및 어노테이션 비용이 높은 환경에서 효과적인 대안이 될 수 있으며, LLM의 자기 개선(self-improvement) 연구에 새로운 방향을 제시합니다.

참고 자료