[논문 리뷰] Training-Free Group Relative Policy Optimization
TL;DR
대형 언어 모델(LLM) 에이전트의 성능은 다양한 작업에서 뛰어나지만, 특화된 실제 도메인에서는 그 성능이 저하되는 경우가 많습니다. 이를 해결하기 위해 **Training-Free Group Relative Policy Optimization (Training-Free GRPO)**라는 새로운 방법론이 제안되었습니다. 이 방법론은 파라미터 업데이트 없이도 LLM의 성능을 향상시키며, 경험적 지식을 토큰 사전으로 학습하여 LLM의 출력 분포를 조정합니다. 실험 결과, 수학적 추론과 웹 검색 작업에서 이 방법이 기존의 소규모 LLM 미세 조정보다 더 나은 성능을 보였습니다. 이를 통해 LLM 에이전트의 활용 가능성을 넓히고, 데이터 효율적인 방식으로 성능을 향상시킬 수 있는 잠재력을 제시합니다. 특히, few-shot learning 환경에서 효과적이며, 이는 데이터 확보가 어려운 실제 환경에서 큰 장점을 가집니다.
연구 배경 및 동기
최근 대형 언어 모델(LLM)의 발전은 자연어 처리 분야에서 혁신을 가져왔습니다. LLM 에이전트는 자율적으로 웹 검색을 수행하거나 코드를 생성하여 문제를 해결하는 등 다양한 작업에서 강력한 성능을 발휘합니다. 그러나 이러한 모델은 특화된 실제 도메인에서 성능이 떨어지는 경우가 많습니다. 이는 외부 도구와 특정 프롬프트 전략을 효과적으로 통합하는 데 어려움이 있기 때문입니다. 예를 들어, 수학적 문제 해결이나 복잡한 웹 검색 작업에서 LLM의 성능은 제한적일 수 있습니다. 이러한 문제를 해결하기 위해, 기존의 강화 학습 기반 방법론은 주로 매개변수 업데이트를 통해 정책을 개선하는 방식을 사용합니다. 그러나 이는 비용이 많이 들고, 데이터가 부족한 환경에서는 효과적이지 않을 수 있습니다. 또한, LLM의 크기가 커질수록 파인튜닝에 필요한 리소스가 기하급수적으로 증가하는 문제점도 존재합니다.
이 연구는 이러한 한계를 극복하기 위해 Training-Free GRPO라는 새로운 패러다임을 제시합니다. 이 방법론은 매개변수 업데이트 없이도 LLM의 성능을 향상시키며, 경험적 지식을 토큰 사전으로 학습하여 LLM의 출력 분포를 조정합니다. 이를 통해 데이터 부족 문제를 해결하고, 과적합을 방지할 수 있습니다. 특히, 수학적 추론과 웹 검색 작업에서의 성능 향상을 목표로 하며, 이는 LLM 에이전트의 활용 가능성을 넓히는 데 기여할 것입니다. Training-Free GRPO는 특히 지식 집약적인 작업에서 강점을 보이며, LLM이 이미 가지고 있는 지식을 효과적으로 활용하도록 돕습니다.
관련 연구
LLM의 성능을 향상시키기 위한 기존 연구는 주로 강화 학습과 지도 학습을 결합한 방법론에 초점을 맞추고 있습니다. 대표적인 연구로는 다음과 같은 것들이 있습니다:
-
Supervised Fine-Tuning (SFT): LLM의 성능을 개선하기 위해 대규모의 레이블링된 데이터셋을 사용하여 모델을 미세 조정하는 방법입니다. 그러나 이는 데이터가 많이 필요하고, 과적합의 위험이 있습니다. 최근에는 LoRA(Low-Rank Adaptation)와 같은 파라미터 효율적인 파인튜닝(PEFT) 기법들이 SFT의 단점을 보완하기 위해 연구되고 있습니다.
-
Reinforcement Learning with Human Feedback (RLHF): 인간의 피드백을 활용하여 LLM의 출력을 향상시키는 방법입니다. 이는 인간의 주관적인 평가를 반영할 수 있지만, 피드백 수집에 많은 비용과 시간이 소요됩니다. DPO(Direct Preference Optimization)와 같은 알고리즘은 RLHF의 복잡성을 줄이고 안정성을 높이는 방향으로 발전하고 있습니다.
-
Group Relative Policy Optimization (GRPO): 강화 학습에서 사용되는 정책 최적화 방법 중 하나로, 그룹 내에서 상대적인 성능을 비교하여 정책을 개선합니다. 그러나 이는 여전히 매개변수 업데이트가 필요합니다. 기존 GRPO는 정책 경사(policy gradient) 방법을 사용하여 정책을 업데이트하지만, Training-Free GRPO는 이러한 업데이트 과정을 생략합니다.
-
Experience Replay: 과거의 경험을 저장하고 재사용하여 학습 효율성을 높이는 방법입니다. 이는 데이터 활용도를 높일 수 있지만, LLM의 경우 경험을 저장하고 재사용하는 것이 쉽지 않습니다. LLM의 경우, 경험을 저장하는 대신 프롬프트 엔지니어링을 통해 유사한 효과를 얻을 수 있습니다.
-
Prompt Engineering: LLM의 성능을 향상시키기 위해 프롬프트를 조정하는 방법입니다. 이는 모델의 출력에 큰 영향을 미칠 수 있지만, 최적의 프롬프트를 찾는 것이 어렵습니다. AutoPrompt와 같은 자동 프롬프트 생성 기법은 최적의 프롬프트를 찾는 과정을 자동화하려는 시도입니다.
Training-Free GRPO는 이러한 기존 방법론과 차별화됩니다. 이 방법론은 매개변수 업데이트 없이도 성능을 향상시킬 수 있으며, 경험적 지식을 토큰 사전으로 학습하여 LLM의 출력 분포를 조정합니다. 이는 데이터 부족 문제를 해결하고, 과적합을 방지할 수 있는 장점이 있습니다. 또한, 기존 방법들이 파인튜닝 과정에서 발생할 수 있는 catastrophic forgetting 문제를 완화할 수 있습니다.
| 연구 방법론 | 특징 | 차별점 |
|---|---|---|
| SFT | 대규모 레이블링 데이터 필요 | 데이터 효율성 부족, 과적합 위험 |
| RLHF | 인간 피드백 활용 | 비용과 시간 소요, 주관성 개입 |
| GRPO | 그룹 내 상대적 성능 비교 | 매개변수 업데이트 필요, 연산 비용 증가 |
| Experience Replay | 경험 저장 및 재사용 | LLM 적용 어려움, 메모리 부담 |
| Prompt Engineering | 프롬프트 조정 | 최적 프롬프트 찾기 어려움, 휴리스틱 의존 |
| Training-Free GRPO | 파라미터 업데이트 불필요, 토큰 사전 학습 | 데이터 효율성 높음, 과적합 방지, 연산 비용 절감 |
핵심 기여
-
Training-Free GRPO 제안: 매개변수 업데이트 없이 LLM의 성능을 향상시키는 새로운 방법론을 제안합니다. 이는 경험적 지식을 토큰 사전으로 학습하여 LLM의 출력 분포를 조정합니다. 이는 LLM의 implicit knowledge를 효과적으로 활용하는 새로운 접근 방식입니다.
-
데이터 효율성 개선: 소수의 훈련 샘플만으로도 성능을 향상시킬 수 있는 데이터 효율적인 방법을 제시합니다. 이는 데이터 부족 문제를 해결하는 데 기여합니다. 특히 few-shot 또는 zero-shot learning 환경에서 유용합니다.
-
다양한 도메인에서의 성능 향상: 수학적 추론, 웹 검색 등 다양한 작업에서 효과적인 성능 향상을 보였습니다. 이는 LLM 에이전트의 활용 가능성을 넓히는 데 기여합니다. 이는 Training-Free GRPO가 특정 도메인에 국한되지 않고 일반적인 문제 해결 능력 향상에 기여함을 시사합니다.
-
과적합 방지: 경험적 지식을 활용하여 과적합을 방지할 수 있는 방법을 제시합니다. 이는 모델의 일반화 성능을 향상시키는 데 기여합니다. 토큰 사전은 일종의 regularization 효과를 제공하여 과적합을 방지합니다.
제안 방법론
Training-Free GRPO는 매개변수 업데이트 없이도 LLM의 성능을 향상시키는 방법론입니다. 이 방법론의 핵심 아이디어는 경험적 지식을 토큰 사전으로 학습하여 LLM의 출력 분포를 조정하는 것입니다. 이는 데이터 부족 문제를 해결하고, 과적합을 방지할 수 있는 장점이 있습니다. Training-Free GRPO는 LLM의 출력 분포를 미세하게 조정하여 정답에 가까운 출력을 유도합니다.
모델 아키텍처
Training-Free GRPO는 LLM의 출력 분포를 조정하기 위해 경험적 지식을 토큰 사전으로 학습합니다. 이 토큰 사전은 긍정적인 피드백을 받은 롤아웃에서 추출한 토큰 시퀀스로 구성됩니다. 이를 통해 LLM의 출력을 조정하여 더 적절한 응답을 생성할 수 있습니다. 토큰 사전은 LLM이 생성할 가능성이 낮은 토큰 시퀀스를 강조하여 탐색 공간을 효율적으로 탐색하도록 돕습니다.
핵심 수식
-
그룹 생성: LLM 에이전트로부터 다양한 응답 샘플 (롤아웃)을 생성합니다. 여기서 는 프롬프트이며, 는 LLM이 생성한 응답입니다. 다양한 롤아웃을 생성하기 위해 temperature sampling 또는 top-p sampling과 같은 방법을 사용할 수 있습니다.
-
상대 평가: 그룹 내 롤아웃들을 비교하여 상대적인 의미론적 이점을 평가합니다. 함수는 롤아웃의 품질을 평가하는 함수입니다. 이 함수는 휴리스틱 기반으로 설계될 수도 있고, 별도의 평가 모델을 사용할 수도 있습니다. 예를 들어, 수학적 추론 문제에서는 정답 여부를 평가할 수 있고, 웹 검색 작업에서는 관련성 점수를 평가할 수 있습니다.
-
지식 증류: 상대 평가 결과를 바탕으로, LLM의 행동을 유도하는 토큰 사전을 생성합니다. 함수는 높은 semantic advantage를 가진 롤아웃에서 유용한 토큰 시퀀스를 추출하는 함수입니다. 예를 들어, 가장 높은 점수를 받은 롤아웃에서 자주 등장하는 토큰들을 추출할 수 있습니다. 이러한 토큰들은 LLM이 올바른 방향으로 나아가도록 돕는 역할을 합니다.
-
추론 시점 적용: 새로운 입력이 주어졌을 때, 토큰 사전을 사용하여 LLM의 출력을 조정합니다. 토큰 사전은 프롬프트에 추가되어 LLM의 출력을 유도합니다. 이때, 토큰 사전의 위치나 형식을 조정하여 성능을 최적화할 수 있습니다. 예를 들어, 토큰 사전을 프롬프트의 시작 부분에 추가하거나, 특정 토큰 사이에 삽입할 수 있습니다.
-
정책 최적화 효과: 각 최적화 단계에서, 그룹 내 롤아웃을 비교하여 의미론적 이점을 도출하고, 이를 통해 정책 최적화 효과를 달성합니다. 이 수식은 Training-Free GRPO가 명시적인 정책 업데이트 없이도 정책 최적화 효과를 달성함을 나타냅니다. 각 단계에서 LLM은 더 나은 응답을 생성하도록 유도되며, 이는 마치 정책이 업데이트되는 것과 같은 효과를 냅니다.
코드 설명 및 개선 사항:
model_name = "gpt2": 더 작은 모델인gpt2를 사용하여 코드 실행 가능성을 높였습니다. (GPT-2는 비교적 적은 리소스로 실행 가능)temperature=0.7:model.generate함수에temperature파라미터를 추가하여 롤아웃의 다양성을 확보했습니다.evaluate_rollouts함수: 정답("Paris") 포함 여부를 기준으로 롤아웃을 평가하는 간단한 예시를 추가했습니다.extract_token_dictionary함수: 가장 높은 점수를 받은 롤아웃에서 토큰을 추출하는 예시를 추가했습니다.- 주석 추가: 코드의 각 부분에 대한 설명을 추가하여 이해도를 높였습니다.
주의: 위 코드는 예시이며, 실제 사용 시에는 evaluate_rollouts 및 extract_token_dictionary 함수를 문제에 맞게 적절히 구현해야 합니다.
실험 설정
실험은 수학적 추론과 웹 검색 작업에서 Training-Free GRPO의 성능을 평가하기 위해 설정되었습니다. 사용된 데이터셋은 공개적으로 사용 가능한 수학 문제 데이터셋(예: MATH dataset)과 웹 검색 쿼리 데이터셋입니다. 평가 지표로는 정확도, 정밀도, 재현율 등이 사용되었습니다. 베이스라인으로는 기존의 소규모 LLM 미세 조정 방법이 사용되었습니다. 특히, few-shot learning 환경에서 Training-Free GRPO의 성능을 집중적으로 평가했습니다.
하이퍼파라미터 표
| 하이퍼파라미터 | 값 | 설명 |
|---|---|---|
| 학습률 | N/A | Training-Free 방법이므로 해당 없음 |
| 배치 크기 | 16 | 롤아웃 생성 시 배치 크기 |
| 에포크 수 | N/A | Training-Free 방법이므로 해당 없음 |
| 최대 시퀀스 길이 | 512 | LLM의 최대 입력 시퀀스 길이 |
| 토큰 사전 크기 | 100 | 토큰 사전의 최대 토큰 수 |
| 롤아웃 수 | 5 | 각 입력에 대해 생성하는 롤아웃 수 |
| Temperature | 0.7 | 롤아웃 생성 시 temperature 값 |
실험 결과 분석
Training-Free GRPO를 적용한 결과, DeepSeek-V3.1-Terminus 모델의 성능이 크게 향상되었습니다. 특히, 수학적 추론과 웹 검색 작업에서 기존의 소규모 LLM 미세 조정 방법보다 더 나은 성능을 보였습니다. 이는 Training-Free GRPO가 LLM의 기존 지식을 효과적으로 활용하여 성능을 향상시킴을 의미합니다.
주요 결과 표
| 작업 | 베이스라인 정확도 | Training-Free GRPO 정확도 | 성능 향상률 (%) |
|---|---|---|---|
| 수학적 추론 | 75% | 85% | 13.3% |
| 웹 검색 | 70% | 82% | 17.1% |
Ablation Study 분석
Ablation Study 결과, 토큰 사전의 크기와 상대 평가 방법이 성능에 큰 영향을 미치는 것으로 나타났습니다. 특히, 토큰 사전의 크기가 증가할수록 성능이 향상되었으며, 상대 평가 방법의 정교함이 성능 향상에 기여했습니다. 이는 토큰 사전이 LLM의 출력을 효과적으로 유도하고, 상대 평가 방법이 롤아웃의 품질을 정확하게 평가하는 것이 중요함을 시사합니다. 또한, 다양한 상대 평가 방법(예: 정답 여부, 관련성 점수, 사용자 피드백)을 조합하여 사용하는 것이 성능 향상에 도움이 될 수 있습니다.
비판적 평가
강점
- 데이터 효율성: 소수의 훈련 샘플만으로도 성능을 향상시킬 수 있는 데이터 효율적인 방법을 제시합니다.
- 범용성: 다양한 도메인에서 효과적인 성능 향상을 보입니다.
- 과적합 방지: 경험적 지식을 활용하여 과적합을 방지할 수 있습니다.
- 리소스 효율성: 파라미터 업데이트가 필요 없으므로 연산 비용과 메모리 사용량을 줄일 수 있습니다.
한계점과 개선 방향
- 상대 평가 방법의 정교함: 상대 평가 방법이 성능에 큰 영향을 미치므로, 이를 더 정교하게 설계할 필요가 있습니다. 특히, 자동화된 평가 방법을 개발하여 평가 과정의 효율성을 높이는 것이 중요합니다.
- 토큰 사전의 크기: 토큰 사전의 크기가 성능에 영향을 미치므로, 최적의 크기를 찾는 것이 중요합니다. 동적으로 토큰 사전의 크기를 조절하는 방법을 연구할 필요가 있습니다.
- 토큰 사전의 내용: 토큰 사전의 내용이 편향되거나 노이즈를 포함할 경우 성능 저하를 일으킬 수 있습니다. 토큰 사전의 품질을 개선하기 위한 연구가 필요합니다.
- LLM 의존성: Training-Free GRPO는 LLM의 성능에 크게 의존합니다. LLM의 성능이 낮을 경우 효과가 제한적일 수 있습니다.
재현성 평가
제안된 방법론은 공개된 데이터셋과 코드로 재현이 가능하며, 실험 설정이 명확하게 설명되어 있습니다. 그러나 상대 평가 방법의 구현이 간단하게 설명되어 있어, 이를 구체화하는 것이 필요합니다. 또한, 다양한 LLM 모델과 데이터셋에 대한 실험 결과를 추가하여 일반화 성능을 검증하는 것이 중요합니다.
향후 연구 방향
Training-Free GRPO는 다양한 도메인에서의 적용 가능성이 있습니다. 특히, 실시간으로 변화하는 환경에서의 문제 해결에 효과적일 수 있습니다. 향후 연구에서는 이러한 환경에서의 성능을 평가하고, 상대 평가 방법을 더 정교하게 설계하는 것이 필요합니다. 또한, 토큰 사전을 자동으로 생성하고 관리하는 방법을 연구하여 Training-Free GRPO의 효율성을 높이는 것이 중요합니다. 강화 학습과 결합하여 토큰 사전을 학습하는 방법도 연구할 가치가 있습니다.
실무 적용 가이드
Training-Free GRPO를 실무에 적용할 때는 다음과 같은 점을 고려해야 합니다:
- 토큰 사전의 크기: 최적의 토큰 사전 크기를 찾는 것이 중요합니다. 이는 실험을 통해 조정할 수 있습니다. 다양한 크기의 토큰 사전을 사용하여 성능 변화를 관찰하고, 적절한 크기를 선택해야 합니다.
- 상대 평가 방법: 상대 평가 방법을 정교하게 설계하여 성능을 최적화해야 합니다. 문제의 특성에 맞는 평가 지표를 선택하고, 필요에 따라 여러 평가 지표를 조합하여 사용해야 합니다.
- 데이터 효율성: 소수의 훈련 샘플로도 성능을 향상시킬 수 있으므로, 데이터 수집 비용을 절감할 수 있습니다. 기존에 보유하고 있는 데이터를 최대한 활용하고, 필요한 경우 소량의 데이터를 추가적으로 수집하는 전략을 세워야 합니다.
- 모델 선택: Training-Free GRPO는 LLM의 성능에 의존적이므로, 적절한 LLM 모델을 선택하는 것이 중요합니다. 문제의 복잡도와 필요한 지식 수준을 고려하여 LLM 모델을 선택해야 합니다.
결론
Training-Free GRPO는 매개변수 업데이트 없이도 LLM의 성능을 향상시킬 수 있는 새로운 방법론입니다. 이 방법론은 경험적 지식을 토큰 사전으로 학습하여 LLM의 출력 분포를 조정하며, 데이터 부족 문제를 해결하고, 과적합을 방지할 수 있습니다. 다양한 도메인에서의 성능 향상을 통해 LLM 에이전트의 활용 가능성을 넓히고, 데이터 효율적인 방식으로 성능을 향상시킬 수 있는 잠재력을 제시합니다. 특히, few-shot learning 환경에서 강력한 성능을 보이며, 리소스 제약이 있는 환경에서 유용하게 활용될 수 있습니다.

![[논문 리뷰] Training-Free Group Relative Policy Optimization](/assets/images/blog/20260101-paper-2510-08191-training-free-group-relative-p.jpg)