[논문 리뷰] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

TL;DR

강화 학습(Reinforcement Learning, RL)에서 다중 보상 설정은 다양한 인간의 선호도를 반영하는 데 필수적입니다. 기존의 Group Relative Policy Optimization(GRPO) 방법은 이러한 다중 보상 설정에서 보상의 해상도를 감소시켜 부정확한 정책 업데이트를 초래할 수 있습니다. 이 논문에서는 이러한 문제를 해결하기 위해 Group reward-Decoupled Normalization Policy Optimization(GDPO)을 제안합니다. GDPO는 각 보상을 개별적으로 정규화하여 보상 간의 상대적 차이를 유지하고, 훈련의 안정성을 크게 향상시킵니다. 실험 결과, GDPO는 도구 호출, 수학적 추론, 코드 추론 작업에서 GRPO보다 일관되게 더 나은 성능을 보였습니다. 이는 GDPO가 다양한 인간 선호도를 반영하는 모델을 학습시키는 데 있어 중요한 발전을 나타냅니다.

연구 배경 및 동기

강화 학습은 다양한 분야에서 인간 수준의 성능을 달성하는 데 있어 중요한 역할을 하고 있습니다. 특히, 언어 모델이 점점 더 능력을 갖추게 되면서, 사용자들은 이러한 모델이 정확한 응답을 제공할 뿐만 아니라 다양한 인간의 선호도에 맞춘 행동을 하기를 기대하고 있습니다. 이를 위해 다중 보상 강화 학습(Multi-reward Reinforcement Learning) 기법이 도입되었습니다. 다중 보상 설정은 여러 개의 보상을 사용하여 모델을 학습시키는 방법으로, 각 보상은 특정한 선호도를 캡처합니다.

그러나 기존의 다중 보상 설정에서 널리 사용되던 Group Relative Policy Optimization(GRPO) 방법은 보상 신호를 그룹화하여 정책을 최적화하지만, 이 과정에서 보상 신호의 해상도를 감소시켜 부정확한 정책 업데이트를 초래할 수 있습니다. 이는 훈련 수렴성을 저하시킬 뿐만 아니라, 경우에 따라 조기 훈련 실패로 이어질 수 있습니다. 이러한 문제를 해결하기 위해, 이 논문은 Group reward-Decoupled Normalization Policy Optimization(GDPO)을 제안합니다. GDPO는 각 보상의 정규화를 분리하여 보상 간의 상대적 차이를 더 잘 유지하고, 보다 정확한 다중 보상 최적화를 가능하게 합니다. 이는 훈련의 안정성을 크게 향상시켜, 다양한 인간 선호도와의 정렬에서 우수한 결과를 제공합니다.

연구	장점	한계	본 논문과의 차별점
GRPO	다중 보상 그룹화	보상 해상도 감소	보상 정규화 분리
TRPO	안정성 확보	다중 보상 적용 어려움	다중 보상 최적화 가능
PPO	변화 크기 제한	다중 보상 제한적 적용	보상 간 차이 유지
A3C	효율성 높임	보상 간 차이 유지 한계	보상 정규화 분리
DQN	Q-값 추정	정책 최적화 어려움	다중 보상 최적화 가능

핵심 기여

GDPO 제안: 다중 보상 강화 학습에서 보상 신호의 정규화를 분리하여 각 보상의 상대적 차이를 유지하는 새로운 정책 최적화 방법론을 제안합니다.
이론적 검증: GDPO가 GRPO보다 더 나은 수렴성과 정책 업데이트를 제공함을 이론적으로 검증합니다.
실험적 검증: 도구 호출, 수학적 추론, 코드 추론 작업에서 GDPO의 성능을 실험적으로 검증하여, 다양한 인간 선호도와의 정렬에서 우수한 결과를 제공합니다.
조건부 길이 보상 도입: 응답이 올바르고 길이 제한을 만족할 때만 보상을 주어, 길이 보상과 정확성 보상 간의 난이도 차이를 완화합니다.

제안 방법론

GDPO는 다중 보상 강화 학습을 위한 새로운 정책 최적화 방법론으로, 각 보상을 개별적으로 정규화하여 보상 간의 차이를 유지합니다. 이는 GRPO의 단점을 보완하여 더 나은 수렴성과 정책 업데이트를 제공합니다. GDPO의 핵심은 보상 신호가 여러 개인 상황에서 각 보상을 개별적으로 정규화하여 보상 간의 차이를 유지하는 것입니다. 이를 통해 정책 업데이트의 정확성을 높이고, 훈련 실패를 방지합니다.

모델 아키텍처

GDPO는 각 보상을 개별적으로 정규화한 후, 배치 단위의 이점 정규화를 적용하여 보상의 수에 관계없이 안정적인 수치 범위를 유지합니다. 이를 통해 보상 간의 상대적 차이를 유지하며, 보다 정확한 다중 보상 최적화를 가능하게 합니다.

핵심 수식

GDPO의 이점 계산:
$A_{(i,j)}^k = \frac{r_{(i,j)}^k - \text{mean}\{r_{(i,1)}^k,...,r_{(i,G)}^k\}}{\text{std}\{r_{(i,1)}^k,...,r_{(i,G)}^k\}}$
여기서 $A_{(i,j)}^k$ 는 $k$ 번째 보상의 이점을 나타내며, $r_{(i,j)}^k$ 는 $k$ 번째 보상의 $i,j$ 번째 샘플의 보상 값입니다.
이점의 합산:
$A_{(i,j)}^{\text{sum}} = A_{(i,j)}^1 + \cdots + A_{(i,j)}^n$
이는 모든 보상의 이점을 합산하여 최종 이점을 계산합니다.
조건부 길이 보상 수식:
$\tilde{ℛ}_{length} = \begin{cases} 1, & \text{if response length} \leq l \text{ and } ℛ_{correct} = 1 \\ 0, & \text{otherwise} \end{cases}$
이는 응답의 길이가 제한을 만족하고, 정확성 보상이 1일 때만 길이 보상을 부여합니다.

실험 설정

실험은 도구 호출, 수학적 추론, 코드 추론의 세 가지 작업에서 GDPO와 GRPO를 비교하여 진행되었습니다. 각 작업은 정확도, 형식 준수, 길이 제약, 코드 품질 등의 다양한 보상을 최적화합니다. 실험에 사용된 데이터셋은 DeepSeek-R1-7B 모델을 기반으로 하며, 평가 지표로는 정확도, 형식 준수, 길이 초과 비율, 버그 비율 등이 사용되었습니다.