[논문 리뷰] KnowRL: 지식 기반 강화학습으로 LLM의 사실성(Factuality) 정복하기

TL;DR

대규모 언어 모델(LLM)은 복잡한 질문에 대해 단계별 추론(Chain-of-Thought)이 가능하지만, 종종 잘못된 정보를 사실처럼 생성하는 '환각' 문제를 겪습니다. **KnowRL (Knowledge-Reinforced Reinforcement Learning)**은 이러한 문제를 해결하기 위해 추론 과정의 사실성에 초점을 맞춘 새로운 강화학습 프레임워크를 제안합니다. KnowRL은 추론 과정을 검증 가능한 '원자적 사실'로 분해하고, 이를 외부 지식 베이스와 대조하여 사실 기반 보상을 제공합니다. 이를 통해 모델은 자신의 지식 경계를 명확히 인지하고, 모르는 정보에 대해서는 답변을 회피하도록 학습합니다. 실험 결과, KnowRL은 환각을 획기적으로 줄이면서도 기존의 추론 능력은 유지하는 뛰어난 성능을 보였습니다.

연구 배경 및 동기

LLM은 '느리게 생각하기'(Slow Thinking), 즉 단계별 추론(Chain-of-Thought, CoT)을 통해 복잡한 문제 해결 능력을 비약적으로 향상시켰습니다. 하지만 이러한 능력의 이면에는 치명적인 약점인 **'환각'(Hallucination)**이 존재합니다. 모델이 자신의 지식 경계를 인지하지 못하고, 그럴듯하지만 사실이 아닌 정보를 생성하는 문제입니다.

기존의 강화학습(RLHF) 접근법은 주로 최종 결과의 정답 여부나 사용자 선호도에 기반한 보상에 의존합니다. 이는 모델이 정답을 맞혔더라도 그 과정에 논리적 비약이나 사실적 오류가 포함되어 있다면, 잘못된 추론 경로까지 강화할 수 있는 한계를 가집니다. 즉, '결과만 좋으면 과정은 상관없다'는 식의 학습이 이루어질 수 있습니다.

KnowRL은 이러한 패러다임을 전환합니다. 최종 결과가 아닌 추론 과정의 모든 단계가 사실에 기반하는지에 집중하여, 모델이 자신의 지식 경계를 파악하고 정보가 부족할 때는 정직하게 "모르겠다"고 답하도록 학습시킵니다. 이는 더 투명하고 신뢰할 수 있는 AI 시스템을 구축하기 위한 핵심적인 접근법입니다.

연구 방법	핵심 아이디어	KnowRL과의 차별점
Self-Refine	모델 스스로 출력 평가 및 수정	외부 지식 소스 없이 내부 지식에 의존, 과정 검증 부재
SFT	고품질 시연 데이터로 미세조정	높은 데이터 구축 비용, 과정보다 결과 모방에 집중
DPO	선호/비선호 쌍으로 정책 직접 최적화	결과 중심의 '선호도' 보상, 추론 과정의 사실성 직접 제어 불가

핵심 기여

지식 경계 인식 강화: 모델이 자신의 지식 한계를 명확히 인지하고, 모르는 질문에 대해 "I don't know"라고 답변하도록 학습시켜 신뢰도를 높입니다.
과정 중심 보상 설계: 추론 과정의 각 단계를 원자적 사실로 분해하고, 외부 지식 베이스와 대조하여 세밀한 사실성 보상을 부여하는 새로운 보상 체계를 제안합니다.
환각 문제의 효과적 해결: 다양한 벤치마크 데이터셋에서 기존 RLHF 방법론 대비 환각으로 인한 오류를 크게 감소시켰음을 실험적으로 입증했습니다.
알고리즘 호환성: PPO, A2C 등 다양한 RL 알고리즘과 유연하게 결합할 수 있는 프레임워크를 제공합니다.
교차 언어 전이 학습 능력: 한 언어(예: 영어)에서의 사실성 학습이 다른 언어(예: 중국어)의 추론 성능까지 향상시키는 높은 전이성을 보였습니다.

제안 방법론: KnowRL

KnowRL은 **분해(Decomposition) → 검증 및 보상(Verification & Reward) → 최적화(Optimization)**의 3단계로 구성됩니다.

1단계: 추론 경로 분해 및 원자적 사실 추출

LLM이 생성한 CoT 추론 과정을 검증 가능한 최소 단위의 **원자적 사실(atomic facts)**로 분해합니다. 원자적 사실은 (주체, 관계, 객체) 형태의 트리플(triple)로 표현됩니다.

질문: "달에 최초로 인간을 착륙시킨 아폴로 미션 당시 미국 대통령은 누구였나요?"

LLM의 추론 경로 (CoT): "최초의 유인 달 착륙은 1969년에 아폴로 11호 미션을 통해 이루어졌습니다. 1969년 당시 미국 대통령은 리처드 닉슨이었습니다. 따라서 정답은 리처드 닉슨입니다."

추출된 원자적 사실:

(최초의 유인 달 착륙, 발생 연도, 1969년)

(최초의 유인 달 착륙, 관련 미션, 아폴로 11호)

(1969년, 미국 대통령, 리처드 닉슨)

이렇게 분해된 사실들은 외부 지식 베이스(예: 위키피디아)를 통해 검증됩니다.

2단계: 세분화된 보상 함수 설계

KnowRL은 추론 경로( $\tau$ )의 품질을 다각도로 평가하기 위해 세 가지 요소를 결합한 보상 함수 $R(\tau)$ 를 사용합니다.

R(\tau) = w_f R_{\text{format}}(\tau) + w_a R_{\text{ans}}(\tau) + w_c R_{\text{fact}}(\tau)

형식 보상 ( $R_{\text{format}}$ ): 답변이 요구하는 형식(예: CoT 형식, 최종 답변 포함 여부)을 따랐는지 평가합니다.
정답 보상 ( $R_{\text{ans}}$ ): 최종 답변이 정답과 일치하는지 평가합니다.
사실성 보상 ( $R_{\text{fact}}$ ): 가장 핵심적인 보상입니다. 분해된 각 원자적 사실을 외부 지식 베이스와 대조하여, 사실일 경우 양의 보상(+), 거짓일 경우 음의 보상(-)을 부여합니다.

3단계: 그룹 상대적 이점 ( $A_g$ )을 통한 정책 최적화

단순히 보상 총합만으로 학습하면, 모델은 우연히 정답을 맞힌 사실성 낮은 경로(환각)를 선호할 수 있습니다. 이를 방지하기 위해 KnowRL은 **그룹 상대적 이점(Group-Relative Advantage, $A_g$ )**이라는 독창적인 개념을 도입합니다.

A_g(\tau) = R(\tau) - \mathbb{E}_{\tau' \sim \pi_\theta, g(\tau')=g(\tau)}[R(\tau')]

$g(\tau)$ 는 추론 경로 $\tau$ 를 사실성 점수에 따라 그룹화하는 함수입니다. (예: '사실 3개 그룹', '사실 2개 & 오류 1개 그룹')
$A_g(\tau)$ 는 현재 추론 경로( $\tau$ )의 보상을, 동일한 사실성 그룹 내 다른 경로들의 평균 보상과 비교합니다.

이 방식은 모델이 무작정 높은 보상을 좇는 대신, "현재 나의 사실성 수준에서 더 나은 추론을 하라"는 정교한 학습 신호를 제공합니다. 예를 들어, 환각이 많은 그룹 내에서는 그나마 오류가 적은 경로를 탐색하고, 사실성이 높은 그룹 내에서는 더 간결하고 정확한 답변을 생성하도록 유도합니다.

실험 설정

데이터셋

SimpleQA, ChineseSimpleQA: 단답형 사실 기반 질문 데이터셋으로, 환각 발생 여부를 측정하기에 용이합니다.
GPQA: 전문가 수준(물리학, 화학, 생물학)의 매우 어려운 추론 질문으로, 복잡한 추론 능력 유지 여부를 평가합니다.
AIME 2025: 미국 수학 경시대회 문제로, 수학적 추론 능력을 평가합니다.

평가 지표

환각 오류율(Hallucination Error Rate): 잘못된 사실을 근거로 추론하여 틀린 답변을 내는 비율
"모르겠다" 답변율(Rejection Rate): 모델이 답변을 거부하는 비율
정확도(Accuracy): 최종 답변의 정답률

베이스라인 모델

Self-Refine: LLM 자체 피드백 기반 최적화
SFT: 전문가 시연 데이터 기반 미세조정
PPO-Outcome: 결과 기반 보상(정답 여부)을 사용하는 표준 PPO

실험 결과 분석

KnowRL은 모든 벤치마크에서 기존 방법론들을 압도하며, 환각 제어와 추론 능력 유지라는 두 마리 토끼를 모두 잡았습니다.

주요 결과

데이터셋	PPO-Outcome 오류율	KnowRL 오류율	개선율(%)
SimpleQA	30.5%	10.2%	66.6%
GPQA	25.3%	12.5%	50.6%

환각의 획기적 감소: SimpleQA에서 환각으로 인한 오류율을 20.3%p (66.6%) 감소시켰습니다. 이는 모델이 더 이상 그럴듯한 거짓말을 만들어내지 않음을 의미합니다.
고난도 추론 능력 유지: 전문가 수준의 GPQA 데이터셋에서도 성능 저하 없이 환각을 절반으로 줄였습니다. 이는 KnowRL이 사실성을 강화하면서도 모델의 고유한 추론 능력을 해치지 않음을 보여줍니다.
신뢰도 높은 답변: 모델이 자신의 지식 경계를 벗어나는 질문에 대해 "모르겠다"고 답하는 비율이 유의미하게 증가하여, 사용자가 모델의 답변을 더 신뢰할 수 있게 되었습니다.

Ablation Study (구성 요소 분석)

KnowRL의 각 구성 요소( $R_{\text{format}}$ , $R_{\text{ans}}$ , $R_{\text{fact}}$ , $A_g$ )를 하나씩 제거하며 성능을 측정한 결과, 사실성 보상( $R_{\text{fact}}$ )이 환각 문제 해결에 가장 결정적인 기여를 한다는 것을 확인했습니다.

비판적 평가

강점

근본적인 환각 해결: 결과가 아닌 '과정'의 사실성을 직접 교정함으로써 환각 문제에 대한 근본적인 해결책을 제시합니다.
해석 가능성 및 투명성: 추론 과정을 원자적 사실로 분해하고 검증하여, 모델이 왜 그런 결론을 내렸는지 추적하고 이해하기 쉽습니다.
뛰어난 일반화 및 호환성: 다양한 RL 알고리즘과 결합 가능하며, 특정 언어에서 학습된 사실성 제어 능력이 다른 언어로까지 전이되는 강력한 일반화 성능을 보입니다.

한계점과 개선 방향

지식 베이스(KB) 의존성: KnowRL의 성능은 검증에 사용되는 외부 지식 베이스의 품질과 최신성에 크게 의존합니다. KB가 부정확하거나 특정 도메인 지식이 부족할 경우, 오히려 모델 학습에 방해가 될 수 있습니다.
계산 및 검증 비용: 추론 과정에서 생성된 모든 사실을 외부 KB와 대조하는 과정은 상당한 계산 비용과 지연 시간(latency)을 유발할 수 있습니다. 실시간 서비스에 적용하기 위해서는 경량화 및 최적화 연구가 필요합니다.

향후 연구 방향

지식 베이스 없는 사실성 검증: 외부 KB에 대한 의존도를 줄이고, LLM이 가진 내재적 지식이나 여러 모델 간의 합의(consensus)를 통해 사실성을 검증하는 연구로 확장될 수 있습니다.
멀티모달 도메인으로의 확장: 텍스트를 넘어 이미지, 오디오 등 다양한 양식(modality)의 정보를 검증하는 메커니즘을 개발하여, 시각-언어 모델(VLM)의 환각 문제(예: 이미지에 없는 내용을 설명하는 것)를 해결하는 데 적용할 수 있습니다.

실무 적용 가이드

KnowRL을 실무에 도입하고자 할 때 다음 사항을 고려해야 합니다.

고품질 지식 베이스 구축: 적용하려는 도메인(예: 법률, 의료, 금융)에 특화된, 신뢰할 수 있는 지식 베이스를 구축하거나 확보하는 것이 가장 중요합니다.
비용-효과 분석: 사실성 검증에 드는 추가적인 계산 비용과 지연 시간이 서비스의 요구사항에 부합하는지 신중히 평가해야 합니다. 모든 쿼리에 적용하기보다, 사실 확인이 중요한 특정 유형의 쿼리에 선별적으로 적용하는 하이브리드 접근이 효과적일 수 있습니다.
점진적 도입: 처음에는 내부 검증 시스템이나 민감도가 낮은 서비스에 우선 적용하여 안정성과 효과를 검증한 후, 점차 핵심 서비스로 확대하는 전략을 추천합니다.

결론

KnowRL은 LLM의 환각 문제를 해결하기 위해 보상의 패러다임을 '결과'에서 '과정'으로 전환한 혁신적인 연구입니다. 추론 과정을 원자적 사실 단위로 분해하고 이를 외부 지식과 대조하여 세밀한 보상을 제공함으로써, 모델이 스스로의 지식 경계를 배우고 사실에 기반하여 추론하도록 훈련시킵니다. 이 접근법은 LLM의 투명성과 신뢰도를 한 단계 끌어올려, 더 안전하고 책임감 있는 AI 시스템을 구축하는 데 중요한 이정표가 될 것입니다.

[논문 리뷰] KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality