[논문 리뷰] 강화 주의 학습(RAL): LLM의 '생각' 과정을 튜닝하다

TL;DR

멀티모달 대형 언어 모델(MLLM)은 텍스트와 이미지를 넘나들며 놀라운 성능을 보여주고 있습니다. 그러나 복잡한 이미지나 비디오에서 정말 중요한 정보가 무엇인지 파악하고 집중하는 데는 여전히 어려움을 겪습니다. 이 문제를 해결하기 위해 **강화 주의 학습(Reinforced Attention Learning, RAL)**이라는 새로운 튜닝 패러다임을 제안합니다. RAL은 모델의 최종 '답변'이 아닌, 답변을 만들어내는 내부 '과정'인 주의(Attention) 메커니즘을 직접 최적화합니다. 이를 통해 모델은 더 효과적으로 정보의 우선순위를 정하고, 답변의 근거를 정확히 찾아내는 능력을 기릅니다. 다양한 이미지 및 비디오 벤치마크에서 기존 방법론보다 일관된 성능 향상을 보였으며, 더 똑똑하고 신뢰할 수 있는 MLLM으로 나아가는 중요한 열쇠가 될 수 있습니다.

연구 배경 및 동기

멀티모달 대형 언어 모델(MLLM)은 텍스트, 이미지, 비디오를 동시에 처리하며 인간과 유사한 수준의 이해 능력을 보여주고 있습니다. 하지만 복잡한 시각 정보가 주어졌을 때, 모델은 종종 엉뚱한 곳에 집중하거나 중요한 단서를 놓치곤 합니다.

기존의 후속 훈련(post-training) 방식, 예를 들어 인간 피드백 기반 강화 학습(RLHF)이나 직접 선호 최적화(DPO) 등은 주로 모델의 **최종 출력(next-token)**을 최적화하는 데 초점을 맞춥니다. 이는 마치 선생님이 학생의 최종 답안만 보고 채점하는 것과 같습니다. 정답을 맞혔는지는 알 수 있지만, 학생이 어떤 '생각의 과정'을 거쳐 답을 도출했는지는 알 수 없습니다. 만약 학생이 우연히 답을 맞혔다면, 비슷한 유형의 다른 문제도 풀 수 있다고 보장하기 어렵습니다.

이 연구는 여기서 한 걸음 더 나아갑니다. 모델의 '생각 과정'에 해당하는 주의(attention) 메커니즘을 직접 들여다보고 교정하는 새로운 접근 방식을 제안합니다. 모델이 정답을 찾기 위해 이미지의 어느 부분에 집중하고, 어떤 정보를 중요하게 여겼는지를 직접 튜닝하여, 단순히 정답을 맞히는 것을 넘어 '올바른 방법으로' 정답을 찾는 능력을 길러주는 것입니다. 이는 모델의 성능을 높일 뿐만 아니라, 모델의 판단 근거를 명확히 하여 신뢰도를 높이는 데도 기여합니다.

연구 분류	본 논문과의 차별점
Transformer 기반 모델	텍스트 중심의 주의 메커니즘을 시각 정보에 맞게 직접 최적화
CLIP	글로벌 정렬을 넘어, 특정 질문에 대한 로컬하고 세밀한 근거 찾기(grounding) 능력을 강화
DALL-E 등 생성 모델	생성(generation)이 아닌 이해(understanding)와 추론(reasoning)을 위한 주의 최적화에 집중
출력 기반 RL 튜닝	'무엇'을 생성할지가 아닌, '어디'를 보고 근거를 찾을지를 직접 학습
Multimodal Transformer	기존 구조를 활용하되, 주의 분포 자체를 강화학습의 '정책'으로 보고 최적화

핵심 기여

강화 주의 학습(RAL) 프레임워크 제안: 모델의 내부 주의 메커니즘을 강화학습의 '정책(policy)'으로 간주하고 직접 최적화하는 새로운 튜닝 패러다임을 제시했습니다.
온-정책 주의 증류(On-Policy Attention Distillation): 학습 초기, 불안정한 정책을 안정시키기 위한 기법입니다. 더 나은 교사 모델의 주의 패턴을 학생 모델이 모방하게 하여, 효과적인 교차 모달 정렬(cross-modal alignment)을 빠르게 달성하도록 돕습니다.
수학적 정식화 및 목적 함수: '이점 가중 주의 발산(Advantage-Weighted Attention Divergence)'이라는 목적 함수를 통해 RAL의 목표를 수학적으로 명확히 정의했습니다. 이를 통해 안정적이면서도 효과적인 주의 메커니즘 최적화가 가능합니다.
실험적 성능 검증: 다양한 이미지 및 비디오 벤치마크에서 기존 SFT(지도 미세조정)나 출력 기반 RL 방법론보다 일관된 성능 향상을 입증했습니다.
향상된 근거(Grounding) 능력: 주의 분포를 직접 최적화한 결과, 모델이 이미지나 비디오의 특정 객체나 장면에 대해 더 정확하게 근거를 대고 응답하는 '설명 가능한(explainable)' 능력이 크게 향상되었습니다.

제안 방법론

핵심 아이디어와 이론적 근거

RAL의 핵심 아이디어는 간단합니다. 모델의 주의 분포(attention distribution)를 일종의 정책( $\pi$ )으로 보는 것입니다.

상태(State): 입력 이미지/비디오와 현재까지 생성된 텍스트
행동(Action): 다음 토큰을 예측하기 위해 이미지의 어떤 패치(patch)에 얼마나 주의를 기울일지에 대한 확률 분포 (즉, 주의 가중치)
보상(Reward): 생성된 최종 답변이 얼마나 정확하고 유용한지

기존 RL 튜닝이 최종 답변(토큰 시퀀스)에 대한 보상을 극대화하려 했다면, RAL은 좋은 답변을 이끌어낸 '주의 패턴(행동)'에 직접 보상을 줍니다. 즉, 정답을 맞히는 데 도움이 된 주의 패턴은 강화하고, 오답을 유발한 주의 패턴은 억제하도록 학습합니다.

모델 아키텍처 상세 설명

RAL은 기존 MLLM 아키텍처를 수정하지 않고, 학습 과정에 새로운 목적 함수를 추가하는 방식으로 작동합니다. 전체 과정은 다음과 같습니다.

데이터 준비: 동일한 입력( $x$ )에 대해 더 나은 응답( $y_w$ , winner)과 더 나쁜 응답( $y_l$ , loser)으로 구성된 선호도 데이터 쌍( $(x, y_w, y_l)$ )을 사용합니다.
주의 맵 추출: 모델이 $y_w$ 와 $y_l$ 을 각각 생성할 때 사용한 내부 주의 맵(attention map)을 추출합니다. 이것이 바로 주의 정책( $\pi_\theta$ )입니다.
이점 계산: 두 응답의 품질 차이, 즉 이점( $\text{Advantage}$ )을 계산합니다. 이는 외부 보상 모델을 사용하거나, 단순히 $A=1$ 과 같이 이진적으로 설정할 수 있습니다.
RAL 손실 계산: 아래 설명할 핵심 수식을 사용하여 RAL 손실( $\mathcal{L}_{\text{RAL}}$ )을 계산합니다.
가중치 업데이트: 원래의 언어 모델링 손실과 $\mathcal{L}_{\text{RAL}}$ 을 결합하여 모델의 가중치(특히 주의 관련 파라미터)를 업데이트합니다.

핵심 수식

RAL의 목표는 **이점 가중 주의 발산(Advantage-Weighted Attention Divergence)**이라는 목적 함수를 최소화하는 것입니다.

\mathcal{L}_{\text{RAL}} = -\mathbb{E}_{(x, y_w, y_l)} \left[ \log \sigma \left( A(x, y_w, y_l) \cdot D_{\text{KL}}(\pi_{\theta}(z|x, y_w) || \pi_{\text{ref}}(z|x, y_w)) \right) \right]

수식이 복잡해 보이지만, 각 부분의 역할은 명확합니다.

$\pi_{\theta}(z|x, y_w)$ : 현재 학습 중인 모델이 '이기는' 응답( $y_w$ )을 생성할 때 사용한 주의 분포(정책)입니다.
$\pi_{\text{ref}}(z|x, y_w)$ : 학습 시작 전의 참조(reference) 모델이 동일한 응답을 생성할 때 사용했을 주의 분포입니다.
$D_{\text{KL}}(\cdot || \cdot)$ : KL 발산(KL Divergence)으로, 두 확률 분포의 차이를 측정합니다. 즉, 현재 주의 정책이 원래 정책에서 얼마나 변했는지를 나타냅니다.
$A(x, y_w, y_l)$ : 이점(Advantage)입니다. 이기는 응답이 지는 응답보다 얼마나 더 좋은지를 나타내는 스칼라 값( $R(y_w) - R(y_l)$ )입니다.
$\log \sigma(\cdot)$ : 로지스틱 함수와 로그를 결합한 형태로, DPO와 같은 선호도 기반 학습에서 흔히 사용되는 손실 함수 형태입니다.

이 수식의 직관적인 의미는 다음과 같습니다.

"이점( $A$ )이 클수록, 즉 이기는 응답( $y_w$ )이 훨씬 더 좋을수록, 현재 모델의 주의 패턴( $\pi_\theta$ )이 원래의 안정적인 참조 패턴( $\pi_\text{ref}$ )에서 너무 멀어지지 않도록 **규제(regularize)**하라."

이는 모델이 더 나은 답변을 찾는 과정에서 주의 메커니즘이 갑자기 너무 과격하게 변해 학습이 불안정해지는 것을 막아주는 중요한 안전장치 역할을 합니다. 동시에, 이기는 응답을 생성한 주의 패턴의 확률은 높이고, 지는 응답을 생성한 주의 패턴의 확률은 낮추는 방향으로 학습이 진행됩니다.

예시 코드 (Pseudo-code)

실제 구현 과정을 의사코드로 표현하면 다음과 같습니다.

def ral_loss(model, ref_model, batch):
    # batch: (prompts, winning_responses, losing_responses)
    prompts, y_w, y_l = batch

    # 1. 현재 모델과 참조 모델로부터 주의 맵 추출
    # requires_grad=True로 설정하여 주의 맵에 대한 그래디언트 계산
    outputs_w = model(prompts, y_w, output_attentions=True)
    attention_w = outputs_w.attentions  # 주의 정책 π_θ(z|x, y_w)

    with torch.no_grad():
        ref_outputs_w = ref_model(prompts, y_w, output_attentions=True)
        ref_attention_w = ref_outputs_w.attentions # 참조 정책 π_ref(z|x, y_w)

    # 2. 이점(Advantage) 계산
    # 간단하게는 1로 설정하거나, 별도의 보상 모델 사용 가능
    rewards_w = reward_model(prompts, y_w)
    rewards_l = reward_model(prompts, y_l)
    advantage = rewards_w - rewards_l

    # 3. KL 발산 계산
    # 주의 분포는 확률 분포이므로 KL Divergence 계산 가능
    kl_divergence = calculate_kl(attention_w, ref_attention_w)

    # 4. 최종 RAL 손실 계산
    # 수식에 따라 손실을 계산하고, advantage가 음수일 때 부호를 조절
    loss = -F.logsigmoid(advantage * kl_divergence)

    return loss.mean()

실험 설정

데이터셋

RAL의 효과를 검증하기 위해 이미지와 비디오를 아우르는 다양한 표준 벤치마크 데이터셋을 사용했습니다.

이미지 기반: MME (종합 평가), MMBench (다양한 능력 평가), SEED-Bench (고급 추론)
비디오 기반: Next-QA, MSVD-QA (비디오 질의응답)

평가 지표

단순 정확도 외에도 모델의 근거 찾기 능력을 직접 평가할 수 있는 지표를 사용했습니다.

일반 성능: 정확도(Accuracy), F1 점수 등
근거 찾기 성능: Grounding Accuracy (모델이 답변의 근거가 되는 객체를 정확히 지목하는지 평가)

베이스라인

SFT (Supervised Fine-Tuning): 일반적인 지도 미세조정 모델
GRPO (Grounded Reward Policy Optimization): 출력을 최적화하는 기존 토큰 기반 강화학습 방법론

하이퍼파라미터

실험의 재현성을 위해 주요 하이퍼파라미터를 명시합니다.

하이퍼파라미터	값	설명
학습률 (Learning Rate)	1e-5	모델 파라미터 업데이트 속도
배치 크기 (Batch Size)	32	한 번의 업데이트에 사용할 데이터 수
에포크 수 (Epochs)	5	전체 데이터셋 반복 학습 횟수
KL 페널티 계수 ( $\beta$ )	0.01	주의 분포 변화에 대한 규제 강도

실험 결과 분석

주요 결과

실험 결과, RAL은 모든 벤치마크에서 SFT와 GRPO를 포함한 베이스라인 모델들을 일관되게 능가했습니다.

모델	MMBench (Acc)	Next-QA (Acc)	Grounding Acc
SFT	85.2%	62.5%	71.3%
GRPO	86.5%	63.1%	73.8%
RAL (본 연구)	89.3%	65.8%	82.1%

특히 주목할 점은 Grounding Accuracy의 큰 폭 상승입니다. 이는 RAL이 단순히 정답을 더 잘 맞히는 것을 넘어, 정답의 올바른 근거를 찾는 능력이 크게 향상되었음을 의미합니다.

질적 분석 (Qualitative Analysis)

(설명을 위한 예시 이미지)

질문: "사진 왼쪽에 있는 소파의 색깔은 무엇인가요?"

SFT 모델: 주의가 이미지 전반에 흩어져 있으며, 특히 텍스트 프롬프트에 강하게 활성화됩니다.
GRPO 모델: 모든 소파에 주의를 분산시키는 경향을 보입니다.
RAL 모델: 질문에서 언급된 '왼쪽 소파'에 주의를 명확하고 강하게 집중합니다.

이러한 시각화 결과는 RAL이 어떻게 더 정확하고 신뢰할 수 있는 답변을 생성하는지를 직관적으로 보여줍니다.

Ablation Study 분석

RAL의 핵심 구성 요소들의 중요성을 확인하기 위해 Ablation Study를 진행했습니다. **온-정책 주의 증류(On-Policy Attention Distillation)**를 제거했을 때, 학습 초기에 성능이 불안정해지며 최종 정확도가 평균 2% 하락했습니다. 이는 주의 증류가 효과적인 초기 정책을 형성하는 데 중요한 역할을 함을 시사합니다.

비판적 평가

강점

혁신적인 패러다임: '무엇(What)'을 생성할지에서 '어떻게(How)' 그 결론에 도달하는지로 초점을 옮겨, 모델의 내부 동작을 직접 교정하는 새로운 길을 열었습니다.
향상된 설명 가능성: 주의 맵을 시각화함으로써 모델이 왜 그런 답변을 했는지에 대한 단서를 얻을 수 있어, 모델의 투명성과 신뢰도를 높입니다.
일관된 성능 향상: 다양한 종류의 멀티모달 태스크에서 기존 방법론들을 능가하는 성능을 보여주며 범용성을 입증했습니다.

한계점과 개선 방향

계산 복잡성 증가: 학습 과정에서 각 토큰에 대한 전체 주의 맵을 저장하고 역전파를 계산해야 하므로, 기존 RL 튜닝보다 더 많은 VRAM과 계산 자원을 요구합니다. 효율적인 주의 근사(attention approximation) 기법 연구가 필요합니다.
선호도 데이터 의존성: RAL은 양질의 선호도 데이터 쌍( $(y_w, y_l)$ )을 필요로 합니다. 이러한 데이터를 구축하는 데는 많은 비용이 발생할 수 있습니다.
추상적 개념에 대한 적용: '객체'나 '영역'이 명확한 이미지에서는 효과적이지만, '분위기'나 '의도'와 같은 추상적인 개념을 묻는 질문에서는 주의 메커니즘을 어떻게 해석하고 보상해야 할지 불분명할 수 있습니다.

향후 연구 방향

계산 효율성 개선: 주의 맵의 일부만 샘플링하거나 저차원(low-rank)으로 근사하여 계산 비용을 줄이는 연구가 필요합니다.
다양한 모달리티로 확장: 오디오, 3D 데이터 등 다른 모달리티에도 RAL을 적용하여 범용성을 검증할 수 있습니다.
에이전트(Agent) 모델에 적용: 자율 주행 자동차나 로봇과 같이, 시각적 환경을 이해하고 행동을 결정해야 하는 에이전트 모델에 RAL을 적용하면, 더 안전하고 예측 가능한 행동을 유도할 수 있을 것입니다.

실무 적용 가이드

RAL을 실제 프로젝트에 적용하려는 팀을 위한 가이드입니다.

베이스 모델 선택: LLaVA, IDEFICS와 같이 강력한 성능을 보이는 사전 학습된 MLLM을 베이스 모델로 선택합니다.
선호도 데이터 구축: 프로젝트의 목표에 맞는 프롬프트와 응답 쌍을 수집합니다. 이때, 단순히 정답/오답을 넘어 '더 나은 설명', '더 정확한 근거를 댄 답변'을 $y_w$ 로 선정하는 것이 중요합니다.
주의 맵 추출 구현: 사용하는 모델 아키텍처(e.g., Hugging Face Transformers)에서 output_attentions=True 옵션을 활성화하고, 특정 레이어(주로 cross-attention 레이어)의 주의 가중치를 추출하는 코드를 구현해야 합니다.
점진적 튜닝: RAL은 강력하지만 불안정할 수 있으므로, 낮은 학습률로 점진적으로 튜닝을 시작하고, KL 규제를 통해 모델이 급격하게 변하는 것을 방지하는 것이 중요합니다.

결론

강화 주의 학습(RAL)은 MLLM 튜닝의 새로운 지평을 엽니다. 학생의 최종 답안만 채점하던 방식에서 벗어나, 학생의 '풀이 과정 노트'를 직접 들여다보고 지도하는 것과 같습니다. 이 접근 방식은 단순히 성능 점수를 높이는 것을 넘어, 모델이 멀티모달 정보를 더 깊이 이해하고, 더 신뢰할 수 있는 근거를 바탕으로 응답을 생성하도록 돕습니다. RAL은 기존 토큰 기반 강화 학습의 한계를 극복하고, 더 똑똑하고 설명 가능한 MLLM을 향한 중요한 발걸음이 될 것입니다.

참고 자료

논문 링크: [ArXiv (링크 추가 예정)]
코드 저장소: [GitHub Repository (링크 추가 예정)]
관련 자료: [Supplementary Material (링크 추가 예정)]

[논문 리뷰] Reinforced Attention Learning