[논문 리뷰] Internalizing Agency from Reflective Experience
TL;DR
대형 언어 모델(LLM) 기반 자율 에이전트는 복잡한 작업을 수행할 잠재력이 있지만, 종종 사소한 실수로 실패하고 그 경험으로부터 배우지 못하는 한계를 보입니다. 기존의 결과 중심(outcome-driven) 학습 방식은 최종 성공 여부에만 의존하여, 상호작용 과정에서 발생하는 풍부한 환경 피드백을 낭비합니다. 이 논문은 이러한 문제를 해결하기 위해 LEAFE(Learning Feedback-Grounded Agency from Reflective Experience) 라는 새로운 프레임워크를 제안합니다. LEAFE는 에이전트가 실패 시 환경 피드백을 바탕으로 **반성(Reflection)**하고, 잘못된 결정을 내린 과거 시점으로 **롤백(Rollback)**하여 대안적 행동을 탐색하게 합니다. 이렇게 생성된 <실패 궤적, 반성, 성공 궤적> 경험을 지도 미세 조정(SFT)을 통해 모델에 **증류(distill)**함으로써, 에이전트는 문제 해결 및 회복 능력을 내재화합니다. 실험 결과, LEAFE는 WebShop, CodeContests 등 다양한 태스크에서 기존 강화학습 방법론을 크게 능가하며, 특히 더 많은 시도를 허용하는 Pass@k 지표에서 월등한 성능을 보여 에이전트의 문제 해결 범위를 효과적으로 확장했음을 입증했습니다.
연구 배경 및 동기
대형 언어 모델(LLM)의 등장은 단순히 텍스트를 생성하는 수준을 넘어, 복잡한 목표를 달성하기 위해 환경과 상호작용하는 **자율 에이전트(Autonomous Agent)**의 시대를 열었습니다. 이러한 에이전트는 웹 브라우징, 소프트웨어 엔지니어링, 과학 실험 등 다양한 분야에서 인간을 보조하거나 작업을 자동화할 엄청난 잠재력을 가지고 있습니다. 하지만 이 잠재력을 완전히 실현하기 위해서는 에이전트가 장기적인 상호작용 과정에서 필연적으로 발생하는 실수로부터 배우고, 스스로 행동을 수정하며 성장하는 능력이 필수적입니다.
현재 LLM 에이전트를 훈련시키는 지배적인 패러다임은 **결과 중심 학습(Outcome-Supervised Learning)**입니다. 대표적으로 RLHF(Reinforcement Learning from Human Feedback)나, 명확한 성공 기준이 있는 경우 사용되는 **RLVR(Reinforcement Learning with Verifiable Rewards)**이 있습니다. 이 방식들은 에이전트가 수행한 전체 작업 시퀀스(궤적, trajectory)의 최종 결과, 즉 '성공' 또는 '실패'에 대해서만 보상을 제공합니다. 예를 들어, 코딩 에이전트가 주어진 문제에 대한 코드를 작성했을 때, 모든 유닛 테스트를 통과하면 +1의 보상을, 하나라도 실패하면 0 또는 -1의 보상을 받는 식입니다.
이러한 접근법은 직관적이고 구현이 간단하지만, 다음과 같은 근본적인 한계를 가집니다.
-
신호 희소성 및 신용 할당 문제(Sparse Signal & Credit Assignment Problem): 수십, 수백 단계로 이루어진 긴 작업에서 최종 결과라는 단 하나의 피드백만으로는 어떤 단계의 어떤 결정이 성공 또는 실패에 기여했는지 파악하기 매우 어렵습니다. 에이전트가 100줄의 코드를 작성했는데 단 하나의 버그 때문에 테스트에 실패했다면, 모델은 어떤 줄을 수정해야 할지 알 길이 막막합니다.
-
환경 피드백의 낭비(Underutilization of Rich Feedback): 에이전트가 환경과 상호작용할 때, 환경은 "파일을 찾을 수 없습니다(File not found)", "잘못된 명령어(Invalid command)", "API 속성 오류(AttributeError)"와 같이 풍부하고 즉각적인 피드백을 제공합니다. 결과 중심 학습은 이러한 중간 과정의 귀중한 피드백을 대부분 무시하고 학습에 활용하지 못합니다.
-
분포 첨锐화(Distribution Sharpening): 성공한 궤적에만 보상을 주는 방식은 모델이 이미 잘하는 특정 성공 경로를 반복적으로 생성하도록 정책을 강화합니다. 이는 마치 정해진 답안지를 외우는 것과 같아서, 약간의 변형이나 예상치 못한 상황이 발생했을 때 대처하는 능력이 떨어집니다. 즉, 문제 해결 능력의 다양성(Pass@k)을 높이기보다는, 가장 확률 높은 단일 경로의 성공률(Pass@1)을 약간 높이는 데 그치는 경향이 있습니다.
이 연구는 바로 이 지점에서 출발합니다. 에이전트가 단순히 정답을 외우는 것을 넘어, 실패의 원인을 분석하고, 대안을 모색하며, 스스로 회복하는 능력, 즉 '에이전시(Agency)'를 어떻게 내재화할 수 있을까? 라는 근본적인 질문을 던집니다. LEAFE는 최종 결과가 아닌, 상호작용 과정에서 얻는 모든 피드백을 학습의 원천으로 삼아 에이전트가 스스로 성장하는 방법을 제안합니다.
관련 연구
LEAFE는 기존의 여러 연구 흐름을 창의적으로 결합하고 발전시킨 결과물입니다. 주요 관련 연구 분야와 LEAFE의 차별점을 살펴보겠습니다.
-
결과 중심 강화학습 (Outcome-Supervised RL):
- GRPO (Ghost-Regularized Policy Optimization): RLVR의 대표적인 알고리즘으로, 성공한 궤적의 확률을 높이고 실패한 궤적의 확률을 낮추는 방식으로 정책을 최적화합니다. 이는 분포 첨锐화 문제를 야기할 수 있으며, 중간 피드백을 활용하지 못하는 한계가 있습니다.
- Rejection Sampling Fine-Tuning (SFT): 여러 개의 결과물을 생성한 후, 성공한 결과물만을 선별하여 모델을 파인튜닝하는 방식입니다. 구현이 간단하지만, 성공적인 샘플을 생성하기까지 많은 비용이 들고 실패 경험으로부터 직접적으로 배우지 못합니다.
-
자기 반성 및 수정 (Self-Reflection and Correction):
- ReAct (Reasoning and Acting): 에이전트가 행동하기 전에 먼저 생각(Thought)을 생성하고, 그 결과를 관찰(Observation)하여 다음 계획을 세우는 프레임워크입니다. 이는 추론 능력을 향상시키지만, 과거의 잘못된 결정 지점으로 돌아가 수정하는 메커니즘은 없습니다.
- Reflexion: 에이전트가 실패 후 자신의 궤적을 요약하여 장기 기억에 저장하고, 다음 시도에서 이를 참고하여 같은 실수를 반복하지 않도록 합니다. LEAFE와 유사한 아이디어를 공유하지만, Reflexion은 주로 프롬프팅을 통해 반성 정보를 활용하는 반면, LEAFE는 이를 모델의 파라미터에 직접 내재화(internalize)하는 것을 목표로 합니다.
-
경험 기반 학습 (Experience-Based Learning):
- Early Experience: 에이전트가 초기에 겪은 실패 경험을 프롬프트에 추가하여 후반부 결정에 도움을 주는 방식입니다. 컨텍스트 길이에 제약을 받으며, 경험을 모델 자체에 통합하지는 못합니다.
- ACE (Agent-Critic-Expert): 에이전트의 궤적을 비평가(Critic)가 평가하고, 전문가(Expert)가 더 나은 대안을 제시하면 이를 학습 데이터로 활용합니다. 외부 모델(비평가, 전문가)에 의존하며, LEAFE처럼 에이전트 스스로 반성하고 대안을 탐색하는 방식과는 차이가 있습니다.
| 연구 방법론 | 핵심 아이디어 | 학습 신호 | 피드백 활용 | LEAFE와의 차이점 |
|---|---|---|---|---|
| GRPO (RLVR) | 최종 성공 궤적의 확률을 높이고 실패 궤적을 억제 | 최종 성공/실패 (희소) | 최종 결과만 활용 | 중간 피드백 낭비, 분포 첨锐화 문제 |
| Reflexion | 실패 경험을 요약하여 다음 시도의 프롬프트에 활용 | 최종 성공/실패 | 실패 궤적 전체를 요약 | 경험을 프롬프트에 의존, 모델 자체에 내재화하지 않음 |
| Early Experience | 초기 실패 경험을 컨텍스트에 추가 | 중간 피드백 | 초기 단계 피드백만 활용 | 컨텍스트 길이 제약, 경험 내재화 부재 |
| ACE | 외부 비평가/전문가 모델이 궤적을 평가하고 수정안 제시 | 전문가의 수정안 | 전체 궤적 | 외부 모델에 의존, 에이전트 스스로 반성하지 않음 |
| LEAFE (본 논문) | 실패 지점으로 롤백 후 반성을 통해 대안 탐색, 이를 모델에 증류 | 중간 환경 피드백 | 모든 상호작용 피드백 | 경험을 모델 파라미터에 직접 내재화, 롤백 메커니즘 활용 |
핵심 기여
이 논문이 제시하는 핵심적인 기여는 다음과 같이 정리할 수 있습니다.
-
새로운 에이전트 학습 프레임워크 'LEAFE' 제안: 결과 중심 학습의 한계를 극복하고, 풍부한 환경 피드백을 활용하여 에이전트의 회복 및 문제 해결 능력, 즉 **에이전시(Agency)**를 내재화하는 실용적이고 효과적인 프레임워크를 제안했습니다.
-
반성적 경험(Reflective Experience) 개념 도입: 에이전트가 단순히 실패하는 것에서 그치지 않고, 실패 지점으로 **롤백(Rollback)**하여 환경 피드백을 바탕으로 **반성(Reflection)**하고, 대안적인 행동을 탐색하는 과정을 통해 고품질의 학습 데이터를 생성하는 독창적인 방법을 제시했습니다.
-
반사실적 증류(Counterfactual Distillation) 손실 함수 설계: '만약 과거의 그 상황에서 다른 행동을 했다면 성공했을 것이다'라는 반사실적(counterfactual) 교훈을 모델에 직접 주입하는 새로운 손실 함수를 설계했습니다. 이는 실패 경험을 긍정적인 학습 신호로 전환하여 모델이 같은 실수를 반복하지 않도록 효과적으로 훈련시킵니다.
-
다양한 벤치마크에서의 성능 입증: 웹 쇼핑, 가상 환경 탐색, 코딩 등 광범위한 상호작용형 태스크에서 기존 결과 중심 학습 방법론들을 큰 차이로 능가함을 보였습니다. 특히, 문제 해결의 다양성을 측정하는 Pass@k 지표에서 월등한 성능을 보여, LEAFE가 단일 성공 경로를 암기하는 것이 아니라 더 넓은 범위의 문제 해결 능력을 학습했음을 증명했습니다.
제안 방법론: LEAFE
LEAFE의 핵심 아이디어는 "실패는 학습의 어머니다" 라는 격언을 에이전트 훈련에 체계적으로 적용하는 것입니다. 에이전트가 실패했을 때, 그 경험을 버리지 않고 오히려 가장 소중한 학습 자원으로 활용합니다. 이 과정은 크게 두 단계, 경험 생성 및 롤백과 경험 증류로 나뉩니다.
단계 1: 경험 생성 및 롤백 (Experience Generation & Rollback)
첫 번째 단계는 고품질의 학습 데이터를 수집하는 과정입니다. 에이전트는 환경과 상호작용하며 주어진 작업을 수행합니다. 이 과정은 단순한 시행착오가 아니라, 실패를 교훈으로 바꾸는 체계적인 탐색 과정입니다.
-
탐색 (Exploration): 에이전트는 현재 정책()에 따라 행동하며 작업을 수행합니다. 이때 모든 상태(state), 행동(action), 그리고 환경으로부터 받은 피드백(feedback)이 기록됩니다.
-
부정적 피드백 감지: 에이전트가 "Error", "Not found", "Timeout" 등 명백한 부정적 피드백을 받거나, 일정 스텝 동안 진전이 없는 등 실패 상태에 빠지면 반성 및 롤백 절차가 트리거됩니다.
-
반성 및 롤백 지점 식별: 에이전트(또는 별도의 LLM)는 현재까지의 상호작용 기록을 검토하여 **(a) 어느 결정이 잘못되었는지(롤백 지점, )**를 식별하고, **(b) 그 실수를 바로잡기 위한 간결한 지침(반성적 경험, experience)**을 생성합니다. 예를 들어, "품절이라는 피드백을 받았으니, 이전 검색 결과 페이지로 돌아가 다른 상품을 클릭해야 한다"와 같은 지침을 생성합니다.
-
롤백 및 대안 탐색: 환경의 상태를 식별된 롤백 지점()으로 되돌립니다. 그리고 생성된 반성적 경험을 프롬프트에 추가하여, 에이전트가 이전의 실패한 행동() 대신 새로운, 더 나은 행동()을 시도하도록 유도합니다. 이 과정을 통해 성공에 도달할 때까지 다양한 해결 경로를 트리(tree) 형태로 탐색합니다.
이 과정을 통해 우리는 세 종류의 데이터 쌍을 얻게 됩니다.
- 성공 궤적: 처음부터 성공적으로 작업을 완료한 궤적 ()
- 실패 궤적: 결국 실패로 끝난 궤적 ()
- 반성적 경험 쌍: 실패 궤적의 일부와, 롤백 후 수정을 통해 생성된 성공 궤적의 일부 ()
단계 2: 경험 증류 (Experience Distillation)
두 번째 단계는 1단계에서 수집한 경험 데이터를 사용하여 LLM 정책()을 파인튜닝하는 과정입니다. 목표는 롤백이나 명시적인 반성 지침 없이도, 에이전트가 테스트 시에 스스로 더 나은 결정을 내리도록 경험을 모델의 파라미터에 내재화하는 것입니다.
이를 위해 LEAFE는 두 가지 손실 함수를 결합한 목적 함수를 사용합니다.
여기서 는 두 손실 간의 가중치를 조절하는 하이퍼파라미터입니다.
1. 행동 리허설 손실 (): 기존 능력 유지하기
행동 리허설(Behavioral Rehearsal) 손실은 기존에 성공했던 궤적()을 다시 학습하여, 에이전트가 기본적인 작업 수행 능력을 잊지 않도록 합니다. 이는 새로운 지식을 학습하면서 기존 지식을 잃어버리는 파국적 망각(Catastrophic Forgetting) 현상을 방지하는 중요한 역할을 합니다. 수식은 표준적인 지도 학습 손실과 동일합니다.
- : 성공 궤적에 포함된 모든 상태-행동 쌍
- : 현재 모델 가 상태 에서 성공적인 행동 를 생성할 로그 확률
이 손실은 모델이 이미 잘하는 것을 계속 잘하도록 유지시켜 줍니다.
2. 반사실적 증류 손실 (): 실수로부터 배우기
반사실적 증류(Counterfactual Distillation) 손실은 LEAFE의 가장 핵심적인 부분입니다. 이 손실 함수는 1단계에서 수집한 '반성적 경험 쌍'을 활용하여 실패의 교훈을 모델에 직접 주입합니다.
아이디어는 간단합니다. 롤백이 발생했던 상태 에서, 에이전트는 원래 잘못된 행동 를 선택했지만, 반성을 통해 더 나은 행동 를 찾아냈습니다. 이제 우리는 모델에게 "만약 네가 다시 상태 에 처한다면, 대신 를 선택해야 해"라고 가르칩니다.
- : 1단계에서 수집한 실패-성공 수정 쌍
- : 실패가 발생하여 롤백이 일어난 시점의 상태
- : 롤백 후, 반성을 통해 시도한 새롭고 성공적인 행동
- : 모델이 외부의 반성 지침 없이 오직 상태 만 보고도 올바른 행동 를 할 확률
이 손실 함수는 실패했던 특정 상황()을 긍정적인 학습 기회로 전환합니다. 모델은 어떤 상황에서 어떤 행동이 실패로 이어지는지를 배우고, 그 대신 어떤 행동을 해야 하는지를 직접적으로 학습하게 됩니다. 이를 통해 에이전시가 모델 파라미터에 점진적으로 내재화되는 것입니다.
실험 설정
LEAFE의 효과를 검증하기 위해, 연구진은 다양한 상호작용형 에이전트 벤치마크에서 광범위한 실험을 수행했습니다.
-
데이터셋 및 환경:
- WebShop: 실제 온라인 쇼핑 웹사이트를 시뮬레이션한 환경으로, 사용자의 지시에 맞는 상품을 검색하고 구매하는 장기 목표 달성 태스크입니다.
- ALFWorld: 가상 가정 환경에서 "부엌으로 가서 사과를 집어 식탁 위에 놓으시오"와 같은 자연어 지시를 따르는 태스크입니다.
- ScienceWorld: 초등 과학 지식을 바탕으로 다양한 과학 실험을 수행하는 텍스트 기반 환경입니다.
- Sokoban: 상자를 밀어 목표 지점에 옮기는 고전 퍼즐 게임으로, 논리적 계획 능력을 평가합니다.
- CodeContests: 경쟁 프로그래밍 문제를 파이썬 코드로 해결하는 태스크로, 복잡한 추론과 디버깅 능력이 요구됩니다.
-
평가 지표:
- Pass@k: 에이전트가 k번의 독립적인 시도 중 적어도 한 번 이상 작업을 성공할 확률입니다. 이 지표는 에이전트의 문제 해결 능력의 폭과 다양성을 측정하는 데 유용합니다. Pass@1은 단 한 번의 시도에서의 성공률을 의미하며, k가 커질수록 더 안정적이고 다양한 해결책을 생성하는 능력을 평가할 수 있습니다.
-
베이스라인 모델:
- Base Model: 사전 훈련된 LLM을 추가적인 파인튜닝 없이 그대로 사용한 경우입니다.
- GRPO (Ghost-Regularized Policy Optimization): 결과 중심 강화학습의 대표적인 방법론으로, 최종 성공 여부만을 보상으로 사용합니다.
- Early Experience: 초기 실패 경험을 프롬프트에 추가하여 성능을 개선하는 방법입니다.
- SFT (Supervised Fine-Tuning): 성공한 궤적 데이터만으로 모델을 지도 학습시킨 경우입니다.
-
하이퍼파라미터: 실험의 재현성을 위해 주요 하이퍼파라미터를 다음과 같이 설정했습니다.
| 하이퍼파라미터 | 값 | 설명 |
|---|---|---|
| Base Model | CodeLlama-7B-Instruct | 실험에 사용된 기본 LLM |
| Learning Rate | 5e-6 | 학습률 |
| Batch Size | 16 | 배치 크기 |
| (Loss Weight) | 0.8 | 에서 의 가중치 |
| Optimizer | AdamW | 최적화 알고리즘 |
| Max Sequence Length | 4096 | 모델의 최대 입력 길이 |
실험 결과 분석
실험 결과, LEAFE는 모든 벤치마크에서 기존 베이스라인 모델들을 일관되게 능가하는 뛰어난 성능을 보였습니다.
주요 결과
아래 표는 주요 벤치마크에서의 Pass@k 성능을 요약한 것입니다.
| 벤치마크 | 모델 | Pass@1 | Pass@8 | Pass@128 |
|---|---|---|---|---|
| WebShop | Base Model | 18.4 | 38.6 | 68.2 |
| GRPO | 20.1 | 41.2 | 70.1 | |
| LEAFE (Ours) | 22.5 (+11.9%) | 48.3 (+17.2%) | 84.1 (+20.0%) | |
| ALFWorld | Base Model | 68.0 | 81.2 | 92.4 |
| GRPO | 70.1 | 83.5 | 93.1 | |
| LEAFE (Ours) | 74.2 (+5.8%) | 88.6 (+6.1%) | 97.8 (+5.0%) | |
| CodeContests | Base Model | 10.9 | 24.1 | 55.2 |
| GRPO | 12.1 | 26.5 | 58.3 | |
| LEAFE (Ours) | 13.8 (+14.0%) | 30.2 (+14.0%) | 66.5 (+14.1%) |
(성능 향상률은 GRPO 대비 LEAFE의 상대적 개선율을 나타냄)
- 일관된 성능 향상: LEAFE는 모든 벤치마크와 모든 k 값에서 Base Model과 GRPO를 포함한 모든 베이스라인보다 높은 성능을 달성했습니다. 이는 LEAFE가 특정 태스크에 국한되지 않는 일반적인 에이전트 학습 프레임워크임을 시사합니다.
- Pass@k에서의 압도적 우위: 특히 주목할 점은 k가 커질수록(Pass@8, Pass@128) GRPO와의 성능 격차가 더 벌어진다는 것입니다. WebShop의 경우, Pass@1에서는 11.9%의 향상을 보였지만 Pass@128에서는 20.0%까지 격차가 벌어졌습니다. 이는 GRPO가 소수의 성공 경로에 과적합(분포 첨锐화)되는 반면, LEAFE는 다양한 실패 시나리오를 학습함으로써 더 넓고 강건한(robust) 행동 분포를 학습했음을 의미합니다. 즉, LEAFE 에이전트는 여러 가지 방법으로 문제를 해결할 수 있는 능력을 갖추게 된 것입니다.
- 에이전시 내재화 검증: LEAFE로 학습된 에이전트는 테스트 시(롤백 기능 없이) 처음부터 더 효율적이고 올바른 경로를 선택하는 경향을 보였습니다. 이는 반성적 경험이 성공적으로 모델의 정책 자체에 내재화되었음을 보여주는 강력한 증거입니다.
Ablation Study (요소 제거 연구)
LEAFE의 어떤 구성 요소가 성능 향상에 핵심적인지 파악하기 위해 Ablation Study를 수행했습니다.
- LEAFE w/o : 반사실적 증류 손실()을 제거하고, 행동 리허설 손실()만으로 학습한 경우입니다. 즉, 성공 궤적만으로 SFT를 수행한 것과 같습니다. 이 경우 성능이 GRPO와 비슷하거나 약간 낮은 수준으로 크게 하락했습니다. 이는 실패 경험으로부터 배우는 가 LEAFE의 성능 향상에 결정적인 역할을 함을 명확히 보여줍니다.
- LEAFE w/o : 행동 리허설 손실()을 제거하고, 반사실적 증류 손실()만으로 학습한 경우입니다. 성능이 소폭 하락했는데, 이는 기존의 성공적인 행동을 잊어버리는 파국적 망각이 일부 발생했음을 시사합니다. 따라서 는 학습의 안정성을 위해 중요한 역할을 합니다.
비판적 평가
LEAFE는 LLM 에이전트 학습에 있어 중요한 진전을 이루었지만, 몇 가지 강점과 함께 고려해야 할 한계점도 존재합니다.
강점
- 높은 샘플 효율성: 실패 궤적을 버리지 않고 고품질의 학습 데이터로 재활용함으로써, 결과 중심 RL에 비해 훨씬 적은 상호작용으로도 높은 성능을 달성할 수 있습니다.
- 피드백 활용 극대화: 최종 결과뿐만 아니라 과정에서 발생하는 모든 종류의 환경 피드백을 학습 신호로 사용하여 모델을 정교하게 튜닝합니다.
- 일반성 및 확장성: 특정 도메인에 국한되지 않고, 상호작용과 피드백이 존재하는 거의 모든 에이전트 태스크에 적용할 수 있는 범용적인 프레임워크입니다.
- 해석 가능성: 실패 지점과 반성 내용을 분석함으로써 에이전트가 어떤 부분에서 어려움을 겪고 어떻게 개선되었는지 추적하기 용이합니다.
한계점 및 개선 방향
- 환경의 롤백 기능 의존성: LEAFE의 핵심 메커니즘은 특정 상태로 환경을 되돌리는 '롤백' 기능에 의존합니다. 시뮬레이터나 게임 환경에서는 이것이 가능하지만, 실제 물리적 세계나 되돌릴 수 없는 웹 인터랙션(예: 계정 삭제)에서는 적용하기 어렵습니다.
- 반성의 질(Quality of Reflection) 문제: 반성적 경험을 생성하는 과정 역시 LLM에 의존합니다. 만약 LLM이 실패의 원인을 잘못 진단하거나 부적절한 수정안을 제시한다면, 오히려 학습에 부정적인 영향을 미칠 수 있습니다. 반성의 정확도를 높이는 메커니즘에 대한 추가 연구가 필요합니다.
- 탐색 비용: 성공적인 대안 경로를 찾기 위해 트리 형태로 탐색하는 과정은 상당한 계산 비용을 요구할 수 있습니다. 특히, 해결 경로가 매우 길고 복잡한 문제에서는 탐색 공간이 기하급수적으로 커질 수 있습니다.
향후 연구 방향
LEAFE는 앞으로의 에이전트 연구에 많은 영감을 줍니다. 몇 가지 유망한 향후 연구 방향은 다음과 같습니다.
- 롤백 불가능한 환경으로의 확장: 물리적 로봇이나 실시간 시스템과 같이 롤백이 불가능한 환경에 LEAFE의 아이디어를 적용하기 위한 연구가 필요합니다. 예를 들어, 실제 환경 대신 정교한 월드 모델(World Model) 시뮬레이터 내에서 롤백과 반성을 수행하고, 그 결과를 실제 정책에 전달하는 방식을 탐구해볼 수 있습니다.
- 자동화된 커리큘럼 학습: 에이전트가 쉬운 실수부터 점진적으로 어려운 실수를 교정하도록 학습 커리큘럼을 자동 생성하는 방식을 결합하면 학습 효율을 더욱 높일 수 있을 것입니다.
- 다중 에이전트 협력: 여러 에이전트가 서로의 실패 경험을 공유하고 함께 반성하여 집단적으로 성장하는 다중 에이전트 학습 시나리오에 LEAFE를 적용하는 연구도 흥미로울 것입니다.
실무 적용 가이드
LEAFE를 실제 프로젝트에 적용하고자 하는 개발자들을 위한 몇 가지 고려사항과 팁입니다.
- 환경 설계: LEAFE를 적용하기 위한 가장 중요한 전제 조건은 환경이 특정 상태를 저장(save)하고 복원(restore)하는 기능을 지원해야 한다는 것입니다. 개발 초기 단계부터 환경의 상태 관리와 롤백 기능을 염두에 두고 설계하는 것이 중요합니다.
- 반성 프롬프트 튜닝: 반성의 질은 전체 학습 성능에 큰 영향을 미칩니다. 태스크의 특성에 맞게 실패 원인을 정확히 진단하고 구체적인 대안 행동을 유도할 수 있도록 반성 프롬프트를 신중하게 설계하고 여러 번의 테스트를 통해 개선해야 합니다.
- 데이터 수집과 학습의 분리: 경험 생성(1단계)과 경험 증류(2단계)는 분리된 파이프라인으로 구성하는 것이 효율적입니다. 먼저 대규모로 다양한 상호작용 데이터를 수집하여 데이터셋을 구축한 뒤, 이 데이터셋을 사용하여 GPU 클러스터에서 모델을 안정적으로 파인튜닝하는 방식을 권장합니다.
- 실패 정의의 명확화: 어떤 상황을 '실패'로 간주하고 반성 및 롤백을 트리거할 것인지에 대한 기준을 명확히 해야 합니다. 명시적인 에러 메시지 외에도, '일정 시간 동안 목표 달성률에 진전이 없는 상태' 등과 같은 휴리스틱을 추가하여 교착 상태를 감지하는 것이 좋습니다.
결론
LEAFE는 LLM 기반 자율 에이전트가 단순한 패턴 매칭을 넘어, 진정한 의미의 문제 해결 능력, 즉 에이전시를 갖추기 위한 중요한 이정표를 제시합니다. 실패를 벌점이 아닌 성장의 기회로 삼는 LEAFE의 철학은, 결과 중심 학습의 한계를 명확히 지적하고 그 대안을 구체적인 알고리즘으로 구현해냈습니다. 환경과의 상호작용에서 얻는 풍부한 피드백을 내재화함으로써, 에이전트는 더 강건하고, 유연하며, 스스로 발전하는 존재로 거듭날 수 있습니다. 이 연구는 앞으로 더욱 지능적이고 자율적인 AI 시스템을 구축하는 데 있어 핵심적인 기반 기술이 될 잠재력을 가지고 있습니다.
참고 자료
- 논문 원문: Ge, R., Fu, Y., Qian, Y., Su, J., Zhao, Y., Zhao, P., & Zhang, H. (2026). Internalizing Agency from Reflective Experience. arXiv preprint arXiv:2603.16843. (가상 링크)
- 공식 코드 저장소: [GitHub 링크] (가상 링크)
- 관련 연구 (GRPO): [GRPO 논문 링크] (가상 링크)
- 관련 연구 (Reflexion): [Reflexion 논문 링크] (가상 링크)

![[논문 리뷰] Internalizing Agency from Reflective Experience](/assets/images/blog/20260319-paper-2603-16843-internalizing-agency-from-refl.jpg)