[논문 리뷰] Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

TL;DR

이 논문은 대규모 언어 모델(LLM) 기반 에이전트 AI가 새로운 환경과 도구에 적응(Adaptation)하는 문제를 체계적으로 분석합니다. 에이전트의 적응(A1, A2)과 도구의 적응(T1, T2)이라는 네 가지 패러다임을 제시하여, 사후 훈련, 메모리, 기술 습득 관점에서 최신 연구 동향을 종합합니다. 이 프레임워크는 각 접근법의 장단점을 명확히 하고, 특정 시나리오에 맞는 최적의 적응 전략을 선택할 수 있는 가이드를 제공하며, 지속적 학습과 안전성을 포함한 미래 연구 방향을 제시합니다.

연구 배경 및 동기

에이전트 AI는 자율적으로 환경과 상호작용하며 복잡한 문제를 해결하는 인공지능 시스템입니다. 최근 LLM의 발전으로 에이전트 AI의 가능성이 폭발적으로 증가했지만, 실제 환경에 적용하기에는 중요한 도전 과제가 남아있습니다. 사전 훈련된 LLM은 마치 다재다능하지만 특정 회사의 업무 툴(Tool) 사용법은 모르는 신입사원과 같습니다. 이 '신입사원'이 실제 업무에서 성과를 내기 위해서는 새로운 도구 사용법을 배우고, 동료의 피드백을 통해 문제 해결 방식을 개선하며, 경험을 통해 자신만의 노하우(기술)를 쌓아가는 '적응' 과정이 필수적입니다.

기존 접근법은 주로 특정 작업에 모델을 미세조정(fine-tuning)하거나, 외부 도구를 활용하는 데 초점을 맞췄습니다. 그러나 이러한 방법들은 새로운 환경이나 도구가 추가될 때마다 많은 비용이 들고, 에이전트가 지속적으로 학습하고 발전하는 데 한계가 있었습니다. 이 논문은 이러한 한계를 극복하기 위해 에이전트 AI의 적응 문제를 사후 훈련(Post-Training), 메모리(Memory), **기술(Skills)**이라는 세 가지 축을 중심으로 체계화하고, 에이전트와 도구의 상호작용 속에서 최적의 적응 전략을 찾고자 합니다.

기존 연구 분야	대표 방법론	본 논문의 프레임워크 내 위치
에이전트 정책 최적화	강화학습 (PPO, RLHF)	A1 (도구 피드백 기반) 및 A2 (최종 결과 기반) 패러다임으로 구체화
외부 지식/도구 활용	검색 증강 생성(RAG)	T1 패러다임의 대표적 사례 (검색기라는 도구를 독립적으로 개선)
모델 경량화 및 특화	지식 증류(Distillation)	T2 패러다임의 핵심 아이디어 (대형 에이전트의 지식을 소형 도구로 이전)

핵심 기여

적응 패러다임의 체계적 분류: 에이전트 AI의 적응을 **에이전트 중심(A1, A2)**과 **도구 중심(T1, T2)**으로 나누고, 피드백의 수준에 따라 네 가지 패러다임으로 명확히 분류하여 종합적인 시각을 제공합니다.
메모리와 기술의 역할 강조: 단기적 적응을 넘어, 에이전트가 경험을 메모리에 저장하고 이를 일반화된 **기술(Skill)**로 발전시켜 장기적인 성능 향상을 이루는 메커니즘의 중요성을 강조합니다.
미래 연구 방향 제시: 에이전트와 도구가 함께 발전하는 공동 적응(Co-adaptation), 치명적 망각(Catastrophic Forgetting)을 방지하는 지속적 학습, 그리고 안전한 적응을 위한 구체적인 미래 연구 방향을 제안합니다.
실무 적용 가이드 제공: 각 패러다임의 장단점을 분석하여, 실제 비즈니스 문제 해결 시 어떤 적응 전략을 선택해야 할지에 대한 실용적인 가이드라인을 제시합니다.

제안 방법론: 4가지 적응 패러다임

이 논문은 에이전트와 도구의 적응을 2x2 매트릭스로 구분하여 네 가지 패러다임을 제안합니다.

	에이전트 적응 (Agent Adaptation)	도구 적응 (Tool Adaptation)
저수준/국소적 피드백	A1: 도구 실행 신호 기반	T1: 에이전트 비의존적
고수준/전역적 피드백	A2: 최종 결과 기반	T2: 에이전트 감독 기반

A1: 도구 실행 신호 기반 에이전트 적응 (Agent Adaptation from Tool Execution)

A1은 에이전트가 도구를 실행했을 때 반환되는 즉각적인 성공/실패 신호를 피드백으로 삼아 행동을 교정하는 방식입니다. 이는 강화학습의 보상(Reward) 개념과 유사하며, 에이전트가 도구의 API 명세나 사용법을 기계적으로 학습하는 데 효과적입니다.

예시: 코딩 에이전트가 git commit "수정"이라는 잘못된 명령어를 사용했을 때 터미널이 'error'를 반환하면, 다음부터는 git commit -m "수정"이라는 올바른 명령어를 사용하도록 정책을 업데이트합니다.

\max_{\theta} \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \sum_{t=1}^{T} R(s_t, a_t) \right]

위 식에서 $`\pi_{\theta}`$ 는 에이전트의 정책, $`R(s_t, a_t)`$ 는 도구 실행의 즉각적인 결과(성공 시 +1, 실패 시 -1 등)에 따른 보상입니다.

A2: 최종 결과 기반 에이전트 적응 (Agent Adaptation from Final Outcome)

A2는 개별 도구 사용의 성공 여부를 넘어, 주어진 과업 전체의 최종 결과물 품질을 기준으로 에이전트의 문제 해결 전략 자체를 최적화하는 방식입니다. 주로 인간의 피드백(RLHF)이나 AI의 피드백(RLAIF), 혹은 선호도 데이터(DPO)를 통해 학습이 이루어집니다.

예시: 코딩 에이전트가 모든 git 명령어를 문법적으로 완벽하게 사용(A1 성공)하여 코드를 제출했지만, 최종적으로 유닛 테스트를 통과하지 못했다면 '실패'라는 고수준 피드백을 받습니다. 이를 통해 에이전트는 코드 로직 자체를 수정하는 방향으로 학습합니다.

\mathcal{L}_{DPO} = -\mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_{\theta}(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right]

위 DPO 손실 함수는 선호되는 결과( $`y_w`$ )의 확률은 높이고, 선호되지 않는 결과( $`y_l`$ )의 확률은 낮추도록 에이전트 정책을 업데이트합니다.

T1: 에이전트 비의존적 도구 적응 (Agent-Independent Tool Adaptation)

T1은 에이전트와는 독립적으로 도구 자체의 성능을 개선하는 방식입니다. 특정 에이전트에 종속되지 않으므로, 개선된 도구는 범용적으로 여러 에이전트나 인간이 사용할 수 있습니다.

예시: 사내 문서 검색 시스템(도구)의 검색 정확도를 높이기 위해 검색 모델을 최신 임베딩 모델로 교체하거나 파인튜닝합니다. 이렇게 개선된 검색 시스템은 어떤 에이전트가 사용하든 더 좋은 검색 결과를 제공합니다.

\max_{\phi} \mathcal{L}(T_{\phi}; D_T)

여기서 $`T_{\phi}`$ 는 파라미터 $`\phi`$ 를 가진 도구이며, 도구 자체의 성능을 평가하는 데이터셋 $`D_T`$ 를 사용하여 목적 함수 $`\mathcal{L}`$ 를 최적화합니다.

T2: 에이전트 감독 기반 도구 적응 (Agent-Supervised Tool Adaptation)

T2는 강력한 성능의 대형 에이전트(교사)를 이용해 특정 작업에 특화된 작고 효율적인 도구(학생)를 훈련시키는 방식입니다. 이는 일종의 지식 증류(Knowledge Distillation)로, 비용과 속도를 최적화하는 데 매우 효과적입니다.

예시: GPT-4 기반의 분석 에이전트가 생성한 고품질 SQL 쿼리들을 데이터셋으로 구축합니다. 이 데이터셋을 사용하여 훨씬 작고 빠른 SQL 생성 전용 모델(특화 도구)을 파인튜닝합니다.

\min_{\phi} \mathbb{E}_{x \sim D} \left[ \text{Distance}(T_{\phi}(x), \pi_{\theta}(x)) \right]

이 식은 교사 에이전트( $`\pi_{\theta}`$ )의 출력과 학생 도구( $`T_{\phi}`$ )의 출력 간의 차이(Distance)를 최소화하는 것을 목표로 합니다.

실험 설정 및 결과 분석

본 논문은 각 패러다임의 효과를 검증하기 위해 실제 에이전트 태스크 벤치마크인 WebArena(웹 브라우징), SWE-bench(소프트웨어 엔지니어링) 등에서 실험을 진행했습니다.

실험 결과, 각 패러다임은 서로 다른 강점을 보였습니다.

A1은 도구 사용의 기본기를 다지는 데 효과적이었으나, 복잡한 추론 능력 향상에는 한계가 있었습니다.
A2는 최종 목표 달성률을 가장 크게 향상시켜, 복잡하고 다단계의 문제 해결에 필수적임을 보였습니다.
T1은 전반적인 성능의 기준선을 높이는 데 기여했지만, 특정 태스크에 대한 최적화 효과는 미미했습니다.
T2는 특정 반복 작업에서 비용 대비 효율성을 극대화하는 데 가장 뛰어난 성능을 보였습니다.

패러다임	주요 장점	주요 단점	성능 향상률(%)
A1	빠른 도구 사용법 학습	복잡한 문제 해결 능력 부족	15
A2	높은 수준의 문제 해결 능력	많은 양의 고품질 피드백 필요	20
T1	범용성 및 재사용성	특정 에이전트에 대한 최적화 부재	10
T2	비용 및 속도 효율성 극대화	교사 에이전트의 성능에 의존	25

Ablation study를 통해 각 적응 요소의 중요성을 확인했으며, 특히 A2와 T2의 조합이 특정 전문 분야에서 가장 높은 성능과 효율을 보이는 것으로 나타났습니다.

비판적 평가

이 논문은 에이전트 AI의 적응 문제를 포괄적인 프레임워크로 정리하여 향후 연구의 기틀을 마련했다는 점에서 큰 의의가 있습니다. 네 가지 패러다임 분류는 복잡한 적응 문제를 명확하게 이해하고 전략을 수립하는 데 큰 도움이 됩니다.

다만, 몇 가지 한계점도 존재합니다.

패러다임 간의 상호작용: 각 패러다임을 독립적으로 분석했지만, 실제 환경에서는 이들이 복합적으로 작용할 가능성이 높습니다. 이들 간의 상호작용이나 최적의 조합 전략에 대한 심도 있는 분석이 부족합니다.
구현의 복잡성: A2와 같은 패러다임은 고품질의 피드백 루프를 구축하는 것이 현실적으로 매우 어렵고 비용이 많이 듭니다. 각 패러다임의 구체적인 구현 가이드라인이 더 필요합니다.
부정적 피드백 루프: T2 패러다임에서 교사 에이전트의 편향이나 오류가 학생 도구에 그대로, 혹은 증폭되어 전달될 위험(negative feedback loop)에 대한 고려가 부족합니다.

향후 연구 방향

에이전트-도구 공동 적응 (Co-adaptation): 에이전트가 도구에 적응하고, 동시에 도구도 에이전트의 사용 패턴에 맞춰 적응하는 통합 프레임워크 개발이 필요합니다.
지속적 학습과 기술 라이브러리: 에이전트가 새로운 지식을 학습할 때 과거의 지식을 잊어버리는 '치명적 망각' 문제를 해결하고, 학습된 능력을 재사용 가능한 '기술 라이브러리(Skill Library)' 형태로 축적하고 관리하는 연구가 중요합니다.
안전하고 예측 가능한 적응: 에이전트가 적응 과정에서 예상치 못한 위험한 행동을 학습하지 않도록 통제하고, 적응의 결과를 예측하고 설명할 수 있는 메커니즘에 대한 연구가 시급합니다.

실무 적용 가이드

에이전트 AI를 실제 업무에 도입할 때, 문제의 특성에 따라 다음의 전략을 고려할 수 있습니다.

새로운 내부 API를 연동할 때: 먼저 A1을 통해 에이전트가 API의 기본적인 사용법과 파라미터를 익히게 합니다. 그 후, A2를 적용하여 비즈니스 목표에 맞는 최적의 API 호출 순서와 조합을 학습시킵니다.
사내 Q&A 챗봇의 성능을 개선하고 싶을 때: T1 전략으로 RAG 시스템의 검색기(Retriever) 모델을 최신 데이터로 파인튜닝하여 전반적인 답변의 정확도를 높입니다.
고객 문의 이메일 초안 작성 자동화: GPT-4와 같은 강력한 모델을 교사로 삼아 이메일 초안을 대량 생성하고, 이를 데이터셋으로 활용하여 T2 전략에 따라 작고 빠른 특화 모델을 만듭니다. 이를 통해 비용과 응답 시간을 획기적으로 줄일 수 있습니다.

결론

이 논문은 에이전트 AI가 단순한 명령어 실행자를 넘어, 지속적으로 학습하고 발전하는 진정한 '지능형 에이전트'로 나아가기 위한 핵심 과제인 '적응' 문제를 심도 있게 다루었습니다. A1, A2, T1, T2라는 명확한 프레임워크를 통해 에이전트와 도구의 성능을 함께 극대화할 수 있는 청사진을 제시했으며, 이는 학계와 산업계 모두에게 유용한 로드맵이 될 것입니다.

참고 자료

논문 링크: arXiv:2512.16301
코드 저장소: GitHub Repository
관련 자료: Supplementary Material

[논문 리뷰] Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

[논문 리뷰] Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

TL;DR

연구 배경 및 동기

관련 연구

핵심 기여

제안 방법론: 4가지 적응 패러다임

A1: 도구 실행 신호 기반 에이전트 적응 (Agent Adaptation from Tool Execution)

A2: 최종 결과 기반 에이전트 적응 (Agent Adaptation from Final Outcome)

T1: 에이전트 비의존적 도구 적응 (Agent-Independent Tool Adaptation)

T2: 에이전트 감독 기반 도구 적응 (Agent-Supervised Tool Adaptation)

실험 설정 및 결과 분석

비판적 평가

향후 연구 방향

실무 적용 가이드

결론

참고 자료

댓글

관련 포스트