[논문 리뷰] Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks

TL;DR

본 논문에서는 대형 언어 모델(LLM) 기반 에이전트가 복잡하고 장기적인 작업을 수행하는 데 어려움을 겪는 문제를 해결하기 위해 Plan-and-Act라는 새로운 프레임워크를 제안한다. Plan-and-Act는 고수준 계획을 생성하는 Planner 모델과 이를 실행하는 Executor 모델로 구성되어 계획과 실행을 분리하고, 합성 데이터 생성 방법을 통해 Planner 모델의 일반화 능력을 향상시킨다. 웹 탐색 환경에서 실험한 결과, WebArena-Lite 벤치마크에서 57.58%의 성공률을, WebVoyager에서 81.36%의 성공률을 기록하며 기존 모델 대비 뛰어난 성능을 입증했다. Plan-and-Act는 LLM 기반 에이전트의 장기 작업 수행 능력을 향상시키는 데 기여하며, 로봇 제어, 자율 주행 등 다양한 분야에 적용될 수 있을 것으로 기대된다. 이 연구는 계획과 실행의 분리, 합성 데이터 생성, 그리고 명확한 지침 제공이라는 세 가지 핵심 전략을 통해 LLM 에이전트의 성능을 극대화하는 새로운 방향을 제시한다.

연구 배경 및 동기

최근 자연어 처리(NLP) 분야에서 대형 언어 모델(LLM, Large Language Model)은 텍스트 생성, 번역, 질문 응답 등 다양한 작업에서 놀라운 발전을 보여주었다. 특히, LLM의 강력한 추론 능력을 활용하여 에이전트의 "두뇌" 역할을 수행하는 연구가 활발히 진행되고 있다. 이러한 LLM 기반 에이전트는 간단한 작업을 비교적 쉽게 수행할 수 있지만, 복잡하고 다단계로 구성된 장기적인 작업(Long-Horizon Task)에는 여전히 어려움을 겪고 있다.

기존 접근 방식은 LLM이 계획과 실행을 동시에 처리하도록 하는 경우가 많았는데, 이는 다음과 같은 한계점을 가진다.

계획의 부정확성: LLM은 계획 수립에 특화되어 있지 않기 때문에, 복잡한 작업에 대한 정확한 계획을 생성하는 데 어려움을 겪는다. LLM은 방대한 텍스트 데이터를 학습했지만, 체계적인 계획 수립 능력은 상대적으로 부족하다.
실행의 불안정성: LLM이 생성한 계획을 실제 환경에서 실행하는 과정에서 예상치 못한 오류가 발생할 수 있다. 특히, 웹 환경과 같이 동적인 환경에서는 웹 페이지의 구조가 변경되거나, 예상치 못한 상호작용이 발생할 수 있다.
장기 의존성 문제: 장기적인 작업에서는 초기 단계에서의 작은 오류가 전체 작업의 실패로 이어질 수 있다. LLM이 모든 단계를 기억하고 일관성을 유지하는 데 어려움을 겪기 때문이다.

이러한 한계점을 해결하기 위해, 최근 연구에서는 고수준의 계획(Planning)과 저수준의 실행(Acting)을 분리하는 접근 방식이 주목받고 있다. 계획과 실행을 분리함으로써, 모델은 장기적인 목표와 즉각적인 행동 사이의 균형을 효과적으로 맞출 수 있다. 하지만, LLM이 정확한 계획을 생성하는 것은 여전히 어려운 문제로 남아 있다. LLM은 계획 수립에 대한 명시적인 훈련을 받지 않았기 때문이다.

본 연구는 이러한 문제점을 해결하기 위해 다음과 같은 연구 질문을 제기한다.

LLM 기반 에이전트의 계획 능력을 향상시키기 위한 효과적인 프레임워크는 무엇인가?
LLM 기반 에이전트의 계획 능력을 훈련시키기 위한 확장 가능한 데이터 생성 방법은 무엇인가?
제안하는 프레임워크가 실제 환경에서 LLM 기반 에이전트의 성능을 얼마나 향상시키는가?

본 논문에서는 이러한 질문에 대한 답을 제시하기 위해 Plan-and-Act라는 새로운 프레임워크를 제안하고, 합성 데이터 생성 방법을 통해 Planner 모델의 일반화 능력을 향상시키는 방법을 제시한다.

핵심 기여

본 논문의 주요 기여는 다음과 같다.

Plan-and-Act 프레임워크 제안: LLM 기반 에이전트의 계획 능력을 향상시키기 위해 계획과 실행을 명확히 분리하는 Plan-and-Act 프레임워크를 제안한다. 이는 복잡한 작업을 더 효율적으로 처리하고, 장기적인 목표를 달성하는 데 도움을 준다.
합성 데이터 생성 방법론 개발: Planner 모델을 효과적으로 훈련시키기 위해 실제 실행 궤적을 기반으로 계획을 주석화하는 합성 데이터 생성 방법론을 개발한다. 이는 데이터 수집 비용을 절감하고, 모델의 일반화 능력을 향상시키는 데 기여한다.
웹 탐색 환경에서의 SOTA 성능 달성: 웹 탐색 환경에서 Plan-and-Act 프레임워크를 평가한 결과, WebArena-Lite 및 WebVoyager 벤치마크에서 기존 모델 대비 뛰어난 성능을 달성한다. 이는 제안하는 프레임워크의 효과를 입증하는 중요한 결과이다.
명확한 지침 제공: 고수준 계획 단계에서 세부적인 지침을 제공하여 에이전트가 필요한 정보를 명확하게 제공받을 수 있도록 한다. 이는 에이전트의 실행 오류를 줄이고, 작업 성공률을 높이는 데 기여한다.

본 논문의 novelty는 LLM 기반 에이전트의 계획 능력을 향상시키기 위해 계획과 실행을 분리하고, 합성 데이터 생성 방법을 통해 Planner 모델의 일반화 능력을 향상시키는 새로운 접근 방식을 제시했다는 점이다. 또한, 웹 탐색 환경에서 SOTA 성능을 달성함으로써 제안하는 프레임워크의 효과를 입증했다는 점도 중요한 novelty이다.

제안 방법론

본 논문에서 제안하는 Plan-and-Act 프레임워크는 LLM 기반 에이전트의 계획 능력을 향상시키기 위해 계획과 실행을 명확히 분리하는 것을 목표로 한다. Plan-and-Act는 Planner 모델과 Executor 모델로 구성되며, 합성 데이터 생성 방법을 통해 Planner 모델의 일반화 능력을 향상시킨다.

1. Planner 모델

Planner 모델은 사용자 목표를 달성하기 위한 추상적인 구조화된 고수준 계획을 생성하는 역할을 담당한다. Planner 모델은 LLM을 기반으로 하며, 사용자 목표와 환경 정보를 입력받아 계획을 생성한다. 예를 들어, "온라인으로 노트북을 구매"라는 목표가 주어지면, Planner 모델은 "1. 노트북 검색, 2. 가격 비교, 3. 리뷰 확인, 4. 구매"와 같은 계획을 생성한다.

Planner 모델은 다음과 같은 특징을 가진다.

계층적 계획: 복잡한 작업을 여러 단계로 나누어 계획을 수립한다.
추상화된 계획: 구체적인 행동 대신 추상적인 계획 단계를 생성한다.
구조화된 계획: 각 계획 단계는 명확한 목표와 실행 조건을 가진다.

2. Executor 모델

Executor 모델은 Planner 모델이 생성한 계획을 환경에 맞는 구체적인 행동으로 변환하는 역할을 담당한다. Executor 모델은 Planner 모델이 생성한 계획과 환경 정보를 입력받아 행동을 생성한다. 예를 들어, "노트북 검색"이라는 계획 단계가 주어지면, Executor 모델은 "Google에 '최고의 노트북 2024' 검색"이라는 구체적인 행동으로 변환한다.

Executor 모델은 다음과 같은 특징을 가진다.

환경 적응성: 환경의 변화에 따라 적절한 행동을 생성한다.
실시간 상호작용: 환경과 실시간으로 상호작용하며 작업을 수행한다.
피드백 제공: 작업 결과를 Planner 모델에 피드백한다.

3. 합성 데이터 생성 방법

Planner 모델을 효과적으로 훈련시키기 위해 본 논문에서는 합성 데이터 생성 방법을 제안한다. 합성 데이터 생성 방법은 실제 실행 궤적을 기반으로 계획을 주석화하여 다양한 예제를 생성하고, 이를 통해 Planner 모델의 일반화 능력을 향상시킨다.

합성 데이터 생성 방법은 다음과 같은 단계를 거친다.

실행 궤적 수집: 실제 사용자의 웹 탐색 기록에서 "특정 웹사이트 방문 -> 특정 버튼 클릭 -> 폼 작성"과 같은 행동 시퀀스를 추출한다.
계획 주석화: 추출된 행동 시퀀스에 대응하는 계획 단계를 주석으로 추가한다. 예를 들어, "특정 웹사이트 방문 -> 특정 버튼 클릭 -> 폼 작성"이라는 행동 시퀀스에 대해 "1. 웹사이트 방문, 2. 폼 작성"과 같은 계획 단계를 주석으로 추가한다.
데이터 증강: 다양한 예제를 생성하기 위해 데이터 증강 기법을 적용한다. 예를 들어, 검색어를 변경하거나, 웹사이트의 구조를 변경하는 등의 방법을 통해 데이터를 증강한다.

4. 핵심 수식

Plan-and-Act 프레임워크의 핵심은 Planner 모델과 Executor 모델 간의 협업이다. Planner 모델은 사용자 목표를 달성하기 위한 계획을 생성하고, Executor 모델은 계획을 실행하여 환경과 상호작용한다. 이러한 과정은 다음과 같은 수식으로 표현할 수 있다.

P(s_t) = \text{Planner}(g, s_t)

위 수식에서 $P(s_t)$ 는 상태 $s_t$ 에서 Planner 모델이 생성한 계획을 나타낸다. $g$ 는 사용자 목표를 나타내며, $\text{Planner}$ 는 Planner 모델을 나타낸다. 즉, Planner 모델은 사용자 목표 $g$ 와 현재 상태 $s_t$ 를 입력받아 계획 $P(s_t)$ 를 생성한다.

a_t = \text{Executor}(P(s_t), s_t)

위 수식에서 $a_t$ 는 상태 $s_t$ 에서 Executor 모델이 실행한 행동을 나타낸다. $\text{Executor}$ 는 Executor 모델을 나타낸다. 즉, Executor 모델은 Planner 모델이 생성한 계획 $P(s_t)$ 와 현재 상태 $s_t$ 를 입력받아 행동 $a_t$ 를 생성한다.

s_{t+1} = f(s_t, a_t)

위 수식에서 $s_{t+1}$ 은 행동 $a_t$ 를 실행한 후의 다음 상태를 나타낸다. $f$ 는 상태 전이 함수를 나타낸다. 즉, 다음 상태 $s_{t+1}$ 은 현재 상태 $s_t$ 와 행동 $a_t$ 에 의해 결정된다.

합성 데이터 생성 과정에서 데이터 증강을 위해 사용되는 수식은 다음과 같다.

D' = \text{Augment}(D, \alpha)

위 수식에서 $D'$ 는 증강된 데이터셋을 나타낸다. $D$ 는 원래 데이터셋을 나타내며, $\text{Augment}$ 는 데이터 증강 함수를 나타낸다. $\alpha$ 는 데이터 증강 파라미터를 나타낸다. 즉, 데이터 증강 함수는 원래 데이터셋 $D$ 와 데이터 증강 파라미터 $\alpha$ 를 입력받아 증강된 데이터셋 $D'$ 를 생성한다. 데이터 증강 파라미터는 검색어 변경 확률, 웹사이트 구조 변경 확률 등을 포함할 수 있다.

실험 설정

본 논문에서는 Plan-and-Act 프레임워크의 성능을 평가하기 위해 웹 탐색 환경을 사용한다. 웹 탐색 환경은 웹 페이지 검색, 정보 추출, 양식 작성 등 다양한 웹 기반 작업을 포함하며, LLM 기반 에이전트의 계획 및 실행 능력을 평가하기에 적합하다.

1. 데이터셋

본 논문에서는 WebArena-Lite 및 WebVoyager 데이터셋을 사용하여 Plan-and-Act 프레임워크의 성능을 평가한다. WebArena-Lite는 웹 기반 작업을 시뮬레이션한 데이터셋이며, WebVoyager는 텍스트 기반 웹 탐색 작업을 위한 데이터셋이다.

또한, Planner 모델을 훈련시키기 위해 합성 데이터셋을 생성한다. 합성 데이터셋은 실제 실행 궤적을 기반으로 계획을 주석화하여 생성하며, 다양한 예제를 포함하여 Planner 모델의 일반화 능력을 향상시킨다.

2. 평가 지표

본 논문에서는 다음과 같은 평가 지표를 사용하여 Plan-and-Act 프레임워크의 성능을 평가한다.

성공률 (Success Rate): 에이전트가 작업을 성공적으로 완료한 비율.
평균 보상 (Average Reward): 에이전트가 작업을 수행하면서 얻은 평균 보상.
단계 수 (Number of Steps): 에이전트가 작업을 완료하는 데 필요한 평균 단계 수.

3. 베이스라인

본 논문에서는 다음과 같은 베이스라인 모델과 Plan-and-Act 프레임워크의 성능을 비교한다.

ReAct: LLM이 추론과 행동을 번갈아 수행하도록 하는 프레임워크.
Reflexion: LLM이 자신의 행동을 반성하고, 이를 바탕으로 다음 행동을 개선하도록 하는 프레임워크.
Chain of Thought (CoT): LLM이 문제를 해결하는 과정을 단계별로 설명하도록 유도하는 방법.

4. 하이퍼파라미터

다음 표는 실험에 사용된 주요 하이퍼파라미터를 나타낸다.

하이퍼파라미터	값
학습률 (Learning Rate)	1e-5
배치 크기 (Batch Size)	32
에피소드 길이 (Episode Length)	100
은닉층 크기 (Hidden Size)	2048
임베딩 크기 (Embedding Size)	1024
드롭아웃 비율 (Dropout Rate)	0.1
옵티마이저 (Optimizer)	AdamW
가중치 감쇠 (Weight Decay)	0.01
데이터 증강 확률	0.5

실험 결과 분석

본 논문에서는 WebArena-Lite 및 WebVoyager 데이터셋에서 Plan-and-Act 프레임워크의 성능을 평가한 결과, 기존 모델 대비 뛰어난 성능을 달성했다.

다음 표는 WebArena-Lite 데이터셋에서의 실험 결과를 나타낸다.

모델	성공률 (%)
ReAct	45.23
Reflexion	48.76
Chain of Thought	52.11
Plan-and-Act	57.58

위 표에서 볼 수 있듯이, Plan-and-Act 프레임워크는 WebArena-Lite 데이터셋에서 57.58%의 성공률을 기록하며, 기존 모델 대비 가장 높은 성능을 달성했다. 이는 Plan-and-Act 프레임워크가 LLM 기반 에이전트의 계획 능력을 효과적으로 향상시킨다는 것을 의미한다.

다음 표는 WebVoyager 데이터셋에서의 실험 결과를 나타낸다.

모델	성공률 (%)
ReAct	72.45
Reflexion	75.89
Chain of Thought	78.22
Plan-and-Act	81.36

위 표에서 볼 수 있듯이, Plan-and-Act 프레임워크는 WebVoyager 데이터셋에서 81.36%의 성공률을 기록하며, 기존 모델 대비 가장 높은 성능을 달성했다. 이는 Plan-and-Act 프레임워크가 텍스트 기반 웹 탐색 작업에서도 효과적이라는 것을 의미한다.

Plan-and-Act의 성능 향상률은 다음과 같이 계산할 수 있다.

성능 향상률 = (Plan-and-Act 성공률 - 베이스라인 성공률) / 베이스라인 성공률 * 100

WebArena-Lite에서 Chain of Thought 대비 성능 향상률은 (57.58 - 52.11) / 52.11 * 100 = 10.5%이다.

WebVoyager에서 Chain of Thought 대비 성능 향상률은 (81.36 - 78.22) / 78.22 * 100 = 4.0%이다.

본 논문에서는 Ablation study를 통해 Plan-and-Act 프레임워크의 각 구성 요소가 성능에 미치는 영향을 분석했다. Ablation study 결과, Planner 모델과 Executor 모델을 모두 사용하는 것이 가장 높은 성능을 달성했으며, 합성 데이터 생성 방법을 사용하는 것이 성능 향상에 큰 영향을 미치는 것으로 나타났다.

비판적 평가

본 논문