[논문 리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

TL;DR

현대 AI 에이전트는 복잡한 문제를 해결하기 위해 깊고 순차적인 추론을 사용하지만, 이는 높은 비용과 지연 시간을 초래합니다. "Search More, Think Less" (SMTL) 프레임워크는 이러한 문제를 해결하기 위해 병렬적 정보 수집을 통해 효율성과 일반화 성능을 극대화합니다. SMTL은 여러 검색 집약적 벤치마크에서 기존의 순차적 추론 모델을 크게 능가했으며, 특히 BrowseComp 벤치마크에서는 추론 단계를 70.7% 줄이면서도 정확도를 크게 높였습니다. 이 연구는 AI 에이전트가 복잡한 장기 탐색(long-horizon) 작업을 보다 빠르고 효율적으로 처리할 수 있는 새로운 패러다임을 제시합니다.

연구 배경 및 동기

최근 AI 에이전트 연구는 복잡한 문제를 해결하기 위해 주로 깊은 추론(deep reasoning)을 사용하는 경향이 있습니다. 이는 마치 한 명의 전문가가 단계별로 심사숙고하며 문제를 푸는 것과 같습니다. 이 접근법은 높은 성능을 보장할 수 있지만, 검색이 많이 필요한 장기 탐색(long-horizon) 작업에서는 다음과 같은 문제가 발생합니다.

높은 추론 비용 및 지연 시간: 각 단계마다 거대 언어 모델(LLM)을 호출해야 하므로 비용과 시간이 많이 소요됩니다.
일반화 성능 저하: 특정 유형의 문제 해결 방식에 과적합되어, 새로운 유형의 문제에 대한 대처 능력이 떨어질 수 있습니다.

기존 에이전트들은 주로 순차적 추론 방식을 사용합니다. 하지만 현실 세계의 문제 해결은 여러 정보를 동시에 탐색하고 종합하는 과정에 가깝습니다. 이 연구는 이러한 비효율성을 해결하기 위해 병렬적 정보 수집이라는 새로운 프레임워크를 제안합니다. "Search More, Think Less" (SMTL)는 제한된 상호작용 횟수 내에서 효율적으로 정보를 탐색하고, 다양한 작업 유형에 대해 높은 일반화 성능을 달성하는 것을 목표로 합니다.

연구 프레임워크	접근법	한계점	SMTL과의 차별점
ReAct	순차적 생각-행동 사이클	정보 수집 속도 저하	병렬적 정보 수집으로 속도 및 효율성 극대화
Tree of Thoughts	트리 구조의 다중 경로 탐색	높은 탐색 비용, 순차적 단계	너비 우선 탐색(병렬 실행)으로 효율성 개선
Agentic Workflows	다중 에이전트 협업	통신 및 조정 오버헤드	단일 에이전트 내에서 병렬 실행으로 오버헤드 최소화

핵심 기여

병렬 에이전틱 워크플로우: 기존의 순차적 추론 방식을 병렬적 정보 수집으로 대체하여 효율성을 극대화했습니다.
통합 데이터 구축 파이프라인: 다양한 유형의 고품질 학습 데이터를 자동으로 생성하는 파이프라인을 제안하여, 에이전트의 일반화 성능을 높였습니다.
효율적 도구 사용: 최소한의 도구(web_search, crawl_page)를 목표 지향적으로 사용하여 정보 탐색과 요약을 효율적으로 수행하는 방법을 제시했습니다.
주기적인 계획 수정: 병렬 탐색 중 수집된 정보를 바탕으로 동적으로 계획을 수정하여 복잡한 문제에 대한 유연성과 정확성을 확보했습니다.
실험적 검증: BrowseComp, GAIA 등 여러 까다로운 벤치마크에서 SMTL의 성능을 검증하여 제안된 방법론의 실효성을 입증했습니다.

제안 방법론

SMTL 프레임워크는 마치 여러 명의 연구원으로 구성된 팀이 동시에 자료를 조사하고 주기적으로 회의하여 방향을 수정하는 것과 같은 방식으로 동작합니다.

핵심 아이디어와 이론적 근거

SMTL의 핵심 아이디어는 "더 많이 검색하고, 덜 생각하라 (Search More, Think Less)"는 것입니다. 이는 깊고 느린 순차적 추론 대신, 여러 정보를 동시에 병렬적으로 수집하고 처리하여 효율성을 극대화하는 접근법입니다. 이 방식은 제한된 시간이나 비용 내에서 최대한 넓은 범위의 정보를 탐색할 수 있게 하여, 더 나은 최종 결정을 내릴 수 있도록 돕습니다.

모델 아키텍처 상세 설명

SMTL은 크게 두 가지 핵심 요소로 구성됩니다.

1. 병렬 에이전틱 워크플로우 (Parallel Agentic Workflow)

문제 해결 과정은 세 단계로 이루어집니다.

초기 계획 수립 (Decomposition): 복잡한 작업을 여러 개의 독립적인 하위 작업(subtask)으로 분해하여 초기 계획을 세웁니다.
병렬 실행 (Parallel Execution): 분해된 하위 작업들을 동시에 병렬로 실행하여 여러 정보를 한 번에 수집합니다. 예를 들어, 여러 개의 검색 쿼리를 동시에 실행하거나 여러 웹 페이지를 동시에 크롤링합니다.
동적 계획 수정 (Dynamic Plan Refinement): 주기적으로 수집된 중간 결과들을 종합하고, 이를 바탕으로 전체 계획을 동적으로 수정하며 최종 답변을 생성합니다. 불필요한 하위 작업을 제거하거나 새로운 작업을 추가할 수 있습니다.

예시: 복잡한 질문 해결 과정

질문: "최근 5년간 AI 기술이 영화 산업에 미친 긍정적 및 부정적 영향은 무엇인가?"

초기 계획 수립 (Decomposition)
- 하위 작업 1: "최근 5년간 AI 기술 영화 제작 활용 사례" 검색
- 하위 작업 2: "AI 기반 시각 효과(VFX) 기술 발전" 검색
- 하위 작업 3: "AI 시나리오 작성 도구의 장단점" 검색
- 하위 작업 4: "AI 기술로 인한 영화 산업 일자리 변화" 검색
- 하위 작업 5: "AI 배우 및 딥페이크 기술의 윤리적 문제" 검색
병렬 실행 (Parallel Execution)
- 위 5개의 하위 작업을 동시에 병렬로 실행하여 관련 정보를 수집합니다.
동적 계획 수정 (Dynamic Plan Refinement)
- 수집된 정보를 종합하여 중간 요약을 생성합니다.
- 요약 결과, 'AI 음향 디자인 기술'에 대한 정보가 부족하다고 판단되면, "AI 기술의 영화 음향 디자인 적용 사례"라는 새로운 하위 작업을 추가하여 실행합니다.
- 모든 정보가 충분히 수집되면, 최종 답변을 종합하여 생성합니다.

2. 통합 데이터 구축 파이프라인 (Unified Data Construction Pipeline)

에이전트의 일반화 성능을 높이기 위해서는 고품질의 다양한 학습 데이터가 필수적입니다. SMTL은 이를 위해 다음과 같은 자동화된 파이프라인을 제안합니다.

지식 그래프 구축: 위키피디아와 같은 대규모 문서(corpus)에서 개체(entity)와 관계를 추출하여 지식 그래프를 만듭니다.
하위 그래프 추출: 특정 목표에 맞는 하위 그래프를 추출하여 정보 밀도가 높은 문제의 뼈대를 구성합니다.
질의응답 생성 및 검증: 추출된 하위 그래프를 기반으로 사실 확인형 질문(deterministic QA)과 탐색이 필요한 개방형 질문(open-ended research)을 모두 생성하여 에이전트 학습에 사용합니다.

핵심 수식 및 알고리즘

병렬 실행 상태 업데이트

병렬 실행 후 에이전트의 전체 상태는 다음과 같이 업데이트됩니다. $s_{t+1} = F(s_t, \{a_t^{(k)}\}_{k=1}^N, \{o_t^{(k)}\}_{k=1}^N)$ 여기서 $s_{t+1}$ 은 다음 시점의 추론 상태, $s_t$ 는 현재 상태, $\{a_t^{(k)}\}$ 는 $N$ 개의 병렬 실행에서 발생한 모든 행동, $\{o_t^{(k)}\}$ 는 그 결과로 얻은 모든 관찰(observation)을 의미합니다. 함수 $F$ 는 이러한 병렬적 결과를 종합하여 상태를 업데이트하는 LLM 기반의 추론 과정을 나타냅니다.

병렬 에이전틱 워크플로우 알고리즘

function SMTL_Agent(Task T):
    // 1. 초기 계획 수립
    Plan G_plan = Decompose(T)
    State s = InitializeState(T)

    while not IsSolved(G_plan):
        // 2. 병렬 실행
        Executable_Subtasks = SelectRunnable(G_plan)
        Parallel_Results = {}
        for subtask in Executable_Subtasks:
            // 여러 subtask를 비동기 병렬 실행
            result = Execute(subtask)
            Parallel_Results.add(result)

        // 3. 동적 계획 수정 (주기적)
        s = UpdateState(s, Parallel_Results)
        G_plan = RefinePlan(G_plan, s)

    // 최종 결과 종합
    return SynthesizeFinalAnswer(s)

효율적인 도구 사용

web_search(query, top_k): 한 번의 쿼리로 top-k개의 URL을 반환받습니다. top-k 값을 조절하여 검색의 '너비'가 에이전트 성능에 미치는 영향을 분석합니다.
crawl_page(url, goal): URL의 내용을 가져온 후, 사전에 정의된 '목표(goal)'에 맞춰 내용을 요약합니다. 이는 일반적인 요약이 아닌, 현재 해결 중인 하위 작업에 필요한 정보만 추출하는 **목표 지향적 요약(goal-conditioned summarization)**으로, 불필요한 정보 처리를 최소화합니다.

실험 설정

데이터셋, 평가 지표, 베이스라인

데이터셋: BrowseComp, GAIA, Xbench, DeepResearch Bench 등 검색 및 추론 능력을 종합적으로 평가하는 벤치마크 사용
평가 지표: 정확도(Accuracy), 평균 추론 단계(Avg. Reasoning Steps), 상호작용 횟수(Interaction Count)
베이스라인: Mirothinker-v1.0 (강력한 순차적 추론 에이전트)

하이퍼파라미터 표

파라미터	값	설명
상호작용 단계	최대 100	에이전트가 환경과 상호작용할 수 있는 최대 횟수
검색 폭 (top-k)	4, 8, 20	단일 검색 시 반환받는 결과의 수
병렬 실행 수	5	동시에 실행되는 하위 작업의 수

실험 결과 분석

주요 결과 표

벤치마크	SMTL 정확도 (%)	Mirothinker-v1.0 정확도 (%)	성능 향상률 (%)
BrowseComp	48.6	28.5	+70.7
GAIA	75.7	65.0	+16.5
Xbench	82.0	78.0	+5.1
DeepResearch Bench	45.9	35.0	+31.1

결과 요약 및 분석

SMTL은 모든 벤치마크에서 베이스라인인 Mirothinker-v1.0을 능가하는 성능을 보였습니다. 특히, 복잡한 웹 브라우징 작업으로 구성된 BrowseComp 벤치마크에서 70.7%라는 압도적인 성능 향상을 기록했습니다.

더 중요한 것은 효율성입니다. SMTL은 BrowseComp에서 Mirothinker-v1.0 대비 평균 추론 단계를 26.6에서 7.8로, 약 70.7% 감소시켰습니다. 이는 병렬적 정보 수집이 더 적은 LLM 호출로 더 나은 결과를 만들 수 있음을 의미하며, 비용 및 시간 효율성 측면에서 큰 장점을 가집니다.

Ablation Study 분석

Ablation study를 통해 SMTL의 핵심 구성 요소의 중요성을 검증했습니다.

병렬 정보 수집 제거: 이 요소를 제거하고 순차적 실행으로 전환했을 때, 성능이 20% 이상 크게 감소했습니다. 이는 병렬성이 성능 향상의 핵심 동력임을 증명합니다.
동적 계획 수정 제거: 이 요소를 제거했을 때, 약 15%의 성능 저하가 관찰되었습니다. 이는 초기 계획의 한계를 극복하고 변화하는 상황에 적응하는 데 동적 수정이 중요한 역할을 함을 시사합니다.

비판적 평가

강점

혁신적인 효율성: 병렬적 정보 수집을 통해 추론 단계와 지연 시간을 획기적으로 줄여, 비용 효율적인 에이전트 구축의 가능성을 열었습니다.
뛰어난 일반화 성능: 자동화된 데이터 생성 파이프라인을 통해 다양한 유형의 작업에 대해 높은 성능을 달성했습니다.
견고한 실험적 검증: 여러 까다로운 벤치마크에서 SMTL의 우수성을 명확하게 입증했습니다.

한계점과 개선 방향

복잡한 작업 의존성 처리: 현재 SMTL은 독립적으로 실행 가능한 하위 작업에서 강점을 보입니다. 하위 작업 간의 의존성이 매우 복잡한 문제에서는 병렬 처리의 이점이 줄어들 수 있습니다.
병렬 실행 오버헤드: 다수의 작업을 병렬로 관리하고 그 결과를 종합하는 과정에서 발생하는 오버헤드를 고려해야 합니다. 이는 시스템 아키텍처의 최적화를 요구합니다.
실시간 처리: 현재 모델은 오프라인 분석에 초점을 맞추고 있습니다. 실시간 상호작용이 중요한 애플리케이션에 적용하기 위해서는 추가적인 최적화가 필요합니다.

재현성 평가

논문에서 제시한 실험 설정과 결과가 구체적이며, 제안된 방법론의 핵심 아이디어는 재현 가능성이 높아 보입니다. 다만, 고품질 데이터셋 구축 파이프라인과 대규모 모델 학습에는 상당한 컴퓨팅 자원이 필요할 수 있습니다.

향후 연구 방향

적응형 병렬성 제어: 문제의 특성에 따라 병렬 실행의 수(너비)와 순차적 추론의 깊이를 동적으로 조절하는 하이브리드 접근법을 연구할 수 있습니다.
실시간 응용: 실시간 처리에 적합한 경량화 및 최적화 방법을 개발하여 대화형 AI나 실시간 데이터 분석 등 다양한 실무 환경에 적용할 수 있습니다.
협업적 AI 에이전트: SMTL 프레임워크를 여러 AI 에이전트로 확장하여, 각 에이전트가 병렬적으로 하위 문제를 해결하고 결과를 공유하는 복잡한 협업 시스템을 연구할 수 있습니다.

실무 적용 가이드

구현 시 고려사항: 병렬 정보 수집을 위한 비동기(asynchronous) 처리 인프라 구축이 중요합니다. 또한, 수집된 정보를 효과적으로 종합하고 계획을 수정하는 LLM 프롬프트를 정교하게 설계해야 합니다.
적용 분야: 시장 조사, 기술 동향 분석, 학술 연구 자료 수집 등 광범위한 정보를 단시간에 수집하고 요약해야 하는 업무에 매우 효과적일 수 있습니다.
팁: 검색 폭(top-k)과 병렬 실행 수를 조절하여 특정 작업의 요구사항(속도 vs. 정확도)에 맞게 성능을 최적화할 수 있습니다.

결론

"Search More, Think Less"는 기존의 깊은 추론 중심의 AI 에이전트 패러다임에 대한 근본적인 질문을 던집니다. 병렬적 정보 수집과 동적 계획 수정을 통해 효율성과 일반화 성능을 동시에 달성할 수 있음을 입증했으며, 이는 AI 에이전트가 더 빠르고, 저렴하며, 유연하게 복잡한 문제를 해결할 수 있는 새로운 길을 제시합니다. 이 연구는 향후 AI 에이전트 개발에 중요한 방향성을 제공할 것입니다.

참고 자료

논문 링크 (arXiv:2402.12675)
관련 벤치마크: BrowseComp, GAIA, Xbench, DeepResearch Bench

[논문 리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

[논문 리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

TL;DR

연구 배경 및 동기

관련 연구

핵심 기여

제안 방법론

핵심 아이디어와 이론적 근거

모델 아키텍처 상세 설명

1. 병렬 에이전틱 워크플로우 (Parallel Agentic Workflow)

예시: 복잡한 질문 해결 과정

2. 통합 데이터 구축 파이프라인 (Unified Data Construction Pipeline)

핵심 수식 및 알고리즘

병렬 실행 상태 업데이트

병렬 에이전틱 워크플로우 알고리즘

효율적인 도구 사용

실험 설정

데이터셋, 평가 지표, 베이스라인

하이퍼파라미터 표

실험 결과 분석

주요 결과 표

결과 요약 및 분석

Ablation Study 분석

비판적 평가

강점

한계점과 개선 방향

재현성 평가

향후 연구 방향

실무 적용 가이드

결론

참고 자료

댓글

관련 포스트