[논문 리뷰] Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration

TL;DR

복잡한 문제를 해결하기 위해 단일 대형 언어 모델(LLM)의 한계를 넘어서려는 시도가 이어지고 있습니다. 이 연구는 다중 에이전트 LLM 협업을 위한 새로운 그래프 기반 프레임워크, **Graph-of-Agents(GoA)**를 제안합니다. GoA는 그래프 구조를 통해 1) 어떤 에이전트가 협업할지 선택하고, 2) 선택된 에이전트들이 어떻게 효과적으로 소통하며, 3) 최종적으로 어떻게 의견을 종합할지에 대한 문제를 해결합니다. 실험 결과, GoA는 더 적은 수의 에이전트로 기존의 다중 에이전트 방식(MoA)보다 높은 성능을 달성했으며, 비용 효율성 또한 크게 개선했음을 보여주었습니다. 이는 무조건 많은 에이전트를 동원하는 것보다, 소수의 전문가가 체계적으로 협력하는 것이 더 중요하다는 점을 시사합니다.

연구 배경 및 동기

대형 언어 모델(LLM)은 놀라운 성능을 보여주지만, 단일 모델만으로는 다각적인 분석이 필요한 복잡한 문제 해결에 한계가 있습니다. 이를 극복하기 위해 여러 LLM 에이전트가 협력하는 다중 에이전트 시스템이 주목받고 있습니다.

하지만 기존의 대표적인 접근법인 **Mixture-of-Agents(MoA)**는 모든 에이전트가 독립적으로 응답을 생성하고, 이를 단순히 종합하는 방식을 사용합니다. 이는 마치 전문가 팀이 각자 방에서 따로 보고서를 쓴 뒤 취합만 하는 것과 같아서 다음과 같은 문제점을 가집니다.

비효율성 및 높은 비용: 모든 에이전트가 동시에 작업을 수행하므로 컴퓨팅 자원과 비용이 많이 듭니다.
협업의 부재: 에이전트 간 상호작용이 없어 서로의 장점을 활용하거나 오류를 보완하는 시너지를 내기 어렵습니다.
확장성 부족: 에이전트 수가 늘어날수록 관리 및 비용 부담이 기하급수적으로 증가합니다.

이러한 문제를 해결하기 위해, 본 연구는 **Graph-of-Agents(GoA)**라는 새로운 프레임워크를 제안합니다. GoA는 그래프 구조를 활용하여 에이전트 간의 소통을 체계적으로 구조화하고, 문제와 가장 관련성 높은 에이전트만 선택하여 협업의 효율과 성능을 극대화합니다.

연구명	접근법	한계점	GoA와의 차별점
MoA	모든 에이전트가 독립적으로 응답 생성 후 투표	협업 부재, 높은 비용, 중복 계산	동적 그래프를 통한 선택적, 적응형 협업
Co-LLM	파이프라인 형태의 제한적 상호작용	단방향 소통, 유연성 부족	양방향 메시지 패싱으로 상호 피드백 강화
Multi-LLM	병렬 처리 후 결과 종합	에이전트 간 시너지 부족	그래프 풀링을 통해 지능적으로 최종 응답 통합

핵심 기여

그래프 기반 협업 구조: 에이전트를 노드(node), 상호작용을 엣지(edge)로 모델링하여 체계적인 협업을 가능하게 합니다.
효율적인 에이전트 선택: 메타(Meta) LLM을 활용해 문제에 가장 적합한 '전문가' 에이전트만 선별하여 비용을 절감합니다.
양방향 메시지 패싱: 에이전트들이 서로의 의견을 참고하고 피드백을 주고받으며 응답을 반복적으로 개선하여 정교함을 높입니다.
적응형 엣지 스코어링: 에이전트 간 응답의 관련성을 동적으로 평가하여 소통의 영향력을 조절합니다.
지능적인 응답 통합: 최종 응답들을 종합하는 그래프 풀링 단계를 통해 가장 일관되고 정확한 결론을 도출합니다.

제안 방법론

GoA 프레임워크는 5단계의 체계적인 프로세스를 통해 작동합니다. 예를 들어, "최근 발표된 LK-99 관련 연구들을 종합하고, 상온 초전도체 가능성에 대한 현재 과학계의 중론을 요약해줘"라는 복잡한 질문을 해결하는 과정을 살펴보겠습니다.

GoA Framework Diagram GoA 프레임워크의 전체적인 흐름도

노드 샘플링 (Node Sampling): 프로젝트에 적합한 전문가 팀을 꾸리는 단계입니다. 메타 LLM이 쿼리를 분석하여, 사용 가능한 에이전트 풀에서 가장 관련성 높은 에이전트들을 선택합니다.
- 예시: 메타 LLM은 '물리학 전문가', '재료과학 전문가', '과학 논문 요약 전문가' 에이전트를 선택합니다.
초기 응답 생성 (Initial Response Generation): 선발된 각 에이전트가 독립적으로 초기 의견을 제시합니다. 응답은 '이유(reasoning)', '답변(answer)', '자신감 점수(confidence)'를 포함하는 구조화된 JSON 형식으로 생성됩니다.
- 예시: 각 전문가 에이전트는 자신의 관점에서 LK-99 관련 논문들을 분석하고 초기 결론을 내놓습니다.
엣지 샘플링 (Edge Sampling): 팀원들이 서로의 초기 의견을 검토하고 평가하는 단계입니다. 각 에이전트는 다른 에이전트의 초기 응답을 보고 정확성, 관련성 등을 기준으로 점수를 매깁니다. 이 점수는 에이전트 간의 관계, 즉 그래프의 **엣지 가중치(edge weight)**가 됩니다.
- 예시: '물리학 전문가'는 '재료과학 전문가'의 분석이 매우 관련성 높다고 판단하여 높은 점수(강한 엣지)를 부여합니다.
메시지 패싱 (Message-Passing): 본격적인 협업 토론 단계입니다. 에이전트들은 가중치가 부여된 엣지를 따라 서로의 의견을 주고받으며 자신의 응답을 개선합니다. 이 과정은 두 단계로 나뉩니다.
- Source-to-Target (의견 수렴): 각 에이전트(Target)는 다른 에이전트(Source)들의 의견을 엣지 가중치에 따라 비중을 두어 참고하며 자신의 초기 응답을 1차 수정합니다. (동료들의 초안을 읽고 내 글을 수정하는 과정)
- Target-to-Source (최종 조율): 1차 수정된 동료들의 의견을 다시 한번 참고하여 자신의 답변을 최종적으로 다듬습니다. (수정된 동료들의 의견을 보고 최종 합의안을 만드는 과정)
그래프 풀링 (Graph-Pooling): 프로젝트 매니저가 최종 보고서를 작성하는 단계입니다. 별도의 메타 LLM이 모든 에이전트의 최종 개선된 응답들을 종합하여, 가장 정확하고 일관성 있는 단일 최종 답변을 생성합니다.

메시지 패싱의 수식적 표현

GoA의 메시지 패싱 과정은 그래프 신경망(GNN)의 아이디어와 유사합니다. 에이전트 $i$ 의 응답(상태) $r_i$ 가 시간(단계) $t$ 에 따라 어떻게 업데이트되는지 수식으로 표현할 수 있습니다.

먼저, 에이전트 $j$ 가 에이전트 $i$ 의 응답 개선에 얼마나 도움이 될지를 나타내는 엣지 가중치 $A_{ji}$ 를 계산합니다.

A_{ji} = \text{Meta-LLM}(\text{query}, r_j^{(0)}, r_i^{(0)})

여기서 $r_j^{(0)}$ 와 $r_i^{(0)}$ 는 각 에이전트의 초기 응답입니다. 이 가중치를 사용하여 메시지 패싱 단계에서 응답을 업데이트합니다.

r_i^{(t+1)} = \text{Update-LLM} \left( r_i^{(t)}, \sum_{j \in \mathcal{N}(i)} A_{ji} \cdot m_{j \to i}^{(t)} \right)

$r_i^{(t)}$ : 단계 $t$ 에서 에이전트 $i$ 의 응답
$\mathcal{N}(i)$ : 에이전트 $i$ 와 연결된 이웃 에이전트 집합
$A_{ji}$ : 에이전트 $j$ 가 $i$ 에게 주는 의견의 영향력(가중치)
$m_{j \to i}^{(t)}$ : 단계 $t$ 에서 에이전트 $j$ 가 $i$ 에게 전달하는 메시지 (즉, $r_j^{(t)}$ )

이 수식은 각 에이전트가 자신의 현재 생각( $r_i^{(t)}$ )과 이웃들의 가중치가 적용된 의견들을 종합하여, 더 나은 다음 생각( $r_i^{(t+1)}$ )을 만들어내는 협업 과정을 수학적으로 모델링한 것입니다.

실험 설정

데이터셋:
- 다중 도메인 벤치마크: MMLU, MMLU-Pro, GPQA (광범위한 지식 및 추론 능력 평가)
- 도메인 특화 벤치마크: MATH (수학), HumanEval (코딩), MedMCQA (의학)
베이스라인: MoA (Mixture-of-Agents) 등 기존 다중 에이전트 시스템과 성능 비교
평가 지표: 정확도(Accuracy), 비용 효율성(LLM 호출 수, 총 토큰 사용량)
핵심 하이퍼파라미터:
- 협업 에이전트 수 ( $k$ ): 3
- 엣지 생성 임계값 ( $\tau$ ): 0.05 (관련성 점수가 이 값보다 낮으면 엣지를 생성하지 않음)

실험 결과 분석

GoA는 모든 벤치마크에서 기존 방법론을 능가하는 뛰어난 성능을 보였습니다.

데이터셋	MoA (6 agents)	GoA (3 agents)	성능 향상률(%)
MMLU	85.2	90.1	5.75
GPQA	78.5	84.3	7.38
MATH	88.0	92.5	5.11

주목할 점은 GoA가 절반의 에이전트(3개)만으로 6개의 에이전트를 사용한 MoA보다 더 높은 성능을 달성했다는 것입니다. 이는 체계적인 협업이 단순한 머릿수 증가보다 훨씬 효과적임을 증명합니다.

또한, 비용 측면에서 GoA는 MoA 대비 LLM 호출 수를 57%, 총 토큰 사용량을 59% 절감하여 뛰어난 효율성을 입증했습니다.

Ablation study(제거 연구)를 통해 GoA의 각 구성 요소가 성능에 미치는 영향을 분석한 결과, 양방향 메시지 패싱과 적응형 엣지 스코어링이 성능 향상의 핵심 요인임이 확인되었습니다.

비판적 평가

강점:

고성능 및 고효율: 적은 수의 에이전트로 더 높은 성능을 달성하며 비용을 크게 절감합니다.
구조화된 협업: 그래프 기반 소통을 통해 에이전트 간 시너지를 극대화하고, 단순 투표 방식의 한계를 극복합니다.
해석 가능성: 생성된 그래프를 분석하면 어떤 에이전트가 최종 결정에 중요한 영향을 미쳤는지 파악할 수 있어 의사결정 과정을 추적하기 용이합니다.

한계점:

구현 복잡성: 노드/엣지 샘플링, 메시지 패싱 등 다단계 프로세스로 인해 MoA와 같은 단순한 병렬 처리 방식보다 구현이 복잡합니다.
메타 LLM 의존성: 에이전트 선택 및 최종 응답 통합을 담당하는 메타 LLM의 성능이 전체 시스템의 성능을 좌우합니다.
지연 시간(Latency): 순차적인 메시지 패싱 과정으로 인해, 모든 에이전트를 병렬로 실행하는 방식보다 최종 응답까지의 시간이 더 걸릴 수 있습니다.

향후 연구 방향

GoA 프레임워크는 다양한 방향으로 확장될 잠재력을 가지고 있습니다.

이기종 에이전트(Heterogeneous Agents) 통합: LLM 에이전트뿐만 아니라, 외부 도구를 사용하는 에이전트(e.g., 코드 실행, 웹 검색)나 기호 논리 기반의 추론 에이전트를 그래프에 통합하여 문제 해결 능력을 강화할 수 있습니다.
그래프 구조 학습: 문제 유형에 따라 최적의 협업 그래프 구조를 동적으로 학습하거나 생성하는 연구로 발전할 수 있습니다.
적용 분야 확장: 복잡한 의사결정이 필요한 금융(시장 분석), 의료(질병 진단), 법률(판례 분석) 등 전문 분야에 적용하여 실질적인 가치를 창출할 수 있습니다.

실무 적용 가이드

GoA를 실무에 도입할 때 고려할 점은 다음과 같습니다.

에이전트 전문화: 범용 LLM을 그대로 사용하기보다, 특정 도메인 데이터로 파인튜닝하거나 명확한 역할(e.g., 비판가, 분석가, 요약가)을 부여하는 프롬프팅을 통해 '전문가' 에이전트를 구성하는 것이 중요합니다.
메타 LLM 선정: 가장 성능이 뛰어난 LLM을 메타 LLM으로 지정하여 에이전트 선택과 최종 결과 통합의 품질을 높여야 합니다.
비용-성능 트레이드오프: 메시지 패싱 횟수를 늘리면 성능이 향상될 수 있지만, 비용과 지연 시간도 증가하므로 해결하려는 문제의 특성에 맞게 조절해야 합니다.

결론

**Graph-of-Agents(GoA)**는 다중 에이전트 시스템의 협업 방식을 '양'에서 '질'로 전환시킨 혁신적인 프레임워크입니다. 구조화된 소통과 효율적인 에이전트 선택을 통해 성능과 효율성이라는 두 마리 토끼를 모두 잡았습니다. GoA는 인간 전문가 팀의 협업 방식을 닮아가는 AI의 미래를 보여주며, 더 복잡하고 정교한 문제를 해결하기 위한 중요한 초석이 될 것입니다.

참고 자료

논문 원문: Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration (arXiv:2404.17148)
공식 코드 저장소: GitHub - UNITES-Lab/GoA

[논문 리뷰] Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration

[논문 리뷰] Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration

TL;DR

연구 배경 및 동기

관련 연구

핵심 기여

제안 방법론

메시지 패싱의 수식적 표현

실험 설정

실험 결과 분석

비판적 평가

향후 연구 방향

실무 적용 가이드

결론

참고 자료

댓글

관련 포스트