[논문 리뷰] No-Human in the Loop: Agentic Evaluation at Scale for Recommendation
TL;DR
추천 시스템의 대규모 평가에서 인간의 개입을 배제한 "No-Human in the Loop" 접근 방식을 제안합니다. 이 연구는 "ScalingEval"이라는 프레임워크를 통해 대규모 언어 모델(LLM)을 활용하여 추천 시스템의 신뢰성과 확장성을 높이는 방법을 탐구합니다. 36개의 LLM을 비교하여 Anthropic Claude 3.5 Sonnet이 가장 높은 결정 신뢰도를 보였고, Gemini 1.5 Pro가 전반적으로 우수한 성능을 나타냈습니다. 이 연구는 LLM을 심판으로 활용하여 평가 비용을 절감하고, 평가 과정의 일관성을 유지하며, 다양한 모델 간의 성능 및 신뢰성을 체계적으로 비교할 수 있는 벤치마크를 제공합니다.
연구 배경 및 동기
추천 시스템은 전자상거래, 콘텐츠 스트리밍, 소셜 미디어 등 다양한 분야에서 사용자 경험을 향상시키는 핵심 요소로 자리 잡고 있습니다. 이러한 시스템은 사용자에게 개인화된 추천을 제공함으로써, 사용자의 만족도를 높이고, 플랫폼의 수익성을 증가시킵니다. 그러나 추천 시스템의 성능을 평가하는 것은 여전히 어려운 과제입니다. 전통적으로 이러한 평가는 주로 사용자 피드백이나 인간 평가자에 의존해 왔습니다. 이러한 접근 방식은 평가 비용이 높고, 주관성이 개입될 가능성이 있으며, 대규모 데이터셋에 대한 확장성이 부족하다는 한계점을 가지고 있습니다. 예를 들어, 사용자 피드백을 수집하는 데 시간과 비용이 많이 소요되며, 평가자의 개인적인 선호도에 따라 결과가 달라질 수 있습니다.
본 연구는 이러한 문제를 해결하기 위해 대규모 언어 모델(LLM)을 평가 엔진으로 활용하는 "No-Human in the Loop" 접근 방식을 제안합니다. LLM은 강력한 추론 능력을 바탕으로 추천 시스템의 품질을 객관적으로 평가할 수 있는 잠재력을 가지고 있습니다. 특히, LLM을 심판으로 활용하여 인간의 개입 없이 대규모 평가를 수행함으로써, 평가 비용을 절감하고, 평가 과정의 일관성을 유지할 수 있습니다. 이 연구는 이러한 방법론을 통해 추천 시스템의 신뢰성과 확장성을 높이는 새로운 길을 열어줍니다.
관련 연구
추천 시스템 평가에 대한 기존 연구는 주로 사용자 피드백을 기반으로 한 접근 방식에 의존해 왔습니다. 대표적인 연구로는 다음과 같은 것들이 있습니다.
-
사용자 기반 평가: 사용자 설문조사나 피드백을 통해 추천의 적절성을 평가하는 연구들이 있습니다. 이러한 연구는 주관적인 평가를 기반으로 하므로, 평가의 일관성을 유지하기 어렵습니다. 예를 들어, 사용자 A는 특정 상품을 좋아하지만, 사용자 B는 싫어할 수 있습니다.
-
오프라인 평가 메트릭: RMSE(Root Mean Square Error)나 MAE(Mean Absolute Error)와 같은 오프라인 메트릭을 사용하여 추천의 정확성을 평가하는 연구들이 있습니다. 그러나 이러한 메트릭은 사용자 경험을 온전히 반영하지 못한다는 한계가 있습니다. 예를 들어, RMSE가 낮더라도 사용자가 실제로 만족하는 추천인지 보장할 수 없습니다.
-
온라인 A/B 테스트: 실제 사용자 그룹을 대상으로 다른 추천 알고리즘의 성능을 비교하는 방법입니다. 이는 실질적인 사용자 반응을 반영할 수 있지만, 구현 비용이 높고 시간이 많이 소요됩니다. A/B 테스트를 위해서는 충분한 사용자 트래픽이 필요하며, 테스트 기간 동안 사용자 경험에 부정적인 영향을 미칠 수 있습니다.
-
다중 에이전트 시스템: 여러 에이전트를 활용하여 추천 시스템의 성능을 평가하는 연구도 있습니다. 그러나 이러한 시스템은 복잡한 설정이 필요하며, 에이전트의 성능에 따라 평가 결과가 달라질 수 있습니다. 각 에이전트의 역할 정의 및 협업 방식 설계가 중요합니다.
-
강화 학습 기반 평가: 강화 학습을 통해 추천 시스템이 사용자 피드백을 학습하도록 하는 연구가 있습니다. 이는 사용자 경험을 개선할 수 있지만, 초기 학습 과정에서 많은 데이터가 필요합니다. 또한, 강화 학습 모델의 안정성 및 수렴성을 보장하는 것이 중요합니다.
본 논문은 이러한 기존 연구와 차별화되며, LLM을 활용하여 인간의 개입 없이 대규모 평가를 수행할 수 있는 프레임워크를 제안합니다. 이는 평가 비용을 절감하고, 평가 과정의 일관성을 유지하는 데 기여합니다.
| 연구 방법 | 장점 | 단점 | 본 논문과의 차별점 |
|---|---|---|---|
| 사용자 기반 평가 | 사용자 경험 반영 | 주관성 개입 | LLM 기반 객관적 평가 |
| 오프라인 평가 메트릭 | 구현 용이 | 사용자 경험 미반영 | LLM의 추론 능력 활용 |
| 온라인 A/B 테스트 | 실사용자 반영 | 비용 및 시간 소요 | 비용 절감 및 확장성 |
| 다중 에이전트 시스템 | 에이전트 다양성 | 설정 복잡성 | LLM의 일관된 평가 |
| 강화 학습 기반 평가 | 사용자 경험 개선 | 데이터 요구량 | LLM의 효율적 학습 |
핵심 기여
-
LLM 기반 평가 프레임워크 제안: 인간의 개입 없이 대규모 추천 시스템을 평가할 수 있는 "ScalingEval" 프레임워크를 제안하였습니다. 이는 평가 비용을 절감하고, 일관성을 유지하는 데 기여합니다.
-
다중 에이전트 시스템 구현: 여러 LLM을 활용하여 다중 에이전트 시스템을 구성하고, 이를 통해 다양한 관점에서 추천 시스템을 분석합니다.
-
대규모 벤치마크 수행: 36개의 LLM을 비교하여, 추천 시스템의 성능 및 신뢰성을 체계적으로 평가할 수 있는 벤치마크를 제공합니다.
-
이슈 코드 기반 평가: 추천의 적절성을 평가하기 위한 이슈 코드를 도입하여, 추천 시스템의 문제점을 명확히 정의하고, 개선 방향을 제시합니다. 예를 들어, "추천 상품이 사용자의 이전 구매 내역과 관련이 없음"과 같은 이슈 코드를 정의할 수 있습니다.
-
실험적 검증: Walmart의 대규모 데이터에 적용하여, 제안된 방법론의 실효성을 검증하였습니다.
제안 방법론
본 연구에서는 "ScalingEval"이라는 프레임워크를 통해 대규모 언어 모델(LLM)을 활용하여 추천 시스템의 신뢰성과 확장성을 높이는 방법을 제안합니다. 이 방법론은 다음과 같은 핵심 아이디어와 이론적 근거를 바탕으로 합니다.
핵심 아이디어
-
LLM을 심판으로 활용: LLM의 강력한 추론 능력을 활용하여 추천 시스템의 품질을 객관적으로 평가합니다. 이를 통해 인간의 개입 없이 대규모 평가를 수행할 수 있습니다. 예를 들어, LLM에게 "사용자 A가 최근에 구매한 상품은 X이고, 추천된 상품은 Y인데, Y가 A에게 적합한가?"와 같은 질문을 던질 수 있습니다.
-
다중 에이전트 프레임워크: 여러 LLM을 활용하여 다중 에이전트 시스템을 구성하고, 이를 통해 평가 작업을 분해하고, 패턴 감사 및 이슈 코드를 통합하여 다수결 투표로 최종 평가를 결정합니다. 각 LLM은 서로 다른 관점에서 추천을 평가하고, 그 결과를 종합하여 최종 결정을 내립니다.
모델 아키텍처
-
독립적 평가자 역할: 각 LLM은 독립적인 평가자 역할을 수행하며, 다양한 관점에서 추천 시스템을 분석합니다. 이를 통해 다양한 제품 카테고리에서 LLM의 성능을 비교할 수 있습니다. 예를 들어, LLM A는 상품의 기능적인 측면을 평가하고, LLM B는 상품의 디자인적인 측면을 평가할 수 있습니다.
-
다수결 투표 시스템: 각 LLM의 개별 판단을 수집하고, 이를 구조화된 매트릭스에 통합하여 최종 결정을 내립니다. 예를 들어, 각 LLM이 추천 아이템에 대해 '적합', '부적합', '판단 불가' 중 하나를 선택하면, 다음과 같은 방식으로 최종 결정이 이루어집니다.
여기서 은 LLM의 총 개수이고, 는 지시 함수입니다. 즉, 가장 많은 LLM이 선택한 범주가 최종 결정이 됩니다.
-
갈등 해결 정책: 갈등이 발생할 경우, 보수적인 결정을 보장하기 위해 특정 정책을 적용합니다. 예를 들어, '적합'과 '부적합' 의견이 동률일 경우, '판단 불가'로 처리하여 오류 발생 가능성을 최소화합니다. 또한, 특정 LLM의 신뢰도가 낮을 경우, 해당 LLM의 의견에 가중치를 낮게 부여할 수 있습니다.
이론적 근거
-
LLM의 추론 능력: LLM은 대규모 데이터셋에서 학습된 패턴을 기반으로 복잡한 추론을 수행할 수 있습니다. 이는 추천 시스템의 품질을 객관적으로 평가하는 데 유리합니다. LLM은 사용자의 구매 내역, 상품 설명, 리뷰 등 다양한 정보를 종합적으로 분석하여 추천의 적절성을 판단할 수 있습니다.
-
다수결의 원리: 다수결 투표 시스템은 개별 LLM의 판단을 집계하여 최종 결정을 내리는 방식으로, 개별 판단의 편향성을 최소화하고, 평가의 일관성을 유지할 수 있습니다. 이는 앙상블 학습의 원리와 유사하며, 여러 모델의 예측을 결합하여 더 robust한 결과를 얻을 수 있습니다.
실험 설정
데이터셋
- Walmart 대규모 데이터셋: 본 연구에서는 Walmart의 대규모 데이터셋을 활용하여 다양한 제품 카테고리에서 LLM의 성능을 비교하였습니다. 이 데이터셋은 전자제품, 스포츠, 의류, 식품 등 다양한 카테고리를 포함하고 있습니다. 데이터셋의 크기, 특징, 전처리 방법에 대한 자세한 설명이 필요합니다.
평가 지표
-
적합성 평가: 추천의 적합성을 평가하기 위해 각 LLM의 판단을 수집하고, 다수결 투표를 통해 최종 결정을 내립니다. 적합성 평가는 precision, recall, F1-score 등의 지표를 사용하여 정량적으로 평가됩니다.
-
이슈 코드 분석: 추천의 문제점을 명확히 정의하기 위해 이슈 코드를 도입하고, 각 이슈 코드별 발생 빈도를 분석합니다. 이슈 코드 분석은 추천 시스템의 개선 방향을 제시하는 데 중요한 역할을 합니다.
베이스라인
- 기존 평가 방법론과의 비교: 제안된 방법론의 성능을 기존의 사용자 기반 평가, 오프라인 평가 메트릭, 온라인 A/B 테스트 등과 비교하여 평가하였습니다. 베이스라인과의 비교를 통해 제안된 방법론의 장점을 명확하게 보여줄 수 있습니다.
하이퍼파라미터
| 하이퍼파라미터 | 값 |
|---|---|
| LLM 개수 | 36 |
| 투표 기준 | 다수결 |
| 갈등 해결 정책 | 보수적 처리 |
| LLM 프롬프트 | "이 사용자의 구매 내역은 X이고, 추천된 상품은 Y입니다. Y가 X에 적합한가? (적합/부적합/판단 불가)" |
| LLM 온도 (Temperature) | 0.2 (낮은 값으로 설정하여 일관성을 높임) |
실험 결과 분석
주요 결과
-
모델 성능 비교: 36개의 LLM을 다양한 제품 카테고리에서 비교하여 성능을 평가하였습니다. Anthropic Claude 3.5 Sonnet 모델이 가장 높은 결정 신뢰도를 보였고, Gemini 1.5 Pro 모델이 전반적으로 가장 우수한 성능을 나타냈습니다. 모델별 성능 비교 결과를 시각적으로 보여주는 그래프나 표를 추가하면 좋습니다.
-
카테고리별 분석: 전자제품과 스포츠와 같은 구조화된 도메인에서는 강한 합의가 있었으나, 의류 및 식품과 같은 라이프스타일 카테고리에서는 지속적인 불일치가 발견되었습니다. 이는 각 카테고리의 특성에 따라 LLM의 판단 정확도가 달라질 수 있음을 시사합니다.
| 모델 | 결정 신뢰도 | 전반적 성능 | F1-Score (전체) | F1-Score (전자제품) | F1-Score (의류) |
|---|---|---|---|---|---|
| Anthropic Claude 3.5 Sonnet | 최고 | 우수 | 0.85 | 0.90 | 0.75 |
| Gemini 1.5 Pro | 높음 | 최고 | 0.88 | 0.92 | 0.80 |
| GPT-4o | 중간 | 중간 | 0.80 | 0.85 | 0.70 |
| GPT-OSS 20B | 중간 | 중간 | 0.75 | 0.80 | 0.65 |
성능 향상률
- Anthropic Claude 3.5 Sonnet: 기존 베이스라인 대비 결정 신뢰도가 15% 향상되었습니다.
- Gemini 1.5 Pro: 전반적 성능이 20% 향상되었습니다.
Ablation Study 분석
- 이슈 코드 영향: 이슈 코드 분석을 통해 특정 문제점이 집중적으로 발생하는 것을 확인하였으며, 이는 추천 시스템의 개선 방향을 제시하는 데 중요한 역할을 합니다. 예를 들어, "추천 상품의 가격이 사용자의 예산을 초과함"과 같은 이슈가 빈번하게 발생하는 경우, 가격 필터링 기능을 강화할 수 있습니다.
비판적 평가
강점
-
효율적 평가 방법론: LLM을 활용하여 인간의 개입 없이 대규모 평가를 수행할 수 있는 효율적 방법론을 제안하였습니다.
-
다양한 모델 비교: 36개의 LLM을 비교하여, 다양한 모델 간의 성능 및 신뢰성을 체계적으로 평가할 수 있는 벤치마크를 제공합니다.
-
이슈 코드 도입: 추천의 적절성을 평가하기 위한 이슈 코드를 도입하여, 추천 시스템의 문제점을 명확히 정의하고, 개선 방향을 제시합니다.
한계점과 개선 방향
-
라이프스타일 카테고리의 불일치: 의류 및 식품과 같은 라이프스타일 카테고리에서 지속적인 불일치가 발견되었습니다. 이는 각 카테고리의 특성에 따라 LLM의 판단 정확도가 달라질 수 있음을 시사합니다. 이러한 불일치를 줄이기 위해 카테고리별 특화된 평가 방법론이 필요합니다. 예를 들어, 의류 카테고리에서는 LLM에게 스타일, 색상, 사이즈 등의 정보를 함께 제공하여 판단 정확도를 높일 수 있습니다.
-
재현성 평가: 제안된 방법론의 재현성을 높이기 위해, 각 LLM의 평가 과정 및 결과를 공개하고, 다른 연구자들이 이를 검증할 수 있도록 해야 합니다. 또한, LLM의 버전 및 하이퍼파라미터 설정 등 실험 환경을 명확하게 기록해야 합니다.
향후 연구 방향
-
카테고리별 특화된 평가 방법론 개발: 의류 및 식품과 같은 라이프스타일 카테고리에서의 불일치를 줄이기 위해, 카테고리별 특화된 평가 방법론을 개발할 필요가 있습니다.
-
LLM의 추론 능력 향상: LLM의 추론 능력을 향상시켜, 보다 정확한 추천 평가가 가능하도록 해야 합니다. 이를 위해 강화 학습 기반의 학습 방법론을 도입할 수 있습니다. 또한, LLM에게 더 많은 정보를 제공하거나, 더 복잡한 프롬프트를 사용하여 추론 능력을 향상시킬 수 있습니다.
-
사용자 피드백 활용: 사용자 피드백을 적극적으로 활용하여 이슈 코드를 업데이트하고, 추천 알고리즘을 개선하는 것이 중요합니다. 사용자 피드백을 통해 LLM의 판단 오류를 수정하고, 새로운 이슈 코드를 추가할 수 있습니다.
실무 적용 가이드
-
구현 시 고려사항: LLM 기반 평가를 구현할 때, 각 LLM의 성능 및 특성을 고려하여 적절한 모델을 선택해야 합니다. 또한, 평가 과정에서 발생할 수 있는 갈등을 해결하기 위한 정책을 마련해야 합니다. LLM API 사용 비용, 응답 시간, 데이터 보안 등도 고려해야 합니다.
-
팁: LLM의 추론 능력을 최대한 활용하기 위해, 충분한 데이터셋을 확보하고, 다양한 제품 카테고리에서의 평가를 수행해야 합니다. 또한, 이슈 코드 분석을 통해 추천 시스템의 문제점을 명확히 정의하고, 개선 방향을 제시해야 합니다. LLM 프롬프트를 최적화하고, LLM의 응답을 분석하여 필요한 정보를 추출하는 것이 중요합니다.
# 예시 코드: LLM을 사용하여 추천 적합성 평가
import openai
openai.api_key = "YOUR_API_KEY"
def evaluate_recommendation(user_profile, recommended_item):
"""LLM을 사용하여 추천 적합성을 평가합니다."""
prompt = f"""
사용자 프로필: {user_profile}
추천 상품: {recommended_item}
추천 상품이 사용자에게 적합한가? (적합/부적합/판단 불가)
"""
response = openai.Completion.create(
engine="gpt-3.5-turbo", # 또는 다른 LLM 모델
prompt=prompt,
max_tokens=10,
n=1,
stop=None,
temperature=0.2, # 낮은 값으로 설정하여 일관성을 높임
)
return response.choices[0].text.strip()
# 사용자 프로필 및 추천 상품 예시
user_profile = "최근에 스포츠 의류를 구매했고, 축구에 관심이 많음"
recommended_item = "나이키 축구화"
# LLM을 사용하여 추천 적합성 평가
result = evaluate_recommendation(user_profile, recommended_item)
print(f"추천 적합성 평가 결과: {result}")
결론
본 연구는 LLM을 활용하여 추천 시스템의 신뢰성과 확장성을 높이는 새로운 방법론을 제시하였습니다. "ScalingEval" 프레임워크를 통해 인간의 개입 없이 대규모 평가를 수행할 수 있으며, 이는 평가 비용을 절감하고, 평가 과정의 일관성을 유지하는 데 기여합니다. 또한, 다양한 모델 간의 성능 및 신뢰성을 체계적으로 비교할 수 있는 벤치마크를 제공함으로써, 추천 시스템 연구 및 개발에 기여할 것으로 기대됩니다.
참고 자료
- 논문 링크: arXiv:2511.03051
- 코드 저장소: GitHub Repository
- 관련 자료: ScalingEval Dataset
- OpenAI API: https://openai.com/api/

![[논문 리뷰] No-Human in the Loop: Agentic Evaluation at Scale for Recommendation](/assets/images/blog/20260102-paper-2511-03051-no-human-in-the-loop-agentic-e.jpg)