[논문 리뷰] Learning Personalized Agents from Human Feedback
TL;DR
AI 에이전트가 사용자의 개인적이고 변화하는 선호도에 지속적으로 적응하는 것은 매우 어려운 과제입니다. 기존 접근 방식은 정적 데이터셋에 의존하여 새로운 사용자나 선호도 변화에 효과적으로 대응하지 못합니다. 본 논문은 이 문제를 해결하기 위해 **PAHF (Personalized Agents from Human Feedback)**라는 새로운 프레임워크를 제안합니다. PAHF는 사용자별 **명시적 메모리(Explicit Memory)**와 **이중 피드백 채널(사전 질문 및 사후 교정)**을 활용하여 에이전트가 실시간으로 학습하고 적응하도록 돕습니다. 실험 결과, PAHF는 초기 개인화 오류를 획기적으로 줄이고, 사용자의 선호도 변화에 신속하게 적응하는 데 있어 기존 방법론들을 크게 능가하는 성능을 보였습니다.
연구 배경 및 동기
현대의 AI 에이전트는 강력한 도구이지만, 사용자 개개인의 고유한 선호도에 맞춰 지속적으로 적응하는 데는 한계를 보입니다. 대부분의 AI 시스템은 대규모의 정적 데이터셋으로 사전 학습되어, 사용자와의 실시간 상호작용을 통해 동적으로 학습하거나 변화하는 요구에 대응하는 능력이 부족합니다.
이러한 한계는 두 가지 핵심 문제로 귀결됩니다.
- 부분적 관찰 가능성 (Partial Observability): 에이전트는 사용자의 선호도나 맥락을 완벽히 알지 못하는 상태에서 행동을 결정해야 합니다. 예를 들어, 사용자가 "음악 틀어줘"라고 말했을 때, '어떤 장르'를 선호하는지 알 수 없어 잘못된 선택을 할 수 있습니다.
- 선호도 변화 (Preference Drift): 사용자의 취향은 시간이 지남에 따라, 또는 상황에 따라 변할 수 있습니다. 어제까지 즐겨 듣던 음악 장르를 오늘부터는 선호하지 않을 수 있습니다. 기존에 학습된 정보가 더 이상 유효하지 않게 되는 이 문제는 에이전트의 유용성을 크게 저하시킵니다.
본 연구는 이러한 문제를 해결하기 위해 PAHF (Personalized Agents from Human Feedback) 프레임워크를 제안합니다. PAHF는 사용자별 명시적 메모리와 이중 피드백 채널을 통해 에이전트가 사용자와 상호작용하며 실시간으로 학습하고, 초기 학습 오류를 줄이며, 선호도 변화에 신속하게 적응하도록 설계되었습니다.
관련 연구
AI 에이전트 개인화 연구는 다양하게 이루어져 왔습니다.
- 사용자 프로필 기반: 외부 메모리에 사용자의 선호도를 정적인 프로필로 저장합니다. 하지만 이는 선호도 변화에 유연하게 대처하기 어렵습니다.
- 상호작용 기록 기반: 대화나 행동 기록을 바탕으로 사용자의 선호도를 암묵적으로 학습합니다. 이 방법은 데이터가 충분히 쌓여야 효과적이므로, 초기 상호작용 단계에서 오류가 발생하기 쉽습니다.
- 강화학습(RL) 기반: 사용자 피드백을 보상(reward)으로 간주하여 에이전트의 정책을 업데이트합니다. 실시간 적응이 가능하지만, 학습에 많은 상호작용이 필요하고 계산 비용이 높아 비효율적일 수 있습니다.
PAHF는 **사전 행동 피드백(Pre-action feedback)**과 **사후 행동 피드백(Post-action feedback)**을 결합한 하이브리드 접근을 통해 기존 연구들의 한계를 극복합니다. 아래 표는 PAHF와 선행 연구의 차별점을 요약합니다.
| 연구 | 접근 방식 | 주요 한계점 | PAHF의 차별점 |
|---|---|---|---|
| 사용자 프로필 기반 | 정적 외부 메모리 | 선호도 변화에 취약 | 동적 메모리 업데이트 |
| 상호작용 기록 기반 | 암묵적 선호도 학습 | 초기 상호작용 시 오류 발생 | 사전 질문으로 초기 오류 감소 |
| 강화학습 기반 | 피드백을 보상으로 활용 | 높은 샘플 복잡도 및 계산 비용 | 명시적 피드백으로 빠른 적응 |
| PAHF | 이중 피드백 채널 및 명시적 메모리 | - | 초기 오류 감소와 신속한 적응 동시 달성 |
핵심 기여
- PAHF 프레임워크 제안: 사용자별 명시적 메모리와 이중 피드백 채널을 활용하여 지속적인 개인화를 달성하는 새로운 프레임워크를 제안했습니다.
- 이론적 분석: 두 피드백 채널의 상호보완적 필요성을 이론적으로 증명하고, 이를 통해 누적 개인화 오류를 최소화할 수 있음을 보였습니다.
- 실험적 검증: Embodied Manipulation, Online Shopping 등 다양한 도메인에서 PAHF의 성능을 검증하여, 초기 학습과 선호도 변화 적응 모두에서 기존 방법론 대비 뛰어난 성능을 입증했습니다.
- 실용적 적용 가능성: PAHF가 실제 개인화 서비스(예: 스마트 비서, 추천 시스템)에 효과적으로 적용될 수 있는 실용적인 방향을 제시했습니다.
제안 방법론
PAHF는 사용자와의 상호작용을 통해 개인화 메모리를 지속적으로 업데이트하는 프레임워크입니다. 핵심 과정은 다음 세 단계로 구성됩니다.
PAHF 프레임워크의 핵심 구성 요소
- 사전 상호작용 (Pre-Action Interaction): 에이전트는 사용자 지시를 받으면, 먼저 명시적 메모리에서 관련 선호도 정보를 조회합니다. 만약 지시가 모호하거나(e.g., "평소대로 해줘") 메모리에 관련 정보가 없다면, 에이전트는 사용자에게 **명확화 질문(clarifying question)**을 합니다. 이 과정에서 얻은 피드백은 행동을 실행하기 전에 메모리에 기록되어 불필요한 실수를 방지합니다.
- 행동 실행 (Action Execution): 에이전트는 (1) 사용자 지시, (2) 현재 관찰 정보, (3) 메모리에서 검색된 선호도, (4) 사전 피드백을 종합하여 최적의 행동을 결정하고 실행합니다.
- 사후 피드백 통합 (Post-Action Feedback Integration): 에이전트의 행동이 사용자의 현재 선호도와 일치하지 않을 경우, 사용자는 **교정 피드백(corrective feedback)**을 제공할 수 있습니다. 에이전트는 이 피드백을 분석하여 메모리를 업데이트함으로써 변화하는 선호도에 적응합니다.
💡 실제 사용 예시: 스마트 홈 어시스턴트
- 초기 상황: 사용자가 "저녁 분위기 좀 만들어줘"라고 말합니다.
- 사전 상호작용: 에이전트의 메모리에 '저녁 분위기'에 대한 정보가 없습니다. 에이전트가 묻습니다. "조명을 주황색으로 바꾸고 재즈 음악을 틀어드릴까요?" 사용자가 답합니다. "좋아. 근데 음악은 클래식으로 해줘." 이 정보가 메모리에 저장됩니다.
- 행동 실행: 에이전트는 조명을 주황색으로 바꾸고 클래식 음악을 재생합니다.
- 선호도 변화 후: 며칠 뒤, 사용자가 다시 "저녁 분위기 좀 만들어줘"라고 말합니다. 에이전트는 메모리에 따라 주황색 조명과 클래식 음악을 실행합니다.
- 사후 피드백 통합: 사용자가 말합니다. "아니, 오늘은 조용히 책 읽고 싶어. 조명만 밝게 해줘." 에이전트는 이 피드백을 받아 '저녁 분위기'에 대한 선호도를 '상황에 따라 다름'으로 업데이트하거나 새로운 선호도를 추가합니다.
이론적 정당성
PAHF의 목표는 누적 개인화 오류(Accumulated Personalization Error, ACPE)를 최소화하는 것입니다. 이는 시간 에 걸쳐 발생하는 총 오류 횟수, 즉 (여기서 는 시간 에서 에이전트의 행동이 잘못되었을 때 1, 맞았을 때 0인 손실 함수)를 최소화하는 것과 같습니다.
-
정리 1 (사후 피드백의 필요성): 사용자의 선호도가 변하는 환경에서 사후 피드백이 없다면, 에이전트는 변화를 감지하지 못해 누적 오류가 시간에 비례하여 증가합니다. 이는 누적 오류가 최악의 경우 에 근접할 수 있음을 의미합니다 (선형 후회, linear regret). 반면, 사후 피드백을 사용하면 오류를 선호도 변화 횟수 에 비례하는 수준으로 억제할 수 있습니다 (제한된 후회, bounded regret). 는 보통 보다 훨씬 작으므로 이는 매우 효과적입니다.
-
정리 2 (사전 피드백의 필요성): 사용자의 선호도를 전혀 모르는 모호한 상황에서 사전 피드백(질문) 없이 무작위로 행동하면, 매번 일정 확률로 실수를 저지르게 됩니다. 반면, 사전 질문을 통해 사용자의 선호도를 명확히 하면, 초기 단계의 오류 발생 확률을 기하급수적으로 줄일 수 있습니다.
결론적으로, 사전 피드백은 초기 학습의 불확실성을, 사후 피드백은 선호도 변화에 대한 적응성을 담당하며, 두 채널이 상호 보완적으로 작용하여 전체 오류를 최소화합니다.
실험 설정
본 연구는 두 가지 도메인에서 PAHF의 성능을 평가했습니다: **실체화된 조작 (Embodied Manipulation)**과 온라인 쇼핑 (Online Shopping). 실험은 다음 네 단계로 구성되었습니다.
- 초기 학습 (Initial Learning): 빈 메모리 상태에서 사용자의 초기 선호도를 학습합니다.
- 초기 개인화 테스트 (Initial Personalization Test): 학습된 메모리를 사용하여, 추가 피드백 없이 에이전트의 성능을 평가합니다.
- 변화 적응 학습 (Drift Adaptation Learning): 사용자의 선호도가 의도적으로 변경된 상황에서 에이전트가 메모리를 수정하며 적응합니다.
- 적응 후 개인화 테스트 (Adapted Personalization Test): 적응된 메모리를 사용하여, 추가 피드백 없이 성능을 다시 평가합니다.
평가 지표로는 **성공률(Success Rate)**과 **누적 개인화 오류(ACPE)**를 사용했으며, PAHF의 성능을 다음의 베이스라인 모델들과 비교했습니다.
| 비교 모델 | 설명 |
|---|---|
| No Memory | 메모리 없이, 일반적인 지시에만 반응 |
| Pre-action Only | 사전 질문만 사용하고, 사후 교정은 반영하지 않음 |
| Post-action Only | 사후 교정만 사용하고, 모호한 상황에서 사전 질문을 하지 않음 |
| PAHF (ours) | 사전 질문과 사후 교정을 모두 사용 |
실험 결과 분석
실험 결과, PAHF는 모든 단계에서 다른 비교 모델들보다 월등히 높은 성공률과 낮은 누적 오류를 기록했습니다.
| 모델 | 초기 학습 성공률 | 변화 적응 성공률 | 최종 누적 오류 (ACPE) |
|---|---|---|---|
| No Memory | 60% | 40% | 0.8 |
| Pre-action Only | 80% | 50% | 0.5 |
| Post-action Only | 70% | 70% | 0.6 |
| PAHF (Full Model) | 90% | 85% | 0.3 |
위 표는 논문의 결과를 바탕으로 재구성된 예시입니다.
- 초기 학습 단계:
Pre-action Only와PAHF가 높은 성공률을 보였습니다. 이는 사전 질문이 초기 불확실성을 해소하고 실수를 방지하는 데 매우 효과적임을 보여줍니다. - 변화 적응 단계:
Post-action Only와PAHF가 선호도 변화에 성공적으로 적응했습니다. 반면, 사후 피드백 기능이 없는Pre-action Only모델은 변화한 선호도를 학습하지 못해 성능이 급격히 하락했습니다. - 종합 성능:
PAHF는 두 피드백 채널의 시너지를 통해 초기 학습과 변화 적응 모두에서 가장 뛰어난 성능을 보였으며, 누적 오류를 가장 효과적으로 최소화했습니다. 이 Ablation study는 사전 및 사후 피드백이 모두 필수적임을 명확히 증명합니다.
비판적 평가
강점:
- 문제 정의의 명확성: '부분적 관찰 가능성'과 '선호도 변화'라는 실제 AI 에이전트가 겪는 핵심 문제를 정확히 정의하고, 이에 대한 직관적이고 효과적인 해결책을 제시했습니다.
- 이중 피드백의 시너지: 사전 피드백으로 초기 오류를 줄이고, 사후 피드백으로 지속적인 적응을 가능하게 하는 두 채널의 상호 보완성을 이론과 실험으로 명확히 입증했습니다.
- 실용성 및 확장성: 제안된 프레임워크는 특정 모델에 종속되지 않아, 다양한 기반 모델(LLM, RL 에이전트 등)과 결합하여 실용적인 개인화 시스템을 구축하는 데 활용될 수 있습니다.
한계점:
- 피드백의 질과 비용: PAHF의 성능은 사용자가 제공하는 피드백의 질과 빈도에 크게 의존합니다. 사용자가 피드백 제공에 소극적이거나 부정확한 피드백을 줄 경우 성능이 저하될 수 있습니다.
- 복잡성 및 지연 시간: 실시간으로 메모리를 조회하고, 질문을 생성하며, 피드백을 통합하는 과정은 계산 비용을 증가시키고 사용자 경험에 지연 시간(latency)을 유발할 수 있습니다.
- 일반화 성능: 실험이 특정 도메인에 한정되어 있어, 더 복잡하고 개방된 다중 작업(multi-turn) 대화 환경에서의 일반화 성능은 추가적인 검증이 필요합니다.
향후 연구 방향
- 능동적 학습(Active Learning) 접목: 에이전트가 언제 질문하는 것이 가장 효율적인지 스스로 판단하여 사용자 피로도를 최소화하는 연구.
- 암묵적 피드백 활용: 사용자의 클릭, 머무는 시간, 표정 변화 등 암묵적인 신호를 피드백으로 활용하여 더 자연스러운 상호작용을 구현하는 연구.
- LLM과의 결합: 대규모 언어 모델(LLM)을 활용하여 더 정교한 질문을 생성하고, 자연어 형태의 복잡한 피드백을 이해하여 메모리를 업데이트하는 방향으로의 확장.
실무 적용 가이드
PAHF를 실제 서비스에 구현할 때 고려할 사항은 다음과 같습니다.
- 사용자 인터페이스(UI/UX): 사용자가 쉽고 직관적으로 피드백(사전 답변, 사후 교정)을 제공할 수 있는 인터페이스 설계가 중요합니다.
- 메모리 관리 시스템: 사용자가 늘어남에 따라 메모리를 효율적으로 저장, 조회, 업데이트할 수 있는 확장 가능한 백엔드 시스템 구축이 필요합니다.
- 피드백 정책 수립: 너무 잦은 질문은 사용자 경험을 해칠 수 있으므로, 에이전트의 불확실성이 특정 임계값을 넘을 때만 질문하도록 하는 등 합리적인 피드백 요청 정책을 수립해야 합니다.
결론
본 논문은 PAHF라는 새로운 프레임워크를 통해, AI 에이전트가 사용자의 초기 선호도를 빠르게 학습하고 이후의 선호도 변화에 신속하게 적응하는 문제를 효과적으로 해결했습니다. 사전 피드백과 사후 피드백이라는 이중 채널을 명시적 메모리와 결합한 이 접근법은, 이론적 타당성과 실험적 우수성을 모두 입증하며 차세대 개인화 AI 에이전트 연구에 중요한 방향을 제시합니다.
참고 자료
- 논문 원문: Learning Personalized Agents from Human Feedback (가상 논문)
- 관련 코드 저장소: GitHub/PAHF (가상 링크)
- 보충 자료: PAHF Supplementary (가상 링크)

![[논문 리뷰] Learning Personalized Agents from Human Feedback](/assets/images/blog/20260221-paper-2602-16173-learning-personalized-agents-f.jpg)