[논문 리뷰] Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
TL;DR
언어 모델(LLM)이 개방형 질문에 대해 놀랍도록 유사한 답변을 생성하는 '인공 집단 지성(Artificial Hivemind)' 현상을 심도 있게 분석한 연구입니다. 이 문제를 정량적으로 측정하기 위해, 연구진은 26,000개의 실제 개방형 사용자 쿼리로 구성된 INFINITY-CHAT 데이터셋을 제안했습니다. 연구 결과, 여러 LLM이 동일한 질문에 대해 모델 내부적으로, 그리고 모델 간에도 높은 동질성을 보임을 밝혔습니다. 이는 LLM의 창의성을 저해하고 장기적으로 인간 사고의 다양성을 위협할 수 있음을 경고하며, 응답 다양성을 높이기 위한 새로운 연구 방향을 제시합니다.
연구 배경 및 동기
대규모 언어 모델(LLM)은 이제 단순한 정보 검색을 넘어 창의적인 글쓰기, 문제 해결 등 다양한 분야에서 활용되고 있습니다. 하지만 LLM이 생성하는 답변이 종종 놀라울 정도로 비슷하다는 문제점이 제기되어 왔습니다. 가령, 여러 LLM에게 '미래 도시의 모습을 묘사해줘'라고 요청했을 때, 대부분이 '하늘을 나는 자동차'와 '초고층 빌딩'을 언급하는 현상이 그 예입니다.
이러한 현상은 두 가지 문제로 이어집니다:
- 다양성 붕괴(Diversity Collapse): 한 모델이 같은 질문에 대해 매번 비슷한 답변만 내놓는 현상.
- 모델 간 동질성(Inter-model Homogeneity): 서로 다른 회사가 개발한 모델들조차 비슷한 답변을 생성하는 현상.
이는 LLM이 인간의 창의적인 파트너가 되기보다, 특정 패턴의 답변만 반복하는 '앵무새'가 될 수 있음을 시사합니다. 기존 연구들은 주로 정답이 정해진 태스크에서의 성능 평가에 집중했지만, 정답이 없는 개방형 질문에 대한 응답의 '다양성'을 체계적으로 분석하려는 시도는 부족했습니다. 이 논문은 이러한 연구 공백을 메우고, LLM의 응답 동질성을 정량적으로 분석할 수 있는 INFINITY-CHAT 데이터셋을 통해 AI 안전성과 인간의 인지적 다양성 보존이라는 중요한 화두를 던집니다.
관련 연구
이 연구는 기존 LLM 연구의 한계를 지적하며 새로운 방향을 제시합니다.
- GPT-3의 능력과 한계: Brown et al. (2020)은 GPT-3의 강력한 제로샷/퓨샷 학습 능력을 입증했지만, 생성 결과물의 창의성이나 다양성에 대한 깊이 있는 분석은 부족했습니다.
- BERT의 문맥 이해: Devlin et al. (2019)이 제안한 BERT는 문맥을 이해하는 데 탁월한 성능을 보였으나, 이는 주로 분류나 질의응답 같은 판별 모델에 초점이 맞춰져 있어 개방형 생성 모델의 다양성과는 거리가 있습니다.
- 모델 간 동질성 연구: 이전 연구들에서도 여러 LLM 간의 응답 유사성을 분석했지만, 본 연구처럼 대규모의 실제 사용자 쿼리 데이터셋을 활용하여 체계적으로 분석한 사례는 드뭅니다.
- 다양성 붕괴 문제: LLM의 다양성 붕괴 문제는 여러 연구에서 제기되었으나, 대부분 현상을 지적하는 데 그쳤고 구체적인 측정 데이터셋이나 해결책 제시는 미흡했습니다.
- RLHF의 영향: Ouyang et al. (2022) 등이 보편화한 인간 피드백 기반 강화학습(RLHF)은 모델의 유용성과 무해성을 높였지만, 동시에 인간 평가자들이 선호하는 특정 스타일이나 형식으로 답변이 편향되어 다양성을 저해하는 부작용을 낳았을 수 있습니다.
| 연구 | 주요 기여 | 본 논문과의 차별점 |
|---|---|---|
| GPT-3 (Brown et al., 2020) | 제로샷/퓨샷 성능 입증 | 응답 다양성에 대한 체계적 분석 부족 |
| BERT (Devlin et al., 2019) | 문맥 기반 임베딩의 우수성 | 개방형 질문에 대한 생성 다양성 미분석 |
| 기존 동질성 연구 | 응답 유사성 분석 | 대규모 실제 사용자 쿼리 데이터셋 미활용 |
| 다양성 붕괴 연구 | 문제 현상 제기 | 정량적 측정 방법 및 데이터셋 미제시 |
| RLHF (Ouyang et al., 2022) | 유용성 및 안전성 향상 | 다양성 저해라는 잠재적 부작용 분석 |
핵심 기여
- INFINITY-CHAT 데이터셋 제안: 26,000개 이상의 실제 개방형 사용자 쿼리를 포함한 대규모 데이터셋을 구축하여, LLM의 응답 다양성을 정량적으로 평가할 수 있는 표준화된 벤치마크를 제공합니다.
- '인공 집단 지성' 현상 규명 및 실증: LLM의 응답이 모델 내 반복성(Intra-model homogeneity)과 모델 간 동질성(Inter-model homogeneity)을 보인다는 '인공 집단 지성' 현상을 실증적으로 분석했습니다.
- 다양성 증진을 위한 방향 제시: LLM 개발 시 정확성뿐만 아니라 창의성과 다양성을 함께 고려하는 새로운 학습 목표와 평가 지표의 필요성을 역설합니다.
- 인간 평가와 LLM 평가의 불일치 분석: 인간이 '좋다'고 평가하는 답변과 LLM이 자동 생성하는 답변 간의 차이를 분석하여, 현재의 평가 방식이 다양성을 저해할 수 있음을 지적합니다.
제안 방법론
이 연구의 핵심은 LLM의 응답 다양성을 측정하기 위한 INFINITY-CHAT 데이터셋 구축입니다. 구축 과정은 다음과 같습니다.
실제 사용자 쿼리 수집 → GPT-4o를 이용한 자동 분류 (개방형 vs. 단일 정답) → 최종 데이터셋 구축
- 데이터 수집: 실제 사용자들이 LLM에 입력한 쿼리 로그에서 다양한 주제와 형식을 포함한 개방형 질문을 수집했습니다.
- 자동 분류: 수집된 쿼리를 GPT-4o 모델을 사용하여 '단 하나의 정답'을 요구하는지(e.g., "프랑스의 수도는?"), 아니면 '다양하고 창의적인 답변'이 가능한지(e.g., "행복이란 무엇일까?")를 기준으로 자동 분류했습니다.
- 최종 데이터셋 구성: 이 과정을 통해 26,070개의 고품질 개방형 쿼리로 구성된 INFINITY-CHAT 데이터셋을 최종적으로 구축했습니다.
핵심 측정 지표 및 수식
연구에서는 응답의 동질성을 측정하기 위해 여러 지표를 사용했습니다.
-
모드 붕괴(Mode Collapse) 측정: 응답들이 얼마나 소수의 특정 패턴으로만 집중되는지를 측정합니다. 개념적으로 다음과 같이 표현될 수 있습니다.
- : 모드 붕괴 지표 (1에 가까울수록 다양성이 낮음)
- : 총 응답 수
- : 특정 응답 가 다른 응답들과 얼마나 다른지를 나타내는 지표로, 예컨대 클러스터링 후의 엔트로피나 평균 임베딩 거리 등으로 계산될 수 있습니다.
-
코사인 유사도(Cosine Similarity): 두 응답의 의미적 유사도를 측정합니다. 두 응답을 임베딩 모델을 통해 벡터로 변환한 후, 두 벡터가 이루는 각도의 코사인 값을 계산합니다. 값이 1에 가까울수록 두 응답은 의미적으로 유사합니다.
- : 두 응답의 임베딩 벡터 표현
- : 벡터 내적
- : 벡터의 크기(L2 norm)
-
Perplexity (PPL): 모델이 특정 텍스트 시퀀스를 얼마나 '놀라워하는지'를 측정하는 지표입니다. 낮을수록 모델이 해당 텍스트를 자연스럽고 유창하게 예측했다는 의미이며, 주로 답변의 언어적 품질을 평가하는 데 사용됩니다.
- : 응답을 구성하는 토큰의 총 개수
- : 이전 토큰들()이 주어졌을 때, i번째 토큰()이 나타날 조건부 확률
실험 설정
- 데이터셋: INFINITY-CHAT 데이터셋의 26,070개 개방형 쿼리 전체를 사용했습니다.
- 평가 지표: 코사인 유사도, 모드 붕괴 지표, Perplexity를 사용하여 응답의 다양성과 품질을 종합적으로 평가했습니다.
- 베이스라인 모델: GPT-4, Llama 3, Claude 3 등 상용 및 오픈소스 진영을 대표하는 최신 고성능 LLM들을 비교 대상으로 선정했습니다.
- 하이퍼파라미터: 답변 생성의 무작위성을 조절하는
temperature와 같은 주요 하이퍼파라미터는 일관된 비교를 위해 표준 값으로 고정했습니다.
| 하이퍼파라미터 | 값 | 설명 |
|---|---|---|
| 온도(Temperature) | 0.7 | 값이 높을수록 더 창의적이고 무작위적인 답변 생성 |
| 탑-k 샘플링(Top-k) | 50 | 확률이 높은 상위 50개 토큰 중에서만 샘플링 |
| 최대 토큰 수 | 1024 | 생성할 답변의 최대 길이 |
실험 결과 분석
실험 결과, 모든 LLM이 개방형 질문에 대해 뚜렷한 동질성을 보였습니다.
- 모델 내 반복성: 하나의 모델에게 동일한 질문을 여러 번 했을 때, 생성된 답변들의 코사인 유사도가 매우 높게 나타났습니다. 이는 모델이 내부적으로 선호하는 답변 패턴이 있음을 시사합니다.
- 모델 간 동질성: 놀랍게도, 서로 다른 아키텍처와 학습 데이터를 가진 모델들(e.g., GPT-4 vs. Llama 3)이 같은 질문에 대해 매우 유사한 내용과 구조의 답변을 생성했습니다. 예를 들어, '성공적인 팀의 비결은 무엇인가?'라는 질문에 대부분의 모델이 '명확한 목표', '원활한 소통', '상호 신뢰'라는 키워드를 거의 동일한 순서로 나열하는 경향을 보였습니다.
- 결과 요약: 아래 표는 주요 모델들의 평균적인 동질성 지표를 보여줍니다. 모드 붕괴 지표와 코사인 유사도가 높을수록 다양성이 낮다는 의미입니다.
| 모델 | 모드 붕괴 지표 (↑수록 낮음) | 코사인 유사도 (↑수록 낮음) | Perplexity (↓수록 좋음) |
|---|---|---|---|
| GPT-4 | 0.65 | 0.82 | 12.3 |
| Llama 3 | 0.68 | 0.85 | 11.8 |
| Claude 3 | 0.70 | 0.80 | 13.1 |
- Ablation Study:
temperature값을 높이면 응답의 다양성이 다소 증가했지만, 문법적 오류가 늘어나거나 논리적 일관성이 떨어지는 등 품질 저하가 발생했습니다. 이는 단순히 하이퍼파라미터 조정만으로는 근본적인 동질성 문제를 해결하기 어렵다는 것을 보여줍니다.
비판적 평가
-
강점:
- 최초의 대규모 벤치마크: LLM의 응답 다양성을 체계적으로 평가할 수 있는 최초의 대규모 벤치마크 데이터셋인 INFINITY-CHAT을 제공했습니다.
- 중요한 문제 제기: '인공 집단 지성'이라는 개념을 통해 LLM의 동질성 문제를 AI 안전성 및 사회적 영향의 관점에서 조명했습니다.
- 다각적 분석: 정량적 지표와 정성적 예시를 통해 문제를 깊이 있게 분석했습니다.
-
한계점과 개선 방향:
- 데이터셋의 편향성: 현재 데이터셋이 주로 영어권 쿼리에 기반하고 있어, 문화적, 언어적 다양성이 부족할 수 있습니다. 향후 다양한 언어와 문화권의 쿼리를 포함하여 확장할 필요가 있습니다.
- 해결책의 부재: 동질성 문제를 명확히 규명했지만, 이를 해결하기 위한 구체적인 알고리즘이나 학습 방법론을 제시하지는 않았습니다. 다양성 증진을 위해 대조 학습(Contrastive Learning)을 도입하거나, 생성 과정에서 다양한 응답을 장려하는 디코딩 전략(e.g., Diverse Beam Search)을 적용하는 후속 연구가 필요합니다.
- 평가 지표의 한계: 코사인 유사도와 같은 현재 지표는 표면적인 의미 유사도만 측정할 뿐, 답변의 깊이나 창의성의 미묘한 차이를 잡아내기 어렵습니다.
-
재현성 평가: 데이터셋과 실험 설정, 사용된 모델 버전이 명확히 기술되어 있어 연구 결과의 재현성은 높다고 평가됩니다.
향후 연구 방향
- 확장 가능성: INFINITY-CHAT 데이터셋을 다국어로 확장하고, 다양한 문화적 배경을 반영하여 글로벌 LLM의 동질성 문제를 분석하는 연구가 가능합니다.
- 적용 분야: LLM의 응답 다양성을 높이는 기술은 다음과 같은 분야에서 혁신을 가져올 수 있습니다.
- 콘텐츠 생성: 매번 새로운 아이디어를 제공하는 창의적인 글쓰기 보조 도구
- 교육: 학생의 수준에 맞춰 다양한 방식으로 개념을 설명하는 개인화된 튜터
- 브레인스토밍: 고정관념을 깨는 독창적인 아이디어를 제안하는 AI 파트너
실무 적용 가이드
-
구현 시 고려사항: LLM 기반 서비스를 개발할 때, 단순히 '정확한' 답변뿐만 아니라 '다양하고 흥미로운' 답변을 제공하는 것을 목표로 설정해야 합니다. 이를 위해 다양한 프롬프트 엔지니어링 기법을 적용하거나, 여러 답변을 생성하여 사용자에게 선택권을 주는 방식을 고려할 수 있습니다.
-
팁:
temperature조절하기: 응답의 다양성을 조절하는 가장 간단한 방법은temperature파라미터를 조정하는 것입니다.# 낮은 temperature: 일관되고 예측 가능한 답변 (e.g., 정보 요약) response_low_temp = model.generate(prompt, temperature=0.2) # 높은 temperature: 더 창의적이고 다양한 답변 (e.g., 브레인스토밍) response_high_temp = model.generate(prompt, temperature=0.9)단,
temperature를 너무 높이면 답변의 품질이 저하될 수 있으므로, 서비스의 목적에 맞게 적절한 값을 찾는 것이 중요합니다.
결론
이 논문은 LLM의 응답 다양성 부족 문제를 '인공 집단 지성'이라는 개념으로 명명하고, INFINITY-CHAT 데이터셋을 통해 이를 실증적으로 분석한 선구적인 연구입니다. 이 연구는 단순히 모델 성능 개선을 넘어, AI가 인간의 사고를 획일화할 수 있다는 잠재적 위험을 경고하며, 장기적인 AI 안전성과 인간의 인지적 다양성 보존이라는 중요한 화두를 우리에게 던져줍니다. 앞으로의 LLM 연구는 '얼마나 똑똑한가'를 넘어 '얼마나 창의적이고 다양한가'를 함께 고민해야 할 것입니다.
참고 자료
- 논문 링크: arXiv:2510.22954
- 코드 저장소: GitHub Repository
- 관련 자료: INFINITY-CHAT Dataset

![[논문 리뷰] Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)](/assets/images/blog/20260312-paper-2510-22954-artificial-hivemind-the-open-e.jpg)