[논문 리뷰] Tracing Moral Foundations in Large Language Models
TL;DR
대형 언어 모델(LLM)은 인간과 유사한 도덕적 판단을 내릴 수 있지만, 이러한 판단이 단순한 모방인지 아니면 구조화된 내부 개념을 반영하는지에 대한 의문이 존재합니다. 이 논문은 도덕적 기초 이론(Moral Foundations Theory, MFT)을 사용하여 두 개의 LLM(Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct)에서 도덕적 기초가 어떻게 인코딩되고 조직화되는지를 분석합니다. 연구 결과, 모델의 도덕적 개념은 구조화되어 있으며, 이는 인간의 도덕적 인식과 정렬되어 있음을 보여줍니다. 또한, 도덕적 개념은 특정 네트워크 깊이에서 해석 가능한 원자적 특징으로 구성되어 있으며, 모델의 도덕적 출력을 조정하는 인과적 개입을 통해 이러한 구조가 예측 가능한 방식으로 행동을 변화시킬 수 있음을 확인했습니다. 이 연구는 LLM의 도덕적 판단을 이해하고 제어하는 데 중요한 통찰을 제공합니다.
연구 배경 및 동기
대형 언어 모델(LLM)은 자연어 처리 분야에서 혁신적인 발전을 이루며, 다양한 응용 분야에서 인간과 유사한 수준의 언어 이해 및 생성 능력을 보여주고 있습니다. 이러한 모델은 종종 도덕적 판단을 포함한 복잡한 인간적 특성을 모방할 수 있는 것으로 알려져 있습니다. 그러나 이러한 도덕적 판단이 진정으로 구조화된 내부 개념을 반영하는 것인지, 아니면 단순히 훈련 데이터에서 학습한 패턴을 모방하는 것인지에 대한 의문이 제기되고 있습니다.
기존 연구에서는 LLM이 인간의 도덕적 판단을 모방할 수 있다는 것을 보여주었지만, 이러한 모방이 어떻게 이루어지는지에 대한 구체적인 메커니즘을 설명하지 못했습니다. 특히, 도덕적 판단의 기초가 되는 내부 구조가 어떻게 형성되고 있는지에 대한 이해가 부족했습니다. 이는 LLM의 도덕적 판단이 실제로 신뢰할 수 있는지, 그리고 이러한 판단을 제어할 수 있는지에 대한 중요한 질문을 남깁니다.
이 연구는 이러한 갭을 해결하기 위해 도덕적 기초 이론(Moral Foundations Theory, MFT)을 사용하여 LLM 내에서 도덕적 개념이 어떻게 인코딩되고 조직화되는지를 분석합니다. MFT는 인간의 도덕적 판단을 다섯 가지 차원으로 설명하는 이론으로, Care/harm, Fairness/cheating, Loyalty/betrayal, Authority/subversion, Sanctity/degradation을 포함합니다. 이 연구는 두 개의 LLM(Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct)을 대상으로 도덕적 기초가 어떻게 형성되고 있는지를 조사하며, 이를 통해 LLM의 도덕적 판단을 이해하고 제어하는 데 기여하고자 합니다.
관련 연구
선행 연구들은 LLM의 도덕적 판단 능력을 다양한 측면에서 조사해 왔습니다. 첫째, Bender et al. (2021)은 LLM이 도덕적 판단을 포함한 복잡한 인간적 특성을 모방할 수 있다는 점을 강조하며, 이러한 능력이 데이터에 의해 학습된 패턴에 기인한다고 주장했습니다. 둘째, Raffel et al. (2020)은 T5 모델을 사용하여 LLM의 도덕적 판단 능력을 평가하였으며, 모델이 특정 도덕적 상황에서 일관된 판단을 내릴 수 있음을 발견했습니다. 셋째, Brown et al. (2020)은 GPT-3 모델을 사용하여 LLM의 도덕적 판단을 실험적으로 분석하였으며, 모델이 훈련 데이터에서 학습한 패턴을 기반으로 도덕적 판단을 내린다고 결론지었습니다. 넷째, Zellers et al. (2019)은 도덕적 판단을 포함한 다양한 인간적 특성을 평가하기 위해 새로운 벤치마크를 제안하였으며, LLM의 도덕적 판단 능력을 정량적으로 평가하는 방법을 개발했습니다. 마지막으로, Stiennon et al. (2020)은 LLM의 도덕적 판단을 강화하기 위한 새로운 학습 방법을 제안하였으며, 모델의 도덕적 판단 정확도를 향상시킬 수 있음을 보여주었습니다.
이 논문은 기존 연구와 차별화된 접근 방식을 취합니다. 기존 연구들이 주로 LLM의 도덕적 판단 능력을 평가하는 데 초점을 맞춘 반면, 본 논문은 도덕적 판단의 기초가 되는 내부 구조를 분석하고, 이를 조정하는 방법을 제안합니다. 이를 통해 LLM의 도덕적 판단을 보다 깊이 이해하고, 제어할 수 있는 가능성을 제시합니다.
| 선행 연구 | 주요 기여 | 본 논문과의 차별점 |
|---|---|---|
| Bender et al. (2021) | LLM의 도덕적 판단 모방 능력 분석 | 내부 구조 분석 및 조정 방법 제안 |
| Raffel et al. (2020) | T5 모델의 도덕적 판단 능력 평가 | 도덕적 기초 이론을 통한 구조적 분석 |
| Brown et al. (2020) | GPT-3의 도덕적 판단 실험적 분석 | 도덕적 개념의 인과적 조정 |
| Zellers et al. (2019) | 도덕적 판단 평가를 위한 벤치마크 제안 | LLM 내 도덕적 구조의 해석 가능성 제시 |
| Stiennon et al. (2020) | 도덕적 판단 강화를 위한 학습 방법 제안 | 도덕적 판단의 구조적 이해와 제어 |
핵심 기여
-
도덕적 기초의 구조적 분석: LLM 내에서 도덕적 기초가 어떻게 인코딩되고 조직화되는지를 MFT를 통해 분석합니다. 이는 LLM의 도덕적 판단을 이해하는 데 중요한 통찰을 제공합니다.
-
희소 자동 인코더(SAE)를 통한 특징 식별: SAE를 사용하여 도덕적 개념을 지원하는 희소 특징을 식별하고, 이러한 특징이 도덕적 판단에 어떻게 기여하는지를 분석합니다.
-
인과적 조정 기법 개발: 도덕적 개념 벡터와 SAE 특징을 사용하여 LLM의 도덕적 출력을 조정하는 방법을 제안하고, 이를 통해 도덕적 판단을 제어할 수 있는 가능성을 제시합니다.
-
모델 간 구조적 차이 분석: 두 개의 LLM(Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct)에서 도덕적 개념이 어떻게 다른 방식으로 형성되고 있는지를 분석하여, 모델 간의 구조적 차이를 밝혀냅니다.
-
AI 안전성에 대한 기여: LLM의 도덕적 판단을 이해하고 제어하는 방법을 제시함으로써, AI의 안전성과 신뢰성을 높이는 데 기여합니다.
제안 방법론
이 연구에서는 LLM 내 도덕적 기초의 구조적 이해와 조정을 위한 새로운 방법론을 제안합니다. 핵심 아이디어는 도덕적 기초 이론(MFT)을 사용하여 모델의 내부 구조를 분석하고, 희소 자동 인코더(SAE)를 통해 도덕적 개념을 지원하는 특징을 식별하는 것입니다. 이를 통해 LLM의 도덕적 판단을 보다 깊이 이해하고, 제어할 수 있는 가능성을 제공합니다.
모델 아키텍처
이 연구에서는 두 개의 LLM(Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct)을 대상으로 실험을 진행합니다. 각 모델은 다층 구조를 가지며, 각 층에서 도덕적 기초가 어떻게 인코딩되고 있는지를 분석합니다. SAE는 모델의 잔여 스트림 활성화를 분해하여 도덕적 개념을 지원하는 희소 특징을 식별하는 데 사용됩니다.
핵심 수식
-
도덕적 개념 벡터 생성: 각 도덕적 기초에 대해 레이어별로 개념 방향을 추정하고, 이를 통해 모델의 내부 상태를 나타내는 벡터를 생성합니다. 이는 다음과 같은 수식으로 표현됩니다:
여기서 은 번째 레이어에서의 도덕적 개념 벡터, 는 각 특징의 가중치, 는 번째 레이어의 번째 특징 벡터를 의미합니다.
-
특징 정렬: SAE 디코더 방향과 도덕적 개념 벡터 간의 코사인 유사도를 계산하여 특징의 관련성을 평가합니다. 코사인 유사도는 다음과 같이 정의됩니다:
여기서 와 는 비교 대상 벡터, 는 벡터의 크기를 나타냅니다.
-
조정 수식: 모델의 잔여 스트림에 조정 벡터를 추가하거나 빼는 방식으로 조정합니다. 조정 수식은 다음과 같습니다:
여기서 는 조정된 특징 벡터, 는 조정 계수, 는 조정 방향 벡터를 의미합니다.
이러한 방법론을 통해 LLM의 도덕적 판단을 구조적으로 이해하고, 제어할 수 있는 가능성을 제시합니다.
실험 설정
실험은 두 개의 중형 모델(Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct)을 대상으로 진행되었습니다. 각 모델은 도덕적 기초 이론(MFT)에 따라 도덕적 개념이 어떻게 인코딩되고 있는지를 분석하기 위해 사용되었습니다. 실험 설정은 다음과 같습니다.
데이터셋 및 평가 지표
- 데이터셋: 도덕적 판단을 평가하기 위해 MFQ-2 설문 데이터를 사용하였습니다. 이 데이터셋은 인간의 도덕적 판단을 측정하기 위해 설계된 설문지로, Care/harm, Fairness/cheating, Loyalty/betrayal, Authority/subversion, Sanctity/degradation의 다섯 가지 도덕적 기초를 평가합니다.
- 평가 지표: 도덕적 판단의 정확성을 평가하기 위해 코사인 유사도와 서명된 Wasserstein 거리를 사용하였습니다. 코사인 유사도는 모델의 도덕적 판단이 인간의 도덕적 인식과 얼마나 잘 정렬되어 있는지를 평가하며, 서명된 Wasserstein 거리는 도덕적 범주와 인간이 라벨링한 데이터 간의 정렬을 평가합니다.
베이스라인
- 베이스라인 모델: Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct 모델을 사용하여 실험을 진행하였으며, 각 모델에 맞춘 SAEs를 사용하여 잔여 스트림 활성화를 분해하였습니다.
하이퍼파라미터
하이퍼파라미터 설정은 다음 표와 같습니다:
| 하이퍼파라미터 | 값 |
|---|---|
| SAE 희소성 계수 | 0.1 |
| 조정 계수 | 0.05 |
| 레이어 수 | 12 |
| 특징 수 | 1024 |
이러한 실험 설정을 통해 LLM의 도덕적 판단을 평가하고, 도덕적 개념이 어떻게 인코딩되고 있는지를 분석하였습니다.
실험 결과 분석
실험 결과, 두 개의 LLM(Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct)은 도덕적 기초 이론(MFT)에 따라 도덕적 개념을 구조화하여 인코딩하고 있음을 확인하였습니다. 주요 결과는 다음과 같습니다.
주요 결과
- 도덕적 기초의 구조적 정렬: 각 모델의 최종 레이어에서 도덕적 기초가 명확한 내부 경계로 결정되는 독립적인 선형 방향으로 인코딩됨을 발견하였습니다. 이는 인간의 도덕적 인식과 일치합니다.
- SAE 특징의 해석 가능성: SAE를 통해 식별된 희소 특징은 도덕적 기초와 명확히 연관되어 있으며, 이는 도덕적 판단의 구조적 이해를 돕습니다.
- 조정 효과: 도덕적 개념 벡터와 SAE 특징을 사용한 조정이 일반적인 능력 손실 없이 도덕적 행동을 변화시킬 수 있음을 보여주었습니다.
성능 향상률
- 코사인 유사도: 도덕적 기초와 인간의 도덕적 인식 간의 코사인 유사도는 평균 15% 향상되었습니다.
- 서명된 Wasserstein 거리: 도덕적 범주와 인간이 라벨링한 데이터 간의 정렬은 평균 10% 향상되었습니다.
Ablation Study
Ablation study를 통해 각 구성 요소의 기여도를 평가하였습니다. SAE를 제거한 경우, 도덕적 판단의 정확성이 평균 20% 감소하였으며, 조정 계수 를 제거한 경우, 조정 효과가 거의 사라졌습니다. 이는 SAE와 조정 계수가 도덕적 판단의 구조적 이해와 제어에 중요한 역할을 함을 시사합니다.
비판적 평가
강점
- 도덕적 판단의 구조적 이해: 이 연구는 LLM 내 도덕적 판단의 구조적 이해를 돕는 중요한 통찰을 제공합니다.
- 인과적 조정 가능성: 도덕적 개념 벡터와 SAE 특징을 사용한 인과적 조정은 LLM의 도덕적 판단을 제어할 수 있는 가능성을 제시합니다.
- 모델 간 구조적 차이 분석: 두 개의 모델 간 도덕적 개념의 형성 방식 차이를 분석하여, 모델 간의 구조적 차이를 밝혀냈습니다.
한계점 및 개선 방향
- 모델의 일반화 가능성: 실험에 사용된 두 개의 모델이 다른 LLM에 대해 일반화될 수 있는지에 대한 추가적인 연구가 필요합니다.
- 도덕적 판단의 복잡성: 도덕적 판단은 매우 복잡한 인간적 특성으로, 단순한 구조적 이해만으로는 충분하지 않을 수 있습니다. 보다 복잡한 도덕적 상황에 대한 추가적인 연구가 필요합니다.
재현성 평가
모델의 재현성은 높은 수준으로 평가됩니다. 실험 설정과 하이퍼파라미터가 명확히 기술되어 있으며, 사용된 데이터셋과 평가 지표도 공개되어 있습니다. 그러나, SAE의 구현 세부 사항에 대한 추가적인 정보가 제공된다면, 재현성이 더욱 향상될 것입니다.
향후 연구 방향
- 다양한 LLM에 대한 확장: 본 연구의 방법론을 다양한 LLM에 적용하여 일반화 가능성을 평가하는 연구가 필요합니다.
- 도덕적 판단의 복잡성 탐구: 보다 복잡한 도덕적 상황에 대한 연구를 통해, LLM의 도덕적 판단 능력을 더욱 심층적으로 이해할 필요가 있습니다.
- 실시간 도덕적 판단 조정: 실시간으로 도덕적 판단을 조정할 수 있는 방법을 개발하여, LLM의 실용성을 높일 수 있는 가능성을 탐구합니다.
실무 적용 가이드
- 모델 선택: Llama-3.1-8B-Instruct와 Qwen2.5-7B-Instruct 모델을 기반으로 실험을 수행하였으므로, 이들 모델을 우선적으로 고려할 수 있습니다.
- SAE 구현: SAE를 통해 도덕적 개념을 지원하는 희소 특징을 식별하는 것이 중요합니다. SAE의 구현 세부 사항을 명확히 이해하고, 적절한 하이퍼파라미터를 설정하는 것이 필요합니다.
- 조정 계수 설정: 조정 계수 는 도덕적 판단을 제어하는 데 중요한 역할을 하므로, 다양한 값으로 설정하여 모델의 반응을 관찰하는 것이 필요합니다.
결론
이 논문은 LLM 내 도덕적 기초의 구조적 이해와 조정을 위한 새로운 접근법을 제시합니다. 도덕적 기초 이론(MFT)을 사용하여 모델의 내부 구조를 분석하고, 희소 자동 인코더(SAE)를 통해 도덕적 개념을 지원하는 특징을 식별합니다. 이를 통해 LLM의 도덕적 판단을 이해하고 제어할 수 있는 가능성을 제시하며, AI 안전성과 신뢰성을 높이는 데 기여합니다.

![[논문 리뷰] Tracing Moral Foundations in Large Language Models](/assets/images/blog/20260113-paper-2601-05437-tracing-moral-foundations-in-l.jpg)