[논문 리뷰] A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

TL;DR

이 연구는 대규모 언어 모델(LLM)의 안전성이 사실상 단 하나의 뉴런에 의해 좌우될 수 있다는 충격적인 사실을 밝힙니다. 연구진은 모델의 '거부 뉴런(refusal neuron)'과 '개념 뉴런(concept neuron)'을 식별하고, 이 뉴런의 활성화 값을 미세하게 조작하는 것만으로 안전 장치를 무력화할 수 있음을 입증했습니다. 이 방법을 통해 여러 최신 LLM에서 **최대 99.8%, 평균 91.7%**의 공격 성공률(ASR)을 달성했으며, 이는 LLM의 안전성이 매우 국소적인 병목 지점(localized bottleneck)에 의존하는 취약한 구조임을 시사합니다.

연구 배경 및 동기

대규모 언어 모델(LLM)은 놀라운 성능을 보여주지만, 유해하거나 위험한 콘텐츠를 생성할 수 있다는 안전성 문제는 여전히 큰 과제입니다. 기존의 안전성 강화 기법(Safety Alignment)은 주로 방대한 데이터를 사용한 미세조정(fine-tuning)이나 강화학습(RLHF)에 의존합니다. 이는 모델 전체에 걸친 복잡하고 비용이 많이 드는 과정이며, 종종 모델의 일반 성능을 저하시키기도 합니다.

본 연구는 이러한 복잡한 안전 메커니즘이 사실은 모델 내부의 극히 일부, 즉 단일 뉴런에 의해 제어될 수 있다는 가설에서 출발합니다. 만약 이것이 사실이라면, 우리는 훨씬 효율적으로 안전성을 제어하거나, 반대로 공격자가 매우 쉽게 안전 장치를 우회할 수 있다는 의미가 됩니다. 연구진은 이 가설을 검증하여 LLM 안전성의 근본적인 메커니즘을 이해하고, 더 견고한 방어 전략을 수립하는 것을 목표로 합니다.

연구	접근법	본 연구와의 차별점
Arditi et al. (2024)	모든 레이어에 걸쳐 수천 개 뉴런의 방향성을 수정하여 안전성 확보	높은 계산 비용과 광범위한 개입이 필요.
Geva et al. (2020)	MLP 레이어가 Key-Value 메모리처럼 동작함을 발견	특정 개념과 뉴런의 연관성을 보였으나, 안전성과 직접 연결하지는 않음.
본 연구	단일 뉴런의 활성화 값을 직접 조작	극도로 효율적이고 표적화된 개입으로 안전성을 우회.

핵심 기여

단일 뉴런 기반 안전성 우회: 단 하나의 뉴런 활성화를 조작하는 것만으로 LLM의 안전 필터를 거의 완벽하게 우회할 수 있음을 최초로 입증했습니다.
거부 뉴런과 개념 뉴런의 식별 및 분석: 안전성을 제어하는 두 가지 핵심 뉴런 유형을 정의하고, 이들이 어떻게 모델의 응답을 조절하는지 구체적으로 밝혔습니다.
- 거부 뉴런: 유해한 요청에 대한 거부 반응을 총괄하는 뉴런.
- 개념 뉴런: 특정 유해 개념(예: 무기, 폭력)과 직접적으로 연관된 뉴런.
효율적인 개입 방법 제안: 모델의 일반 성능 저하를 최소화하면서 높은 공격 성공률을 달성하는 '상수 개입'과 '앵커 기반 개입' 방법을 제안했습니다.

제안 방법론

본 연구의 핵심은 LLM 내부에서 안전성과 관련된 특정 뉴런을 찾아내고, 그 뉴런의 활성화(activation)를 조작하여 모델의 행동을 바꾸는 것입니다.

1. 핵심 뉴런 식별 (Identifying Key Neurons)

연구진은 먼저 유해한 프롬프트와 무해한 프롬프트를 모델에 입력하여 뉴런들의 활성화 패턴을 비교 분석합니다. 이를 통해 안전성에 결정적인 역할을 하는 뉴런을 찾아냅니다.

거부 뉴런 (Refusal Neurons)

거부 뉴런은 모델이 "죄송합니다, 그 요청에 응답할 수 없습니다."와 같은 거부 답변을 생성하도록 유도하는 역할을 합니다. 이 뉴런은 유해 프롬프트에 대해서는 강하게 활성화되고, 무해 프롬프트에 대해서는 거의 활성화되지 않는 특징을 보입니다.

이러한 뉴런을 찾기 위해 다음과 같은 점수 계산식을 사용합니다. $\text{score}_{i,t} = G_{i,t} \times |a(h)_{i,t} - a(H)_{i,t}|$

$i, t$ : $i$ 번째 레이어의 $t$ 번째 토큰
$G_{i,t}$ : 거부 답변 생성에 대한 뉴런의 영향력 (Gradient, 기울기)
$|a(h)_{i,t} - a(H)_{i,t}|$ : 유해(harmful) 프롬프트와 무해(Harmless) 프롬프트 간의 평균 활성화 값 차이

이 점수가 높은 뉴런일수록 '거부 뉴런'일 가능성이 높습니다.

2. 뉴런 활성화 조작 (Intervening on Neuron Activations)

핵심 뉴런을 식별한 후, 순전파(forward pass) 과정에서 해당 뉴런의 활성화 값을 인위적으로 변경합니다.

상수 개입 (Constant Intervention)

가장 간단한 방법으로, 식별된 뉴런의 활성화 값을 항상 특정 상수 $m^*$ 로 고정합니다. 예를 들어, 거부 뉴런의 활성화를 강제로 0에 가까운 값으로 만들면, 모델은 유해한 요청을 받아도 거부 반응을 보이지 않게 됩니다. $h_i \leftarrow m^*$

$h_i$ : 뉴런 $i$ 의 원래 활성화 값
$m^*$ : 실험적으로 결정된 최적의 상수 값

앵커 기반 개입 (Anchor-based Intervention)

상수 개입은 모든 입력에 대해 적용되므로 무해한 프롬프트에 대한 모델 성능을 저하시킬 수 있습니다. 이를 보완하기 위해, 특정 조건에서만 개입이 발동하도록 하는 '앵커 기반 개입'을 사용합니다. 예를 들어, 프롬프트에 [SYSTEM]과 같은 특정 앵커 토큰이 있을 때만 뉴런을 조작합니다.

# 개념적인 의사코드
def hooked_forward(model, input):
  def hook_fn(module, input, output):
    # 특정 레이어의 특정 뉴런(neuron_index)에 개입
    # 앵커 토큰이 존재할 때만 활성화 값을 m*로 변경
    if anchor_token in input_tokens:
      output[:, :, neuron_index] = m_star
    return output

  # 모델의 특정 MLP 레이어에 훅(hook)을 등록
  handle = model.layer[layer_index].mlp.register_forward_hook(hook_fn)
  
  # 모델 실행
  result = model(input)
  
  # 훅 제거
  handle.remove()
  return result

실험 설정

모델: Qwen1.5, Qwen2, Llama-3, Gemma, Mistral 등 다양한 최신 LLM (1.7B ~ 70B 파라미터)
데이터셋: 유해 프롬프트(AdvBench)와 무해 프롬프트(Harmless-Prompts)를 사용하여 뉴런을 식별하고 공격 성공률을 평가
평가 지표:
- 공격 성공률 (ASR, Attack Success Rate): 안전 장치를 우회하여 유해한 답변을 생성한 비율
- 일반 성능: MMLU, GSM8K 등 벤치마크를 통해 개입 후 모델의 기존 성능 저하 여부 측정

실험 결과 분석

실험 결과는 매우 인상적이었습니다. 단일 뉴런 조작만으로 대부분의 모델에서 90%가 넘는 압도적인 공격 성공률을 달성했습니다.

높은 공격 성공률: Qwen2-7B 모델의 경우, 상수 개입으로 **99.8%**의 ASR을 기록했습니다. Llama-3-8B 모델에서도 98.2%의 높은 성공률을 보였습니다.
성능 저하 최소화: 앵커 기반 개입을 사용했을 때, MMLU, GSM8K와 같은 벤치마크에서 성능 저하가 거의 발생하지 않았습니다. 이는 공격이 매우 정밀하게 이루어질 수 있음을 의미합니다.
일관성 및 보편성: 이러한 '안전성 뉴런'은 특정 모델이나 크기에 국한되지 않고, 다양한 LLM 제품군에서 공통적으로 발견되었습니다. 이는 LLM의 안전 메커니즘이 유사한 방식으로 학습되었을 가능성을 시사합니다.

모델	개입 방법	공격 성공률(ASR)	MMLU 성능 변화
Qwen2-7B	상수 개입	99.8%	-1.5%
Llama-3-8B	상수 개입	98.2%	-0.8%
Llama-3-8B	앵커 기반 개입	92.5%	-0.1%

비판적 평가

강점:

단순성과 효율성: 복잡한 알고리즘 없이 단일 뉴런 조작이라는 매우 간단한 방법으로 LLM의 핵심적인 안전 기능을 무력화할 수 있음을 보여주었습니다.
높은 재현성: 다양한 최신 모델에서 일관된 결과를 보여주어 제안된 방법론의 보편성을 입증했습니다.

한계점:

뉴런 식별의 의존성: 핵심 뉴런을 찾기 위해서는 여전히 잘 레이블링된 유해/무해 프롬프트 데이터셋이 필요합니다.
다의성(Polysemantic) 뉴런의 위험: 식별된 뉴런이 안전성 외에 다른 중요한 기능(예: 특정 문법 구조 처리)을 동시에 수행할 수 있습니다. 이러한 뉴런을 섣불리 조작하면 예상치 못한 부작용이 발생할 수 있습니다.

실무적 시사점 및 방어 전략

이 연구는 LLM의 안전성이 얼마나 취약할 수 있는지를 명확히 보여줍니다. 이는 모델 개발자와 운영자에게 중요한 경고 메시지를 던집니다.

방어 전략 수립:
- 핵심 뉴런 모니터링: 운영 중인 모델의 '거부 뉴런' 활성화 값을 실시간으로 모니터링하여 비정상적인 억제 시도를 탐지할 수 있습니다.
- 뉴런 안정화 학습: Adversarial Training과 유사하게, 의도적으로 핵심 뉴런을 교란시킨 후에도 모델이 안전한 답변을 하도록 추가 학습을 진행하여 방어력을 높일 수 있습니다.
- 안전성 분산: 안전성 제어가 단일 뉴런에 집중되지 않도록, 여러 메커니즘에 걸쳐 중복적으로(redundantly) 안전 장치를 설계하는 방안을 고려해야 합니다.
모델 해석의 중요성: 내부 메커니즘을 이해하지 않고 겉으로 드러나는 동작만으로 모델의 안전성을 신뢰해서는 안 된다는 점을 명확히 합니다.

결론

본 연구는 LLM의 안전성이 단일 뉴런이라는 '아킬레스건'에 의해 제어될 수 있음을 실험적으로 증명했습니다. 이 발견은 LLM의 안전성을 우회하려는 공격자에게는 매우 효율적인 경로를, 방어자에게는 반드시 보호해야 할 명확한 타겟을 제시합니다. 앞으로 LLM의 안전성을 강화하기 위해서는 모델 전체를 아우르는 거시적인 접근뿐만 아니라, 이처럼 핵심적인 역할을 하는 뉴런 단위의 미시적인 이해와 제어가 필수적일 것입니다.

참고 자료

논문 링크 (arXiv:2405.08513)
관련 코드 저장소 (가상)
관련 자료: Mechanistic Interpretability, Representation Engineering

[논문 리뷰] A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

[논문 리뷰] A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

TL;DR

연구 배경 및 동기

관련 연구

핵심 기여

제안 방법론

1. 핵심 뉴런 식별 (Identifying Key Neurons)

거부 뉴런 (Refusal Neurons)

2. 뉴런 활성화 조작 (Intervening on Neuron Activations)

상수 개입 (Constant Intervention)

앵커 기반 개입 (Anchor-based Intervention)

실험 설정

실험 결과 분석

비판적 평가

실무적 시사점 및 방어 전략

결론

참고 자료

댓글

관련 포스트