[논문 리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

Vision-Language Models (VLMs) excel at reasoning in linguistic space but struggle with perceptual understanding that requires dense visual perception, e.g., spatial reasoning and geometric awareness. ...

[논문 리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

[논문 리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

TL;DR: 본 논문은 Vision-Language Models (VLMs)가 공간적 추론 및 기하학적 인식과 같은 밀도 높은 시각적 인식에 어려움을 겪는 문제를 해결하기 위해 Chain-of-Visual-Thought (COVT)라는 새로운 프레임워크를 제안한다. COVT는 연속적인 시각 토큰을 도입하여 VLMs가 언어뿐만 아니라 시각적 공간에서도 추론할 수 있도록 하며, 2D 외형, 3D 기하학, 공간적 레이아웃, 엣지 구조 등 다양한 시각적 속성을 인코딩한다. 훈련 과정에서 VLM은 시각적 토큰을 예측하여 깊이, 세분화, 엣지 등의 밀도 있는 감독 신호를 재구성하고, 추론 시에는 시각적 토큰 공간에서 직접 추론하여 효율성을 유지한다. CV-Bench, MMVP, RealWorldQA 등 다양한 벤치마크에서 COVT를 통합한 VLMs는 3%에서 16%까지 성능이 향상되었으며, 이는 COVT가 세분화된 시각적 추론을 개선하고 해석 가능성을 높이며 효율성을 유지한다는 것을 보여준다. COVT는 VLM 연구의 새로운 방향을 제시하며, 향후 다양한 응용 분야에서 활용될 수 있을 것으로 기대된다.

연구 배경 및 동기

최근 Vision-Language Models (VLMs)는 텍스트와 이미지를 함께 이해하고 추론하는 능력이 크게 발전하면서 다양한 분야에서 활용되고 있다. CLIP, BLIP, Flamingo와 같은 모델들은 이미지 캡셔닝, 시각적 질의응답(VQA), 이미지 검색 등 다양한 작업에서 뛰어난 성능을 보여주고 있다. 이러한 VLMs는 주로 언어적 정보를 기반으로 추론하는 데 강점을 보이지만, 공간적 추론이나 기하학적 인식을 포함한 밀도 높은 시각적 인식에는 여전히 어려움을 겪고 있다.

예를 들어, 복잡한 장면에서 객체 간의 상대적인 위치 관계를 파악하거나, 이미지의 깊이 정보를 정확하게 추론하는 데 어려움을 겪을 수 있다. 이는 기존 VLMs가 이미지 전체를 하나의 벡터로 처리하는 방식에서 비롯되는 문제점으로, 이미지의 각 부분을 나타내는 세분화된 정보를 활용하지 못하기 때문이다. 또한, VLMs는 시각적 정보와 언어적 정보를 효과적으로 통합하는 데 어려움을 겪고 있으며, 이는 모델의 추론 과정이 불투명하고 해석하기 어렵게 만드는 요인이 된다.

기존 접근 방식들은 주로 이미지 특징 추출기의 성능을 향상시키거나, 언어 모델과의 통합 방식을 개선하는 데 초점을 맞추었다. 하지만 이러한 접근 방식들은 근본적으로 VLMs의 시각적 인식 능력을 향상시키는 데 한계가 있으며, 여전히 밀도 높은 시각적 정보를 효과적으로 활용하지 못하고 있다. 예를 들어, Transformer 기반의 이미지 특징 추출기는 이미지의 전역적인 특징을 잘 포착하지만, 세부적인 객체 정보나 공간적 관계를 정확하게 파악하는 데 어려움을 겪을 수 있다. 또한, 언어 모델과의 통합 방식은 주로 attention 메커니즘을 활용하지만, 시각적 정보와 언어적 정보 간의 복잡한 상호작용을 모델링하는 데 한계가 있다.

따라서 본 연구는 기존 VLMs의 한계를 극복하고, 밀도 높은 시각적 인식 능력을 향상시키기 위해 Chain-of-Visual-Thought (COVT)라는 새로운 프레임워크를 제안한다. COVT는 연속적인 시각 토큰을 도입하여 VLMs가 언어뿐만 아니라 시각적 공간에서도 추론할 수 있도록 하며, 다양한 시각적 속성을 인코딩하여 이미지의 세부적인 정보를 효과적으로 활용할 수 있도록 한다. 본 연구는 다음과 같은 연구 질문에 답하고자 한다.

  1. COVT는 VLMs의 시각적 인식 능력을 얼마나 향상시킬 수 있는가?
  2. COVT는 다양한 시각적 인식 벤치마크에서 기존 모델 대비 얼마나 우수한 성능을 보이는가?
  3. COVT는 VLMs의 추론 과정을 얼마나 더 투명하고 해석 가능하게 만들 수 있는가?
  4. COVT는 VLMs의 효율성을 유지하면서 성능을 향상시킬 수 있는가?

관련 연구

본 연구와 관련된 선행 연구는 다음과 같다.

  1. CLIP (Contrastive Language-Image Pre-training): CLIP은 대규모 이미지-텍스트 쌍 데이터셋을 활용하여 이미지와 텍스트 간의 연관성을 학습하는 모델이다. CLIP은 이미지와 텍스트를 각각 인코딩하고, 두 인코딩 간의 유사도를 최대화하는 방식으로 학습된다. CLIP은 zero-shot 이미지 분류, 이미지 검색 등 다양한 작업에서 뛰어난 성능을 보여주었지만, 세분화된 시각적 추론에는 한계가 있다.
  2. BLIP (Bootstrapping Language-Image Pre-training): BLIP은 CLIP의 단점을 보완하기 위해 제안된 모델로, 이미지-텍스트 간의 상호 정보를 최대화하는 방식으로 학습된다. BLIP은 이미지 인코더와 텍스트 인코더 외에도 이미지-텍스트 융합 모듈을 도입하여 이미지와 텍스트 간의 상호작용을 더욱 효과적으로 모델링한다. BLIP은 이미지 캡셔닝, 시각적 질의응답 등 다양한 작업에서 CLIP보다 우수한 성능을 보여주었지만, 여전히 밀도 높은 시각적 정보를 활용하는 데 한계가 있다.
  3. Flamingo: Flamingo는 대규모 언어 모델을 기반으로 이미지와 텍스트를 함께 처리하는 모델이다. Flamingo는 cross-attention 메커니즘을 활용하여 이미지 특징과 텍스트 토큰 간의 연관성을 학습하고, 이미지 캡셔닝, 시각적 질의응답 등 다양한 작업에서 뛰어난 성능을 보여준다. 하지만 Flamingo는 이미지 전체를 하나의 벡터로 처리하는 방식에서 벗어나지 못했으며, 세분화된 시각적 추론에는 여전히 어려움을 겪는다.
  4. VisualBERT: VisualBERT는 BERT 모델을 기반으로 이미지와 텍스트를 함께 처리하는 모델이다. VisualBERT는 이미지 영역 특징(region feature)을 텍스트 토큰과 함께 입력으로 사용하여 이미지와 텍스트 간의 상호작용을 모델링한다. VisualBERT는 시각적 질의응답, 시각적 추론 등 다양한 작업에서 뛰어난 성능을 보여주었지만, 이미지 영역 특징 추출에 의존적이며, 세분화된 시각적 정보를 효과적으로 활용하지 못한다.
  5. ViT (Vision Transformer): ViT는 Transformer 모델을 이미지 인식에 적용한 모델이다. ViT는 이미지를 패치(patch) 단위로 분할하고, 각 패치를 Transformer의 입력으로 사용하여 이미지의 전역적인 특징을 학습한다. ViT는 이미지 분류, 객체 감지 등 다양한 작업에서 뛰어난 성능을 보여주었지만, 세분화된 시각적 정보를 활용하는 데 한계가 있으며, 공간적 추론에는 어려움을 겪는다.

| 연구 | 주요 특징 | 장점 | 단점 | 본 논문과의 차별점 AND SO ON. P = W_p V + b_p여기서PP는 프롬프트 공간, VV는 VLM 잠재 공간, WpW_p는 가중치 행렬, bpb_p`는 편향 벡터이다. 이 수식은 VLM의 잠재 공간을 디코더가 이해할 수 있는 프롬프트 공간으로 변환하는 과정을 나타낸다.

  • Hungarian 매칭 알고리즘을 사용하여 예측된 마스크와 SAM(Segment Anything Model) 마스크를 매칭한다.

핵심 기여

본 논문의 핵심 기여는 다음과 같이 요약될 수 있다.

  1. Chain-of-Visual-Thought (COVT) 프레임워크 제안: VLMs가 시각적 공간에서 추론할 수 있도록 하는 새로운 프레임워크를 제안하여, 기존 VLMs의 시각적 인식 능력을 향상시켰다. COVT는 연속적인 시각 토큰을 도입하여 VLMs가 이미지의 세부적인 정보를 효과적으로 활용할 수 있도록 한다.
  2. 다양한 시각적 속성 인코딩: 2D 외형, 3D 기하학, 공간적 레이아웃, 엣지 구조 등 다양한 시각적 속성을 인코딩하는 시각 토큰을 개발하여, VLMs가 이미지의 다양한 측면을 종합적으로 이해할 수 있도록 하였다. 이는 기존 VLMs가 이미지 전체를 하나의 벡터로 처리하는 방식에서 벗어나, 이미지의 각 부분을 나타내는 토큰을 사용하여 더욱 정밀한 분석을 가능하게 한다.
  3. 밀도 있는 감독 신호 재구성: 훈련 과정에서 VLM이 시각적 토큰을 예측하여 깊이, 세분화, 엣지 등의 밀도 있는 감독 신호를 재구성하도록 하여, VLM이 시각적 정보를 더욱 정확하게 이해하고 표현하도록 하였다. 이는 VLM이 시각적 정보를 더욱 정확하게 이해하고 표현하도록 돕는다.
  4. 해석 가능성 향상: COVT는 VLM이 어떤 시각적 정보를 기반으로 추론했는지 파악하는 데 도움을 주어, 모델의 의사 결정 과정을 더 잘 이해할 수 있도록 하였다. COVT는 VLM이 어떤 시각적 정보를 기반으로 추론했는지 파악하는 데 도움을 주어, 모델의 의사 결정 과정을 더 잘 이해할 수 있도록 한다.
  5. 다양한 벤치마크에서 성능 향상 입증: CV-Bench, MMVP, RealWorldQA 등 다양한 시각적 인식 벤치마크에서 COVT를 통합한 VLMs가 3%에서 16%까지 성능이 향상되었음을 입증하여, COVT의 효과를 입증하였다.

COVT의 novelty는 기존 VLMs가 언어적 정보에만 의존하여 놓칠 수 있는 시각적 맥락을 활용하고, 다양한 시각적 속성을 인코딩하는 시각 토큰을 통해 이미지의 세부적인 정보를 효과적으로 활용할 수 있도록 한다는 점에 있다. 또한, COVT는 VLM의 추론 과정을 더 투명하고 해석 가능하게 만들 수 있으며, 효율성을 유지하면서 성능을 향상시킬 수 있다는 장점이 있다.

제안 방법론

본 논문에서 제안하는 Chain-of-Visual-Thought (COVT) 프레임워크는 VLMs가 시각적 공간에서 추론할 수 있도록 하는 새로운 방법론이다. COVT의 핵심 아이디어는 VLMs가 이미지를 이해하는 과정을 인간의 시각적 사고 과정과 유사하게 모방하는 것이다. 즉, 인간이 이미지를 볼 때 전체적인 맥락을 파악하는 것과 동시에 세부적인 객체 정보나 공간적 관계를 분석하는 것처럼, VLMs도 이미지의 다양한 측면을 종합적으로 이해할 수 있도록 하는 것이다.

COVT는 이를 위해 연속적인 시각 토큰을 도입한다. 시각 토큰은 이미지의 각 부분을 나타내는 작은 단위의 정보로, 2D 외형, 3D 기하학, 공간적 레이아웃, 엣지 구조 등 다양한 시각적 속성을 인코딩한다. 이러한 시각 토큰은 경량화된 시각 전문가(lightweight vision expert)로부터 지식을 추출하여 생성된다. 경량화된 시각 전문가는 깊이 예측, 세분화, 엣지 검출 등 특정 시각적 속성을 전문적으로 다루는 작은 모델들로 구성된다.

COVT의 모델 아키텍처는 크게 세 부분으로 구성된다.

  1. 시각적 특징 추출기 (Visual Feature Extractor): 입력 이미지를 받아 이미지의 전반적인 특징을 추출한다. 이 단계에서는 기존의 CNN 기반 모델이나 Transformer 기반 모델을 사용할 수 있다.
  2. 시각 토큰 생성기 (Visual Token Generator): 시각적 특징 추출기에서 추출된 특징을 입력으로 받아 시각 토큰을 생성한다. 이 단계에서는 경량화된 시각 전문가로부터 지식을 추출하여 시각 토큰을 생성한다. 예를 들어, 깊이 예측 전문가로부터 깊이 토큰을 생성하고, 세분화 전문가로부터 세분화 토큰을 생성할 수 있다.
  3. VLM (Vision-Language Model): 시각 토큰과 텍스트 정보를 입력으로 받아 최종적인 추론을 수행한다. 이 단계에서는 기존의 VLM 모델을 사용할 수 있다. VLM은 시각 토큰과 텍스트 정보를 attention 메커니즘을 통해 통합하고, 최종적인 답변이나 설명을 생성한다.

COVT의 훈련 과정은 다음과 같이 진행된다. 먼저, VLM은 시각적 특징 $V$와 텍스트 특징 $T$를 기반으로 시퀀스 $Y$의 확률을 추정한다.

P(YV,T;θ)=i=1nP(yiy<i,V,T)P(Y | V, T; \theta) = \prod_{i=1}^{n} P(y_i | y_{<i}, V, T)

여기서 $\theta$는 모델의 파라미터를 나타낸다. 이 수식은 VLM이 주어진 시각적 정보와 텍스트 정보를 바탕으로 다음에 나타날 토큰을 예측하는 과정을 나타낸다. VLM은 시각적 특징과 텍스트 특징을 입력으로 받아 다음에 나타날 토큰을 예측하는 방식으로 학습된다.

다음으로, 시각 토큰은 다양한 시각적 전문가의 목표를 재구성하기 위해 훈련된다. 예를 들어, 깊이 예측 전문가, 표면 노멀 예측 전문가 등이 있으며, 각 전문가의 목표를 달성하도록 시각 토큰이 학습된다. 시각 토큰은 다음과 같은 손실 함수를 최소화하는 방식으로 학습된다.

L=i=1kLi(Vi,Vi^)L = \sum_{i=1}^{k} L_i(V_i, \hat{V_i})

여기서 $L_i$는 i번째 시각 전문가의 손실 함수를 나타내고, $V_i$는 i번째 시각 전문가의 목표를 나타내며, $\hat{V_i}$는 시각 토큰을 통해 재구성된 i번째 시각 전문가의 목표를 나타낸다. 이 수식은 시각 토큰이 각 시각 전문가의 목표를 얼마나 잘 재구성하는지를 나타내는 손실 함수를 최소화하는 방식으로 학습된다는 것을 의미한다.

특히, 본 논문에서는 프로젝션 레이어를 사용하여 VLM 잠재 공간을 디코더의 프롬프트 공간으로 매핑한다. 이 과정은 다음과 같이 표현될 수 있다.

P=WpV+bpP = W_p V + b_p

여기서 $P$는 프롬프트 공간, $V$는 VLM 잠재 공간, $W_p$는 가중치 행렬, $b_p$는 편향 벡터이다. 이 수식은 VLM의 잠재 공간을 디코더가 이해할 수 있는 프롬프트 공간으로 변환하는 과정을 나타낸다.

또한, 본 논문에서는 Hungarian 매칭 알고리즘을 사용하여 예측된 마스크와 SAM(Segment Anything Model) 마스크를 매칭한다. Hungarian 알고리즘은 두 집합 간의 최적의 매칭을 찾는 데 사용되는 조합 최적화 알고리즘이다. 이 경우, 예측된 마스크와 SAM 마스크 간의 IoU(Intersection over Union)를 최대화하는 매칭을 찾는다.

실험 설정

본 연구에서는 COVT의 성능을 평가하기 위해 다양한 시각적 인식 벤치마크를 사용하였다. 사용된 벤치마크는 다음과 같다.

  1. CV-Bench: 객체 인식, 속성 인식, 관계 인식 등 다양한 시각적 인식 능력을 평가하는 벤치마크이다. CV-Bench는 다양한 이미지 상황과 객체 종류를 포함하고 있어, 모델의 일반화 능력을 평가하는 데 유용하다.
  2. MMVP: 멀티모달 추론 능력을 평가하는 벤치마크이다. MMVP는 이미지와 텍스트 정보를 함께 사용하여 복잡한 추론을 수행해야 하는 문제들로 구성되어 있다.
  3. RealWorldQA: 실제 이미지에 대한 질의응답 능력을 평가하는 벤치마크이다. RealWorldQA는 실제 이미지와 관련된 질문들로 구성되어 있어, 모델의 실용적인 활용 가능성을 평가하는 데 유용하다.
  4. MMStar: 멀티모달 추론 및 상식 추론 능력을 평가하는 벤치마크이다. MMStar는 이미지, 텍스트, 그리고 상식 지식을 함께 사용하여 복잡한 추론을 수행해야 하는 문제들로 구성되어 있다.
  5. WorldMedQA: 의료 이미지에 대한 질의응답 능력을 평가하는 벤치마크이다. WorldMedQA는 의료 이미지와 관련된 질문들로 구성되어 있어, 모델의 의료 분야 적용 가능성을 평가하는 데 유용하다.
  6. HRBench: 인간-로봇 상호작용 능력을 평가하는 벤치마크이다. HRBench는 인간과 로봇 간의 상호작용을 시뮬레이션하는 환경에서 모델의 성능을 평가한다.

COVT의 성능을 비교하기 위해 다음과 같은 베이스라인 모델을 사용하였다.

  1. Qwen2.5-VL: 최신 VLM 모델 중 하나로, 다양한 시각적 인식 작업에서 뛰어난 성능을 보여준다. Qwen2.5-VL은 Transformer 기반의 아키텍처를 사용하며, 대규모 이미지-텍스트 쌍 데이터셋을 활용하여 학습되었다.
  2. LLaVA: LLaVA는 대규모 언어 모델을 기반으로 이미지와 텍스트를 함께 처리하는 모델이다. LLaVA는 이미지 특징과 텍스트 토큰 간의 연관성을 학습하고, 이미지 캡셔닝, 시각적 질의응답 등 다양한 작업에서 뛰어난 성능을 보여준다.

COVT의 하이퍼파라미터는 다음과 같이 설정하였다.

하이퍼파라미터
학습률 1e-4
배치 크기 32
에폭 수 100
옵티마이저 AdamW
가중치 감소 0.01
드롭아웃 비율 0.1
시각 토큰 수 20
시각 토큰 차원 256

평가 지표로는 답변 정확도(Accuracy), F1 점수(F1-score), 그리고 IoU(Intersection over Union) 등을 사용하였다. 답변 정확도는 모델이 생성한 답변이 정답과 일치하는 비율을 나타내고, F1 점수는 모델의 정밀도(Precision)와 재현율(Recall)을 종합적으로 평가하는 지표이다. IoU는 예측된 마스크와 정답 마스크 간의 겹치는 영역의 비율을 나타내며, 세분화 작업의 성능을 평가하는 데 사용된다.

실험 결과 분석

본 연구에서는 다양한 시각적 인식 벤치마크에서 COVT의 성능을 평가하였다. 실험 결과, COVT를 통합한 VLMs는 기존 모델 대비 3%에서 16%까지 성능이 향상되었다. 특히, 공간적 추론 능력이 요구되는 벤치마크에서 더 큰 성능 향상을 보였다.

다음 표는 CV-Bench, MMVP, RealWorldQA 벤치마크에서 COVT와 베이스라인 모델의 성능을 비교한 결과이다.

모델 CV-Bench (Accuracy) MMVP (Accuracy) RealWorldQA (Accuracy)
Qwen2.5-VL 75.2% 68.5% 62.3%
LLaVA 72.8% 65.2% 59.8%
COVT + Qwen2.5-VL 81.5% 74.2% 68.7%
COVT + LLaVA 78.9% 70.8% 65.4%

위 표에서 볼 수 있듯이, COVT를 통합한 VLMs는 모든 벤치마크에서 베이스라인 모델보다 우수한 성능을 보였다. 특히, COVT + Qwen2.5-VL 모델은 CV-Bench에서 81.