[논문 리뷰] V-JEPA: 비디오 자기지도학습으로 AI의 물리적 직관을 깨우다
TL;DR
Meta AI에서 발표한 이 논문은 자연 비디오를 활용한 자기지도학습(Self-supervised learning)을 통해 딥러닝 모델이 어떻게 '직관적 물리'를 이해하게 되는지 탐구합니다. V-JEPA (Video Joint-Embedding Predictive Architecture) 모델은 비디오의 일부를 가리고, 보이는 부분을 통해 가려진 영역의 **추상적 표현(abstract representation)**을 예측하도록 훈련됩니다. 픽셀 단위의 복잡한 복원이 아닌, 핵심 정보만을 예측하는 이 방식은 매우 효율적입니다. 실험 결과, V-JEPA는 객체 영속성, 형태 일관성 등 물리 세계의 기본 법칙을 높은 정확도로 이해했으며, 이는 기존 모델은 물론 인간의 성능을 일부 뛰어넘는 결과입니다. 이 연구는 AI가 물리적 상식을 배우기 위해 인간처럼 선천적인 지식이 필요하지 않으며, 대규모 데이터 기반 학습만으로 습득할 수 있다는 강력한 증거를 제시합니다.
연구 배경 및 동기
인간 아기는 생후 몇 달 만에 물체가 갑자기 사라지지 않고(객체 영속성), 벽을 통과할 수 없으며, 고유한 형태를 유지한다는 사실을 배웁니다. 이를 '직관적 물리(intuitive physics)'라고 하며, 우리가 세상을 이해하고 상호작용하는 데 필수적인 능력입니다.
하지만 AI에게 이러한 직관을 가르치는 것은 매우 어려운 과제였습니다.
- 기존 모델: 비디오의 픽셀 하나하나를 예측하려다 보니, 불필요한 디테일(나뭇잎의 흔들림, 그림자 변화 등)에 집중하여 계산 비용이 높고 학습이 비효율적이었습니다.
- 대규모 언어 모델(MLLM): 텍스트 기반 추론에 의존하여, 시각적이고 즉각적인 물리적 직관을 포착하는 데 한계가 있었습니다.
이 연구는 심리학의 '핵심 지식 가설(Core Knowledge Hypothesis)'—인간이 물리 법칙 등 특정 지식을 선천적으로 타고난다는 가설—에 도전합니다. AI가 아무런 사전 지식 없이, 오직 자연스러운 비디오를 '보는' 경험만으로 물리적 상식을 습득할 수 있는지 증명하고자 합니다.
관련 연구
물리적 직관을 AI에 내재화하려는 시도는 이전부터 있었습니다. V-JEPA는 이러한 기존 연구들의 한계를 극복하기 위한 새로운 접근법을 제시합니다.
| 연구/모델 | 접근 방식 | 한계점 및 차별점 |
|---|---|---|
| Riochet et al. (2020) | 물리적 직관 평가 벤치마크(IntPhys) 제안 | AI의 물리 이해도를 측정하는 기준을 제시했으나, 이를 해결할 효과적인 모델은 부족했습니다. |
| VideoMAEv2 | 마스킹된 픽셀/토큰 복원 | 픽셀 수준의 복원에 집중하여 계산 비용이 높고, 물리적 의미보다 시각적 텍스처 복원에 치중할 수 있습니다. |
| MLLMs (e.g., GPT-4V) | 텍스트 기반 추론 | "공이 벽을 통과할 수 있는가?"와 같은 질문에 언어적으로는 답할 수 있지만, 영상의 물리적 개연성을 직관적으로 판단하는 데는 약점을 보입니다. |
| V-JEPA (본 연구) | 추상적 표현 예측 | 불필요한 픽셀 정보는 무시하고, **내용의 핵심(what)과 위치(where)**에 대한 추상적 표현을 예측합니다. 이는 훨씬 효율적이고 일반화 성능이 뛰어납니다. |
특히 V-JEPA는 이미지 분야에서 성공을 거둔 I-JEPA의 아이디어를 비디오로 확장한 모델로, JEPA 아키텍처의 가능성을 시공간 영역으로 넓혔다는 의의가 있습니다.
핵심 기여
- 효율적인 V-JEPA 모델 제안: 픽셀 생성 없이 추상적 표현 공간에서 미래를 예측하는 자기지도학습 아키텍처를 제안하여, 학습 효율성과 성능을 크게 높였습니다.
- SOTA 달성: IntPhys 등 주요 물리 직관 벤치마크에서 기존 최고 성능을 경신하며, V-JEPA가 물리 법칙을 효과적으로 학습함을 입증했습니다.
- 자기지도학습의 잠재력 입증: 별도의 레이블이나 사전 지식 없이, 대규모 자연 비디오 데이터만으로 AI가 세상의 물리적 원리를 학습할 수 있음을 보였습니다.
- '핵심 지식 가설'에 대한 반증: AI가 물리적 상식을 배우기 위해 선천적 지식이 반드시 필요한 것은 아니며, 일반적인 학습 원리를 통해 습득 가능하다는 경험적 증거를 제시했습니다.
제안 방법론: V-JEPA
V-JEPA의 핵심 아이디어는 "불필요한 디테일은 무시하고, 중요한 내용만 예측하자" 입니다.
작동 방식은 다음과 같습니다.
- 비디오를 시공간적 '패치(patch)'의 연속으로 간주합니다. (예: 2초짜리 비디오를 0.2초 길이의 작은 클립 여러 개로 나눔)
- 이 패치들 중 일부를 무작위로 가립니다(마스킹).
- 모델은 **보이는 패치(Context)**를 기반으로 **가려진 패치(Target)**의 내용을 **추상적인 표현(representation)**으로 예측합니다.
이 과정은 세 가지 주요 구성요소로 이루어집니다.
- Context Encoder: 보이는 패치들을 입력받아 현재 상황에 대한 표현 벡터를 추출합니다.
- Predictor: Context Encoder가 만든 표현을 바탕으로, 가려진 영역의 표현 벡터가 어떠할지 예측합니다.
- Target Encoder: 가려진 영역의 '실제 정답' 표현 벡터를 생성합니다. 이 인코더는 Context Encoder의 가중치를 지수이동평균(EMA)으로 천천히 복제하여, 안정적인 학습 목표를 제공하는 역할을 합니다.
핵심 수식
V-JEPA의 훈련 목표는 예측된 표현과 실제 목표 표현 간의 거리를 최소화하는 것입니다.
- : 마스킹되지 않은 보이는 비디오 패치들
- : 마스킹된, 예측해야 할 비디오 패치들
- : 보이는 패치들을 통해 예측한, 타겟 위치에 해당하는 표현
- : 실제 타겟 의 정답 표현
- : 두 표현 벡터 간의 유클리드 거리(L2-norm) 제곱
물리적 직관 측정: '놀람 점수(Surprise Score)'
모델이 물리 법칙을 학습했는지는 어떻게 평가할까요? 바로 '놀람 점수'를 이용합니다.
모델에게 비디오의 앞부분을 보여주고 다음 장면을 예측하게 합니다.
- 물리적으로 타당한 장면: 모델의 예측과 실제 장면이 거의 일치하므로, 예측 오차(놀람 점수)가 낮게 나옵니다.
- 물리적으로 불가능한 장면 (예: 공이 벽을 통과): 모델이 학습한 물리 법칙과 어긋나므로, 예측이 크게 빗나가고 오차(놀람 점수)가 급격히 커집니다.
시간 에서의 놀람 점수는, 이전 프레임()을 보고 예측한 시점의 표현과 실제 시점()의 표현 간의 오차입니다. 이 점수가 높을수록 모델이 해당 장면을 '비정상적'이라고 판단했다는 의미입니다.
실험 설정
- 사전 훈련 데이터: HowTo100M 데이터셋의 200만 개 비디오(약 15년 분량)를 사용하여 레이블 없이 자기지도학습을 진행했습니다.
- 평가 벤치마크:
- IntPhys: 객체 영속성 등 물리적으로 불가능한 상황을 탐지하는 벤치마크.
- GRASP, InfLevel-lab: 객체 상호작용 및 물리적 속성에 대한 이해를 평가.
- 모델: Vision Transformer(ViT)를 백본으로 사용 (ViT-L/16, ViT-H/16).
실험 결과 분석
V-JEPA는 모든 평가 벤치마크에서 기존 모델들을 압도하는 성능을 보였습니다.
- IntPhys 벤치마크: 물리적으로 불가능한 영상을 98.1%의 정확도로 구분해내며 SOTA를 달성했습니다. 예를 들어, 공이 벽을 통과하는 불가능한 영상과 벽에 튕겨 나가는 정상 영상을 보여주면, V-JEPA는 전자에 훨씬 높은 '놀람 점수'를 부여하여 이상 현상을 정확히 탐지했습니다.
- 인간과의 비교: 일부 물리적 추론 과제에서는 인간의 평균적인 판단 정확도를 뛰어넘는 결과를 보여주었습니다.
- Ablation Study (요인 분석):
- 데이터 다양성: 다양한 객체와 상호작용이 담긴 비디오로 학습하는 것이 물리적 원리 일반화에 결정적인 영향을 미쳤습니다.
- 모델 크기: 모델이 클수록(ViT-H > ViT-L) 더 복잡하고 미묘한 물리적 현상을 잘 이해하는 경향을 보였습니다.
비판적 평가
강점
- 뛰어난 효율성과 성능: 픽셀 생성을 회피하는 추상적 예측 방식으로 높은 성능과 빠른 학습 속도를 모두 달성했습니다.
- 강력한 일반화 능력: 특정 물리 법칙을 직접 가르치지 않았음에도, 다양한 시나리오에 적용 가능한 일반적인 물리적 직관을 학습했습니다.
- 자기지도학습의 가능성 확장: AI 연구의 오랜 난제였던 '상식'의 영역을 자기지도학습으로 정복할 수 있다는 가능성을 보여주었습니다.
한계점
- 장기 기억의 한계: 현재 프레임에서 보이지 않는 객체의 상태를 오랫동안 기억해야 하는 문제(예: 컵 뒤에 숨겨진 공)는 여전히 어려운 과제로 남아있습니다.
- 숏컷 학습(Shortcut Learning) 가능성: 진정한 물리적 이해가 아닌, 데이터셋의 통계적 편향이나 미세한 시각적 아티팩트를 감지하여 정답을 맞췄을 가능성을 완전히 배제할 수는 없습니다.
향후 연구 방향
- 메모리 강화: 장기적인 시공간적 의존성을 모델링하기 위해 외부 메모리 모듈 등을 결합하는 연구가 필요합니다.
- 멀티모달 통합: 시각 정보뿐만 아니라 소리, 텍스트 등 다른 양식의 정보를 함께 활용하여 더욱 풍부한 물리적 이해를 구축하는 방향으로 발전할 수 있습니다.
- 실세계 적용: V-JEPA의 물리적 이해 능력을 자율주행차의 위험 예측, 로봇의 물체 조작 등 실제 물리적 상호작용이 필요한 분야에 적용하는 연구가 기대됩니다.
실무 적용 가이드
- 효율적인 사전 훈련: 비디오 이해 모델을 개발할 때, 픽셀 생성 모델보다 V-JEPA와 같은 표현 예측 모델을 사전 훈련에 사용하면 훨씬 적은 컴퓨팅 자원으로 강력한 특징 추출기를 얻을 수 있습니다.
- 이상 탐지(Anomaly Detection): V-JEPA의 '놀람 점수' 개념은 공장 자동화 라인의 불량품 검출이나 CCTV 영상의 이상 행동 탐지 등 다양한 분야에 응용될 수 있습니다. 정상적인 패턴에서 벗어나는 순간을 포착하는 데 효과적입니다.
결론
V-JEPA는 AI가 인간의 명시적인 가르침이나 사전 지식 없이, 세상을 관찰하는 것만으로 물리적 직관을 학습할 수 있음을 설득력 있게 보여주었습니다. 픽셀의 껍데기를 넘어 데이터의 추상적인 '의미'를 예측하는 이 접근법은, 앞으로 더 일반적이고 상식적인 AI를 향한 중요한 이정표가 될 것입니다. 이는 AI에게 '지능'이란 무엇인지, 그리고 그것이 어떻게 학습될 수 있는지에 대한 우리의 이해를 한 단계 더 발전시킨 의미 있는 연구입니다.

![[논문 리뷰] Intuitive physics understanding emerges from self-supervised pretraining on natural videos](/assets/images/blog/20260405-paper-2502-11831-intuitive-physics-understandin.jpg)