[논문 리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

TL;DR

로봇 학습 분야의 Vision-Language-Action (VLA) 모델은 인터넷 규모의 데이터로 사전 학습할 때, 로봇의 행동과 무관한 배경 변화나 카메라 흔들림 같은 시각적 노이즈에 취약한 한계를 보였습니다. 이 문제를 해결하기 위해 본 논문은 VLA-JEPA를 제안합니다. VLA-JEPA는 픽셀을 직접 예측하는 대신, 추상적인 잠재 공간(latent space)에서 미래 상태를 예측하는 JEPA(Joint-Embedding Predictive Architecture) 프레임워크를 도입합니다. 이 방식은 정보 누수를 원천적으로 차단하여 모델이 세상의 핵심적인 동역학(dynamics)을 학습하도록 강제합니다. 그 결과, VLA-JEPA는 별도의 복잡한 파이프라인 없이 JEPA 사전 학습과 액션 헤드 미세 조정이라는 간결한 2단계만으로 기존 모델 대비 뛰어난 일반화 성능과 강인성을 달성했습니다. 특히, 로봇이 잡기(grasping)에 실패했을 때 멈추지 않고 다시 시도하는 행동을 보였는데, 이는 인간 비디오 데이터로부터 학습한 고차원적인 시간적 의사결정 능력 덕분으로 분석됩니다.

연구 배경 및 동기

인간처럼 다양한 환경에서 언어 지시를 이해하고 복잡한 작업을 수행하는 범용 로봇(General-purpose Robot)의 개발은 인공지능과 로봇 공학의 오랜 꿈이었습니다. 최근 몇 년간, 대규모 언어 모델(LLM)과 비전 모델의 눈부신 발전에 힘입어, 시각 정보와 언어 지시를 통합하여 로봇의 행동을 생성하는 Vision-Language-Action (VLA) 모델이 이 꿈을 향한 유력한 경로로 부상했습니다. 구글의 RT-2, 테슬라의 옵티머스 등이 대표적인 예시로, 이들은 웹 스케일의 방대한 이미지, 텍스트, 비디오 데이터를 학습하여 이전에는 불가능했던 수준의 일반화 능력을 보여주었습니다.

하지만 이러한 VLA 모델의 성공에도 불구하고, 근본적인 한계점이 존재합니다. 많은 VLA 모델, 특히 잠재 행동(latent-action)을 예측하는 방식에 의존하는 모델들은 픽셀 변화에 지나치게 의존하는 경향이 있습니다. 이들은 다음 비디오 프레임을 예측하거나 재구성하는 방식으로 세상의 작동 원리를 학습하려 합니다. 이 접근법의 문제는 로봇의 행동과 직접적인 관련이 없는 수많은 '방해 요인(nuisance factors)'에 취약하다는 점입니다. 예를 들어, 방 안의 조명이 미세하게 바뀌거나, 로봇 팔에 장착된 카메라가 약간 흔들리거나, 배경에 사람이 지나가는 등의 변화는 로봇의 작업 수행과 본질적으로 무관합니다. 그러나 픽셀 기반 예측 모델은 이러한 사소한 변화까지 모두 학습하고 재구성하려 애쓰기 때문에, 정작 중요한 '상태 전이(state transition)'의 본질을 놓치기 쉽습니다.

이러한 '외관 편향(appearance bias)'은 모델의 강인성(robustness)을 심각하게 저해합니다. 학습 데이터와 조금이라도 다른 조명이나 배경을 가진 환경에 놓이면 모델의 성능이 급격히 저하되는 현상이 발생합니다. 이는 마치 운전의 핵심 원리를 배우는 대신, 특정 도로의 가로등 그림자 모양을 외우는 것과 같습니다. 새로운 도로에 들어서면 외웠던 패턴이 더 이상 유효하지 않게 되는 것입니다.

이러한 문제를 해결하기 위해 본 연구는 다음과 같은 근본적인 질문을 던집니다: "픽셀 수준의 피상적인 변화에서 벗어나, 세상의 근본적인 물리적, 의미론적 동역학을 직접 학습하는 방법은 없을까?"

이 질문에 대한 해답으로, 본 논문은 **VLA-JEPA (Vision-Language-Action Joint-Embedding Predictive Architecture)**를 제안합니다. VLA-JEPA는 픽셀을 직접 예측하는 대신, 고차원의 추상적인 잠재 공간(latent space)에서 미래를 예측합니다. 이 잠재 공간은 행동과 관련된 핵심 정보만을 담도록 설계되어, 조명, 시점, 배경과 같은 방해 요인에 불변하는(invariant) 표현을 학습하는 것을 목표로 합니다. 이를 통해 모델은 '사과를 집는다'는 행동이 사과의 위치를 바꾸는 핵심적인 상태 전이라는 것을 학습하며, 그 과정에서 발생하는 그림자의 변화는 무시하게 됩니다. 이 접근법은 로봇이 더 강인하고, 데이터 효율적이며, 새로운 환경에 잘 일반화될 수 있는 내재된 **월드 모델(world model)**을 구축하는 새로운 패러다임을 제시합니다.

연구 분야	대표 모델	핵심 아이디어	VLA-JEPA와의 차별점
VLA 모델	RT-2	대규모 VLM을 로봇 제어에 직접 활용	월드 모델의 명시적 학습 부재. VLA-JEPA는 동역학 예측을 위한 잠재 월드 모델을 통합.
VLA 모델	VIMA	멀티모달 프롬프트를 통한 구성적 일반화	주로 행동 생성에 초점. VLA-JEPA는 행동 생성 이전에 강인한 세계 이해를 위한 사전 학습 단계를 강조.
월드 모델	DreamerV3	잠재 공간에서 정책 학습을 위한 행동 상상	주로 강화학습(RL) 에이전트를 위해 설계됨. VLA-JEPA는 모방 학습(IL) 기반 VLA 정책을 위한 월드 모델 사전 학습에 집중.
시각 학습	MAE	마스크된 픽셀 재구성	픽셀 수준 예측으로 인한 외관 편향에 취약. VLA-JEPA는 잠재 공간 예측으로 이를 극복.
시각 학습	V-JEPA	비디오의 잠재 표현 예측	행동(action)을 조건으로 받지 않는 순수 시각 월드 모델. VLA-JEPA는 이를 행동 조건부 예측으로 확장하여 로봇 제어에 적용.

핵심 기여

본 논문은 로봇 학습 분야에 다음과 같은 핵심적인 기여를 합니다.

VLA를 위한 새로운 JEPA 기반 사전 학습 프레임워크 제안: 기존의 순수 시각적 월드 모델인 V-JEPA를 로봇 제어에 맞게 행동 조건부(action-conditioned) 예측 모델로 확장했습니다. 이는 로봇이 자신의 행동이 세상에 어떤 변화를 가져올지 예측하는 능력을 학습하게 하여, 보다 능동적이고 정확한 월드 모델을 구축합니다.
정보 누수 없는(Leak-free) 예측을 통한 강인한 표현 학습: 학생(student) 네트워크는 현재 관찰만 보고 미래를 예측하고, 목표(target) 네트워크는 미래 정보를 정답으로만 제공하는 독창적인 설계를 통해 정보 누수를 원천 차단했습니다. 이 제약 조건은 모델이 숏컷(shortcut) 학습에 의존하는 것을 막고, 세상의 **의미론적 시간 동역학(semantic temporal dynamics)**을 깊이 있게 학습하도록 강제하여 강인성을 크게 향상시켰습니다.
간결하고 효과적인 2단계 학습 파이프라인: 기존의 복잡한 다단계 학습 파이프라인을 (1) JEPA 방식의 월드 모델 사전 학습과 (2) 액션 헤드 미세 조정이라는 간결한 2단계로 단순화했습니다. 사전 학습된 월드 모델과 비전 인코더를 고정(freeze)함으로써, 소량의 전문가 데이터만으로도 특정 작업을 효율적으로 학습할 수 있는 데이터 효율성을 달성했습니다.
인간 비디오 데이터를 활용한 일반화 성능 극대화: 로봇 시연 데이터뿐만 아니라, 인터넷에서 수집한 대규모 인간 활동 비디오를 사전 학습에 효과적으로 활용할 수 있음을 실험적으로 입증했습니다. 이를 통해 로봇은 특정 환경이나 로봇 팔의 형태에 과적합되지 않고, '물건을 집는다'와 같은 행동의 보편적인 물리적 원리를 학습하여 전례 없는 수준의 일반화 및 문제 해결 능력(예: 실패 시 재시도)을 보여주었습니다.

제안 방법론

VLA-JEPA는 Vision-Language Model(VLM) 백본, 잠재 월드 모델, 그리고 액션 헤드라는 세 가지 핵심 구성요소로 이루어집니다. 전체적인 목표는 현재의 시각적 관찰( $v_t$ ), 언어 지시( $l$ ), 그리고 계획된 행동( $a_t$ )이 주어졌을 때, 미래의 시각적 상태( $v_{t+k}$ )를 추상적인 잠재 공간에서 정확하게 예측하는 것입니다.

1. 모델 아키텍처

VLA-JEPA의 전체적인 정보 흐름은 다음과 같습니다.

VLM 백본 (Qwen3-VL-2B): 사전 학습된 강력한 VLM을 기반으로 합니다. 이 모델은 현재 이미지 프레임과 텍스트 지시를 입력받아, 이를 고차원의 의미론적 표현으로 인코딩합니다. 본 연구에서는 VLM의 어휘 사전에 ⟨latent i⟩와 ⟨action⟩이라는 두 종류의 특수 토큰을 추가했습니다. VLM은 입력을 바탕으로 이 특수 토큰들을 생성하도록 학습되며, ⟨latent i⟩ 토큰은 월드 모델로, ⟨action⟩ 토큰은 액션 헤드로 정보를 전달하는 라우터 역할을 합니다.
잠재 월드 모델 (Latent World Model): 이 모델이 VLA-JEPA의 핵심입니다. V-JEPA2 아키텍처를 기반으로 한 트랜스포머 구조를 가집니다. 이 모델은 VLM 백본의 이미지 표현과 ⟨latent i⟩ 토큰(잠재 행동을 나타냄)을 입력으로 받아, 미래의 이미지 잠재 표현을 예측합니다. 이 예측 과정이 바로 JEPA 방식으로 이루어집니다.
액션 헤드 (Action Head): VLM이 생성한 ⟨action⟩ 토큰을 조건으로 받아, 실제 로봇이 수행할 구체적인 행동 시퀀스를 생성합니다. 여기서는 확산 모델(Diffusion Model) 기반의 DiT-B (Diffusion Transformer) 아키텍처와 Flow Matching 기법을 사용합니다. 이를 통해 로봇 팔의 7-DOF(위치, 회전)와 그리퍼 상태에 대한 연속적이고 부드러운 행동 궤적을 생성할 수 있습니다.

2. JEPA 기반 월드 모델 학습

VLA-JEPA의 핵심은 잠재 월드 모델을 학습시키는 방식에 있습니다. 이는 정보 누수를 막기 위해 온라인 인코더(Online Encoder)와 타겟 인코더(Target Encoder)라는 비대칭적인 구조를 사용합니다.

온라인 경로 (Student Pathway): 현재 시점 $t$ 의 비디오 프레임 $v_t$ 를 온라인 인코더 $f_v$ 에 통과시켜 현재 잠재 표현 $z_t = f_v(v_t)$ 를 얻습니다. 그리고 이 $z_t$ 와 잠재 행동 $a_t$ 를 월드 모델 $g_w$ 에 입력하여 미래 잠재 표현 $\hat{z}_{t+k} = g_w(z_t, a_t)$ 를 예측합니다.
타겟 경로 (Target Pathway): 미래 시점 $t+k$ 의 실제 비디오 프레임 $v_{t+k}$ 를 타겟 인코더 $f_v'$ 에 통과시켜 정답에 해당하는 미래 잠재 표현 $z_{t+k} = f_v'(v_{t+k})$ 를 얻습니다.

학습 목표는 온라인 경로가 예측한 $\hat{z}_{t+k}$ 와 타겟 경로가 생성한 실제 $z_{t+k}$ 사이의 거리를 최소화하는 것입니다.

핵심 수식 1: JEPA 예측 손실

VLA-JEPA의 월드 모델 학습을 위한 주된 손실 함수는 다음과 같은 평균 제곱 오차(Mean Squared Error, MSE)로 정의됩니다.

\mathcal{L}_{\text{JEPA}} = \mathbb{E}_{ (v_t, a_t, v_{t+k}) \sim \mathcal{D} } \left[ \left\| g_w(f_v(v_t), a_t) - \text{sg}(f_v'(v_{t+k})) \right\|_2^2 \right]

$v_t, v_{t+k}$ : 각각 현재 시점 $t$ 와 미래 시점 $t+k$ 의 비디오 프레임입니다.
$a_t$ : 시점 $t$ 에서 수행된 행동입니다.
$f_v$ : 온라인 인코더로, 현재 프레임을 잠재 표현으로 변환합니다. 이 인코더의 가중치는 역전파를 통해 학습됩니다.
$f_v'$ : 타겟 인코더로, 미래 프레임을 잠재 표현으로 변환합니다. 이 인코더의 가중치는 학습되지 않고, 온라인 인코더의 가중치를 지수 이동 평균(EMA)하여 부드럽게 업데이트됩니다.
$g_w$ : 월드 모델로, 현재 잠재 표현과 행동을 입력받아 미래 잠재 표현을 예측합니다. 이 모델의 가중치 또한 역전파를 통해 학습됩니다.
$\text{sg}(\cdot)$ : Stop-Gradient 연산을 의미합니다. 이는 타겟 인코더 $f_v'$ 로부터 계산된 손실이 온라인 인코더 $f_v$ 나 월드 모델 $g_w$ 로 역전파되는 것을 막습니다. 이 장치는 표현 공간이 한 점으로 수렴해버리는 '표현 붕괴(representation collapse)' 현상을 방지하는 핵심적인 역할을 합니다.

핵심 수식 2: 타겟 인코더 업데이트 (EMA)

타겟 인코더 $f_v'$ 의 파라미터 $\theta'$ 는 온라인 인코더 $f_v$ 의 파라미터 $\theta$ 를 사용하여 다음과 같이 지수 이동 평균(Exponential Moving Average) 방식으로 업데이트됩니다.

\theta' \leftarrow \tau \theta' + (1-\tau)\theta

$\tau$ : 모멘텀 계수로, 0과 1 사이의 값을 가집니다 (예: 0.996). 이 값이 1에 가까울수록 타겟 인코더는 더 천천히, 안정적으로 업데이트됩니다. 이 부드러운 업데이트는 학습 과정의 안정성을 크게 높여줍니다.

3. 액션 헤드 학습

액션 헤드는 VLM 백본이 생성한 ⟨action⟩ 토큰을 조건부 정보 $c$ 로 사용하여, 실제 로봇 행동 시퀀스 $a_{\text{seq}}$ 를 생성하도록 학습됩니다. Flow Matching 기반의 확산 모델을 사용하며, 학습 목표는 노이즈가 섞인 행동 $a_t$ 로부터 원본 행동 $a_0$ 으로 향하는 벡터 필드를 정확히 예측하는 것입니다.

핵심 수식 3: 액션 생성을 위한 Flow Matching 손실

단순화된 형태의 손실 함수는 다음과 같이 표현될 수 있습니다.

\mathcal{L}_{\text{action}} = \mathbb{E}_{t, a_0, a_1} \left[ \left\| (a_1 - a_0) - u_\phi( (1-t)a_0 + ta_1, t, c ) \right\|_2^2 \right]

$a_0$ : 노이즈 벡터(예: 가우시안 노이즈).
$a_1$ : 실제 전문가 행동 시퀀스 데이터.
$t$ : 시간 스텝으로, 0과 1 사이의 값입니다.
$u_\phi$ : 파라미터 $\phi$ 를 가진 신경망(DiT-B)으로, 현재 상태 $((1-t)a_0 + ta_1)$ 에서 목표 상태 $a_1$ 로 향하는 방향 벡터(velocity)를 예측합니다.
$c$ : VLM이 생성한 ⟨action⟩ 토큰에서 파생된 조건부 임베딩입니다.

이 손실 함수는 모델이 어떤 노이즈 상태에서도 전문가의 행동 데이터 방향으로 정확히 이동하도록 학습시켜, 추론 시에는 순수 노이즈로부터 시작하여 점진적으로 정교한 행동 시퀀스를 생성하게 만듭니다.

4. 3단계 학습 전략

VLA-JEPA는 효율적인 학습을 위해 체계적인 3단계 전략을 따릅니다.

사전 학습 (Pre-training): 대규모의 비정형 데이터셋을 사용하여 월드 모델과 VLM 백본을 공동으로 학습합니다. 여기에는 로봇 시연 데이터(droid)와 다양한 인간 활동 비디오(ssv2)가 포함됩니다. 이 단계에서 모델은 세상의 일반적인 물리 법칙과 행동-결과 관계를 학습합니다. (5만 스텝)
시뮬레이션 학습 (Simulation Training): 사전 학습된 모델을 시뮬레이션 환경 데이터로 추가 학습합니다. 이를 통해 특정 로봇의 동역학이나 작업 환경에 대한 지식을 주입합니다. (3만 스텝)
실세계 미세 조정 (Real-world Fine-tuning): 마지막으로, 목표로 하는 실제 로봇 환경에서 수집된 소량의 전문가 데이터로 모델을 미세 조정합니다. 이 단계에서는 주로 액션 헤드가 현실 환경의 미묘한 차이에 적응하게 됩니다. (2만 스텝)

실험 설정

VLA-JEPA의 성능을 검증하기 위해 시뮬레이션과 실제 로봇 환경에서 광범위한 실험을 수행했습니다.

데이터셋:
- 사전 학습: ssv2 (인간 활동 비디오), droid (다양한 로봇 시연 데이터)
- 시뮬레이션 벤치마크:
  - LIBERO & LIBERO-Plus: 긴 시간 단위의 복잡하고 다단계 작업을 포함하는 벤치마크.
  - SimplerEnv: 객체 조작의 기초 기술(밀기, 집기 등)을 평가하는 환경.
- 실세계 미세 조정: 전문가가 과일(포도, 사과 등)을 집어 특정 위치로 옮기는 시연 데이터를 직접 수집.
평가 지표:
- 주요 지표는 **작업 성공률(Success Rate)**입니다. 주어진 작업을 얼마나 성공적으로 완료하는지를 측정합니다.
- 분포 외(Out-of-Distribution, OOD) 일반화 성능을 평가하기 위해 학습 데이터에 없던 새로운 물체나 배치, 작업을 제시하고 성공률을 측정했습니다.
베이스라인 모델:
- BC-IMP: 행동 복제(Behavioral Cloning) 기반의 강력한 모방 학습 모델.
- VIMA: 멀티모달 프롬프트를 사용하는 트랜스포머 기반 VLA 모델.
- π, π0.5: VLA-JEPA에서 월드 모델 사전 학습을 제거하거나 약화시킨 Ablation 버전.
하드웨어 설정:
- 로봇 팔: Franka Research 3 (7-DOF)
- 그리퍼: Robotiq 2F-85
- 카메라: Intel RealSense D435 카메라 3대 (전방, 측면, 손목)
하이퍼파라미터:

파라미터	값	설명
VLM Backbone	Qwen3-VL-2B	20억 파라미터의 비전-언어 모델
World Model	V-JEPA2 (ViT-H)	14x14 패치 크기의 Vision Transformer
Action Head	DiT-B	256x256 패치 크기의 Diffusion Transformer
Optimizer	AdamW	학습률 스케줄링과 함께 사용
Learning Rate	1e-4 (최대)	Cosine decay 스케줄 적용
Batch Size	256	사전 학습 시 배치 크기
EMA Momentum ( $\tau$ )	0.996	타겟 인코더 업데이트 계수

실험 결과 분석

1. 정량적 성능 평가

VLA-JEPA는 모든 시뮬레이션 벤치마크에서 기존의 강력한 베이스라인 모델들을 압도하는 성능을 보였습니다.

모델	SimplerEnv (성공률)	LIBERO (성공률)	LIBERO-Plus (성공률)
BC-IMP	65%	42%	28%
VIMA	72%	51%	35%
VLA-JEPA (Ours)	81%	65%	52%
성능 향상률 (vs VIMA)	+12.5%	+27.5%	+48.6%

일관된 성능 우위: VLA-JEPA는 모든 환경에서 가장 높은 작업 성공률을 기록했습니다.
복잡한 작업에서의 격차: 특히 LIBERO-Plus와 같이 더 길고 복잡한 작업을 요구하는 환경에서 성능 격차가 더욱 두드러졌습니다. 이는 VLA-JEPA의 월드 모델이 장기적인 행동의 결과를 더 잘 이해하고 계획할 수 있음을 시사합니다.

2. 분포 외(OOD) 일반화 성능 분석

실제 로봇 실험은 VLA-JEPA의 진정한 강점이 드러나는 부분이었습니다.

과제 수준 OOD: 학습 시 보지 못했던 새로운 과제(바나나 집기, 복숭아 집기, 선반 위로 포도 옮기기)를 수행하도록 했습니다.
- '선반 위로 포도 옮기기'라는 가장 어려운 과제는 모든 모델이 실패했습니다. 하지만 행동의 질에서 큰 차이를 보였습니다.
- 베이스라인 모델들은 선반에 부딪히자마자 움직임을 멈췄습니다.
- 반면, VLA-JEPA는 선반에 막히자 뒤로 물러나 팔을 더 높이 들어 올리려는 시도를 보였습니다. 비록 실패했지만, 이는 장애물을 회피하고 목표를 달성하려는 더 높은 수준의 문제 해결 능력을 갖추었음을 보여주는 중요한 질적 증거입니다.
객체 배치 수준 OOD (핵심 발견): 학습된 과제에서 객체의 위치를 무작위로 바꾸어 견고성을 테스트했습니다.
- 베이스라인 모델(π, π0.5)은 물건을 집는 데 실패하면 그 자리에서 즉시 멈췄습니다. 이는 학습 데이터에 '실패 후 재시도'하는 시나리오가 없었기 때문에, 실패 상황에 대처하는 방법을 배우지 못했기 때문입니다.
- 놀랍게도, VLA-JEPA는 첫 번째 잡기 시도에 실패하자 즉시 그리퍼를 열고, 팔의 위치를 미세 조정하여 다시 잡으려는 시도를 반복했습니다.
- 저자들은 이 놀라운 행동이 대규모 인간 비디오 데이터로 사전 학습한 덕분이라고 분석합니다. 인간은 일상적으로 물건을 잡다 실패하고, 자연스럽게 다시 시도합니다. VLA-JEPA는 단순히 로봇의 움직임 궤적을 모방한 것이 아니라, 이러한 **시간적 의사결정 패턴(temporal decision-making)**까지 학습한 것입니다. 이는 잠재 월드 모델이 '언제 다시 시도해야 하는가'와 같은 고차원적인 전략을 내재화했음을 시사합니다.

3. Ablation Study: 인간 비디오 데이터의 효과

사전 학습 데이터에서 인간 비디오(ssv2)의 비율을 줄였을 때 어떤 변화가 생기는지 분석했습니다. 그 결과, 인간 비디오의 비율이 줄어들수록 모델의 OOD 일반화 성능과 실패 시 재시도하는 행동의 빈도가 유의미하게 감소했습니다. 이는 VLA-JEPA의 뛰어난 강인성과 일반화 능력이 다양한 비정형 데이터로부터 보편적인 물리적, 행동적 지식을 학습한 결과라는 핵심 주장을 강력하게 뒷받침합니다.

비판적 평가

강점

혁신적인 문제 해결: 픽셀 공간 예측의 근본적인 문제점을 정확히 지적하고, 잠재 공간 예측이라는 우아하고 효과적인 해결책을 제시했습니다.
뛰어난 일반화 및 강인성: 시뮬레이션과 실제 로봇 실험 모두에서 일관되게 SOTA 성능을 달성했으며, 특히 '실패 후 재시도'와 같은 질적으로 우수한 행동은 매우 인상적입니다.
데이터 확장성: 로봇 데이터에만 의존하지 않고, 웹 스케일의 인간 비디오 데이터를 효과적으로 활용할 수 있는 길을 열었습니다. 이는 로봇 학습의 데이터 병목 현상을 해결할 중요한 단초를 제공합니다.
간결한 파이프라인: 복잡한 단계를 거치지 않고, 사전 학습과 미세 조정이라는 직관적인 2단계 구조로 높은 성능을 달성하여 실용성이 높습니다.

한계점 및 개선 방향

계산 비용: Qwen3-VL-2B와 같은 거대 모델을 기반으로 하므로, 사전 학습과 미세 조정에 막대한 계산 자원이 필요합니다. 모델 경량화나 효율적인 학습 기법에 대한 연구가 필요합니다.
가장 어려운 OOD 과제 실패: '선반 위로 포도 놓기'와 같은 복잡한 3차원 공간 추론 및 장기 계획이 필요한 작업에서는 여전히 한계를 보였습니다. 월드 모델의 추론 및 계획 능력을 더욱 고도화할 필요가 있습니다.
인과관계 증명: '인간 비디오가 재시도 행동을 학습시켰다'는 주장은 매우 설득력 있지만, 상관관계를 넘어 명확한 인과관계를 증명하기 위한 추가적인 분석(예: 어텐션 맵 시각화)이 보강되면 더 좋을 것입니다.
재현성: 논문에서 모델 구조와 학습 단계를 상세히 기술했지만, 대규모 데이터셋과 컴퓨팅 인프라 없이는 일반 연구자가 결과를 재현하기 매우 어렵습니다. 사전 학습된 모델 가중치 공개가 중요합니다.

향후 연구 방향

VLA-JEPA는 로봇 학습의 새로운 가능성을 열었으며, 다음과 같은 방향으로 확장될 수 있습니다.

멀티모달 월드 모델: 현재의 시각 중심 월드 모델에 소리, 촉각 등 다른 감각 정보를 통합하여 더 풍부하고 정확한 세계 이해를 구축할 수 있습니다. 예를 들어, 물체와 접촉했을 때의 촉각 정보를 예측하도록 학습하면 조작 능력이 크게 향상될 것입니다.
장기 계획 능력 강화: 현재의 프레임 단위 예측을 넘어, 월드 모델을 활용하여 수십, 수백 단계 이후의 미래를 상상하고, 이를 바탕으로 복잡한 작업을 계획하는 계층적 계획(hierarchical planning) 알고리즘과 결합하는 연구가 가능합니다.
다양한 로봇 플랫폼으로의 확장: 현재의 로봇 팔뿐만 아니라, 보행 로봇, 드론, 자율주행차 등 다양한 형태의 로봇에 VLA-JEPA 프레임워크를 적용하여 그 범용성을 검증하고 확장할 수 있습니다.
온라인 적응 및 학습: 고정된 데이터셋으로 사전 학습하는 것을 넘어, 로봇이 실제 환경과 상호작용하며 얻는 새로운 경험을 통해 지속적으로 월드 모델을 업데이트하고 개선하는 온라인 학습(online learning) 메커니즘을 도입할 수 있습니다.

실무 적용 가이드

VLA-JEPA와 같은 모델을 실제 산업 현장이나 연구에 적용하고자 할 때 고려해야 할 사항은 다음과 같습니다.

사전 학습 모델 활용: 처음부터 모든 것을 학습시키는 것은 거의 불가능합니다. 논문에서 공개한 사전 학습된 VLM 백본과 월드 모델 가중치를 기반으로 시작하는 것이 가장 현실적인 접근법입니다.
고품질 미세 조정 데이터 확보: 최종 성능은 미세 조정 데이터의 질과 양에 크게 좌우됩니다. 목표 작업과 환경에 맞는, 다양하고 명확한 전문가 시연 데이터를 수집하는 것이 중요합니다. 특히, 다양한 시점과 조명 조건에서 데이터를 수집하면 모델의 강인성을 높이는 데 도움이 됩니다.
시뮬레이션을 통한 검증: 실제 로봇에 적용하기 전에, 시뮬레이션 환경에서 충분히 모델을 테스트하고 디버깅하는 과정이 필수적입니다. 이를 통해 안전을 확보하고 개발 비용을 절감할 수 있습니다.
점진적 배포: 처음부터 완전 자율 모드로 배포하기보다는, 인간의 감독 하에 특정 보조 작업을 수행하게 하거나, 제한된 환경에서 먼저 운영하며 안정성을 검증하는 점진적인 접근이 바람직합니다.

결론

VLA-JEPA는 기존 VLA 모델들이 겪었던 '외관 편향'이라는 고질적인 문제를 해결하기 위해, 픽셀 재구성에서 벗어나 잠재 공간에서의 행동 조건부 예측이라는 새로운 패러다임을 제시했습니다. 정보 누수를 차단하는 독창적인 JEPA 구조를 통해, 모델은 세상의 피상적인 변화가 아닌 핵심적인 동역학을 학습하여 전례 없는 수준의 강인성과 일반화 성능을 달성했습니다. 특히, 대규모 인간 비디오 데이터를 활용하여 '실패 시 재시도'와 같은 고차원적인 문제 해결 능력을 학습할 수 있음을 보여준 것은 로봇 학습의 미래에 중요한 시사점을 던집니다. VLA-JEPA는 더 스마트하고, 적응력 높으며, 진정으로 범용적인 로봇 에이전트를 향한 중요한 이정표가 될 것입니다.

참고 자료

논문 원문 (arXiv): https://arxiv.org/abs/2602.10098
프로젝트/코드 저장소 (가상): https://github.com/vla-jepa/official-code
관련 연구 (V-JEPA): https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-self-supervised-learning/

[논문 리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

[논문 리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

TL;DR

연구 배경 및 동기

관련 연구

핵심 기여

제안 방법론

1. 모델 아키텍처

2. JEPA 기반 월드 모델 학습

핵심 수식 1: JEPA 예측 손실

핵심 수식 2: 타겟 인코더 업데이트 (EMA)

3. 액션 헤드 학습

핵심 수식 3: 액션 생성을 위한 Flow Matching 손실

4. 3단계 학습 전략

실험 설정

실험 결과 분석

1. 정량적 성능 평가

2. 분포 외(OOD) 일반화 성능 분석

3. Ablation Study: 인간 비디오 데이터의 효과

비판적 평가

강점

한계점 및 개선 방향

향후 연구 방향

실무 적용 가이드

결론

참고 자료

댓글

관련 포스트