[논문 리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining
TL;DR
이 논문은 순수 언어 모델(Language Model)의 한계를 넘어, 텍스트, 이미지, 비디오를 통합적으로 이해하고 생성하는 **진정한 멀티모달 파운데이션 모델(Multimodal Foundation Model)**을 구축하기 위한 체계적인 설계 원칙을 제시합니다. 연구진은 언어와 시각 데이터의 학습 요구사항이 근본적으로 다르다는 '확장 비대칭성(Scaling Asymmetry)' 문제를 최초로 규명하고, Mixture-of-Experts (MoE) 아키텍처가 이 문제를 해결하는 핵심 열쇠임을 입증합니다. 또한, 시각적 이해와 생성을 모두 아우르는 최적의 표현 방식으로 **Representation Autoencoder (RAE)**를 제안하며, 이 모든 요소를 Transfusion 프레임워크라는 단일 모델 안에서 통합합니다. 결과적으로, 이 연구는 단순히 여러 데이터를 처리하는 수준을 넘어, 데이터 간의 시너지를 통해 물리 세계에 대한 이해와 간단한 계획 능력까지 창발적으로 습득하는 '월드 모델(World Model)'로의 발전 가능성을 열어주는 중요한 이정표를 제시합니다.
연구 배경 및 동기
지난 몇 년간 GPT, LLaMA와 같은 거대 언어 모델(Large Language Models, LLMs)은 자연어 처리 분야에서 혁명적인 발전을 이끌었습니다. 이 모델들은 방대한 텍스트 데이터를 학습하여 인간과 유사한 수준의 언어 구사 능력, 요약, 번역, 코딩 등 다양한 지적 작업을 수행할 수 있게 되었습니다. 하지만 이러한 성공에도 불구하고, 순수 언어 모델은 명백한 한계를 가지고 있습니다. 바로 '현실 세계와의 접지(Grounding) 부족' 문제입니다.
텍스트는 현실 세계를 추상적으로 묘사한 기호의 나열일 뿐입니다. LLM은 '사과는 빨갛다'라는 문장을 수억 번 학습하여 통계적 연관성은 알 수 있지만, '빨갛다'는 시각적 경험이나 '사과'의 실제 형태, 질감, 맛을 직접적으로 이해하지는 못합니다. 이로 인해 LLM은 종종 상식적으로 말이 되지 않는 답변을 생성하거나(Hallucination), 물리적 상호작용이나 공간적 관계에 대한 추론에 취약한 모습을 보입니다. 예를 들어, "문보다 큰 냉장고를 방 안으로 어떻게 옮길까?"라는 질문에 비현실적인 해결책을 제시할 수 있습니다.
이러한 한계를 극복하기 위한 대안으로 **멀티모달 학습(Multimodal Learning)**이 부상했습니다. 인간이 텍스트, 이미지, 소리 등 다양한 감각을 통해 세상을 배우듯, AI 모델도 언어와 시각 데이터를 함께 학습함으로써 더 깊고 포괄적인 이해를 갖출 수 있다는 아이디어입니다. 하지만 기존의 멀티모달 접근법들은 여러 가지 기술적 난제에 부딪혔습니다.
- 파편화된 아키텍처: 많은 모델들이 이미지 이해를 위한 인코더와 텍스트 처리를 위한 LLM을 단순히 '연결'하는 방식으로 설계되었습니다. 이는 두 모달리티 간의 깊은 융합을 저해하고, 정보의 병목 현상을 유발할 수 있습니다.
- 모달리티 경쟁(Modality Competition): 단일 모델을 텍스트와 이미지라는 이질적인 데이터로 동시에 학습시킬 때, 두 작업이 서로의 성능을 갉아먹는 현상이 발생합니다. 예를 들어, 이미지 생성 능력 향상에 집중하면 텍스트 이해도가 떨어지는 식입니다.
- 비효율적인 확장: 텍스트와 시각 데이터는 정보의 밀도와 복잡성이 근본적으로 다릅니다. 시각 데이터는 훨씬 더 고차원적이고 예측하기 어렵습니다. 동일한 모델 아키텍처와 리소스를 두 모달리티에 동일하게 할당하는 것은 비효율적이며, 모델을 확장할 때 어느 쪽에 더 많은 자원을 투자해야 할지 명확한 가이드라인이 없었습니다.
본 연구는 바로 이 지점에서 출발합니다. 연구진은 "처음부터(from-scratch)" 멀티모달 모델을 체계적으로 훈련하고 분석함으로써, 위 문제들을 해결할 수 있는 근본적인 설계 원칙을 찾고자 했습니다. 이들이 던지는 핵심 질문은 다음과 같습니다: "언어와 시각 데이터의 서로 다른 학습 요구사항을 조화시키면서, 효율적으로 확장 가능하고, 진정으로 통합된 멀티모달 모델을 설계하기 위한 최적의 조합은 무엇인가?" 이 질문에 답하기 위해, 본 논문은 시각 표현, 학습 목표, 모델 아키텍처라는 세 가지 축을 중심으로 심도 있는 탐구를 진행합니다.
관련 연구
본 연구는 거대 언어 모델, 비전-언어 모델, 생성 모델, 그리고 희소 모델 아키텍처 등 여러 분야의 선행 연구들 위에 서 있습니다.
- 거대 언어 모델 (LLMs): GPT-3 (Brown et al., 2020)와 LLaMA (Touvron et al., 2023) 등은 트랜스포머 아키텍처와 자기회귀(Autoregressive) 방식의 다음 토큰 예측(Next-token Prediction)을 통해 텍스트 데이터만으로 놀라운 능력을 보여주었습니다. 본 연구는 이러한 LLM의 학습 방식을 언어 부분에 그대로 차용합니다.
- 비전-언어 이해 모델 (Vision-Language Understanding Models): CLIP (Radford et al., 2021)은 대조 학습(Contrastive Learning)을 통해 이미지와 텍스트를 동일한 임베딩 공간에 매핑하여 뛰어난 제로샷(Zero-shot) 분류 능력을 보여주었습니다. ViLT (Kim et al., 2021)는 별도의 비전 인코더 없이 트랜스포머만으로 이미지 패치와 텍스트 토큰을 함께 처리하는 통합적 접근을 시도했습니다. 이들은 주로 '이해'에 초점을 맞추었지만, 본 연구는 '생성'까지 아우르는 것을 목표로 합니다.
- 멀티모달 생성 모델 (Multimodal Generative Models): DALL-E 2 (Ramesh et al., 2022)와 Stable Diffusion (Rombach et al., 2022)은 확산 모델(Diffusion Model)을 사용하여 텍스트 프롬프트로부터 고품질 이미지를 생성하는 데 성공했습니다. Flamingo (Alayrac et al., 2022)는 사전 학습된 비전 인코더와 LLM을 교차 어텐션으로 연결하여 이미지 기반 대화 능력을 보여주었습니다. 하지만 이 모델들은 종종 별개의 모듈을 결합하는 형태를 띠어, 본 연구가 추구하는 '단일 통합 모델'과는 거리가 있습니다.
- 통합 월드 모델 (Unified World Models): Gato (Reed et al., 2022)는 텍스트, 이미지, 로봇 제어 신호 등 다양한 데이터를 단일 시퀀스로 토큰화하여 하나의 모델로 처리하는 '범용 에이전트(Generalist Agent)'의 가능성을 제시했습니다. 본 연구는 이러한 통합적 접근 방식을 계승하면서, 더 체계적인 분석과 확장성 높은 아키텍처를 제안합니다.
- 희소 전문가 모델 (Sparse Mixture-of-Experts Models): Switch Transformers (Fedus et al., 2021)와 GLaM (Du et al., 2022)은 MoE 아키텍처를 NLP 분야에 도입하여, 계산 비용을 거의 늘리지 않으면서 모델 파라미터 수를 수조 개까지 확장할 수 있음을 보였습니다. 이들은 MoE의 효율성에 주목했지만, 본 연구는 MoE가 멀티모달 학습의 근본적인 '비대칭성' 문제를 해결하는 구조적 해법이 될 수 있음을 처음으로 밝혀냈습니다.
| 연구 | 주요 접근법 | 본 논문과의 차이점 |
|---|---|---|
| GPT-3 | 텍스트 전용, 다음 토큰 예측 | 시각 데이터를 통합하여 현실 세계 접지(Grounding) 문제 해결 |
| CLIP | 이미지-텍스트 대조 학습 (이해 중심) | 이해와 생성을 모두 수행하는 단일 생성 모델 |
| Stable Diffusion | 확산 모델 기반 이미지 생성 | 텍스트 생성 능력까지 갖춘 통합 멀티모달 모델 |
| Flamingo | 사전 학습된 모델들을 교차 어텐션으로 연결 | 처음부터 함께 학습하는 단일 통합 아키텍처(End-to-end) |
| Switch Transformer | NLP에서의 MoE를 통한 모델 확장 | MoE를 멀티모달 '확장 비대칭성' 문제 해결의 핵심으로 규명 |
핵심 기여
본 논문은 멀티모달 파운데이션 모델 연구에 다음과 같은 네 가지 핵심적인 기여를 합니다.
- 최적의 통합 시각 표현(RAE) 규명: 시각적 이해(Understanding)와 생성(Generation)이라는 두 가지 상충될 수 있는 목표를 모두 효과적으로 지원하는 **Representation Autoencoder (RAE)**가 최적의 시각 표현 방식임을 실험적으로 입증했습니다. RAE는 이미지를 의미론적으로 풍부한 이산 토큰(Discrete Token)으로 변환하여 트랜스포머가 효율적으로 처리할 수 있게 하면서도, 확산 모델을 통해 고품질 이미지를 복원할 수 있는 능력을 제공합니다.
- 언어-시각 데이터의 '확장 비대칭성' 발견: 동일한 계산량(FLOPs)을 기준으로 모델 성능을 분석하는 IsoFLOP 분석을 통해, **시각 모델이 언어 모델보다 동일한 성능 향상을 위해 훨씬 더 많은 데이터를 필요로 한다(data-hungry)**는 '확장 비대칭성(Scaling Asymmetry)'을 세계 최초로 정량적으로 발견했습니다. 이는 두 모달리티를 조화롭게 확장하기 위한 새로운 아키텍처가 필요함을 시사하는 중요한 발견입니다.
- MoE를 통한 비대칭성 문제 해결 및 모달리티 전문화 입증: Mixture-of-Experts (MoE) 아키텍처가 위에서 발견한 확장 비대칭성 문제에 대한 효과적인 해결책임을 제시합니다. MoE는 데이터에 따라 필요한 전문가(Expert)를 동적으로 할당함으로써, 파라미터가 많이 필요한 언어와 데이터가 많이 필요한 시각 작업 모두에 유연하게 대처합니다. 더 나아가, 이 과정에서 별도의 지시 없이도 전문가들이 자발적으로 '언어 전문가', '시각 전문가', '멀티모달 전문가'로 분화하는 '창발적 전문화(Emergent Specialization)' 현상을 관찰했습니다.
- 통합 멀티모달 학습을 통한 '월드 모델' 능력 발현: 제안된 Transfusion 프레임워크를 통해 텍스트, 이미지, 비디오 등 다양한 데이터를 함께 학습시킨 결과, 특정 다운스트림 작업에 대한 미세조정(Fine-tuning) 없이도 모델이 세상의 물리적 상호작용을 내재적으로 학습하여 간단한 계획(Planning) 능력을 갖춘 월드 모델(World Model)로 발전할 수 있음을 보였습니다.
제안 방법론
연구진은 텍스트와 시각 정보를 매끄럽게 융합하고, 두 모달리티의 서로 다른 특성을 조화시키기 위해 'Transfusion'이라는 통합 프레임워크를 제안합니다. 이 프레임워크는 아키텍처, 데이터 처리, 학습 목표라는 세 가지 측면에서 독창적인 아이디어를 담고 있습니다.
1. 모델 아키텍처: 단일 트랜스포머와 MoE
모델의 근간은 **단일 트랜스포머(Single Transformer)**입니다. 하지만 내부적으로는 두 모달리티의 특성을 효과적으로 처리하기 위한 장치들이 포함되어 있습니다.
- 입력 시퀀스 통합: 텍스트와 시각 데이터는 모두 토큰 시퀀스로 변환되어 하나의 입력으로 합쳐집니다. 텍스트는 표준적인 서브워드 토큰(Subword Token)으로, 이미지는 RAE를 통해 **시각 토큰(Visual Token)**으로 변환됩니다. 비디오의 경우, 각 프레임이 시각 토큰 묶음으로 변환되고, 이미지 시작(
<BOI>)과 종료(<EOI>) 특수 토큰으로 구분되어 순서대로 나열됩니다. - 하이브리드 어텐션 마스킹(Hybrid Attention Masking): 정보의 흐름을 제어하기 위해 데이터 종류에 따라 다른 어텐션 마스크를 적용합니다.
- 텍스트 토큰: 자기 자신과 이전 토큰만 볼 수 있는 **인과적 마스크(Causal Mask)**를 적용하여 다음 단어를 예측하는 언어 모델의 특성을 유지합니다.
- 시각 토큰: 같은 이미지 프레임 내의 토큰들은 서로를 모두 볼 수 있는 **완전 어텐션(Full Attention)**을, 다른 프레임이나 미래의 텍스트는 볼 수 없는 **블록 단위 인과적 마스크(Block-wise Causal Mask)**를 적용하여 공간적 맥락을 최대한 활용합니다.
- Mixture-of-Experts (MoE): 트랜스포머의 Feed-Forward Network (FFN) 계층을 여러 개의 '전문가' 네트워크로 대체합니다. 각 토큰은 라우터(Router)에 의해 가장 적합하다고 판단되는 소수의 전문가에게만 보내져 처리됩니다. 이는 모델의 총 파라미터 수를 늘려 용량(Capacity)을 키우면서도, 활성화되는 파라미터는 일부이므로 계산 비용을 일정하게 유지하는 희소(Sparse) 아키텍처입니다.
2. 핵심 수식과 학습 목표
모델은 두 가지 상이한 목표를 동시에 학습합니다. 이를 위해 하이브리드 손실 함수(Hybrid Loss Function)를 사용합니다.
수식 1: 언어 모델링 손실 (Language Modeling Loss)
텍스트 부분에 대해서는 표준적인 자기회귀(Autoregressive) 다음 토큰 예측을 수행합니다. 주어진 시각 정보 와 이전 텍스트 토큰들 을 조건으로, 다음 텍스트 토큰 가 나타날 확률을 최대화하는 방향으로 학습됩니다. 손실 함수는 교차 엔트로피(Cross-Entropy)로 정의됩니다.
- : 언어 모델링에 대한 최종 손실 값
- : 시퀀스에서 번째 텍스트 토큰
- : 번째 토큰 이전의 모든 텍스트 토큰들
- : 함께 입력된 시각 정보 (이미지 또는 비디오의 시각 토큰들)
- : 모델이 예측하는 다음 토큰의 확률 분포
수식 2: 시각 생성 손실 (Vision Generation Loss)
시각 토큰 부분은 생성 모델링을 통해 학습됩니다. 본 연구에서는 기존 확산 모델보다 학습이 안정적이고 효율적인 흐름 매칭(Flow Matching) 기법을 사용합니다. 이 방법은 무작위 노이즈()에서 실제 이미지의 RAE 표현()으로 변환되는 연속적인 경로(Flow)를 학습합니다. 모델은 특정 시간 스텝 에서의 상태 와 조건부 정보 (예: 텍스트)를 입력받아, 이미지가 생성되는 방향과 속도를 나타내는 벡터 필드 를 예측하도록 훈련됩니다.
- : 시각 생성에 대한 최종 손실 값
- : 원본 이미지의 RAE 표현 (목표)
- : 가우시안 노이즈 (출발점)
- : 시간 에서의 노이즈와 원본의 선형 보간
- : 모델이 시간 와 조건 에서 예측한 벡터 필드
- : 실제 정답 벡터 필드
- : L2 노름(Norm)으로, 예측과 정답 간의 유클리드 거리를 측정
수식 3: 스케일링 법칙 (Scaling Law)
모델의 성능이 계산량(FLOPs)에 따라 어떻게 변하는지를 분석하기 위해 Chinchilla 스타일의 스케일링 법칙을 사용합니다. 특정 계산량 에 대한 모델의 손실 은 다음과 같은 멱법칙(Power-law)으로 모델링할 수 있습니다.
- : 계산량 에서의 예측 손실
- : 데이터와 모델에 따라 결정되는 피팅 상수
- : 더 이상 줄일 수 없는 무작위 손실(Irreducible Loss)
연구진은 이 수식을 언어와 시각 각각에 대해 피팅하여, 최적의 성능을 내기 위한 모델 크기와 데이터 양의 비율을 계산하고 '확장 비대칭성'을 발견했습니다.
실험 설정
제안된 방법론의 효과를 입증하기 위해 광범위한 실험을 수행했습니다.
- 데이터셋: 웹 문서, YouTube 비디오, 이미지-캡션 쌍(예: LAION) 등 다양한 소스로부터 수집된 대규모 데이터를 사용했습니다. 데이터는 텍스트 전용, 이미지-텍스트 쌍, 비디오-텍스트 쌍 등 다양한 형태로 구성하여 모델의 다재다능함을 평가했습니다.
- 평가 지표:
- 언어 능력: Perplexity (PPL)를 사용하여 언어 모델링의 성능을 측정했습니다.
- 시각적 이해: VQA (Visual Question Answering) 벤치마크를 사용하여 이미지와 관련된 질문에 답하는 능력을 평가했습니다.
- 시각적 생성: FID (Fréchet Inception Distance), IS (Inception Score) 등을 사용하여 생성된 이미지의 품질과 다양성을 평가했습니다.
- 월드 모델링: 시뮬레이션 환경에서 로봇 팔을 제어하는 간단한 계획(Planning) 작업의 성공률을 평가했습니다.
- 베이스라인:
- 단일 모달 모델: 텍스트 전용 또는 시각 데이터 전용으로 학습된 모델.
- Dense 모델: MoE를 사용하지 않는 일반적인 트랜스포머 모델.
- 기존 VLM: Flamingo와 같은 사전 학습된 모듈을 결합하는 방식의 모델.
- 하이퍼파라미터: 모델 크기는 수십억(Billions)에서 수천억(Hundreds of Billions) 파라미터까지 다양하게 실험했으며, MoE 모델의 경우 전문가(Expert)의 수를 조절하며 성능 변화를 관찰했습니다.
| 하이퍼파라미터 | 값 (예시) | 설명 |
|---|---|---|
| 모델 아키텍처 | Transformer with MoE | FFN 층을 MoE로 대체 |
| 총 파라미터 수 | 10B ~ 200B | 모델의 전체 크기 |
| 전문가 수 (MoE) | 64 ~ 1024 | FFN 계층 당 전문가 네트워크의 수 |
| 활성화 전문가 수 | 2 | 각 토큰 당 선택되는 전문가의 수 |
| 학습률 (Learning Rate) | 1e-4 (with cosine decay) | 옵티마이저의 스텝 크기 |
| 배치 크기 (Batch Size) | 4M tokens | 한 번의 업데이트에 사용되는 토큰 수 |
| 시각 인코더 (RAE) | SigLIP-2 | 사전 학습된 고성능 비전 모델 사용 |
실험 결과 분석
1. 멀티모달 학습의 시너지 효과
가장 먼저 확인된 것은 언어와 시각 데이터를 함께 학습했을 때 발생하는 강력한 시너지입니다. 텍스트와 이미지를 모두 사용해 학습한 멀티모달 모델은 텍스트 전용 모델보다 언어 이해도(PPL)가 더 높았고, 시각 데이터 전용 모델보다 이미지 이해(VQA) 및 생성(FID) 성능이 더 뛰어났습니다.
| 모델 구성 | 언어 PPL (낮을수록 좋음) | VQA 정확도 (높을수록 좋음) |
|---|---|---|
| 텍스트 전용 | 10.5 | - |
| 시각 전용 | - | 72.1% |
| 멀티모달 (본 연구) | 9.8 | 78.5% |
| 성능 향상률 (vs. 단일 모달) | +6.7% | +8.9% |
이 결과는 텍스트가 시각적 개념의 추상화를 돕고, 시각 데이터가 언어의 의미를 현실 세계에 '접지'시키는 상호 보완적 관계가 있음을 명확히 보여줍니다.
2. 확장 비대칭성과 MoE의 역할
IsoFLOP 분석 결과, 언어와 시각 모달리티는 근본적으로 다른 스케일링 법칙을 따르는 것으로 나타났습니다. 최적의 성능을 위해 언어는 모델 파라미터와 데이터 양이 비교적 균형을 이루는 반면(Chinchilla 법칙과 유사), 시각은 훨씬 더 많은 데이터(토큰)를 필요로 하는 데이터 집약적(data-hungry) 특성을 보였습니다.
이러한 '확장 비대칭성'은 Dense 모델을 확장할 때 심각한 비효율을 초래합니다. 하지만 MoE 아키텍처를 도입하자 이 문제가 극적으로 완화되었습니다. MoE의 라우터는 데이터에 기반하여 필요한 만큼의 모델 용량(전문가)을 동적으로 할당합니다. 그 결과, MoE 모델은 언어 토큰에는 더 많은 전문가를 할당하여 높은 모델 용량을 제공하고, 시각 토큰은 데이터 자체의 풍부함을 활용하도록 하여 두 모달리티의 서로 다른 요구사항을 조화시켰습니다.
3. 창발적 전문가 전문화
MoE 모델의 내부 동작을 분석한 결과, 훈련 과정에서 전문가들이 자발적으로 특정 모달리티에 특화되는 현상이 뚜렷하게 관찰되었습니다.
- 언어 전문가: 특정 전문가 그룹은 텍스트 토큰이 입력될 때만 거의 독점적으로 활성화되었습니다.
- 시각 전문가: 다른 전문가 그룹은 시각 토큰 처리에 집중적으로 사용되었습니다. 흥미롭게도, 이 시각 전문가들은 이미지 이해(인코딩)와 생성(디코딩) 작업 모두에 범용적으로 사용되어, RAE가 통합된 시각 표현을 학습했음을 뒷받침합니다.
- 멀티모달 전문가: 소수의 전문가들은 텍스트와 시각 정보가 교차하는 복잡한 추론이 필요할 때 주로 활성화되었습니다.
이는 MoE가 단순히 계산을 분산시키는 것을 넘어, 멀티모달 학습을 위한 효율적인 자원 분배 메커니즘으로 자연스럽게 기능함을 의미합니다.
4. Ablation Study: 설계 선택의 중요성
- 시각 표현: RAE, VAE, CLIP 인코더 등 다양한 시각 표현을 비교한 결과, RAE가 이해와 생성 모두에서 가장 균형 잡힌 최고의 성능을 보였습니다.
- 모달리티별 FFN: 트랜스포머 블록 내에 텍스트용과 시각용 FFN을 분리했을 때(MoE의 극단적 형태), 통합 FFN보다 성능이 향상되었습니다. 이는 각 모달리티에 특화된 처리 경로가 효과적임을 시사합니다.
- 손실 균형: 텍스트 손실과 시각 손실의 가중치를 수동으로 조절하는 대신, 손실 중심화(Loss Centering) 기법을 사용했을 때 학습이 더 안정적이고 최종 성능도 더 높았습니다.
비판적 평가
강점
- 체계적이고 근본적인 접근: 단편적인 성능 개선이 아닌, 멀티모달 모델 설계의 핵심 원리(확장성, 표현, 아키텍처)를 '처음부터' 탐구하여 명확한 가이드라인을 제시했습니다.
- '확장 비대칭성'이라는 새로운 발견: 이전에는 암묵적으로만 알려졌던 언어와 시각의 학습 요구량 차이를 정량적으로 규명하여, 향후 멀티모달 아키텍처 연구에 중요한 이론적 기반을 제공했습니다.
- MoE의 새로운 역할 제시: MoE를 단순한 모델 확장 기법이 아닌, 이질적인 모달리티를 조화시키는 근본적인 아키텍처 솔루션으로 그 역할을 재정의했습니다.
- 실용적인 설계 제안: RAE, MoE, 흐름 매칭, 손실 중심화 등 당장 실제 모델 개발에 적용할 수 있는 구체적이고 효과적인 기술 조합을 제시했습니다.
한계점 및 개선 방향
- 천문학적인 계산 비용: '처음부터' 대규모 모델을 학습하는 방식은 엄청난 양의 컴퓨팅 자원을 필요로 하므로, 학계나 소규모 그룹에서는 재현 및 추가 연구가 거의 불가능합니다.
- 데이터 의존성: 모델의 성능은 방대하고 고품질의 멀티모달 데이터셋에 크게 의존합니다. 데이터의 편향이나 노이즈가 모델의 성능과 안정성에 미치는 영향에 대한 분석이 더 필요합니다.
- '월드 모델' 능력의 초기 단계: 로봇 팔 제어와 같은 계획 능력은 아직 매우 기초적인 수준에 머물러 있습니다. 더 복잡하고 동적인 환경에서 장기적인 계획을 수립하는 능력으로 발전하기까지는 갈 길이 멉니다.
- 평가의 한계: 생성 모델의 평가는 여전히 어려운 문제입니다. FID나 VQA 점수만으로는 모델이 진정으로 세상을 '이해'했는지 측정하기 어렵습니다. 더 정교한 평가 방법론이 필요합니다.
향후 연구 방향
본 연구는 멀티모달 파운데이션 모델의 미래에 대한 수많은 가능성을 열어줍니다.
- 더 많은 모달리티로의 확장: 현재의 텍스트-시각 모델에 오디오, 촉각, 3D 공간 정보 등 더 다양한 모달리티를 통합하여 인간과 유사한 종합적인 감각을 갖춘 모델을 개발할 수 있습니다.
- 에이전트 및 로보틱스로의 발전: 본 연구에서 나타난 기초적인 '월드 모델' 능력을 강화하여, 복잡한 실제 환경에서 스스로 학습하고 작업을 수행하는 자율 에이전트(Autonomous Agent) 및 로봇 개발로 이어질 수 있습니다.
- MoE 아키텍처 고도화: 현재의 토큰 기반 라우팅을 넘어, 작업의 종류나 복잡도에 따라 전문가를 동적으로 할당하는 더 정교한 라우팅 알고리즘을 개발하여 효율성을 극대화할 수 있습니다.
- 효율적인 학습 방법 연구: 대규모 컴퓨팅 자원 없이도 유사한 성능을 낼 수 있는 지식 증류(Knowledge Distillation), 파라미터 효율적 미세조정(PEFT) 등 경량화 및 효율화 연구가 중요해질 것입니다.
실무 적용 가이드
이 논문의 아이디어를 실제 프로젝트에 적용하고자 하는 개발자를 위한 몇 가지 팁입니다.
- 시각 표현 선택: 새로운 멀티모달 모델을 구축할 때, 처음부터 직접 시각 인코더를 학습시키기보다는 강력한 사전 학습 RAE(예: SigLIP-2)를 활용하는 것이 좋습니다. 이는 높은 성능을 보장하고 학습 시간을 단축하는 효과적인 출발점입니다.
- 확장 계획 시 MoE 고려: 수십억 파라미터 이상의 모델로 확장할 계획이라면, Dense 모델보다는 MoE 아키텍처를 초기 설계부터 고려하는 것이 장기적으로 유리합니다. 이는 단순히 비용을 절감하는 것을 넘어, 모달리티 간 성능 균형을 맞추는 데 핵심적인 역할을 합니다.
- 손실 함수 균형 조정: 멀티모달 학습 시 각 손실의 스케일이 달라 학습이 불안정해지는 경우가 많습니다. 가중치를 수동으로 튜닝하는 데 시간을 낭비하기보다, 논문에서 제안한 손실 중심화(Loss Centering)나 다른 자동화된 손실 균형 기법을 도입하는 것을 적극 권장합니다.
- 데이터의 질과 구성이 핵심: 모델 아키텍처만큼이나 어떤 데이터를 어떤 비율로 섞어 학습시키느냐가 중요합니다. 단순한 이미지-캡션 쌍뿐만 아니라, 텍스트와 이미지가 자연스럽게 섞여 있는 웹 문서나 비디오 데이터를 포함하면 모델의 문맥 이해력과 추론 능력을 크게 향상시킬 수 있습니다.
결론
"Beyond Language Modeling"은 멀티모달 AI 연구의 새로운 지평을 연 기념비적인 논문입니다. 이 연구는 '확장 비대칭성'이라는 근본적인 문제를 정의하고, RAE와 MoE라는 구체적인 기술적 해법을 통해 이를 해결함으로써, 막연했던 통합 멀티모달 모델의 설계 공간에 명확한 등대를 밝혔습니다. 단순히 언어를 넘어, 시각적 경험을 통해 세상을 배우고 상호작용하는 AI는 더 이상 먼 미래의 이야기가 아닙니다. 본 연구는 인간과 같이 풍부한 방식으로 세상을 이해하고 소통하는 차세대 AI 에이전트로 나아가는 견고한 발판을 마련했으며, 앞으로 펼쳐질 멀티모달 AI 시대의 청사진을 제시하고 있습니다.
참고 자료
- 원본 논문: Tong, S., et al. (2026). Beyond Language Modeling: An Exploration of Multimodal Pretraining. arXiv:2603.03276. https://arxiv.org/abs/2603.03276
- 관련 코드 저장소 (가상): https://github.com/facebookresearch/transfusion
- 관련 블로그 포스트: Meta AI Blog: A new blueprint for building truly multimodal AI

![[논문 리뷰] Beyond Language Modeling: An Exploration of Multimodal Pretraining](/assets/images/blog/20260308-paper-2603-03276-beyond-language-modeling-an-ex.jpg)