자가 지도 학습의 발전: 데이터 효율적인 학습을 향한 여정

현대의 인공지능(AI) 기술은 대부분 대량의 레이블이 있는 데이터에 의존하여 모델을 학습시킵니다. 그러나 현실 세계의 데이터 대부분은 레이블이 없으며, 수동으로 레이블을 만드는 작업은 막대한 비용과 시간이 소요됩니다. 이러한 문제를 해결하기 위한 강력한 접근 방식인 **자가 지도 학습(Self-Supervised Learning, SSL)**은 최근 AI 연구의 핵심으로 떠올랐습니다. 이번 블로그 포스트에서는 자가 지도 학습의 기본 개념과 그 중요성, 그리고 핵심적인 최신 기술들을 깊이 있게 살펴보겠습니다.

자가 지도 학습이란 무엇인가?

자가 지도 학습은 레이블이 없는 데이터 자체를 감독(supervision)의 원천으로 삼아 모델을 학습시키는 방법론입니다. 즉, 데이터의 일부를 의도적으로 숨기거나 변형한 뒤, 나머지 부분을 이용해 원본을 예측하거나 복원하는 **'사전 작업(Pretext Task)'**을 스스로 생성하여 학습합니다.

예를 들어, 문장에서 일부 단어를 가리고 주변 단어를 통해 가려진 단어를 맞추게 하거나(BERT), 이미지의 일부를 잘라내고 전체 이미지의 맥락을 통해 잘려나간 부분을 복원하게 하는(MAE) 식입니다.

이러한 사전 작업을 통해 모델은 데이터의 내재적인 구조와 의미론적 특징(semantic feature)을 담은 풍부한 **표현(representation)**을 학습하게 됩니다. 이렇게 사전 학습된 모델은 이후 소량의 레이블 데이터만으로도 특정 '하위 작업(Downstream Task)'(예: 이미지 분류, 객체 탐지)에 미세 조정(fine-tuning)하여 높은 성능을 달성할 수 있습니다.

자가 지도 학습의 중요성

자가 지도 학습은 다음과 같은 이유로 AI 분야의 패러다임을 바꾸고 있습니다.

데이터 효율성 극대화: 인터넷에 존재하는 방대한 양의 레이블 없는 텍스트, 이미지, 비디오 등을 학습에 활용할 수 있어 데이터 수집 및 레이블링 비용을 획기적으로 절감합니다.
강력한 일반화 성능: 레이블에만 의존하지 않고 데이터 본연의 구조를 학습하므로, 특정 데이터셋에 과적합될 위험이 적고 새로운 데이터나 태스크에 대해서도 뛰어난 일반화 능력을 보입니다.
파운데이션 모델의 기반: GPT, BERT, CLIP과 같은 거대 언어/비전 모델(파운데이션 모델)들은 모두 자가 지도 학습을 통해 방대한 데이터로부터 사전 학습되었으며, 다양한 AI 서비스의 기반 기술로 활용되고 있습니다.

자가 지도 학습의 핵심 접근법

자가 지도 학습에는 여러 기법이 존재하지만, 크게 대조 학습과 생성/예측 모델링 두 가지 흐름으로 나눌 수 있습니다.

1. 대조 학습 (Contrastive Learning)

대조 학습은 '비슷한 것은 가깝게, 다른 것은 멀게'라는 직관적인 아이디어를 기반으로 합니다. 동일한 데이터로부터 생성된 두 가지 다른 변형(augmentation)인 **'Positive Pair'**는 임베딩 공간에서 가깝게 만들고, 서로 다른 데이터에서 온 **'Negative Pair'**는 멀리 밀어내는 방식으로 학습합니다.

대표적인 대조 학습 손실 함수로는 InfoNCE가 있으며, 수식은 다음과 같습니다.

L_i = -\log \frac{\exp(\text{sim}(z_i, z_{i+}) / \tau)}{\sum_{k=1}^{N} \exp(\text{sim}(z_i, z_k) / \tau)}

여기서 $z_i$ 는 기준이 되는 데이터(anchor)의 임베딩, $z_{i+}$ 는 positive 샘플의 임베딩입니다. 분모는 anchor와 모든 샘플(positive 1개 + negative N-1개) 간의 유사도 합이며, $\tau$ 는 유사도 분포를 얼마나 날카롭게 만들지 결정하는 온도(temperature) 하이퍼파라미터입니다.

SimCLR, MoCo 등이 대표적인 대조 학습 기반 모델입니다.

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import transforms

# 간단한 인코더 모델 정의 (예: ResNet의 일부)
class Encoder(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 16, 3)
        self.pool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(16, 8) # 임베딩 차원: 8

    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = self.pool(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return F.normalize(x, dim=1) # L2 정규화가 중요

# 이미지에 적용할 두 가지 다른 변형
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.RandomResizedCrop(size=32),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.ColorJitter(brightness=0.5, contrast=0.5),
])

# 가상 데이터 (배치 크기: 4)
images = torch.randn(4, 3, 64, 64)

# 동일 이미지에 대해 두 개의 다른 뷰 생성
view1 = torch.stack([transform(img) for img in images])
view2 = torch.stack([transform(img) for img in images])

model = Encoder()

# 각 뷰를 인코더에 통과시켜 임베딩 획득
z1 = model(view1) # (4, 8)
z2 = model(view2) # (4, 8)

# InfoNCE Loss 계산 (간단한 구현)
def info_nce_loss(features1, features2, temperature=0.1):
    # 코사인 유사도 계산
    similarity_matrix = torch.matmul(features1, features2.T) / temperature
    # Positive pair는 대각선 요소
    labels = torch.arange(features1.shape[0]).to(features1.device)
    
    # CrossEntropyLoss가 log-softmax와 NLLLoss를 합친 것과 같음
    # 이를 이용해 InfoNCE를 간단히 계산 가능
    loss = F.cross_entropy(similarity_matrix, labels)
    return loss

loss = info_nce_loss(z1, z2)
print(f"InfoNCE Loss: {loss.item()}")

이 코드는 동일한 이미지 배치로부터 두 개의 다른 '뷰'를 만들고, 각 뷰를 인코더에 통과시켜 얻은 임베딩을 이용해 InfoNCE 손실을 계산하는 과정을 보여줍니다.

2. 생성/예측 모델링 (Generative/Predictive Modeling)

이 접근법은 데이터의 일부를 마스킹(masking)하고, 모델이 주변 맥락을 이용해 마스킹된 부분을 예측하거나 원본을 생성하도록 학습시킵니다.

가. 마스크 자동 인코더 (Masked Autoencoders)

자연어 처리의 BERT가 이 방식의 대표적인 예입니다. 문장에서 15%의 토큰을 무작위로 [MASK] 토큰으로 바꾼 뒤, 모델이 원래 토큰이 무엇이었는지 맞추도록 학습합니다. 이를 통해 모델은 양방향 문맥을 이해하는 능력을 기릅니다.

컴퓨터 비전에서는 **MAE(Masked Autoencoder)**가 동일한 아이디어를 적용합니다. 이미지의 75%에 달하는 패치(patch)를 대량으로 제거하고, 보이는 일부 패치만을 이용해 제거된 모든 패치를 복원하도록 학습합니다. 이를 통해 모델은 객체의 형태나 질감 등 이미지의 핵심적인 시각적 개념을 학습하게 됩니다.

# MAE의 개념적 의사 코드
def mae_pretraining(images, model):
    # 1. 이미지를 패치로 나누고, 일부 패치를 랜덤하게 마스킹
    visible_patches, masked_indices, unmasked_indices = patchify_and_mask(images, mask_ratio=0.75)
    
    # 2. 인코더는 보이는 패치만 처리
    encoded_features = model.encoder(visible_patches)
    
    # 3. 디코더는 인코딩된 피처와 마스크 토큰을 이용해 원본 픽셀 복원 시도
    predicted_pixels = model.decoder(encoded_features, masked_indices)
    
    # 4. 원본 픽셀과 예측된 픽셀 간의 MSE 손실 계산
    loss = mean_squared_error(images.patches(masked_indices), predicted_pixels)
    
    return loss

나. 자기 회귀 모델 (Autoregressive Models)

GPT와 같은 모델이 사용하는 방식으로, 데이터를 순차적인 시퀀스로 보고 이전 시퀀스가 주어졌을 때 다음 토큰(단어, 픽셀 등)이 무엇일지 예측하는 방식으로 학습합니다.

"오늘 날씨는 매우" 라는 시퀀스가 주어지면 "맑음" 이라는 다음 단어를 예측하는 것이 자기 회귀 모델의 사전 작업입니다. 이 과정을 통해 모델은 문법, 문맥, 세상의 지식 등 자연어의 복잡한 패턴을 학습합니다.

import torch
import torch.nn as nn

# 간단한 자기회귀 모델 (Transformer Decoder 기반)
# 입력: [token1, token2, token3]
# 출력: 각 위치에서 다음 토큰에 대한 확률 분포
# loss는 model_output[i]와 target_token[i+1] 간의 CrossEntropy로 계산

# 예시 시퀀스 데이터 (배치크기=1, 시퀀스길이=5)
# <BOS>, a, b, c, d
input_sequence = torch.tensor([[0, 1, 2, 3, 4]]) 

# 타겟 시퀀스는 한 칸씩 밀려서 생성
# a, b, c, d, <EOS>
target_sequence = torch.tensor([[1, 2, 3, 4, 5]])

# 모델은 이전 토큰들을 기반으로 다음 토큰을 예측
# model(input_sequence) -> predicted_logits (shape: 1, 5, vocab_size)

# 손실 계산
# loss = F.cross_entropy(predicted_logits.view(-1, vocab_size), target_sequence.view(-1))

결론

자가 지도 학습은 AI가 인간처럼 최소한의 정답만으로도 세상의 방대한 데이터로부터 스스로 학습할 수 있는 길을 열어주고 있습니다. 대조 학습과 생성/예측 모델링이라는 두 가지 강력한 축을 중심으로 발전하며, 이제는 언어와 비전을 넘어 오디오, 그래프, 멀티모달(CLIP, DALL-E 등) 등 다양한 영역으로 확장되고 있습니다.

이러한 기술들을 이해하고 활용한다면, 데이터 부족 문제를 해결하고 더욱 강력하고 일반화된 AI 모델을 구축하는 데 큰 도움이 될 것입니다.

더 깊이 있는 최신 연구 동향이 궁금하시다면, 최근 Nature에 게재된 리뷰 논문 Self-supervised learning unveils functional neuroanatomy을 참고하시길 권장합니다. 이 논문은 자가 지도 학습의 원리와 최신 동향을 훌륭하게 정리하고 있습니다.

자가 지도 학습의 발전: 데이터 효율적인 학습을 향한 여정

자가 지도 학습의 발전: 데이터 효율적인 학습을 향한 여정

자가 지도 학습이란 무엇인가?

자가 지도 학습의 중요성

자가 지도 학습의 핵심 접근법

1. 대조 학습 (Contrastive Learning)

2. 생성/예측 모델링 (Generative/Predictive Modeling)

가. 마스크 자동 인코더 (Masked Autoencoders)

나. 자기 회귀 모델 (Autoregressive Models)

결론

댓글

관련 포스트