AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : VISUAL JIGSAW POST-TRAINING IMPROVES MLLMS 본문

논문리뷰

VLM : 빠른 논문 리뷰 : VISUAL JIGSAW POST-TRAINING IMPROVES MLLMS

AI바라기 2025. 10. 1. 11:42

쉬운 설명

이 논문의 핵심 아이디어는 MLLM에게 "이 그림에 무엇이 있니?" 라고 묻는 대신, "내가 이 그림을 퍼즐처럼 섞어 놨는데, 원래대로 다시 맞춰봐" 라고 시키는 것과 같습니다. 이 과정을 통해 모델은 단순히 그림 안의 객체를 인식하는 것을 넘어, 객체들 간의 공간적 관계(이미지), 사건의 시간적 순서(비디오), 또는 사물의 깊이(3D)와 같은 '구조적 정보' 를 스스로 터득하게 됩니다. 이는 마치 외국어를 배울 때 단어만 외우는 것이 아니라, 문법과 문장 구조를 함께 배워야 더 깊이 있는 이해가 가능한 것과 같은 원리입니다.

 

용어 설명 (Terminology)

  • MLLMs (Multimodal Large Language Models): Text뿐만 아니라 Image, Video 등 여러 modality의 정보를 함께 이해하고 처리할 수 있는 대규모 언어 모델.
  • Post-training: 대규모 데이터로 사전 학습(pre-training)이 완료된 모델을 특정 목적이나 능력을 강화하기 위해 추가로 학습하는 단계.
  • Vision-centric: Text 정보에 의존하기보다 시각(visual) 신호 자체의 깊이 있는 이해에 초점을 맞추는 방식.
  • Text-centric: 시각 정보를 text 기반의 추론을 위한 보조적인 단서로 주로 활용하는 방식.
  • Visual Jigsaw: 본 논문에서 제안하는 self-supervised post-training framework. 시각적 입력(Image, Video, 3D data)을 여러 조각으로 나누고 섞은 뒤, 모델이 원래 순서를 맞추도록 하는 과제.
  • RLVR (Reinforcement Learning from Verifiable Rewards): 사람의 피드백 대신, 정답이 명확하게 존재하여 검증 가능한 보상(verifiable rewards)을 통해 강화학습을 수행하는 방식. Jigsaw puzzle의 정답은 명확하므로 RLVR에 적합.
  • GRPO (Group Relative Policy Optimization): 본 연구에서 Jigsaw task를 최적화하기 위해 사용된 RL 알고리즘.
  • SFT (Supervised Fine-Tuning): 정답이 정해진 데이터셋을 이용해 모델을 지도학습 방식으로 미세 조정하는 것.

Purpose of the Paper

  • 기존 MLLM의 post-training 패러다임이 주로 text 기반의 reasoning 능력 향상에 치우쳐, 시각 신호 자체를 깊이 있게 이해하는 intrinsic visual understanding 능력이 저평가(undervalued) 되고 있는 한계를 극복하고자 함.
  • 대부분의 MLLM이 시각 정보를 text 기반 추론을 위한 희소한 단서(sparse cues)로만 활용하는 문제를 지적.
  • 기존의 visual understanding 향상 연구들이 별도의 visual generative component를 추가하거나 모델 구조 변경을 요구했던 것과 달리, 기존 MLLM 구조를 변경하지 않고 시각 능력을 강화할 수 있는 새로운 post-training 접근 방식을 제시하는 것을 목표로 함.

Key Contributions & Novelty

  • Contribution 1: Visual Jigsaw Framework 제안
    • Image, Video, 3D data 등 다양한 modality에 적용 가능한 generic self-supervised post-training task를 제안.
    • Novelty: 복잡한 visual reconstruction 대신, 조각의 순서를 맞추는 가볍고(lightweight) 검증 가능한(verifiable) ordering problem으로 시각 이해 능력을 학습. 이는 별도의 annotation이나 generative module 없이 자동으로 supervisory signal을 생성할 수 있게 함.
  • Contribution 2: 다양한 Modality로의 확장성 입증
    • Visual Jigsaw를 Image (공간적 순서), Video (시간적 순서), 3D data (깊이 순서)의 세 가지 핵심 visual modality에 모두 적용하여 그 **일반성(generality)과 효과성(effectiveness)**을 실험적으로 증명.
    • Novelty: 단일 modality에 국한되지 않고, 여러 시각 modality의 핵심적인 특성(공간, 시간, 깊이)을 학습할 수 있는 통합된 post-training framework를 제시했다는 점.
  • Contribution 3: Vision-centric Self-supervised Task의 잠재력 제시
    • Text에 의존하지 않고 오직 visual signal 자체에 집중하는 self-supervised task가 MLLM의 fine-grained perception, temporal reasoning, 3D spatial understanding 능력을 크게 향상시킬 수 있음을 보여줌.
    • Novelty: RLVR 패러다임과 결합하여, supervision이 적은 self-supervised task만으로도 downstream task에 대한 일반화 성능(generalization)을 효과적으로 높일 수 있다는 새로운 연구 방향을 제시.

Experimental Highlights

  • Baselines & Datasets:
    • Base Model: Qwen2.5-VL-7B-Instruct
    • Baselines: ThinkLite-VL, VL-Cogito, LLaVA-Critic-R1 등 reasoning에 초점을 둔 post-trained 모델들.
    • Image Benchmarks: MMVP, MMBench, VSR, Winoground 등 fine-grained, spatial, compositional understanding 평가.
    • Video Benchmarks: AoTBench, TOMATO, CVBench 등 temporal reasoning 평가.
    • 3D Benchmarks: SAT-Real, 3DSRBench, DA-2K 등 3D spatial reasoning 평가.
  • Key Results:
    • Image Jigsaw (Table 1): Qwen2.5-VL-7B 대비, fine-grained perception (MMVP +6.00), spatial understanding (VSR +2.68), compositional understanding (Winoground +5.90) 등 모든 vision-centric benchmark에서 일관된 성능 향상을 보임.
    • Video Jigsaw (Table 2): 특히 시간 순서와 방향성 이해가 중요한 AoTBench에서 큰 폭의 성능 향상(최대 +6.15)을 달성.
    • 3D Jigsaw (Table 3): 깊이 순서 맞추기와 직접적으로 관련된 DA-2K benchmark에서 +17.11이라는 매우 큰 성능 향상을 기록했으며, 다른 3D perception task에서도 전반적인 성능이 향상됨.
    • SFT vs. RL (Section 4.3): SFT로 학습했을 때는 일부 benchmark에서 성능이 하락하는 등 overfitting 경향을 보였으나, RL로 학습했을 때 더 작지만 일관된 성능 향상을 보여 RL이 더 나은 일반화(generalization) 능력을 이끌어냄을 확인.

Limitations and Future Work

  • Limitations:
    • Image와 Video Jigsaw에 적용된 formulation이 비교적 단순함 (e.g., 동일한 크기의 조각 사용). 더 복잡하고 다양한 Jigsaw 구성을 탐색할 필요가 있음.
    • Computational-cost 문제로 대규모 데이터셋과 거대 모델에 대한 scalability를 충분히 검증하지 못함.
    • 3D modality에서 시도했던 다른 Jigsaw 변형(View-Motion Matching 등)들은 기대만큼의 성능 향상을 이끌어내지 못했는데, 이는 baseline MLLM의 3D 이해 능력이 아직 부족하기 때문일 수 있음.
  • Future Work:
    • 공간과 시간을 함께 고려하는 등 더 복잡한 hybrid jigsaw task를 탐색.
    • 더 큰 모델과 데이터셋에 Visual Jigsaw를 적용하여 scalability를 연구.
    • Jigsaw 외에도 다양한 vision-centric self-supervised task를 발굴하여 MLLM의 perceptual/reasoning 능력을 향상시키는 연구를 지속.

Overall Summary

이 논문은 기존 MLLM post-training이 text 기반 reasoning에 편중되어 시각 정보 자체의 이해 능력이 부족하다는 문제를 해결하기 위해 Visual Jigsaw라는 새로운 self-supervised framework를 제안한다. Visual Jigsaw는 Image, Video, 3D 데이터를 조각내고 섞은 뒤 원래 순서를 맞추게 하는 간단한 과제를 통해, 모델 구조 변경 없이 시각 이해의 핵심 능력(공간, 시간, 깊이)을 크게 향상시킨다. 이 연구는 vision-centric self-supervised task가 MLLM의 근본적인 시각 인지 능력을 강화하는 효과적이고 보완적인 경로가 될 수 있음을 입증하며, 향후 MLLM 발전의 새로운 방향을 제시했다는 점에서 중요한 의의를 가진다.

 

 

 

 

 

 

위와 같은 재조합을 통해 시각 능력을 향상 시킴