AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : REOrdering Patches Improves Vision Models 본문

논문리뷰

VLM : 빠른 논문 리뷰 : REOrdering Patches Improves Vision Models

AI바라기 2025. 12. 15. 12:24

 

REOrdering Patches Improves Vision Models 학습 노트

Terminology

  • Row-major (Raster-scan): 2D 이미지를 1D 시퀀스로 변환할 때 가장 보편적으로 사용되는 방식. 좌상단에서 시작해 한 줄씩 오른쪽으로 읽고 다음 줄로 넘어가는 순서.
  • Permutation Equivariance: 입력의 순서가 바뀌면 출력의 순서도 그에 맞춰 똑같이 바뀌는 성질. Full Self-attention을 사용하는 표준 ViT는 이 성질을 가지므로 패치 순서가 모델 성능에 영향을 주지 않음.
  • Inductive Bias: 모델이 학습하지 않은 데이터에 대해 예측할 때 사용하는 가정이나 구조적 제약. (예: Longformer의 locality, Mamba의 recurrence).
  • Plackett-Luce Model: 순위(ranking) 또는 순열(permutation)에 대한 확률 분포를 모델링하는 방식. 이 논문에서는 패치의 순서를 결정하는 정책(Policy)으로 사용됨.
  • REINFORCE: 강화학습(RL)의 기본적인 Policy Gradient 알고리즘. 미분 불가능한 discrete action(순서 결정)을 최적화하기 위해 사용.
  • LZMA: 데이터 압축 알고리즘. 본 논문에서는 패치 순서에 따른 정보의 압축률(compressibility)을 측정하여, 좋은 순서의 초기값(Prior)을 찾는 데 사용함.

Purpose of the Paper

  • 기존 연구의 한계 지적: 기존 Vision Model들은 2D 이미지를 1D 시퀀스로 펼칠 때, 관습적으로 row-major 순서를 사용해왔음. Full Self-attention(ViT)은 모든 토큰을 동시에 참조하므로 순서가 무관하지만, Transformer-XL, Longformer, Mamba와 같은 Long-sequence efficient model들은 연산 효율성을 위해 Local attention이나 Recurrence를 도입함. 이로 인해 Permutation Equivariance가 깨지고, 패치 입력 순서가 성능에 결정적인 영향을 미치게 됨.
  • 문제 정의: "과연 인간이 정한 row-major 순서가 기계(특히 efficient architecture)에게 최적일까?"라는 의문을 제기하고, 모델과 데이터셋에 따라 최적의 패치 순서가 다름을 규명함.
  • 제안: 고정된 순서(Fixed ordering) 대신, 강화학습을 통해 Task-optimal patch ordering을 스스로 학습하는 프레임워크인 REOrder를 제안함.

Key Contributions & Novelty

  • Permutation Sensitivity 발견:
    • ViT와 달리, Transformer-XL, Longformer, Mamba 등의 모델은 입력 순서에 따라 정확도가 크게 변동함을 실험적으로 증명함. (예: Transformer-XL은 ImageNet에서 spiral order가 row-major보다 6.43% 성능 저하).
  • REOrder Framework 제안:
    • Novelty 1 (Information-Theoretic Prior): 무작위 초기화 대신, 이미지 압축률(LZMA)을 기반으로 정보량이 효율적으로 연결되는 순서를 찾아 초기 정책(Prior)으로 사용함.
    • Novelty 2 (RL-based Ordering): 패치 순서 결정 문제를 조합 최적화(Combinatorial Optimization) 문제로 보고, Plackett-Luce distribution을 따르는 정책을 REINFORCE 알고리즘으로 학습시켜 최적 순열을 찾아냄. 이는 미분 불가능한 순서 정렬 문제를 해결한 방식임.
  • 모델별 구조적 특성 규명:
    • 학습된 순서를 분석한 결과, Mamba는 이미지 중앙의 중요한 패치를 시퀀스 **앞쪽(front-load)**으로 가져와 초기 hidden state를 강화하는 반면, Transformer-XL Longformer는 문맥 정보를 충분히 쌓은 뒤 처리하기 위해 중앙 패치를 **뒤쪽(back-load)**으로 배치하는 경향을 발견함.

Experimental Highlights

  • Datasets & Models:
    • Datasets: ImageNet-1K (자연 이미지), Functional Map of the World (FMoW, 위성 이미지).
    • Models: ViT (Baseline), Transformer-XL, Longformer, Mamba (ARM).
  • 주요 결과 (Performance Gains):
    • ImageNet-1K: REOrder 적용 시 Row-major 대비 Top-1 accuracy 최대 3.01% 향상.
    • FMoW (위성 데이터): REOrder 적용 시 최대 **13.35%**의 압도적인 성능 향상 기록. 위성 이미지는 자연 이미지와 공간적 특성이 다르므로 순서 최적화의 효과가 극대화됨.
    • Fixed Order Comparison: Column-major, Hilbert curve, Spiral, Snake 등 다양한 고정 순서와 비교했을 때도, 학습된 순서(REOrder)가 거의 모든 케이스에서 SOTA를 달성.
  • Mamba의 특이점: Mamba는 Causal scan 방향()이 고정되어 있어, 공간적 지역성(locality)을 보존하는 Hilbert curve보다 Row/Column-major가 더 유리한 경우가 있음. REOrder는 이러한 모델의 구조적 편향(Inductive Bias)까지 고려하여 최적 순서를 찾아냄.
  • →,←,↓,↑

Limitations and Future Work

  • Limitations:
    • Global Static Policy: 학습된 순서가 데이터셋 전체에 대해 **하나의 고정된 순서(Global ordering)**임. 즉, 개별 이미지의 콘텐츠(예: 물체가 왼쪽에 있는지 오른쪽에 있는지)에 따라 순서를 다르게 가져가는 Dynamic ordering은 아님.
    • Huge Search Space:  패치만 해도 
      196!196!
      이라는 천문학적인 경우의 수가 존재하여, 완벽한 최적해를 찾았다고 보장하기 어려움.
    • 14×14
    • Computational Cost: 강화학습 탐색 과정이 추가되므로 학습 비용이 다소 증가함.
  • Future Work:
    • Dynamic Image Policy: 이미지의 내용(Content)을 분석하여 이미지마다 다른 최적의 순서를 실시간으로 생성하는 경향성을 가진 경량화된 정책 네트워크 연구.
    • High-Resolution: GPU 메모리 한계가 큰 초고해상도 이미지()에서 REOrder가 미치는 영향 분석 (현재 진행 중).
    • 4K+

Overall Summary

이 논문은 현대의 효율적인 Long-sequence vision model(Transformer-XL, Mamba 등)이 기존의 ViT와 달리 입력 패치의 순서에 민감하다는 사실을 밝혀냈다. 저자들은 단순히 관습적인 Row-major 방식을 따르는 것이 모델의 잠재력을 제한한다고 주장하며, 강화학습 기반의 REOrder 프레임워크를 통해 데이터와 모델 구조에 최적화된 패치 순서를 학습하는 방법을 제안했다. 실험 결과 ImageNet과 위성 이미지 데이터셋에서 유의미한 성능 향상을 입증했으며, 이는 Vision Model 설계 시 "무엇을 보느냐"만큼 "어떤 순서로 보느냐"가 중요하다는 새로운 시각을 제시한다.


쉬운 설명

  • 기존 방식 (ViT): 책을 읽을 때 한 페이지 전체를 한 번에 사진 찍듯이 봅니다. 그래서 문장 순서를 섞어놔도(단어 위치만 알면) 이해하는 데 문제가 없습니다.
  • 새로운 모델들 (Mamba, Longformer): 책을 한 줄씩 읽거나(Recurrence), 주변 문장만 보면서(Locality) 읽습니다. 이때 중요한 내용이 뒤죽박죽 섞여 있으면, 앞의 내용을 까먹거나 문맥을 파악하기 힘들어집니다.
  • 이 논문의 아이디어 (REOrder): "책을 무조건 첫 줄부터 읽지 말고, 가장 중요한 핵심 문장부터 먼저 읽거나, 이해하기 쉬운 순서대로 문장을 재배열해서 읽자!"
  • 결과: 모델이 스스로 "이 모델은 가운데부터 읽는 게 좋아", "이 모델은 끝에서부터 읽는 게 좋아"라고 학습했더니, 정답률이 훨씬 올라갔습니다.

 

 

 

 

 

 

 

주인장 이해

더보기

 

순서를 바꿔서 했더니 모델마다 성능 증가, 맘바 같은 경우엔 가운데부터 보는게 가장 좋았음.