VLM : 빠른 논문 리뷰 : REOrdering Patches Improves Vision Models
AI바라기
2025. 12. 15. 12:24
REOrdering Patches Improves Vision Models학습 노트
Terminology
Row-major (Raster-scan): 2D 이미지를 1D 시퀀스로 변환할 때 가장 보편적으로 사용되는 방식. 좌상단에서 시작해 한 줄씩 오른쪽으로 읽고 다음 줄로 넘어가는 순서.
Permutation Equivariance: 입력의 순서가 바뀌면 출력의 순서도 그에 맞춰 똑같이 바뀌는 성질. Full Self-attention을 사용하는 표준ViT는 이 성질을 가지므로 패치 순서가 모델 성능에 영향을 주지 않음.
Inductive Bias: 모델이 학습하지 않은 데이터에 대해 예측할 때 사용하는 가정이나 구조적 제약. (예:Longformer의 locality,Mamba의 recurrence).
Plackett-Luce Model: 순위(ranking) 또는 순열(permutation)에 대한 확률 분포를 모델링하는 방식. 이 논문에서는 패치의 순서를 결정하는 정책(Policy)으로 사용됨.
REINFORCE: 강화학습(RL)의 기본적인 Policy Gradient 알고리즘. 미분 불가능한 discrete action(순서 결정)을 최적화하기 위해 사용.
LZMA: 데이터 압축 알고리즘. 본 논문에서는 패치 순서에 따른 정보의 압축률(compressibility)을 측정하여, 좋은 순서의 초기값(Prior)을 찾는 데 사용함.
Purpose of the Paper
기존 연구의 한계 지적: 기존 Vision Model들은 2D 이미지를 1D 시퀀스로 펼칠 때, 관습적으로row-major순서를 사용해왔음. Full Self-attention(ViT)은 모든 토큰을 동시에 참조하므로 순서가 무관하지만,Transformer-XL,Longformer,Mamba와 같은Long-sequence efficient model들은 연산 효율성을 위해 Local attention이나 Recurrence를 도입함. 이로 인해Permutation Equivariance가 깨지고, 패치 입력 순서가 성능에 결정적인 영향을 미치게 됨.
문제 정의: "과연 인간이 정한 row-major 순서가 기계(특히 efficient architecture)에게 최적일까?"라는 의문을 제기하고,모델과 데이터셋에 따라 최적의 패치 순서가 다름을 규명함.
제안: 고정된 순서(Fixed ordering) 대신, 강화학습을 통해Task-optimal patch ordering을 스스로 학습하는 프레임워크인REOrder를 제안함.
Key Contributions & Novelty
Permutation Sensitivity 발견:
ViT와 달리,Transformer-XL,Longformer,Mamba등의 모델은 입력 순서에 따라 정확도가 크게 변동함을 실험적으로 증명함. (예:Transformer-XL은 ImageNet에서 spiral order가 row-major보다 6.43% 성능 저하).
REOrder Framework 제안:
Novelty 1 (Information-Theoretic Prior): 무작위 초기화 대신, 이미지 압축률(LZMA)을 기반으로 정보량이 효율적으로 연결되는 순서를 찾아 초기 정책(Prior)으로 사용함.
Novelty 2 (RL-based Ordering): 패치 순서 결정 문제를 조합 최적화(Combinatorial Optimization) 문제로 보고,Plackett-Luce distribution을 따르는 정책을REINFORCE알고리즘으로 학습시켜 최적 순열을 찾아냄. 이는 미분 불가능한 순서 정렬 문제를 해결한 방식임.
모델별 구조적 특성 규명:
학습된 순서를 분석한 결과,Mamba는 이미지 중앙의 중요한 패치를 시퀀스 **앞쪽(front-load)**으로 가져와 초기 hidden state를 강화하는 반면,Transformer-XL과Longformer는 문맥 정보를 충분히 쌓은 뒤 처리하기 위해 중앙 패치를 **뒤쪽(back-load)**으로 배치하는 경향을 발견함.
Experimental Highlights
Datasets & Models:
Datasets: ImageNet-1K (자연 이미지), Functional Map of the World (FMoW, 위성 이미지).
Models: ViT (Baseline), Transformer-XL, Longformer, Mamba (ARM).
주요 결과 (Performance Gains):
ImageNet-1K:REOrder적용 시 Row-major 대비 Top-1 accuracy 최대3.01%향상.
FMoW (위성 데이터):REOrder적용 시 최대 **13.35%**의 압도적인 성능 향상 기록. 위성 이미지는 자연 이미지와 공간적 특성이 다르므로 순서 최적화의 효과가 극대화됨.
Fixed Order Comparison: Column-major, Hilbert curve, Spiral, Snake 등 다양한 고정 순서와 비교했을 때도, 학습된 순서(REOrder)가 거의 모든 케이스에서 SOTA를 달성.
Mamba의 특이점:Mamba는 Causal scan 방향()이 고정되어 있어, 공간적 지역성(locality)을 보존하는 Hilbert curve보다Row/Column-major가 더 유리한 경우가 있음.REOrder는 이러한 모델의 구조적 편향(Inductive Bias)까지 고려하여 최적 순서를 찾아냄.
→,←,↓,↑→,←,↓,↑
Limitations and Future Work
Limitations:
Global Static Policy: 학습된 순서가 데이터셋 전체에 대해 **하나의 고정된 순서(Global ordering)**임. 즉, 개별 이미지의 콘텐츠(예: 물체가 왼쪽에 있는지 오른쪽에 있는지)에 따라 순서를 다르게 가져가는Dynamic ordering은 아님.
Huge Search Space:패치만 해도
196!196!
이라는 천문학적인 경우의 수가 존재하여, 완벽한 최적해를 찾았다고 보장하기 어려움.
14×1414×14
Computational Cost: 강화학습 탐색 과정이 추가되므로 학습 비용이 다소 증가함.
Future Work:
Dynamic Image Policy: 이미지의 내용(Content)을 분석하여이미지마다 다른 최적의 순서를 실시간으로 생성하는 경향성을 가진 경량화된 정책 네트워크 연구.
High-Resolution: GPU 메모리 한계가 큰 초고해상도 이미지()에서REOrder가 미치는 영향 분석 (현재 진행 중).
4K+4K+
Overall Summary
이 논문은 현대의 효율적인 Long-sequence vision model(Transformer-XL, Mamba등)이 기존의ViT와 달리 입력 패치의 순서에 민감하다는 사실을 밝혀냈다. 저자들은 단순히 관습적인Row-major방식을 따르는 것이 모델의 잠재력을 제한한다고 주장하며, 강화학습 기반의REOrder프레임워크를 통해 데이터와 모델 구조에 최적화된 패치 순서를 학습하는 방법을 제안했다. 실험 결과 ImageNet과 위성 이미지 데이터셋에서 유의미한 성능 향상을 입증했으며, 이는 Vision Model 설계 시"무엇을 보느냐"만큼 "어떤 순서로 보느냐"가 중요하다는 새로운 시각을 제시한다.
쉬운 설명
기존 방식 (ViT): 책을 읽을 때 한 페이지 전체를 한 번에 사진 찍듯이 봅니다. 그래서 문장 순서를 섞어놔도(단어 위치만 알면) 이해하는 데 문제가 없습니다.
새로운 모델들 (Mamba, Longformer): 책을한 줄씩 읽거나(Recurrence),주변 문장만 보면서(Locality)읽습니다. 이때 중요한 내용이 뒤죽박죽 섞여 있으면, 앞의 내용을 까먹거나 문맥을 파악하기 힘들어집니다.
이 논문의 아이디어 (REOrder): "책을 무조건 첫 줄부터 읽지 말고,가장 중요한 핵심 문장부터 먼저 읽거나, 이해하기 쉬운 순서대로 문장을 재배열해서 읽자!"
결과: 모델이 스스로 "이 모델은 가운데부터 읽는 게 좋아", "이 모델은 끝에서부터 읽는 게 좋아"라고 학습했더니, 정답률이 훨씬 올라갔습니다.