AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models 본문
논문리뷰
VLM : 빠른 논문 리뷰 : Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
AI바라기 2025. 12. 15. 17:30이 논문 Eagle 2.5에 대한 핵심 요약 노트입니다.
Terminology
- Information-First Sampling: 시각적 정보와 텍스트 정보의 손실을 최소화하기 위해 제안된 Eagle 2.5의 핵심 데이터 처리 전략. **Image Area Preservation (IAP)**와 Automatic Degradation Sampling (ADS) 두 가지 기법으로 구성됨.
- Automatic Degradation Sampling (ADS): 고정된 visual token 수를 할당하는 기존 방식과 달리, Text token을 온전하게 보존하는 것을 최우선으로 하고 남은 context budget 내에서 visual content(frames/tiles)를 동적으로 최적화하여 채워 넣는 전략.
- Image Area Preservation (IAP): 고해상도 이미지를 처리할 때, 기존 모델(InternVL 등)의 경직된 aspect ratio 제약을 피하고 원본 이미지의 면적과 비율을 최대한 유지하면서 타일링(tiling)하는 기법.
- Eagle-Video-110K: 이 논문에서 새롭게 구축한 long-video understanding 데이터셋. Top-down story-level 어노테이션과 Bottom-up clip-level 어노테이션이 통합된 구조가 특징.
- Progressive Mixed Post-Training: 모델이 다양한 길이의 입력을 처리할 수 있도록, 훈련 과정에서 context length ()를 점진적으로 늘려가는(32K
64K→→
128K) 학습 스케줄링 방식.→→ - Lmax
Purpose of the Paper
- Native Long-Context의 부재 해결: 기존 Vision-Language Models (VLMs)는 짧은 비디오나 적은 수의 이미지를 처리하는 데 집중되어 있음. Long video comprehension이나 High-resolution image understanding을 위한 Long-context 처리는 미비하거나, 외부 compression/selection 모듈에 의존하여 정보 손실이 발생하는 한계가 있었음.
- Architecture 및 Training Recipe의 최적화: 단순히 context window만 늘리는 것이 아니라, 늘어난 입력을 효과적으로 처리하여 성능 향상으로 연결시키기 위한 최적의 sampling 전략(Information-First Sampling)과 training schedule(Progressive training)을 제안함.
- 효율적인 고성능 모델 제시: 70B 이상의 거대 모델이나 상용 모델(GPT-4o)과 경쟁할 수 있는 성능을 가진, 상대적으로 가벼운 8B parameter 규모의 효율적인 모델을 개발하고자 함.
Key Contributions
- Generalist Framework for Long-Context:
- Long video와 High-resolution image를 동시에 잘 처리하는 통합 프레임워크 제안.
- 별도의 복잡한 compression 모듈 없이 Native 하게 long context를 처리하며 SOTA 성능 달성.
- Information-First Sampling Strategy (Novelty):
- Novelty (vs. InternVL, LLaVA-OneVision): 기존 모델들이 고정된 그리드나 aspect ratio를 강제하여 이미지 왜곡을 초래하거나 텍스트가 잘리는(truncation) 문제를 해결함.
- Mechanism: ADS를 통해 텍스트 완전성을 보장하면서 visual information density를 최대화하고, IAP를 통해 원본 이미지의 비율과 해상도 정보를 최대한 보존함.
- Eagle-Video-110K Dataset:
- 기존 데이터셋의 한계(짧은 길이, 단순한 캡션)를 극복하기 위해 구축됨.
- Dual Annotation Strategy: 전체적인 서사를 파악하는 Story-level (human-annotated chapters 기반)과 세부적인 시공간 정보를 파악하는 Clip-level (GPT-4o 기반) 데이터를 결합하고, 이를 연결하는 Time/Texture Anchor를 도입하여 Hallucination을 줄이고 정밀한 이해를 도움.
- Progressive Mixed Post-Training:
- Training data를 단순히 섞는 것을 넘어, sequence length를 32K에서 128K까지 단계적으로 확장하여 학습 안정성과 성능을 동시에 확보함.
Experimental Highlights
- State-of-the-Art Performance:
- Video-MME (Long Video Benchmark): Eagle 2.5-8B 모델은 **72.4%**의 점수를 기록. 이는 동급(8B) 모델들을 크게 상회하며, Qwen2.5-VL-72B나 GPT-4o와 같은 최상위 모델과 대등한 수준임.
- DocVQA (High-Res Image Benchmark): **94.1%**를 달성하여 고해상도 문서 이해 능력 입증.
- Scalability with Frame Counts:
- 입력 프레임 수가 증가(최대 512 frames)함에 따라 성능이 꾸준히 향상됨을 확인 (Figure 1). 이는 기존 모델들이 프레임 수가 늘어나면 성능이 정체되거나 하락하는 것과 대조적.
- Ablation Studies:
- IAP & ADS 효과: IAP를 제거하면 고해상도 벤치마크(InfoVQA 등) 성능이 급락하고, ADS를 제거하면 전반적인 성능 저하 및 학습 불안정 발생 확인.
- Eagle-Video-110K 효과: 이 데이터셋을 추가했을 때 Video-MME 등 long-video 벤치마크 점수가 유의미하게 상승함.
Limitations and Future Work
- Computation vs. Extremely Long Context:
- Limitation: Progressive training과 효율화 기법을 도입했으나, 여전히 매우 긴 비디오(수천 프레임 이상)를 원본 해상도로 처리하는 것은 memory/computation cost가 높음. 512 프레임 이상에서의 효율성 문제는 여전히 존재.
- Future Work: 더 효율적인 attention 메커니즘이나 토큰 처리 방식 연구 필요.
- Data Scarcity for Extreme Lengths:
- Limitation: Eagle-Video-110K를 구축했으나, 여전히 영화 전체나 매우 긴 CCTV 영상 등 극단적으로 긴 비디오에 대한 고품질 QA 데이터는 부족함.
- Future Work: 더 다양한 도메인과 길이를 포괄하는 대규모 long-context 데이터셋 지속 구축 및 합성 데이터 활용 연구.
Overall Summary
이 논문은 Long-context(긴 영상, 고해상도 이미지) 이해에 특화된 8B 규모의 VLM인 Eagle 2.5를 제안합니다. Information-First Sampling (IAP, ADS) 전략을 통해 시각적/언어적 정보 손실을 최소화하고, 단계적인 Progressive Mixed Post-Training과 새로운 데이터셋 Eagle-Video-110K를 도입하여 기존 모델들의 한계를 극복했습니다. 결과적으로 Eagle 2.5는 훨씬 적은 파라미터로도 GPT-4o나 72B급 오픈소스 모델과 대등한 Long-context performance를 달성하여, 효율적인 Long-context VLM 연구의 새로운 기준점을 제시했습니다.
쉬운 설명 (Easy Explanation)
Eagle 2.5의 핵심 아이디어는 "가방 싸기(Packing)의 달인"이 되는 것과 같습니다.
- 기존 모델들 (비효율적인 짐 싸기): 여행 가방(Context Window)에 짐을 넣을 때, 무조건 사진(이미지/영상 프레임)을 정해진 크기로 접어서(Resize) 정해진 개수만큼 넣으려고 합니다. 그러다 보니 중요한 설명서(텍스트 질문/답변)를 넣을 자리가 부족해서 설명서를 잘라버리거나, 큰 지도를 억지로 작게 접어서 내용을 알아볼 수 없게 만듭니다.
- Eagle 2.5 (Information-First Sampling):
- 설명서 먼저 (Text Priority): 중요한 설명서(텍스트)는 절대 자르지 않고 가장 먼저 온전하게 가방에 넣습니다. (ADS)
- 빈틈없이 채우기 (Dynamic Visual Token): 남은 공간에 맞춰서 사진을 최대한 많이 넣습니다. 이때 사진을 억지로 구겨 넣지 않고(Why rigid aspect ratio?), 사진의 원래 비율을 유지하면서 가방 공간에 맞춰 조각내어(Flexible Tiling) 빈틈없이 채웁니다. (IAP)
- 점점 큰 가방 쓰기 (Progressive Training): 처음부터 엄청 큰 이민 가방(128K context)을 싸는 연습을 하면 힘드니까, 처음엔 작은 배낭(32K), 그다음엔 캐리어(64K), 마지막에 이민 가방 순서로 짐 싸는 연습을 시킵니다.
이렇게 똑똑하게 정보를 입력받으니, 훨씬 작은 덩치(8B 모델)로도 거인들(72B, GPT-4o)만큼이나 긴 영상을 잘 이해하고 고해상도 글자도 잘 읽을 수 있게 된 것입니다.
주인장 이해
더보기
컨텍스트에 비디오나 이미지를 max를 넘지 않게 잘 할당하여 온전한 정보만 사용해서 모델을 학습
즉 데이터 필터링 논문에 가까움