AI바라기의 인공지능
VLM : 논문 리뷰 : Can Vision-Language Models Solve the Shell Game? 본문
용어 설명
- VET-Bench (Visual Entity Tracking Benchmark): 이 논문에서 새롭게 제안한 synthetic diagnostic testbed. 외형이 완전히 동일한 객체들을 사용하여, 모델이 static frame-level feature(시각적 꼼수)에 의존하지 않고 오직 spatiotemporal continuity(시공간적 연속성)만을 통해 대상을 추적할 수 있는지 평가합니다.
- Visual Entity Tracking: 대상의 외형이 아닌 시공간적 움직임과 연속성을 기반으로 시간이 지남에 따라 특정 엔티티를 추적하는 능력.
- SGCoT (Spatiotemporal Grounded Chain-of-Thought): 논문에서 제안한 해결책. 최종 답변을 내기 전에, 모델이 중간 추론 과정으로 객체의 이동 경로(정확한 timestamp와 spatial coordinates)를 명시적으로 생성하게 만드는 기법입니다.
- NC1-complete: 계산 복잡도 클래스의 하나. 본 논문에서는 visual entity tracking 문제가 이 클래스에 속함을 수학적으로 증명했으며, 이는 fixed-depth transformer 구조의 VLM이 중간 연산(CoT) 없이는 이 문제를 본질적으로 풀 수 없음을 의미합니다.
- Shell Game / Cups Game: 야바위 게임. 똑같이 생긴 컵 아래에 공을 숨기고 섞은 뒤 공의 위치를 찾는 게임으로, visual entity tracking 능력을 테스트하는 핵심 task입니다.
- Event Hallucination: 모델이 초기 상태는 정확히 인식하지만, 실제로는 발생하지 않은 일련의 움직임(존재하지 않는 swap)을 환각(hallucination)하여 최종적으로 오답을 내는 현상입니다.
Purpose of the Paper
- 기존 연구의 한계: Perception Test와 같은 기존 video benchmarks는 컵의 색깔이 다르거나 투명한 컵이 포함되는 등 "visual shortcuts(시각적 꼼수)"를 포함하고 있습니다. 이로 인해 Vision-Language Models (VLMs)는 실제로 객체를 추적(tracking)하지 않고도 단일 프레임의 특징만으로 정답을 맞히는 문제가 있었습니다.
- 문제 정의 및 목표: 현재 VLM이 지닌 fine-grained spatiotemporal perception(세밀한 시공간 지각) 능력의 치명적인 병목 현상을 진단하고자 했습니다. 이를 위해 시각적 단서를 완전히 제거한 야바위 게임(Shell Game) 환경을 구축하고, VLM이 인간 수준의 진정한 visual entity tracking을 수행할 수 있는지 검증 및 해결책을 제시하고자 했습니다.
Key Contributions & Novelty
- VET-Bench 제안 (진단용 Benchmark): 외형적 차이나 frame-level cues를 완벽히 제거한 100% 동일한 객체들로 구성된 VET-Bench를 구축하여, 모델의 순수 tracking 능력을 평가하는 엄격한 기준을 제시했습니다.
- SOTA 모델들의 근본적 한계 규명: Gemini-3-Pro, Qwen3-VL 등 최신 proprietary 및 open-source video VLMs를 평가한 결과, 모든 모델이 VET-Bench에서 random chance(찍기 수준)의 성능을 보임을 밝혀냈습니다.
- 수학적 증명 (이론적 한계 증명): Visual entity tracking이 NC1-complete 문제임을 증명했습니다. 즉, fixed-depth transformer 기반의 VLM은 구조적 특성상 중간 추론 과정(intermediate computation) 없이는 이 문제를 푸는 것이 불가능하다는 것을 이론적으로 입증한 독창적 기여입니다.
- SGCoT 제안 및 SOTA 달성 (해결책): 단순한 텍스트 묘사가 아닌, 정확한 시간(timestamp)과 공간 좌표(coordinates)를 결합한 SGCoT (Spatiotemporal Grounded Chain-of-Thought) 를 도입했습니다. Molmo2 모델을 text-only 데이터로 fine-tuning하여, 시각적 추론을 물리적 궤적 생성 과정으로 변환함으로써 문제를 해결한 점이 매우 참신합니다.
Experimental Highlights
- 핵심 결과 1 (Baselines의 실패): 3개의 객체 중 하나를 찾는 실험(random baseline 33%)에서, 평가된 모든 최신 VLM(Gemini-3-Pro, Qwen3-VL 등)이 30~34%의 정확도를 기록하며 사실상 문제를 전혀 풀지 못했습니다. 단 1번의 swap만 발생해도 성능이 random chance로 급락했습니다.
- 핵심 결과 2 (Direct-Answer 학습의 실패 검증): Qwen2.5-VL-3B-Instruct 모델에 CoT 없이 정답만(direct-answer) 주어 60 epoch 이상 학습시켰으나, loss가 감소하지 않고 random chance 수준에 머물렀습니다. 이는 이론적으로 증명한 "transformer는 중간 과정 없이 이 문제를 풀 수 없다"는 가설을 완벽히 검증한 결과입니다.
- 핵심 결과 3 (Molmo2-SGCoT의 SOTA 달성): 제안한 SGCoT를 적용한 Molmo2-SGCoT 모델은 VET-Bench에서 90% 이상의 정확도(state-of-the-art) 를 달성했습니다. 특히 video input 없이 text-only trajectory 데이터 300개만 사용하여 단 3분(Single A100 GPU)만에 학습을 완료하는 극강의 효율성을 보여주었습니다.
Limitations and Future Work
- Limitations: VET-Bench는 최종 정답이 SGCoT로 생성된 위치 정보만으로 완전히 결정되는 단순화된 환경(simplified setting)을 가정합니다. 현실 세계에서는 화면 내의 다른 시각적 맥락(예: "특정 인물의 시점 기준에서 위치")과 결합해야 하는 경우가 많으며, 모션 블러, 객체 간의 겹침, 심각한 가림(occlusion) 등 물리적 제약이 존재할 때 SGCoT가 에러를 누적할 수 있다는 한계가 있습니다.
- Future Work: SGCoT를 임의의 프레임에 걸친 복잡한 referring expressions와 통합하는 연구가 필요합니다. 또한, 물체가 가려지거나 겹치는 복잡한 상황에서도 robust tracking이 가능하도록 모델에 더 강력한 물리적 사전 지식(physical priors)이나 world models를 결합하여 한계를 극복하는 방향을 제시했습니다.
Overall Summary
이 논문은 현재의 최신 Vision-Language Models가 단일 이미지의 특징(shortcuts)에 의존할 뿐, 시간의 흐름에 따른 대상의 움직임을 추적하는 진정한 Visual Entity Tracking 능력은 전혀 갖추지 못했음을 VET-Bench를 통해 폭로했습니다. 나아가 Transformer 구조는 본질적으로 중간 과정 없이는 이 문제를 풀 수 없음을 수학적으로 증명했으며, 타임스탬프와 공간 좌표를 직접 생성하며 추론하는 SGCoT (Spatiotemporal Grounded Chain-of-Thought) 방법론을 도입해 90% 이상의 SOTA 성능을 달성했습니다. 이는 VLM이 비디오 내의 복잡한 물리적/시간적 역학을 이해하고 reasoning하기 위해 나아가야 할 새로운 프롬프팅 및 학습 패러다임을 제시한 중요한 연구입니다.
쉬운 설명
이 논문은 마치 **"동체 시력 테스트와 야바위 게임"**과 같습니다. 기존 AI 모델들은 컵이 섞이는 과정을 눈으로 쫓아간 것이 아니라, 투명한 컵이나 미세하게 다른 컵의 얼룩 같은 "꼼수"를 보고 정답을 맞혀왔습니다. 이 논문이 꼼수를 완전히 없앤 똑같은 컵으로 진짜 야바위 게임을 시켜보니, 현존하는 가장 똑똑한 AI조차 그냥 찍는 수준(33%)이라는 것을 밝혀냈습니다. 게다가 AI의 뇌 구조(Transformer) 자체의 한계 때문에 정답만 외우게 시키면 절대 이 게임을 배울 수 없다는 것을 수학적으로 증명했습니다.
이를 해결하기 위해 논문은 AI에게 "손가락으로 컵을 짚어가며 쫓아가도록(SGCoT)" 가르쳤습니다. "0.5초에 X:10, Y:20 위치에 컵이 움직였어"라고 매 순간의 궤적을 명시적으로 적으면서 추론하게 만들었더니, 외부 도구 없이도 정답률이 90% 이상으로 껑충 뛰었습니다. 즉, 두루뭉술한 말로 설명하게 하는 대신, 정확한 시공간 좌표를 찍어가며 추론하게 만드는 것이 비디오 이해의 핵심이라는 것을 증명한 것입니다.
Abstract
Visual entity tracking은 인간의 타고난 인지 능력이지만, Vision-Language Models (VLMs)에게는 여전히 중요한 bottleneck으로 남아 있습니다. 이러한 결함은 종종 기존 video benchmarks에서 visual shortcuts에 의해 가려집니다. 우리는 오로지 spatiotemporal continuity를 통해서만 tracking을 필요로 하는 visually identical objects를 특징으로 하는 synthetic diagnostic testbed인 VET-Bench를 소개합니다.
우리의 실험은 현재의 state-of-the-art VLMs가 VET-Bench에서 chance level이거나 그에 가까운 수준으로 수행된다는 것을 밝혀내며, static frame-level features에 대한 과도한 의존과 시간이 지남에 따라 entity representations를 유지하지 못하는 근본적인 한계를 노출합니다. 우리는 state-tracking problem과의 연관성을 도출하는 theoretical analysis를 제공하여, fixed-depth transformer-based VLMs가 expressivity constraints로 인해 intermediate supervision 없이 indistinguishable objects를 tracking하는 데 근본적으로 한계가 있음을 증명합니다.
이를 해결하기 위해, 우리는 explicit intermediate states로서 object trajectories를 generating하는 Spatiotemporal Grounded Chain-of-Thought (SGCoT)를 제안합니다. Molmo2의 object tracking 능력을 활용하여, 우리는 alignment를 위해 synthesized text-only data에 fine-tuning을 수행함으로써 SGCoT reasoning을 이끌어냅니다. 우리의 방법은 VET-Bench에서 90%를 초과하는 state-of-the-art accuracy를 달성하며, VLMs가 external tools 없이 end-to-end로 video shell-game task를 안정적으로 해결할 수 있음을 입증합니다.
1 Introduction
Vision-Language Models (VLMs)는 일반적인 video understanding 및 reasoning에서 놀라운 능력을 입증했습니다. 그러나 시간이 지남에 따라 track entities를 수행하는 능력, 구체적으로 low-level perception은 여전히 중요한 bottleneck으로 남아 있습니다. 우리는 video VLMs가 야바위 게임(shell game)과 같은 visual entity tracking tasks에서 어떻게 수행되는지 조사합니다. 이러한 작업은 인간과 일부 동물에게는 종종 힘들이지 않고 가능하지만, 현재의 VLMs에게는 상당한 어려움을 안겨주며, embodied AI 및 일반적인 game-playing agents와 같은 많은 downstream applications에 필수적인 능력인 fine-grained spatiotemporal perception에 대한 핵심적인 한계를 강조합니다.
Perception Test와 같은 기존 video benchmarks는 야바위 게임의 실제 녹화본(즉, cups-game subset)을 사용하여 이 능력을 평가하려고 시도합니다. 그러나 우리의 감사(audit)에 따르면 많은 cups-game 클립에는 외형적인 단서(appearance cues)가 포함되어 있습니다. 독특하거나 투명한 컵을 통해 models는 여러 frames에 걸친 완전한 temporal tracking을 수행하는 대신 단일 frame에서 객체를 재식별(re-identifying)하여 작업을 해결할 수 있습니다. 3,525개의 비디오 test split에 있는 189개의 cups-game 클립 중에서, 이러한 단서를 필터링한 후 107개의 video-question pairs가 남습니다. 이 필터링된 subset에서 Performance는 급격히 떨어집니다. Gemini-3-Pro는 전체 dataset의 80%에서 36.45%로 떨어집니다. 3개의 컵 설정으로 제한하고 object permanence만을 테스트하는 섞지 않는(non-shuffling) 인스턴스를 제거하면 performance는 30.77%로 더 떨어지며, 이는 random guessing (1/3)보다 나을 것이 없습니다. 이러한 결과는 visual entity tracking이 Perception Test에서의 model performance를 제한하는 핵심 요인임을 시사합니다. tracking이 거의 또는 전혀 필요하지 않은 쉬운 인스턴스는 높은 accuracy를 산출하여 aggregate score를 부풀리는 동시에, 진정으로 tracking-dependent한 사례에서의 실패를 가릴 수 있습니다. 결과적으로, 우리는 야바위 게임 작업이 중요한 failure mode를 노출한다고 주장합니다. 이 작업을 해결하는 것은 진정한 human-level visual perception을 향한 중요한 단계입니다.
이러한 한계를 체계적으로 조사하기 위해, 우리는 frame-level appearance cues로부터 spatiotemporal perception을 분리하도록 설계된 synthetic diagnostic testbed인 Visual Entity Tracking Benchmark (VET-Bench)를 소개합니다. visually identical objects의 세트를 사용함으로써, VET-Bench는 models가 오로지 motion continuity를 통해서만 entities를 track하도록 강제합니다. 우리의 광범위한 experiments는 Gemini-3-Pro와 같은 현재의 state-of-the-art models가 VET-Bench에서 chance level이거나 그에 가까운 수준으로 수행된다는 것을 밝혀냈습니다. 이러한 결과는 우리의 Perception Test 감사와 일치하며, models가 진정한 entity tracking보다는 static appearance features에 크게 의존한다는 것을 시사합니다. 이러한 구별되는 appearance cues가 제거되면, VLMs는 시간이 지남에 따라 coherent entity representations를 유지하는 데 어려움을 겪습니다.
인간은 의식적인 노력이 거의 필요하지 않은 직관적인 perceptual process를 통해 야바위 게임을 해결합니다. 이는 근본적인 질문을 제기합니다: transformer-based VLMs가 본질적으로 video 야바위 게임을 해결할 수 있는 능력이 있을까요? state-tracking problem과 연관성을 도출함으로써, 우리는 visual entity tracking이 $NC^1$-complete임을 증명하는 theoretical analysis를 제공합니다. 이는 fixed-depth transformers가 expressivity constraints로 인해 intermediate computation 없이 일반적인 visual entity tracking tasks를 해결하는 데 근본적으로 한계가 있음을 시사합니다. 우리는 VLMs가 충분한 training을 거치더라도 direct-answer supervision을 사용하여 야바위 게임을 배우는 데 어려움을 겪는다는 것을 empirically verify합니다.
이를 해결하기 위해, 우리는 Spatiotemporal Grounded Chain-of-Thought (SGCoT)를 제안합니다. Molmo2의 object tracking 능력을 활용하여, 우리는 perception을 model이 final answer를 제공하기 전에 intermediate states로서 spatiotemporal grounded object trajectories를 명시적으로 generates하는 reasoning process로 변환합니다. alignment를 위해 synthetic text-only data에 fine-tuning을 수행함으로써, 우리는 Molmo2에서 SGCoT를 elicit하고 VET-Bench에서 90%를 초과하는 state-of-the-art accuracy를 달성하며, VLMs가 external tools에 의존하지 않고 end-to-end로 video 야바위 게임 작업을 안정적으로 해결할 수 있음을 입증합니다.
Contributions
우리의 연구는 다음과 같은 핵심적인 기여를 제공합니다:
- 우리는 visual entity tracking을 Perception Test benchmark의 중요한 bottleneck으로 식별하고, visually identical objects를 특징으로 하는 synthetic diagnostic benchmark인 VET-Bench를 도입하여 appearance-based shortcuts를 제거함으로써 VLMs의 visual perception을 evaluating하기 위한 엄격한 testbed를 제공합니다.
- 우리는 state-of-the-art proprietary 및 open-source video VLMs에 대한 포괄적인 evaluation을 수행하여, Gemini-3-Pro와 같은 frontier models를 포함한 모든 테스트된 models가 VET-Bench에서 random chance에 가깝게 수행됨을 밝힙니다.
- 우리는 visual entity tracking task에 대한 $NC^1$-completeness proof를 제공하여, transformer-based VLM architectures를 위한 intermediate computation의 필요성을 확립합니다. 우리는 충분한 training에도 불구하고 intermediate supervision 없이 direct answers에 대해서만 training하는 것이 야바위 게임을 학습하는 데 실패한다는 것을 empirically verify합니다.
- 우리는 VLMs가 Spatiotemporal Grounded Chain-of-Thought (SGCoT)를 통해 external tools 없이 end-to-end로 야바위 게임을 안정적으로 해결할 수 있음을 입증합니다. visual perception을 reasoning process로 변환하고 Molmo2가 object trajectories를 CoT로 generate하도록 aligning함으로써, 우리는 VET-Bench에서 90% accuracy를 초과하는 state-of-the-art performance를 달성합니다.
1 Introduction 핵심 정리 노트
AI 모델의 아키텍처적 한계와 해결책에 관심이 많은 연구자들을 위한 논문 도입부 핵심 요약입니다.
1. 연구 배경 및 문제 제기: VLM의 Visual Entity Tracking 실패
- 문제점: 현재의 Video VLMs는 전반적인 영상 이해도는 높으나, 야바위 게임(shell game)과 같이 시간에 따른 객체 추적을 요구하는 fine-grained spatiotemporal perception에서 치명적인 병목 현상을 보임.
- 기존 벤치마크의 허점 (Perception Test): 기존 데이터셋의 야바위 영상들은 컵의 미세한 외형적 특징(appearance cues)이라는 visual shortcuts를 포함함. 이를 필터링하여 순수하게 추적 능력만 요구할 경우, Gemini-3-Pro와 같은 SOTA 모델의 성능이 random chance(약 30%) 수준으로 급락함. 기존 지표들이 VLM의 실제 객체 추적 능력을 과대평가하고 있었음.
2. 새로운 평가 지표 제안: VET-Bench
- 외형적 단서를 완전히 배제하고 오직 motion continuity만을 통해 추적해야 하는 visually identical objects 기반의 synthetic diagnostic testbed 구축.
- 실험 결과, 현존하는 모든 SOTA 모델이 VET-Bench에서 chance level에 머무름. 즉, 현재의 VLMs는 연속적인 entity representations 유지에 실패하고 정적인 static appearance features에 과도하게 의존함.
3. Transformer 아키텍처의 이론적 한계 증명
- $NC^1$-completeness: 논문은 visual entity tracking이 $NC^1$-complete 문제임을 수학적으로 증명함.
- Expressivity Constraints: 이는 fixed-depth transformers 구조가 intermediate computation 없이 단번에 indistinguishable objects를 추적하는 것에 근본적인 표현력 한계(expressivity constraints)가 있음을 의미함. 아무리 방대한 데이터로 direct-answer supervision 학습을 진행해도 본질적인 구조적 한계로 인해 해결 불가.
4. 제안하는 해결책: SGCoT (Spatiotemporal Grounded Chain-of-Thought)
- 핵심 아이디어: 시각적 인지(perception) 과정을 추론(reasoning) 과정으로 변환. 모델이 최종 정답을 내기 전에 explicit intermediate states로서 객체의 이동 경로(object trajectories)를 직접 생성하도록 유도.
- 구현 및 결과: Molmo2 모델에 합성된 text-only data를 fine-tuning하여 SGCoT reasoning을 정렬(alignment)시킴. 결과적으로 외부 툴(external tools)의 도움 없이 VET-Bench에서 90% 이상의 SOTA accuracy를 달성하며 end-to-end로 야바위 문제를 해결함.
쉬운 설명 :
"AI가 야바위 게임을 못하는 진짜 이유와 그 해결책"
우리는 똑똑한 AI 모델(VLM)들이 영상 속에서 컵을 섞는 '야바위 게임'을 잘 맞춘다고 생각했습니다. 하지만 연구진이 자세히 뜯어보니, AI는 눈으로 컵의 움직임을 쫓아간 게 아니었습니다. 그냥 특정 컵에 난 흠집이나 미세한 색깔 차이 같은 '꼼수(외형적 단서)'를 기억했다가 그 컵을 찍은 것뿐이었죠.
그래서 연구진이 컵을 완전히 똑같이 만들어서(VET-Bench) 꼼수를 원천 차단해버리니, 가장 뛰어나다는 AI들조차 정답률이 찍기 수준(약 30%)으로 폭락했습니다.
왜 AI는 움직임을 놓칠까요?
AI의 두뇌 역할을 하는 트랜스포머(Transformer) 구조는 한 번에 여러 정보를 병렬로 처리하는 데 특화되어 있습니다. 하지만 야바위처럼 똑같이 생긴 물체가 이리저리 섞이는 과정을 '중간 계산 과정 없이' 한 번에 쳐다보고 결과만 툭 뱉어내는 것은 수학적으로 불가능하다($NC^1$-complete)는 것을 연구진이 증명했습니다. 즉, 머리가 나빠서가 아니라 구조적으로 "눈으로만 보고 한 번에 맞추는 것"이 불가능했던 것입니다.
어떻게 해결했을까요? (SGCoT)
해결책은 AI에게 **"생각하는 과정(Chain-of-Thought)을 말하게 하는 것"**입니다. AI에게 다짜고짜 정답을 묻는 대신, "공이 처음에 왼쪽 컵에 있었고, 그다음 가운데로 갔고, 그다음 오른쪽으로 갔어"라는 식으로 컵의 이동 경로를 한 단계씩 입 밖으로 내어 추적하게 만들었습니다.
이렇게 시각적 인지 과정을 논리적 추론 과정으로 바꿔주었더니, 외부 프로그램의 도움 없이도 AI의 야바위 정답률이 90% 이상으로 껑충 뛰었다는 내용입니다.
2 Data Generation
2.1 Task Formulation
우리는 초기 indices $i \in [N] = \{1, \dots, N\}$ 로 식별되는 $N$ 개의 visually indistinguishable objects를 포함하는 video sequence $V = \{F_0, \dots, F_T\}$ 를 고려합니다. shuffling 과정은 초기 index $i$ 의 object를 최종 index $\pi(i)$ 로 매핑하는 global permutation $\pi$ 를 유도합니다. visual highlight 또는 linguistic description 형태를 취할 수 있는 contextual cue $C$ 를 통해 $t = 0$ 에서 지정된 target object $i \in [N]$ 가 주어지면, 목적은 final frame에서 그것의 terminal index $\pi(i)$ 를 결정하는 것입니다.
task가 모호함 없이 well-posed 되도록 보장하기 위해, 우리는 연속적인 frames 사이의 모든 object의 maximum displacement $d$ 가 $2d < \Delta$ 를 만족해야 한다는 continuity constraint를 강제합니다. 여기서 $\Delta$ 는 두 objects 사이의 minimum spatial separation입니다. 이 constraint는 object crossovers 동안 identity aliasing을 방지하기 위해 video sampling의 temporal Nyquist criterion을 반영합니다. real-world videos에서 이 조건은 object speeds에 비해 충분히 높은 frame rate에 의해 자연스럽게 충족됩니다. VET-Bench에서 각 swap은 2초 동안 지속되므로, 모호함 없이 swap을 해결하는 데 필요한 minimum sampling rate는 1 FPS입니다.
2.2 Task Suite
CLEVR, CLEVRER, 그리고 CATER 와 유사하게, 우리의 synthetic data generation pipeline은 environmental parameters에 대한 fine-grained control을 제공하여, real-world static benchmarks에서 흔히 관찰되는 data leakage 및 overfitting의 위험을 줄입니다. Videos는 three.js를 사용하여 렌더링되며, color, material, texture, lighting, 그리고 camera viewpoint의 완전한 synthetic variation을 지원합니다. 이러한 설계는 무제한의 episodes generation을 가능하게 하여, fixed datasets에 내재된 memorization 문제를 효과적으로 완화합니다. 더욱이, 이 pipeline은 object count 및 swap count와 같은 simulation parameters에 대한 정밀한 제어를 허용하여, 개별 요인이 model performance에 어떻게 영향을 미치는지에 대한 diagnostic evaluation을 가능하게 합니다. 우리는 Perception Test의 다음 두 가지 canonical visual entity tracking tasks에 중점을 둡니다:
- Cups Game. Shell Game으로도 알려진 이 task는 positional swaps를 겪는 visually identical opaque containers 아래에 숨겨진 공을 tracking 할 것을 요구합니다.
- Cards Game. Three-Card Monte ("Find the Queen")를 모델로 한 이 task는 카드가 뒷면으로 뒤집히고 shuffled 된 후 카드를 tracking 할 것을 요구합니다.
결정적으로, VET-Bench는 단일 frame이 (i) target의 identity 나 (ii) swap operation 을 드러내지 않도록 보장함으로써 현실적인 shell-game videos를 시뮬레이션합니다. static, frame-level cues를 제거함으로써, VET-Bench는 VLMs가 오직 fine-grained spatiotemporal perception에만 의존하도록 강제합니다.
2 Data Generation 핵심 정리 노트
AI 모델의 객체 추적 능력을 엄밀하게 평가하기 위한 VET-Bench의 데이터 생성 파이프라인과 수학적 설계 원리를 요약한 노트입니다.
1. Task Formulation: 엄밀한 객체 추적의 수학적 정의
- 문제 정의: 초기 위치 $i$에 있는 타겟 객체가 무작위 섞기(shuffling) 과정을 거친 후 위치하게 되는 최종 인덱스 $\pi(i)$를 찾는 global permutation 추론 문제.
- 핵심 제약 (Continuity constraint): 단순한 위치 맞추기를 넘어, 객체가 교차할 때 누구인지 헷갈리는 현상(identity aliasing)을 방지하기 위해 비디오 샘플링의 temporal Nyquist criterion을 도입함.
- 수식: $2d < \Delta$
- $d$: 연속된 프레임 사이에서 객체의 최대 이동 거리 (maximum displacement)
- $\Delta$: 두 객체 사이의 최소 공간 간격 (minimum spatial separation)
- 이 조건을 통해 객체가 '순간이동'하는 것처럼 보이는 것을 막고 연속적인 추적을 강제함 (VET-Bench 기준 최소 1 FPS 요구).
2. Task Suite: 완전 통제 가능한 합성 데이터 환경
- 합성 데이터(Synthetic Data)의 이점: three.js를 활용한 100% 렌더링 환경 구축. 기존 real-world 영상 기반 static benchmarks가 겪는 data leakage나 모델의 memorization 문제를 무한한 에피소드 생성을 통해 원천 차단함.
- 진단적 평가(Diagnostic Evaluation) 가능: 객체의 수(object count), 섞는 횟수(swap count), 조명, 카메라 시점 등 환경 변수(environmental parameters)를 연구자가 미세하게 조정(fine-grained control)하여 모델의 실패 요인을 분석할 수 있음.
- 평가 Task:
- Cups Game (야바위): 똑같이 생긴 컵 아래에 공을 숨기고 섞는 게임.
- Cards Game: 뒷면이 똑같은 카드를 뒤집어서 섞는 게임 (Three-Card Monte 방식).
3. 기존 벤치마크와의 가장 큰 차별점
- VET-Bench는 단 한 장의 프레임(single frame)만으로는 타겟의 정체(identity)나 섞는 동작(swap operation)을 절대 유추할 수 없도록 설계됨.
- 즉, 정적인 외형 힌트(static, frame-level cues)를 완벽히 제거하여, 모델이 오직 fine-grained spatiotemporal perception(미세한 시공간적 인지)에만 의존해 문제를 풀도록 강제하는 진정한 의미의 추적 테스트베드임.
쉬운 설명 :
"AI의 꼼수를 막기 위한 완벽한 테스트 환경 만들기"
이 섹션은 AI가 정말로 움직이는 물체를 '눈으로 쫓아가며' 추적할 수 있는지 테스트하기 위해, 어떻게 완벽한 환경(VET-Bench)을 만들었는지 설명합니다.
1. 물체가 순간이동하면 안 된다 (수학적 규칙)
만약 영상이 너무 끊겨서 컵이 갑자기 왼쪽에서 오른쪽으로 뿅 하고 나타난다면, AI뿐만 아니라 사람도 컵을 추적할 수 없습니다. 논문에서는 이것을 막기 위해 "$2d < \Delta$"라는 규칙을 만들었습니다. 쉽게 말해, 컵이 한 프레임에서 다음 프레임으로 움직이는 거리($d$)가, 두 컵 사이의 거리($\Delta$)의 절반보다 작아야 한다는 뜻입니다. 그래야 컵끼리 스쳐 지나갈 때 누가 누구인지 헷갈리지 않고 매끄럽게 추적할 수 있습니다.
2. 진짜 영상 대신 3D 게임 같은 가짜 영상을 쓴 이유
유튜브 등에 있는 진짜 야바위 영상을 쓰면, AI는 영상 배경의 먼지, 컵의 미세한 흠집, 사람 손의 그림자 같은 '정답과 상관없는 힌트'를 외워서 정답을 맞혀버립니다. 그래서 연구진은 3D 그래픽(three.js)으로 조명, 컵 모양, 섞는 횟수를 마음대로 조절할 수 있는 시뮬레이션을 만들었습니다. 무한대로 새로운 문제를 만들어낼 수 있으니 AI가 정답을 달달 외우는 것(Memorization)이 불가능해집니다.
3. 핵심 목적: 사진 한 장으로는 절대 못 맞추게 하기
제공되는 게임은 '컵 섞기(야바위)'와 '카드 섞기' 두 가지입니다. 가장 중요한 점은, 동영상을 멈춰서 사진 딱 한 장만 본다면 정답이 뭔지, 지금 카드를 섞고 있는 중인지 절대 알 수 없게 만들었다는 것입니다. 오직 "처음부터 끝까지 동영상의 흐름을 놓치지 않고 집중해서 본 AI"만 정답을 맞출 수 있도록 환경을 통제했습니다.
3 Experiment
3.1 Experimental Setup
Models. 우리는 Gemini-3, Gemini-2.5, Qwen-3.5, Qwen3-VL, GLM-4.6V-Flash, Ernie-4.5, Doubao-Seed-2.0, Kimi-K2.5, PerceptionLM, 그리고 Molmo2를 포함하여 video input을 기본적으로 지원하는 포괄적인 형태의 proprietary 및 open-source VLMs를 평가합니다. 각 모델에 대해 지원되는 최대 frame rate 또는 명시되지 않은 경우 default sampling rate를 사용합니다. Reasoning models는 default thinking configurations를 사용하여 평가됩니다. 상세한 프롬프트는 그림 11에 포함되어 있습니다.
Metrics. 모든 tasks는 자동화된 채점을 용이하게 하기 위해 표준 multiple-choice question answering (MCQA) 형식으로 평가됩니다. Performance는 Top-1 Accuracy를 통해 측정됩니다. $N$ 개의 objects를 포함하는 작업의 경우, random baseline은 $1/N$입니다.
Settings. VLMs는 서로 다른 frame sampling strategies를 채택합니다. 오로지 temporal resolution bottlenecks에서 발생하는 성능 불일치를 방지하기 위해, 우리는 각 swap operation을 2.0초의 duration으로 표준화합니다. 이는 희소한 샘플링(예: 1 FPS)을 가진 모델이 모호함 없이 swap을 해결하는 데 필요한 이론적 최소값인 swap당 최소 2개의 frames를 캡처하도록 보장합니다. 우리는 episode당 5번의 swaps를 평가하여, temporal resolution과 context length constraints의 균형을 맞추기 위해 12초(2초의 초기 단계와 그 뒤를 잇는 10초의 shuffling phase로 구성됨)만큼 짧은 총 duration을 초래합니다.
3.2 Results
그림 2의 결과는 평가된 모든 Vision-Language Models (VLMs)가 random guessing baseline 근처에서 수행됨을 보여줍니다. 이러한 실패는 모델 크기에 관계없이 모든 reasoning 및 non-reasoning models에서 보편적으로 나타납니다. failure modes에 대한 우리의 정성적 분석(그림 11 ~ 13)을 바탕으로, 우리는 오류를 다음 세 가지 주요 패턴으로 분류합니다:
Direct Answer: Molmo2, PerceptionLM, Doubao-Seed-1.8, 그리고 GLM-4.6V-Flash와 같은 여러 모델, 특히 non-reasoning models는 종종 어떠한 CoTs 없이 final answer만 output합니다. 그들의 응답은 random guessing으로 보입니다.
Coarse Description: 일부 모델은 initial state를 성공적으로 식별하지만 결정적인 shuffling phase를 인식하지 못하고, 대신 high-level semantic descriptions에 의존합니다(그림 13). 예를 들어, "컵들은 야바위 게임과 같은 동작으로 섞이며, 비디오 내내 공은 컵 중 하나 아래에 남아 있습니다." (Qwen3-VL-8B-Instruct) 및 "00:00:02.000 이후: 세 개의 컵 모두 shuffling pattern으로 움직이기 시작합니다. 00:00:12.000: 컵들이 원래 위치로 돌아갑니다." (Kimi-K2.5). 이러한 reasoning은 fine-grained swap events를 거친(coarse) global description으로 붕괴시켜, final prediction을 사실상 무작위로 만듭니다.
Inaccurate Perception and Hallucination: Gemini-3-Pro 및 Gemini-3-Flash와 같이 더 강력한 reasoning capabilities를 가진 모델은 명시적인 swap sequences를 생성하려고 시도합니다. thinking steps가 언어적으로 일관되고 논리적으로 타당하지만(예: "... Move 1 (00:02 - 00:03): 왼쪽 컵(공이 있는)이 중간 컵과 위치를 바꿉니다. 이제 공은 중간 위치에 있습니다. Move 2 ..."), 종종 잘못된 visual perceptions에 기반을 두고 있습니다. 모델은 어떤 entities가 움직이는지 잘못 식별하거나 발생하지 않은 swaps를 hallucinate합니다(그림 11 및 12). 각 reasoning step이 이전 단계의 정확성에 의존한다는 점을 고려할 때, intermediate step에서의 어떠한 실수도 불가피하게 잘못된 final prediction으로 이어집니다. Symbolic reasoning은 pixel-level grounding에서의 실패를 보상할 수 없습니다. 결과적으로, final answer는 통계적으로 random guessing과 구별할 수 없는 상태로 남아 있습니다.
3.3 Swap Count
우리는 episode당 swap operations의 수가 performance에 어떻게 영향을 미치는지 추가로 조사합니다(그림 3a). zero-swap episodes(object permanence만을 테스트함)의 경우, Gemini-3를 제외한 대부분의 모델이 완벽에 가까운 accuracy를 달성합니다. Doubao-Seed-2.0-Mini와 같은 모델은 CoTs 없이 직접 final answer를 생성할 수 있으면서도 완벽한 점수를 달성합니다. 이는 시작 프레임에서 공의 위치를 직접 관찰할 수 있으며, 정적인 frame-level cues를 반영하므로 예상된 결과입니다. 놀랍게도 단 한 번의 swap만으로 performance가 크게 떨어지며, 그 이후에는 빠르게 random-guessing baseline으로 수렴합니다.
흥미롭게도, Gemini-3-Pro와 Gemini-3-Flash는 zero-swap 시나리오에서 독특한 failure mode를 보입니다. 우리의 표준 프롬프트("비디오 끝에 공이 들어 있는 컵은 어느 것입니까?")를 사용하면, 종종 initial state를 올바르게 식별하지만 존재하지 않는 긴 swaps 시퀀스를 hallucinate하여 final prediction이 잘못되는 결과를 초래합니다(그림 14). 이러한 동작은 Zhang et al. (2024)가 설명한 event hallucination과 일치합니다. 프롬프트를 시작 시점의 공 위치를 묻는 것으로 변경하면("비디오 시작 시 공이 들어 있는 컵은 어느 것입니까?"), accuracy는 다시 완벽에 가깝게 돌아옵니다. 우리는 평가된 다른 VLMs에서는 이러한 prompt-sensitive hallucination 패턴을 관찰하지 못했습니다.
3.4 Object Count
우리는 다양한 object counts $N = 2, 3, 4$에 따른 performance를 분석합니다(그림 3b). 주목할 점은, $N = 2$일 때조차 모델들이 random baseline을 유의미하게 능가하지 못한다는 것입니다. 이 가장 간단한 경우에, 작업은 각 swap이 단순히 target object의 상태(위치)를 반전시키는 패리티(parity) 문제로 축소됩니다. 최종 위치는 오로지 총 swap 횟수가 짝수인지 홀수인지에만 의존합니다. $N$이 증가함에 따라 accuracy는 objects의 수($1/N$)에 반비례하여 감소하며, 이는 현재의 VLMs가 진정한 entity tracking을 수행하지 않고 random guessing에 의존한다는 것을 더욱 나타냅니다.
3.5 Comparison with the Perception Test
Perception Test에는 야바위 게임 스타일 클립의 작은 하위 집합이 포함되어 있지만, 몇 가지 요인으로 인해 visual entity tracking capability를 평가할 때 진단 능력이 떨어집니다.
Uncontrolled Complexity: Perception Test에서 난이도는 performance에 직접적인 영향을 미치는 방식으로 dataset 구성에 따라 다릅니다. (i) 컵의 수는 2에서 4까지 다양하여 random baseline을 이동시키고, (ii) swap counts는 0에서 16까지 다양하며, 0-swap의 경우는 주로 object permanence를 테스트합니다. 우리의 이전 분석(섹션 3.3 및 3.4)에서 입증되었듯이, object 및 swap counts 모두 performance scores에 상당한 영향을 미칩니다.
Visual Shortcuts: 일부 녹화본에는 tracking의 필요성을 우회하는 appearance cues가 포함되어 있습니다(그림 5 ~ 7). 여기에는 (i) appearance로 재식별(re-identification)을 가능하게 하는 구별되는 컵과 (ii) target을 직접 드러내는 투명한 컵이 포함됩니다.
A Filtered Subset Reveals the Perception Bottleneck:
우리는 표준 야바위 게임 설정인 세 개의 동일하고 불투명한 컵(그림 9)을 대상으로 하는 필터링된 하위 집합을 구성합니다. test split의 3,525개 비디오에서 189개의 cups-game 클립을 식별합니다. visual shortcuts가 있는 비디오를 제거하고 최소한 하나의 swap을 보장한 후, 우리는 107개의 video-question pairs를 얻습니다. 엄격한 3-cup 설정으로 추가 제한하고 zero-swap 경우를 제외하면 65개의 비디오가 산출됩니다(그림 10). 표 1에 나타난 바와 같이, 모든 평가된 모델은 VET-Bench에서의 성능과 일치하게 이 필터링된 하위 집합에서 우연(chance)에 가까운 성능으로 붕괴합니다. 예를 들어, Gemini-3-Pro는 전체 dataset의 0.80에서 0.31로 떨어져 random guessing(0.33)보다 나을 것이 없습니다. 전반적으로 이러한 결과는 현재의 VLMs가 visual shortcuts를 악용하여 단순한 인스턴스에서는 뛰어나지만, fine-grained spatiotemporal perception이 요구되는 더 까다로운 작업에서는 어려움을 겪는다는 것을 확인시켜 줍니다. 이는 견고한 visual entity tracking이 Perception Test 내에서 여전히 주요 bottleneck으로 남아 있음을 시사합니다.
3.6 Comparison with VideoReasonBench
VideoReasonBench는 cups-game과 유사한 작업의 비디오를 포함하지만, swap operations는 프레임 위에 겹쳐진 화살표로 명시적으로 표시됩니다(그림 8). 이러한 시각적 주석은 효과적으로 기호적인 "swap tokens" 역할을 하여, 모델이 기본적인 motion이 아닌 정적인 in-frame cues를 기반으로 state transitions에 대해 추론할 수 있도록 합니다. 대조적으로, 우리의 벤치마크는 움직이는 객체만 보이고 frame-level cues가 없는 더 현실적인 야바위 게임 설정을 나타냅니다. 따라서 작업을 올바르게 해결하려면 프레임 전반에 걸친 spatiotemporal continuity를 활용해야 합니다. 이러한 설계는 결정적인 정보가 단일 프레임 내에 있는 것이 아니라 프레임 간의 시간적 역학(temporal dynamics)에 인코딩되는 많은 최신 video benchmarks(섹션 6)와 일치합니다. 결과적으로, Gemini-2.5-Pro와 같은 모델은 명시적인 swap cues가 제공되지 않는 VET-Bench에서는 chance 수준에 머물러 있으면서도 VideoReasonBench에서는 56%를 달성할 수 있습니다.
3 Experiment 핵심 정리 노트
이 섹션은 현존하는 SOTA VLM들이 실제 시공간적 객체 추적(Spatiotemporal object tracking)에서 얼마나 무력한지를 철저히 검증하고, 기존 벤치마크들이 가지고 있던 착시 현상을 고발하는 핵심 실험 결과를 담고 있습니다.
1. 실험 통제 및 환경 (Experimental Setup)
- 공정한 평가 설계: VLM마다 프레임 샘플링 속도가 다름(예: 1 FPS). 샘플링 해상도 때문에 틀리는 것을 방지하기 위해 1번 섞는(swap) 동작을 최소 2.0초로 고정하여 모든 모델이 최소 2프레임 이상을 확보하도록 통제함.
2. 핵심 결과: SOTA 모델의 전멸 (Universal Failure)
- 추론형/비추론형, 파라미터 크기와 무관하게 테스트된 모든 VLM(Gemini-3, Qwen3-VL 등)의 정답률이 Random guessing baseline ($1/N$)으로 수렴함.
3. 3가지 주요 실패 패턴 (Failure Modes)
이 논문에서 가장 주목해야 할 분석으로, 모델들이 왜 실패하는지 메커니즘을 분류함.
- Direct Answer: 구조적 추론 없이 최종 답만 찍음 (비추론형 모델에서 주로 발생).
- Coarse Description: 처음과 끝의 상태는 인식하나, 중간의 미세한 섞임(fine-grained swap)을 놓치고 "컵들이 야바위처럼 섞인다" 수준의 거시적 의미(high-level semantic)로 뭉뚱그려 묘사함.
- Inaccurate Perception & Hallucination (가장 중요): Gemini-3-Pro 같은 강력한 추론 모델은 스텝별 섞임 과정을 텍스트로 그럴듯하게 전개(CoT)함. 그러나 픽셀 수준의 시각적 그라운딩(pixel-level grounding)이 틀렸기 때문에 존재하지 않는 움직임을 환각(hallucinate)함. 기호적 논리 추론 능력이 아무리 뛰어나도, 근본적인 시각 인지 실패를 보상할 수 없음을 증명함.
4. 섞음 횟수(Swap)와 객체 수(Object)에 따른 성능 변화
- Swap Count: 0번 섞을 때(단순 객체 영속성 테스트)는 완벽에 가깝지만, 단 1번만 섞어도(1 swap) 성능이 무작위 찍기 수준으로 폭락함. (특이사항: Gemini-3 계열은 0번 섞는 영상에서도 긴 섞임 과정을 환각하는 prompt-sensitive hallucination 문제를 보임).
- Object Count: $N=2, 3, 4$로 변화를 줌. 가장 단순한 $N=2$ (홀짝 패리티 문제) 상황에서도 베이스라인을 넘지 못함.
5. 기존 벤치마크들의 착시 현상 고발
- Perception Test의 맹점: 기존 벤치마크에서 VLM이 높은 성능을 보였던 이유는 컵이 투명하거나 생김새가 달라서 추적 없이 '외형(Appearance)으로 재식별'하는 꼼수(Visual shortcuts)가 통했기 때문임. 꼼수를 제거하고 똑같은 불투명 컵 3개로 필터링하자, Gemini-3-Pro의 성능이 80%에서 31%(찍기 수준)로 급락함.
- VideoReasonBench의 맹점: 이 벤치마크는 영상 위에 '이동 화살표(swap tokens)'를 그려놓았음. 모델은 움직임을 추적한 게 아니라 정지 화면의 화살표 기호를 읽고 풀었을 뿐임. 화살표를 없앤 VET-Bench에서는 성능이 붕괴됨.
쉬운 설명 :
"AI가 똑똑한 척하지만, 사실 눈을 감고 야바위를 찍고 있었다"
이 실험 파트는 우리가 그동안 최신 AI 모델들(Gemini, Qwen 등)의 영상 인식 능력에 속고 있었다는 것을 통쾌하게(?) 밝혀내는 부분입니다.
1. AI의 화려한 언변에 속지 마세요
AI에게 진짜 야바위 영상을 보여주면 재밌는 현상이 나타납니다. 모델이 "1번 컵이 2번으로 갔고, 2번이 3번이랑 바뀌었으니 정답은 3번!"이라고 아주 논리적으로 설명합니다. 그런데 막상 영상을 보면 그런 움직임은 일어난 적이 없습니다. 머리(논리)는 잘 돌아가는데 눈(시각 인지)이 움직임을 못 따라가니까, AI가 아예 헛것(환각)을 보고 자기 혼자 소설을 써서 정답을 맞히려고 한 것입니다.
2. 한 번만 섞어도 바로 찍기 모드
컵을 아예 안 섞고 "공 어딨어?" 하면 AI는 100점으로 찾아냅니다. 그런데 딱 1번만 컵의 위치를 바꿔도, 갑자기 바보가 되어버립니다. 정답률이 33% (컵 3개 중 하나를 그냥 연필 굴려서 찍는 수준)로 떨어집니다. 심지어 컵을 2개만 놓고 바꿔도 못 맞춥니다.
3. 기존 연구들은 왜 AI가 잘한다고 했을까?
과거 논문들에서는 AI가 야바위를 아주 잘한다고 자랑했습니다. 왜 그랬을까요?
- 첫 번째 꼼수: 컵에 특징이 있었습니다. 빨간 컵, 파란 컵으로 하거나 투명한 유리컵을 쓴 겁니다. AI는 섞이는 걸 본 게 아니라, "아까 공 들어간 게 파란 컵이었지" 하고 색깔만 보고 맞춘 겁니다.
- 두 번째 꼼수: 영상에 대놓고 '여기서 여기로 이동함'이라는 화살표를 그려줬습니다. AI는 화살표 기호만 읽고 푼 겁니다.
이 실험은 이런 꼼수들을 전부 다 없애버리고 진짜 순수하게 '눈으로 따라가는 능력'만 평가했더니, 전 세계에서 가장 좋다는 AI들도 모두 낙제점을 받았다는 것을 증명했습니다.
4 Theoretical Analysis
인간은 의식적인 노력이 거의 필요하지 않은 직관적인 perceptual process를 통해 야바위 게임(shell game)을 해결하지만, 현재의 VLMs는 이 task에서 지속적으로 실패합니다. 이는 근본적인 질문을 제기합니다: transformer-based VLM이 본질적으로 야바위 게임을 해결할 수 있는 능력이 있을까요? 우리는 다음과 같이 정의된 visual entity tracking의 결정 버전(decision version)에 대한 computational complexity를 분석하여 이 질문을 다룹니다.
Definition 1 (Visual Entity Tracking, $TRACK_k$). $TRACK_k$는 $k$, $H$, 그리고 $W$가 상수일 때, $H \times W$ grid 상의 $T + 1$ frames로 구성된 video $V = (F_0, \dots, F_T)$ 에서 $k$개의 visually indistinguishable objects를 tracking하는 문제입니다. input은 Appendix B에 주어진 localization 및 continuity conditions를 만족한다고 가정합니다. $\pi$를 frame 0에서의 positions의 초기 사전식 배열(lexicographic ordering)에서 frame $T$에서의 최종 배열로 $k$개의 objects를 매핑하는 global permutation이라고 합시다. 이 문제는 $\pi$가 identity permutation인지 묻습니다.
state tracking problems에서 영감을 얻어, 우리는 전형적인 $NC^1$-complete 문제인 symmetric group $S_5$에 대한 word problem을 통해 $TRACK_k$의 complexity를 특징짓습니다.
Definition 2 (Word Problem for $S_5$, $WORD_{S_5}$). generators를 $j \in {1, 2, 3, 4}$에 대한 adjacent transpositions $\tau_j = (j, j + 1)$이라고 합시다. 각 $\sigma_i \in {\tau_1, \tau_2, \tau_3, \tau_4}$인 sequence $W = \langle\sigma_1, \dots, \sigma_N\rangle$가 주어졌을 때, $\Pi = \sigma_N \circ \dots \circ \sigma_1$이라고 합시다. $\Pi$가 identity인 경우에만(iff) output은 True입니다.
Theorem 1. 고정된 $k \ge 5$에 대해, $TRACK_k$는 $NC^1$-complete입니다.
Proof Sketch. $NC^1$의 Membership은 인접한 각 frames 쌍에 대해 localization 및 continuity conditions에 의해 유도된 unique permutation $\pi_t \in S_k$를 계산한 다음, $NC^1$에서 $\pi = \pi_{T-1} \circ \dots \circ \pi_0$를 합성함으로써(composing) 도출됩니다 (Lemma 1). Hardness는 adjacent transposition generators를 물리적으로 구현하는 video를 구성함으로써 $WORD_{S_5}$로부터의 reduction을 통해 확립됩니다 (Lemma 2). 전체 증명은 Appendix B에 제공됩니다.
선행 연구는 constant-depth transformers가 circuit class $TC^0$ 내에서 시뮬레이션될 수 있음을 보여줍니다. $TC^0 \subsetneq NC^1$이라는 널리 받아들여지는 추측(conjecture)을 가정할 때, fixed-depth transformers는 arbitrary-length sequences에서 $k \ge 5$인 $TRACK_k$와 같은 $NC^1$-complete 문제를 해결하는 데 이론적으로 한계가 있습니다. 따라서 $NC^1$-completeness 결과는 visual entity tracking에서 CoT의 필요성에 대한 이론적 토대를 제공합니다.
Krohn-Rhodes theorem에 따르면, word problem의 complexity는 underlying group의 algebraic structure에 따라 달라집니다. $k \ge 5$의 경우 $S_k$는 non-solvable이며, 그것의 word problem은 $NC^1$-complete입니다. 대조적으로, $S_2$는 cyclic group이며 word problem은 parity task로 축소되어 $TC^0$에 속합니다. 우리의 hardness 결과는 특별히 $k \ge 5$에 대해 성립합니다. 더 작은 object counts의 경우, 이 task는 shortcut solutions를 허용할 수 있습니다. 그럼에도 불구하고 $k = 2$ (예: parity 및 coin-flip tasks)의 경우에도, 선행 연구는 효과적인 length generalization이 여전히 intermediate supervision 또는 CoT를 필요로 한다는 것을 일관되게 보여줍니다.
objects가 고유한 visual identifiers를 소유하는 경우, 이 task는 sequential state-tracking problem에서 parallelizable visual search problem ($AC^0$)으로 붕괴(collapses)됩니다. 이는 뚜렷한 appearances를 가진 objects를 tracking하는 것이 종종 더 쉬운 이유를 설명합니다: models는 entity tracking보다는 appearance-based rematching에 의존할 수 있습니다. 이는 chess state tracking을 위한 source-target notation (UCI)과 standard algebraic notation (SAN) 사이의 hardness 차이와 유사합니다.
인간은 종종 visual entity tracking을 직관적인 perceptual ability로 인식하지만, 우리의 분석은 이것이 chess moves를 tracking하거나 narrative 내에서 entities를 tracking하는 것과 같은 다른 state-tracking tasks와 동일한 complexity class에 속한다는 것을 시사하며, 이는 일반적으로 그들의 latent reasoning requirements 때문에 어려운 것으로 간주됩니다. 우리는 인간의 visual system이 frames 전반에 걸쳐 state를 명시적으로 updating함으로써 "physical CoT"의 한 형태로 볼 수 있는 중심와 안구 운동(foveal eye movements)을 통해 이러한 한계를 극복한다고 가정(posit)합니다.
Training with Direct Answer Fails in Practice
VLMs가 CoTs 없이 direct-answer supervision으로부터 visual entity tracking을 학습하는 데 어려움을 겪는다는 것을 empirically verify하기 위해, 우리는 8 FPS sampling rate로 500개의 합성된 cups-game videos (shuffle permutations만 다름)에 대해 Qwen2.5-VL-3B-Instruct를 train합니다. Fig. 4에 나타난 바와 같이, loss는 60 epochs 이후에도 random chance 수준에 정체되어 있습니다. 이 현상은 parity task를 학습하는 어려움을 반영합니다. parity는 $TC^0$에 속하므로 transformers에 의해 표현 가능하지만(expressible), target label이 input features와의 low-order statistical correlations가 부족하여 gradient-based algorithms를 사용하여 end-to-end로 train하기 어렵게 만듭니다. 우리의 경우, 긴 video tokens의 sequence는 model이 input을 final label에 직접 mapping하기 어렵게 만듭니다. 결과적으로 model은 underlying dynamics를 포착하는 데 실패하고, 대신 training distribution 내의 label frequency를 기반으로 예측하는 데 의존합니다.
4 Theoretical Analysis 핵심 정리 노트
이 섹션은 transformer-based VLM이 시각적 객체 추적을 실패하는 현상이 단순한 학습 부족이 아니라, 아키텍처의 근본적인 표현력 한계(expressivity constraints) 때문임을 계산 복잡도 이론을 통해 수학적으로 증명한 핵심 파트입니다.
1. 문제의 수학적 정의와 복잡도 증명
- 문제 정의 ($TRACK_k$): $k$개의 visually indistinguishable objects를 비디오 프레임 단위로 추적하여 최종 순열(permutation)을 찾는 결정 문제(decision problem).
- Theorem 1: $k \ge 5$일 때, $TRACK_k$는 $NC^1$-complete 문제임.
- 증명 논리: $TRACK_k$ 문제의 복잡도를 대칭군(symmetric group) $S_5$의 word problem($WORD_{S_5}$)으로 환원(reduction)하여 증명함.
2. Transformer 아키텍처의 이론적 한계
- 기존 연구들에 따르면 fixed-depth transformer는 회로 복잡도 상 $TC^0$ 클래스에 속함.
- 널리 알려진 가설인 $TC^0 \subsetneq NC^1$을 가정할 때, $TC^0$에 속하는 transformer는 중간 연산 과정(intermediate computation) 없이는 $NC^1$-complete 문제인 $TRACK_k$를 임의의 시퀀스 길이에 대해 풀 수 없음.
- 결론: Visual entity tracking을 해결하기 위해서는 한 번에 정답을 출력하는 것이 이론적으로 불가능하며, 반드시 CoT(Chain-of-Thought)와 같은 중간 추론 단계가 필수적임.
3. 외형적 단서(Visual Identifiers)가 있을 때 쉬워지는 이유
- 객체들이 각기 다른 고유한 외형(색상, 모양 등)을 가질 경우, 이 문제는 순차적 상태 추적(sequential state-tracking)에서 병렬 처리가 가능한 시각적 탐색(parallelizable visual search, $AC^0$) 문제로 붕괴됨.
- 기존 벤치마크들에서 모델들이 높은 점수를 받았던 이유는 tracking을 한 것이 아니라 appearance-based rematching을 수행했기 때문임을 수학적으로 설명함.
4. End-to-end 학습의 실증적 실패 (Direct Answer Supervision)
- 이론적 한계를 검증하기 위해 Qwen2.5-VL 모델을 500개의 야바위 영상으로 직접 정답만 맞추도록 학습(Direct Answer)시킴.
- 결과: 60 epoch가 지나도 loss가 random chance 수준에서 정체됨.
- 원인: 긴 비디오 토큰 시퀀스와 정답 레이블 사이에 low-order statistical correlations가 부족하기 때문. Gradient-based algorithm으로는 중간 과정 없이 입력값에서 최종 정답으로 직접 매핑하는 dynamics를 학습하는 것이 불가능함 (Parity task의 학습 실패 현상과 동일).
쉬운 설명 :
"트랜스포머의 뇌 구조로는 야바위를 한 번에 풀 수 없다는 수학적 증명"
이 파트는 "왜 방대한 데이터로 학습된 AI가 고작 컵 섞는 걸 못 따라갈까?"라는 질문에 대해, 데이터나 파라미터가 부족해서가 아니라 '트랜스포머(Transformer)의 태생적 한계' 때문이라고 답하는 아주 중요한 섹션입니다.
1. 트랜스포머는 '한눈에 파악하기'의 달인이지만 '순서대로 쫓아가기'에는 젬병이다
트랜스포머 구조의 가장 큰 특징은 문장이나 영상의 모든 부분을 병렬로 한 번에 처리한다는 점입니다(복잡도 클래스 $TC^0$). 하지만 똑같이 생긴 컵들이 요리조리 섞이는 야바위 게임은 앞의 움직임을 알아야 다음 움직임을 알 수 있는 '완벽한 순차적 문제($NC^1$-complete)'입니다. 논문은 이 병렬 처리 방식의 뇌 구조(트랜스포머)로는 중간 계산 과정 없이 입력(처음 영상)에서 출력(최종 공의 위치)으로 직행하는 것이 수학적으로 불가능하다는 것을 대칭군 이론을 빌려 증명해냈습니다.
2. 꼼수가 통했던 이유: 숨은그림찾기와 야바위의 차이
만약 컵에 파란색, 빨간색 칠이 되어 있다면 어떨까요? 이때는 문제가 '순차적 추적'에서 '숨은그림찾기(시각적 탐색)'로 바뀝니다. 숨은그림찾기는 트랜스포머가 한 번에 병렬로 처리하기 아주 쉬운 문제($AC^0$)입니다. 그동안 AI가 잘하는 것처럼 보였던 건 진짜 야바위를 한 게 아니라, 정답 컵의 색깔을 외웠다가 마지막 장면에 그 색깔 컵이 어디 있는지만 찾았기 때문입니다.
3. 억지로 정답만 주입식으로 가르치면 어떻게 될까?
"원리는 몰라도 정답만 계속 알려주면 경사하강법(Gradient Descent)으로 알아서 패턴을 찾지 않을까?" 하고 정답만 냅다 외우게 시켜보았습니다. 하지만 60번을 반복 학습시켜도 모델은 전혀 발전하지 못했습니다. 움직임의 맥락(Dynamics)은 무시한 채, 픽셀 데이터와 최종 정답 사이의 통계적 요행만 찾으려고 헛바퀴를 돌았기 때문입니다.
결론적으로 AI가 야바위를 풀게 하려면 한 번에 답을 내놓으라고 강요하지 말고, 사람의 눈동자가 물체를 따라가듯 "1번이 2번으로 갔고..." 라며 과정을 하나하나 입 밖으로 내어 추론(CoT)하게 만들어야만 풀 수 있다는 것을 입증한 셈입니다.
5 Spatiotemporal Grounded Chain-of-Thought
이전의 분석은 일반적인 visual entity tracking tasks를 해결하는 데 CoT가 필수적임을 시사합니다. Gemini-3와 같은 models는 논리적으로 타당한 CoTs를 생성하지만, 부정확한 perceptual grounding으로 인해 VET-Bench에서 여전히 near-random 수준으로 수행됩니다. 이를 해결하기 위해, 우리는 Spatiotemporal Grounded Chain-of-Thought (SGCoT)를 제안합니다. 우리는 이 task를 위해 Molmo2를 활용하는데, 이는 video object tracking에 대해 광범위하게 trained 되어 있으며 visual entity tracking QA를 위해 용도를 변경할 수 있는 강력한 grounding capabilities를 보여주기 때문입니다.
Limitations of the Base Model
tracking을 위해 프롬프트가 주어질 때, Molmo2는 다음과 같은 구조화된 형식으로 참조된 object's trajectory를 생성할 수 있습니다: Object. 여기서 timestamps는 0.5초 간격으로 배치되며, x, y는 0에서 1000 사이의 normalized coordinates입니다. 그러나 이러한 동작은 범용적인 instruction-following VLM이라기보다는 특화된 tracking tool에 가깝습니다. "비디오 끝에 하트 여왕이 어디에 있습니까?"라는 프롬프트가 주어지면, Molmo2는 명시적으로 spatiotemporal tracking을 수행하지 않고 direct-answer mode(예: "Left.")로 응답하여 near-random performance를 초래합니다.
따라서 우리의 목표는 생성된 trajectories를 question answering을 위한 CoTs로 사용하여 Molmo2의 기본 tracking capability를 활용하는 것입니다.
Training for SGCoT Alignment
high-FPS video input의 memory 및 compute cost를 피하기 위해, 우리는 video input 없이 최소한의 text-only training samples를 사용하여 VET-Bench tasks를 end-to-end로 해결하도록 Molmo2-SGCoT를 align하는 간단하고 매우 효율적인 접근 방식을 제안합니다. 우리는 tracking을 이끌어내기 위해 CoT prompting(예: query 앞에 "Track [object]"를 붙임)을 채택합니다. 다음은 Molmo2-SGCoT의 prompt 및 response 예시입니다:
하트 여왕을 track하고 비디오 끝에 하트 여왕이 어디에 있는지 answer 하세요? 하트 여왕 Answer: left.
각 sample은 Python script에 의해 generated 된 SGCoT로서 synthesized trajectory를 포함합니다. VET-Bench에서 final answer("left", "middle", 또는 "right")는 tracked object의 terminal location에만 의존하며, 이는 SGCoT의 final coordinate(밑줄 친 부분)에 의해 명시적으로 정의됩니다. training 동안, 우리는 모든 synthesized trajectory tokens에 대한 loss를 mask하고 final answer(빨간색으로 표시됨)만 supervise하여, model이 SGCoT로부터 final answer를 generate하는 방법을 학습하는 동시에 grounding capability를 유지하도록 권장합니다. 특히, 우리의 method는 VET-Bench videos에 대한 명시적인 training을 요구하지 않습니다. 임의로 generated 된 trajectory도 작동하지만, 우리는 in-distribution synthesized trajectories를 사용하는 것이 tracking ability의 저하를 최소화한다는 것을 발견했습니다. 우리의 SGCoT alignment는 매우 효율적입니다. 단일 A100 GPU에서 300 samples에 대한 1 epoch가 3분 만에 완료되며, Molmo2의 accuracy를 near-random에서 91%로 향상시킵니다.
Error Analysis
높은 accuracy에도 불구하고 Molmo2-SGCoT는 가끔 실패합니다. 오류는 일반적으로 model이 visually identical objects를 잘못 식별하는 SGCoT perception stage 동안 발생합니다. 이는 output trajectory에서 갑작스러운 "jumps"로 나타나며, 잘못된 terminal locations와 그에 따른 final answer에서의 실패를 초래합니다.
Why SGCoT Succeeds and Other CoTs Fail
SGCoT의 성공은 fine-grained intermediate state representation 덕분일 가능성이 높습니다. 특히, 이는 (i) event가 발생할 때(frame sampling 기반의 discrete timestamps 사용)와 (ii) 각 entity가 위치한 곳(fine-grained spatial coordinates 사용)을 명시적으로 aligns 합니다. 이러한 조합은 long-horizon tracking에 더 적합한 unambiguous state representation을 산출합니다. 대조적으로, 많은 generic descriptive CoTs는 시간과 공간에 loosely grounded 되어 있습니다. coarse time ranges(예: "00:01–00:02")로 events를 ground하는 CoTs는 본질적으로 불안정합니다(inherently brittle). fine-grained motion events는 종종 정수가 아닌 시작 및 종료 시간을 갖습니다. 이러한 coarse intervals는 temporal misalignment를 초래하여 errors가 누적되게 합니다. 유사하게, coarse referring expressions(예: "left", "right")에 의존하는 CoTs는 state를 불충분하게 명시합니다(underspecify). SGCoT는 일정한 간격으로 시간을 discretizing 하고 각 timestamp에 정확한 spatial state가 대응되도록 보장함으로써 두 failure modes를 모두 피합니다.
5 Spatiotemporal Grounded Chain-of-Thought 핵심 정리 노트
이 섹션은 모델이 텍스트로만 논리를 전개하는 기존 CoT의 한계를 극복하고, 실제 비디오 내 객체의 물리적 시공간 궤적을 추론 과정(CoT)으로 활용하여 야바위 문제를 해결하는 SGCoT (Spatiotemporal Grounded Chain-of-Thought) 방법론을 제안합니다.
1. 기존 CoT의 한계와 SGCoT 도입 배경
- 문제점: Gemini-3와 같은 모델은 텍스트 상으로는 완벽하게 논리적인 CoTs를 생성하지만, 실제 픽셀 단위의 시각적 인식(perceptual grounding)이 부정확하여 VET-Bench에서 실패함.
- 해결책: 모델이 최종 정답을 내기 전에, 대상 객체의 정확한 시공간적 궤적(trajectory)을 중간 상태(intermediate state)로 출력하도록 강제하는 SGCoT 제안.
- Base Model 선정: Video object tracking에 특화되어 강력한 grounding capabilities를 갖춘 Molmo2를 활용함.
2. Base Model(Molmo2)의 맹점
- Molmo2는 프롬프트를 주면 0.5초 간격의 타임스탬프와 정규화된 좌표(0~1000)로 궤적을 잘 생성함.
- 그러나 "비디오 끝에 여왕 카드가 어디 있니?"라는 일반적인 VLM 형식의 질문을 던지면, 자신이 가진 tracking 능력을 쓰지 않고 direct-answer mode로 "왼쪽"이라고 직관적으로 찍어버려 낮은 성능을 기록함.
3. SGCoT Alignment 훈련 기법 (핵심 기여) 무거운 high-FPS video input 없이, 오직 text-only 데이터만으로 Molmo2가 SGCoT를 수행하도록 정렬(alignment)하는 초경량 학습법을 제안함.
- 프롬프트 엔지니어링: 질문 앞에 "Track [object]"라는 지시어를 추가하여 모델의 내재된 tracking 능력을 강제로 활성화(elicit)함.
- 효율적인 Loss Masking 전략: 학습 데이터는 파이썬 스크립트로 합성된 텍스트 궤적(synthesized trajectory)과 최종 정답으로 구성됨. 여기서 궤적을 나타내는 토큰들의 loss는 모두 mask 처리하고, 오직 최종 정답(final answer)에만 supervision을 적용함.
- 효과: 모델은 궤적을 스스로 그리는 원래의 grounding capability를 잃지 않으면서도, 생성된 SGCoT(궤적)의 마지막 좌표를 보고 최종 정답을 맞히는 방법을 학습함.
- 비용 및 성능: A100 GPU 1대로 300개의 샘플을 1 epoch(단 3분 소요) 학습시키는 것만으로, random 수준이던 정확도를 91%의 state-of-the-art 성능으로 끌어올림.
4. 왜 SGCoT는 성공하고 기존 CoTs는 실패하는가? (Why it works)
- Unambiguous state representation: SGCoT는 0.5초 단위의 이산적 시간(discrete timestamps)과 정밀한 공간 좌표(fine-grained spatial coordinates)를 명시적으로 일치(align)시킴.
- 기존 CoT의 실패 원인: 기존 모델들의 텍스트 기반 CoTs는 "00:01~00:02초 사이에 왼쪽으로 이동"과 같이 시간과 공간을 뭉뚱그려(coarse) 표현함. 실제 움직임은 정수 단위로 딱 떨어지지 않기 때문에 이러한 느슨한 표현은 시간적 불일치(temporal misalignment)를 유발하고 오차를 누적시켜 결국 실패로 이어짐.
5. Error Analysis
- 91%의 높은 정확도에도 실패하는 경우를 분석해 보면, 주로 SGCoT perception stage에서 똑같이 생긴 객체(visually identical objects)를 다른 객체로 착각하여 궤적 좌표가 갑자기 튀는(jumps) 현상이 발생할 때 오답을 냄.
쉬운 설명 :
"눈으로만 대충 좇지 말고, 손가락으로 0.5초마다 짚어가며 풀어봐!"
이 파트는 AI에게 야바위를 완벽하게 가르친 '훈련 비법'을 설명합니다.
기존 AI들은 야바위를 풀 때 "음, 왼쪽 컵이 오른쪽으로 대충 1~2초쯤에 갔고..." 식으로 두루뭉술하게 말로만 추론(CoT)을 하다가 중간에 다 놓쳐버렸습니다.
그래서 연구진은 동영상 추적을 아주 잘하는 'Molmo2'라는 AI를 데려왔습니다. 그런데 이 AI에게 다짜고짜 "공 어딨어?"라고 물어보면, 자기 능력을 안 쓰고 그냥 아무렇게나 "왼쪽" 하고 찍어버리는 문제가 있었습니다.
연구진은 AI의 버릇을 고치기 위해 특별한 훈련을 시켰습니다. 비싼 비디오 데이터를 왕창 먹인 게 아니라, 아주 간단한 텍스트 훈련을 시켰습니다. "답을 말하기 전에, 반드시 0.5초마다 공의 X, Y 좌표를 숫자로 써! 그리고 마지막 좌표를 보고 최종 정답을 말해!" 라고 규칙을 정해준 것입니다.
AI가 X, Y 좌표를 써 내려가는 부분(궤적)은 놔두고, 마지막 정답을 맞히는지 틀리는지만 채점(Supervision)했습니다. 놀랍게도 단 3분 만에 AI는 눈으로만 대충 좇는 버릇을 고치고, 0.5초마다 점을 찍듯 궤적을 그려가며 공을 추적하게 되었습니다. 두루뭉술한 시간/공간 표현 대신 정확한 숫자로 위치를 기록하니 헷갈릴 일이 사라졌고, 정답률은 91%로 폭발적으로 상승했습니다.
Spatiotemporal Grounded Chain-of-Thought (SGCoT)
별점 4점 / 5점 : 비디오 연산이라는 정공법을 비웃고, 가짜 좌표와 Loss 마스킹이라는 텍스트 꼼수로 VLM의 눈과 입을 야매로 동기화시킨 천재적인 논문.
비디오 qa task에서 비디오를 전혀 사용하지 않고도 30점에서 90점으로 올린건 정말 충격적이었음.
모델의 내재적인 물리적, 시공간적 지능이 진화한 것이 아니라, 그저 모델이 이미 갖고 있던 '좌표 찍기' 도구를 강제로 꺼내 쓰도록 텍스트 패턴 단 300개를 학습 한 것은 난생 처음 보는 학습 방법.
기존 연구자들이 비전-언어 모델의 시공간 추론 능력을 끌어올리겠다고 수만 개의 비디오와 텍스트 쌍을 엮어 GPU를 불태우고 있을 때, 이 저자들은 모델의 '눈'이 이미 충분히 좋다는 사실을 아주 영악하게 간파 해버림.
하지만 야바위 게임처럼 환경이 완벽하게 통제되고 좌표의 이동만으로 결론이 도출되는 온실 속에서는 완벽하게 작동하지만, 변수가 난무하고 복잡한 의미론적 맥락이 개입되는 현실 세계의 비디오 앞에서는 이 단순한 패턴화의 모래성은 처참하게 무너질 수밖에 없음
