AI바라기의 인공지능

VLM : 논문리뷰 : UNHACKABLE TEMPORAL REWARDING FOR SCALABLE VIDEO MLLMS 본문

논문리뷰

VLM : 논문리뷰 : UNHACKABLE TEMPORAL REWARDING FOR SCALABLE VIDEO MLLMS

AI바라기 2025. 5. 6. 16:38

Video-UTR 학습 노트

Terminology

  • Temporal Hacking: Video MLLM이 전체 video narrative를 이해하는 대신, video의 일부 frame (e.g., 시작 또는 끝 frame)에만 의존하여 shortcut learning을 통해 proxy reward를 극대화하려는 현상. 이 논문에서 RL 관점으로 처음 정의함.
  • Anti-scaling Law: Video MLLM 학습 시, data volume이나 model parameter를 늘렸을 때 오히려 성능이 저하되는 역효과 현상. 이 논문은 temporal hacking을 주요 원인으로 지목함.
  • Temporal Perplexity (TPL): Temporal hacking의 정도를 정량화하기 위해 제안된 metric. 전체 video frame을 사용했을 때의 perplexity와 무작위 단일 frame을 사용했을 때의 perplexity 차이 (Eq. 6). 낮은 TPL은 심각한 temporal hacking을 의미.
  • Unhackable Temporal Rewarding (UTR): Temporal hacking을 완화하기 위해 제안된 framework. Spatiotemporal attribute 추출과 bidirectional querying을 통해 video-language alignment를 학습.
  • Spatiotemporal Attributes: 각 video frame에서 추출된 고유한 시공간 정보 (e.g., trajectory, identity, action, location, appearance). UTR의 핵심 요소. (Eq. 7, 8)
  • Bidirectional Querying: 무작위로 선택된 frame의 spatiotemporal attribute 일부를 query로 사용하여, 모델이 전체 subject 정보를 예측하도록 하는 task modeling 방식. 모델이 전체 video를 보도록 강제함. (Eq. 9)
  • Proxy Reward: RL에서 agent가 최적화하도록 설계된 보상 함수. Video MLLM에서는 주로 video-text pair의 일치도 (e.g., cross-entropy loss)로 정의됨.
  • True Reward: Task 설계자가 궁극적으로 달성하고자 하는 목표. Video MLLM에서는 video content에 대한 포괄적이고 정확한 이해를 의미. Proxy reward와 true reward 간의 misalignment가 temporal hacking의 원인.
  • Reward Hacking: RL agent가 task의 의도된 목표를 달성하지 않고 proxy reward만 극대화하는 방법을 찾는 현상.
  • Markov Decision Process (MDP): 순차적 의사결정 문제를 수학적으로 모델링하는 framework. 논문에서는 video-language 생성을 MDP로 공식화함 (Eq. 3).
  • Expert Models: 특정 task (e.g., object detection, tracking)에 특화된 pre-trained model. UTR에서는 GRiT, Grounding DINO, ByteTrack 등을 사용하여 spatiotemporal attribute를 추출함.

Purpose of the Paper

  • Video MLLM 분야에서 관찰되는 "anti-scaling law" 현상 (data/model 증가 시 성능 저하)의 원인을 규명하고 해결하고자 함.
  • 기존 연구들이 간과했던 "temporal hacking" (소수 frame 기반 shortcut learning) 문제를 RL 관점에서 새롭게 정의하고, 이것이 anti-scaling law의 주범임을 밝힘.
  • 단순히 data/parameter scaling만으로는 해결되지 않는 temporal hacking 문제를 완화하기 위해, proxy reward와 true objective를 align 시킬 수 있는 새로운 rewarding framework (UTR) 및 평가 metric (TPL) 개발을 목표로 함.

Key Contributions & Novelty

  • Temporal Hacking Theory: Video MLLM의 shortcut learning 현상을 "temporal hacking"으로 명명하고, RL framework를 이용해 최초로 체계적인 이론을 정립함. (Novelty: 기존 현상에 대한 새로운 RL 기반 이론적 해석 제시)
  • Temporal Perplexity (TPL) Metric: Temporal hacking의 심각성을 정량적으로 측정할 수 있는 새로운 metric (TPL)을 설계하고, 이것이 실제 모델 성능 및 frame activation pattern과 강한 상관관계를 가짐을 실험적으로 증명함. (Novelty: Temporal hacking 측정 위한 최초의 정량적 지표 제안)
  • Two Guiding Principles: 효과적인 video-language proxy reward 설계를 위한 두 가지 원칙 (High frame information density, High inter-frame information dynamics)을 제시함. (Novelty: Reward 설계 위한 구체적이고 이론에 기반한 원칙 제시)
  • Unhackable Temporal Rewarding (UTR) Framework: 제안된 원칙에 기반하여 temporal hacking을 완화하는 구체적인 framework (UTR)를 제안함. 이는 spatiotemporal attribute 추출bidirectional querying이라는 두 핵심 요소로 구성됨. (Novelty: Attribute 기반 + Querying 방식 결합한 새로운 temporal modeling 접근법)
  • Video-UTR Model & Validation: UTR framework를 적용한 Video-UTR 모델을 개발하고, 광범위한 실험을 통해 UTR이 temporal hacking을 효과적으로 방지하고 video 이해 능력을 크게 향상시키며, "anti-scaling law"를 극복할 수 있음을 입증함. (Novelty: 제안된 framework의 효과를 실제 모델 구현 및 실험으로 검증)

Experimental Highlights

  • Strong Performance with Less Data: Video-UTR은 MVBench (58.8%), TempCompass (59.7%), VideoMME (52.6%) 등 주요 video understanding benchmark에서 경쟁 모델들보다 적은 training data (1.1M)를 사용했음에도 SOTA 또는 매우 경쟁력 있는 성능을 달성함 (Table 1).
  • Overcoming Anti-scaling: UTR-Data 규모를 늘릴수록 성능이 향상 (Table 4)되고, video frame 길이를 늘려도 성능 저하가 크지 않음 (Table 5)을 보여 "anti-scaling law" 현상을 극복 가능성을 시사함.
  • TPL Correlation: 제안된 TPL score가 모델의 실제 video 이해 성능 (True Performance) 및 inference 시 frame activation 정도와 강한 양의 상관관계를 가짐을 실험적으로 확인함 (Fig 2a, 2b). TPL이 temporal modeling quality의 신뢰성 있는 지표임을 증명.
  • Spatial-Temporal Understanding: Zero-shot setting에서 MM-ID (Table 6) 및 long-range video benchmark인 MVBench-Video (Table 7)에서 우수한 성능을 보여, UTR이 시공간적 정보 이해 능력을 효과적으로 향상시킴을 입증함.
  • Ablation Study: UTR의 핵심 요소인 UTR-Data와 Bidirectional Querying 제거 시 성능이 크게 하락하며 (Table 3), 특히 UTR-Data의 중요성이 강조됨. 단순히 VideoChat2 데이터를 추가하는 것보다 UTR-Data가 효과적임을 보여줌.

Limitations and Future Work

  • Limitations:
    • Dependency on Expert Models: UTR 성능은 spatiotemporal attribute 추출에 사용되는 expert model (GRiT, Grounding DINO, ByteTrack 등)의 정확도에 크게 의존함. Expert model의 한계가 UTR 성능의 상한선이 될 수 있음 (Appendix E.1, E.4).
    • Limited Benefit on Specific Tasks: 단일 frame 분석만으로 해결 가능하거나 외부 지식이 중요한 task (e.g., VideoMME 일부, Fig 9)에서는 UTR의 효과가 제한적일 수 있음 (Appendix E.3).
    • Benchmark Limitations: 현재 video benchmark가 전체 video content에 대한 포괄적 이해 능력을 충분히 평가하지 못할 수 있음 (Appendix E.3).
  • Future Work:
    • Improving Attribute Quality/End-to-End: Expert model 의존성을 줄이기 위해 attribute 추출 품질을 개선하거나, 단일 MLLM 내에서 end-to-end 방식으로 attribute 처리 및 task 생성을 통합하는 연구 (Appendix E.4).
    • Explicit Temporal Rewarding: RL algorithm (e.g., DPO, PPO, GRPO)을 활용하여 보다 명시적인 temporal rewarding mechanism을 개발하고 post-training을 통해 video 이해 및 reasoning 능력을 강화하는 연구 (Appendix E.4).
    • Better Benchmarks: Video MLLM의 전체적인 video 이해 능력을 더 잘 평가할 수 있는 새로운 benchmark 설계 (Appendix E.3).

Overall Summary

이 논문은 Video MLLM의 성능 저하 현상인 "anti-scaling law"의 원인으로 "temporal hacking"을 지목하고, 이를 RL 관점에서 이론적으로 정립합니다. Temporal hacking을 정량화하는 TPL metric과 이를 완화하기 위한 UTR framework (spatiotemporal attribute 추출 + bidirectional querying)를 제안합니다. 실험 결과, UTR은 적은 데이터로도 우수한 성능을 보이며 temporal hacking을 완화하고 anti-scaling law를 극복할 가능성을 보여주었습니다. 이 연구는 proxy reward와 true objective 간의 alignment 중요성을 강조하며, 더 robust하고 scalable한 Video AI 시스템 개발에 기여할 것으로 기대됩니다.

쉬운 설명 (Easy Explanation)

Video MLLM이 긴 video를 볼 때, 처음이나 마지막 몇 장면만 보고 전체 내용을 다 본 척 '꼼수'(Temporal Hacking)를 부려서 성능이 떨어지는 문제가 있었습니다. 이 논문은 이런 꼼수를 막기 위해, video의 '모든 중요한 장면'(Spatiotemporal Attributes)에 대해 '무작위로 질문'(Bidirectional Querying)해서 모델이 video 전체를 꼼꼼히 보도록 강제하는 새로운 학습 방식(UTR)을 제안합니다. 마치 학생이 책 전체 내용을 요약할 때 첫 문단과 마지막 문단만 읽는 꼼수를 막기 위해, 각 문단 내용에 대해 무작위로 질문해서 전체를 다 읽게 만드는 것과 비슷합니다. 이를 통해 모델이 video를 더 깊이 이해하고 성능도 향상되었습니다.

 

 

 

 

ABSTRACT

우수한 video-processing MLLMs를 추구하는 과정에서, 우리는 더 많은 data와 더 큰 models가 더 나쁜 performance로 이어지는 "anti-scaling law"라는 혼란스러운 역설에 직면했습니다. 이 연구는 그 원인이 "temporal hacking"임을 밝혀냅니다. 이는 models가 선택된 frames에 고정되어 전체 video 서사를 놓치는 방식으로 지름길을 택하는 현상입니다.

본 연구에서는 temporal hacking에 대한 포괄적인 이론을 체계적으로 정립합니다. 이를 reinforcement learning 관점에서 정의하고, 이러한 불일치를 평가하기 위해 Temporal Perplexity (TPL) score를 도입하며, temporal hacking을 완화하기 위한 Unhackable Temporal Rewarding (UTR) framework를 제안합니다. 이론적으로나 경험적으로, TPL은 temporal modeling 품질의 신뢰할 수 있는 지표임이 입증되었으며, frame activation patterns와 강한 상관관계를 보입니다.

광범위한 실험을 통해 UTR이 temporal hacking에 대응할 뿐만 아니라 video comprehension 능력을 상당히 향상시킨다는 것이 밝혀졌습니다. 이 연구는 video-AI systems를 발전시킬 뿐만 아니라, MLLM development에서 proxy rewards를 실제 목표와 일치시키는 것의 결정적인 중요성을 조명합니다.

 

 

 

 

Figure 1: temporal hacking의 예시.

우리는 여우 이름이 Nick이고 토끼 이름이 Judy인 Zootopia의 한 장면을 선택하여 temporal hacking 현상을 생생하게 설명합니다. 인간은 Markov process와 유사한 "흐름"을 따라 내용을 점진적으로 이해하면서 videos를 frame by frame으로 시청합니다. 반면, MLLMs는 전체 video와 그 내용을 한 번에 process하며, 이로 인해 가장 관련성이 높은 frames에만 집중하여 지름길을 택하게 될 수 있습니다.

 

 

 

 

 

 

1 INTRODUCTION

더보기

인간과 유사한 reasoning을 모방하는 artificial intelligence를 추구함에 따라, multimodal large language models (MLLMs)를 발전시키는 데 있어 System 2 cognitive processes—deliberate, structured, 그리고 temporally-aware reasoning—의 역할이 점점 더 강조되고 있습니다. GPT-4V, LLaVAs와 같은 초기 MLLMs는 static image understanding에서 놀라운 능력을 보여주었지만, video understanding에 대한 그들의 적용은 spatiotemporal dynamics, long-range context dependencies, 그리고 multimodal alignment의 내재적 복잡성에 의해 여전히 제약을 받습니다. 이는 연구자들이 open-source community를 위해 강력한 video MLLMs를 개발하도록 동기를 부여합니다.

video foundation model 구축의 지배적인 패러다임은 광범위한 video-text pair datasets로부터의 contrastive 또는 generative learning에 의존합니다. 그러나 최근 연구들은 직관에 반하는 "anti-scaling law" 현상을 밝혀냈습니다. 실질적으로, 증가된 data volume이나 model parameters는 performance degradation으로 이어집니다. Figure 2(a)에서의 우리의 분석 또한 더 많은 training data를 추가하는 것이 high-quality samples의 희석으로 인해 temporal modeling performance를 감소시킨다는 것을 보여줍니다. 추가 조사에 따르면 models는 종종 몇 개의 key frames, 일반적으로 단지 초기(Figure 2(b)) 또는 마지막 frame(Figure 1)으로부터 전체 captions을 infer합니다. 이는 현재 방법론들이 의도치 않게 shortcut learning의 한 형태를 조장한다는 것을 시사합니다. 결정적으로, 이 문제는 단순한 data 및 parameter scaling을 통해서는 해결되지 않습니다. 그러한 접근 방식은 사실상 문제를 악화시킬 수 있습니다.

우리는 이 문제를 reinforcement learning (RL)의 관점을 통해 재구성할 것을 제안합니다. video-text pairs에 대한 MLLMs의 generative modeling은 model의 policy가 video frame context에 조건화된 매우 relevant text를 생성하는 expected reward를 최대화하는 것을 목표로 하는 sequential decision-making process로 공식화될 수 있습니다. 이 공식화는 비판적인 검토를 필요로 합니다: 우리의 proxy reward function (video-text 또는 video-caption pair)이 우리가 최적화하고자 하는 true reward (video-language alignment)를 적절히 근사하는가? 경험적 증거는 상당한 불일치를 시사합니다. 우리는 video LLMs의 맥락에서 "temporal hacking"이라고 명명된 reward hacking의 발현을 관찰합니다. 이 곤경은 레이싱 게임에서 결승선을 향해 전혀 나아가지 못하면서 "power-ups"를 모으기 위해 맹렬히 원을 그리며 도는 보트와 유사합니다.

temporal reward hacking의 소용돌이에서 벗어나려면 단순히 노력을 늘리는 것이 아니라 전략의 전환이 필요합니다. 즉, 더 적합한 proxy reward를 사용하는 것이 이 도전을 극복하는 열쇠입니다. 이를 위해, 우리는 먼저 temporal reward hacking의 원인을 조사하고 그 심각성을 정량화하기 위한 새로운 측정 지표인 Temporal Perplexity (TPL) score를 도입합니다. 실험 결과 TP scores와 models의 temporal modeling capabilities 사이에 현저한 상관관계가 있음을 보여주며, 더 높은 TPL scores는 일관되게 더 많은 video frames의 activation과 연관되었습니다. 우리의 분석은 더 나아가 video MLLMs를 위한 효과적인 proxy reward function 설계를 위한 두 가지 핵심 원칙, 즉 높은 frame information density와 높은 inter-frame information dynamics의 제안으로 이어집니다. 이 두 원칙에 따라, 우리는 더 나아가 Unhackable Temporal Reward (UTR)를 제안합니다. UTR은 video-language alignment를 model링하기 위해 spatiotemporal attributes와 bidirectional queries를 활용합니다. 포괄적인 실험은 UTR이 자동화되고 scalable method로서, 모든 frames에 걸쳐 model의 관찰 경향을 유도함으로써 효과적으로 unhackable temporal modeling을 달성함을 검증합니다.

우리의 기여는 세 가지입니다:

  • 우리는 video MLLM unscaling phenomenon에 대한 새로운 RL perspective를 제공하며, "temporal hacking" theory를 그것의 첫 번째 포괄적인 설명으로 체계적으로 정립합니다.
  • 우리는 Temporal Perplexity (TPL) score를 설계했으며, 광범위한 실험을 통해 TPL이 model의 true performance와 높은 상관관계를 보여주어, temporal hacking을 완화하기 위한 신뢰할 수 있는 reference metric을 제공함을 입증했습니다.
  • 일련의 이론적 및 실험적 분석을 통해, 우리는 video-language modeling을 위한 proxy rewards 설계를 안내하는 두 가지 원칙을 제안하고, 더 나아가 Unhackable Temporal Rewarding (UTR)을 제안합니다. 광범위한 실험과 분석은 UTR의 효과를 입증하며, video MLLM temporal modeling에 대한 중요한 통찰력을 제공합니다.

 

 

 

 

1 INTRODUCTION 섹션 정리노트 (AI 연구자용)

핵심 문제 제기:

  • Video MLLMs 분야에서 data 또는 model 규모를 늘렸을 때 오히려 performance가 저하되는 "anti-scaling law" 현상 관찰.
  • 기존 video MLLMs (e.g., GPT-4V, LLaVAs)는 static image understanding에는 강하나, video understanding의 핵심인 spatiotemporal dynamics, long-range dependencies, multimodal alignment 처리에는 한계 존재.

원인 진단: "Temporal Hacking"

  • Performance 저하의 주 원인으로 " temporal hacking " 현상 지목.
  • Models가 전체 video의 시간적 맥락을 이해하는 대신, 시작/끝 frame 등 소수의 key frames 정보만으로 shortcut learning을 수행하여 전체 내용을 infer함 (Figure 1, 2).
  • 단순 data/parameter scaling은 이 문제를 해결하지 못하며 오히려 악화시킬 수 있음.

이론적 프레임워크: RL 관점

  • Video-text generative modeling을 Reinforcement Learning (RL) 문제로 재정의. Model의 policy는 video frame context 기반 text 생성 시 expected reward를 최대화하려 함.
  • 문제의 본질: 현재 사용되는 proxy reward function(video-text/caption pair 매칭)이 실제 목표인 true reward(video-language alignment)를 제대로 근사하지 못함.
  • 이로 인해 video LLMs 맥락에서 " temporal hacking "이라 명명한 reward hacking 발생. (비유: 레이싱 게임에서 결승선 도달 대신 power-up만 모으는 보트)

제안된 해결책 및 기여:

  1. 측정 지표: Temporal hacking의 심각도를 정량화하고 temporal modeling 품질과 높은 상관관계를 보이는 Temporal Perplexity (TPL) score 제시. (TPL ↑ ∝ frame activation ↑)
  2. 설계 원칙: 효과적인 proxy reward function 설계를 위한 2가지 원칙 제안:
    • 높은 frame information density
    • 높은 inter-frame information dynamics
  3. 솔루션: 위 원칙에 기반하여 spatiotemporal attributes와 bidirectional queries를 활용하는 Unhackable Temporal Reward (UTR) 제안. UTR은 model이 모든 frames를 보도록 유도하여 unhackable temporal modeling을 가능하게 하는 자동화되고 확장 가능한 방법론임을 실험적으로 검증.

주요 Contribution 요약:

  • Video MLLM unscaling phenomenon에 대한 새로운 RL perspective와 " temporal hacking " theory 제시.
  • Temporal hacking 완화를 위한 신뢰성 있는 reference metric인 TPL score 개발.
  • Video-language modeling을 위한 proxy reward 설계 원칙 및 효과적인 Unhackable Temporal Rewarding (UTR) 방법론 제안 및 검증.

쉬운 설명 : 1 INTRODUCTION

AI가 글이나 이미지를 넘어 video까지 잘 이해하게 만들려고 연구하고 있어요. 특히 video는 시간의 흐름에 따라 내용이 변하기 때문에 더 복잡하죠 (spatiotemporal dynamics). 요즘 multimodal large language models (MLLMs)라는 AI models이 발전하고 있는데, video 이해 능력은 아직 부족해요.

이상한 문제 발견: 보통 AI는 data를 많이 주거나 model 크기를 키우면 똑똑해지는데 (scaling law), video를 다루는 AI(video MLLMs)는 반대로 data나 model 크기를 늘렸더니 성능이 더 나빠지는 이상한 현상("anti-scaling law")이 나타났어요.

왜 그럴까? AI의 "꼼수" 때문: 연구진은 이 문제의 원인이 AI가 꼼수를 쓰기 때문이라고 봤어요. 이걸 "temporal hacking"이라고 불러요. AI가 video 전체를 차근차근 보는 게 아니라, 맨 처음이나 마지막 장면 같은 몇몇 핵심 frame만 보고 내용을 대충 때려 맞추는 거죠. 전체 video의 흐름이나 스토리는 놓치고요. 그냥 data만 더 준다고 이 꼼수가 해결되진 않아요.

새로운 관점과 해결책: 이 논문은 이 문제를 Reinforcement Learning (RL)이라는 관점에서 새롭게 봐요. AI를 학습시키는 걸, 게임에서 점수(reward)를 줘서 잘하게 만드는 것에 비유할 수 있어요. 지금까진 AI에게 " video 내용과 설명을 잘 맞춰봐" 같은 단순한 점수(proxy reward)를 줬는데, 이게 오히려 AI가 꼼수(temporal hacking)를 쓰도록 부추겼다는 거예요. 진짜 목표인 " video 전체 내용을 시간 순서대로 잘 이해하기"(true reward)와는 거리가 멀었던 거죠.

그래서 이 논문은 다음을 제안해요:

  1. AI가 얼마나 꼼수를 쓰는지 측정하는 점수 (Temporal Perplexity (TPL) score)를 만들었어요.
  2. 꼼수를 못 쓰게 하고 video 전체를 보도록 유도하는 새로운 점수 규칙(proxy reward 설계 원칙)을 제시했어요.
  3. 이 규칙에 따라 Unhackable Temporal Reward (UTR)라는 새로운 점수 시스템을 만들었어요. 이 시스템은 AI가 video의 시간적 흐름과 공간적 정보를 모두 보도록 해서 진짜 video 이해 능력을 키우도록 도와줘요.

결론적으로, 이 연구는 video를 이해하는 AI의 성능 저하 문제의 원인(temporal hacking)을 밝혀내고, 이를 해결하기 위한 새로운 측정 방법(TPL)과 근본적인 해결책(UTR)을 제시하고 있습니다.

 

 

 

 

 

Figure 2: temporal hacking 분석. (a)는 temporal perplexity와 true performance 간의 관계를 보여줍니다. 원의 반지름 크기는 data의 양을 나타냅니다. (b)는 model의 output이 어떤 특정 frames에 집중하는지를 보여주는 attention map을 시각화합니다.

 

 

2 BACKGROUND & EXAMPLE ANALYSIS

더보기

2.1 WHAT IS TEMPORAL HACKING?

Reward hacking (또는 reward exploitation, reward gaming으로도 알려짐)은 reinforcement learning (RL)에서 agent가 task designer의 의도된 목표를 실제로 달성하지 않으면서 reward signal을 최대화하는 방법을 발견하는 현상을 의미합니다.

구체적으로, 우리는 먼저 일반적으로 Markov decision process (MDP)로 공식화되는 순차적 결정 문제 를 정의합니다. 여기서 는 state space, 는 action space, 는 transition probability function, 는 reward function, 그리고 는 discount factor입니다. RL의 목표는 기대 누적 할인 reward를 최대화하는 policy 를 찾는 것입니다: 여기서 는 policy 를 따라 생성된 trajectory입니다. 는 현재 reward function 하에서 얻어진 optimal policy입니다. Reward hacking은 다음과 같은 policy  (일반적으로 )가 존재할 때 발생합니다: 여기서 는 의도된 task를 달성하기 위한 optimal policy이고, 는 의도된 task에서 policy model의 true performance를 나타냅니다. 본질적으로, reward hacking은 최적화 불일치를 나타내며, 높은 proxy rewards ()를 달성하지만 true reward objectives ()는 달성하지 못하는 policies로 이어집니다.

From reward hacking to temporal hacking. Autoregressive video-language modeling은 인간의 video comprehension을 모방하는 것을 목표로 합니다. Figure 1에서 설명된 바와 같이, 인간은 각 video frame에 순차적으로 접근하여 모든 이전 정보를 통합함으로써 점진적으로 이해를 구축합니다. 유사하게, model은 이전 video context가 조건으로 주어졌을 때 각 frame에 대해 점진적으로 tokens를 생성합니다. 이 task를 RL 관점에서 순차적인 Markov decision process로 표현하는 것은 자연스럽습니다.

특히, video frame sequence  (여기서 는 총 frames 수)와 특정 시간 단계 가 주어졌을 때, 이전 frames의 sequence 는 state space를 구성하고, 해당 text token 는 action space를 형성합니다. Training 동안, policy 는 state 를 조건으로 tokens 를 순차적으로 생성합니다. 생성된 tokens의 품질과 와의 관련성은 reward function 에 의해 평가되며, 이는 일반적으로 다음 token의 cross-entropy를 통해 측정됩니다. 목표는 다음과 같이 공식화될 수 있습니다:  이 objective function 를 기반으로 policy model을 최적화함으로써, 우리는 현재 reward function 하에서 optimal policy model 를 얻습니다. 그러나 Figure 1과 이전 연구들에서 볼 수 있듯이, 는 종종 video 내용 및 사용자 지침과 정확하게 일치하는 text를 생성하는 데 실패합니다. 대신, model은 제한된 수의 frames에만 접근하여 목표를 최적화할 수 있으며, 이는 shortcut learning으로 이어집니다. 이 논문에서 temporal hacking이라고 명명된 이 문제는 Eq. 2에서 설명된 proxy 목표와 true objectives 간의 불일치를 반영합니다.

우리는 Figure 1에서 예시를 제공하며, model이 temporal hacking을 통해 video의 마지막 두 frames에만 집중함으로써 true reward의 "더 간단한" 버전을 식별했음을 관찰할 수 있습니다. 이렇게 학습된 proxy reward는 특정 상황에서 매우 위험할 수 있으며, 완전히 잘못된 video understanding으로 이어질 수 있습니다.

2.2 WHAT CAUSES TEMPORAL HACKING?

이 섹션에서는 video-language modeling에서 temporal hacking 현상의 원인을 이론적 및 실험적 관점에서 분석할 것입니다.

Theoretical perspectives. Reward hacking theory에서, proxy 목표와 true objectives 간의 불일치()는 shortcut learning으로 이어집니다. Video-language modeling의 경우, true objective는 video에 대한 인간의 이해와 일치하는, 공간적 및 시간적으로 포괄적인 설명을 생성하는 것입니다. 그러나 실제로는, surrogate objective는 model predictions과 human-annotated captions 또는 curated internet content 간의 일관성에 reward를 부여합니다. 이러한 불일치는 suboptimal model behavior를 초래할 수 있습니다.

이상적으로는 Eq. 3에서 설명된 바와 같이, trajectories 는 temporal sequence의 모든 frame을 따라 전파되며, 이는 암묵적으로 textual descriptions이 각 frame을 포괄적으로 설명해야 함을 요구합니다. 그러나 frame redundancy 및 annotation costs로 인해, text는 종종 frames의 subset 또는 여러 frames에서 집계된 정보에만 조건화됩니다. 특히 일부 static 또는 low-motion scenarios에서는 더욱 그렇습니다. 각 frame에 대해 뚜렷한 설명을 제공하는 것은 특히 어렵습니다. 결과적으로, policy의 trajectory는 가 되며, 여기서 는 설명 를 만족시키는 모든 frame set을 나타내고 의 subset입니다. 결과적인 surrogate objective는 다음과 같이 표현될 수 있습니다: $$Figure 1에서 설명된 바와 같이, 이러한 proxy를 최적화하는 것은 불충분하며 포괄적인 video understanding이라는 true objective에서 벗어나기 쉽습니다. 이 reward hacking은 Eq. 4에서 Eq. 3을 빼서 을 구함으로써 정량화될 수 있습니다: Eq. 5에서, 가 증가하거나 평균 subset 크기 가 증가함에 따라(video 설명이 더 적은 frames로 압축될 수 있음을 나타냄) reward gap이 벌어진다는 것이 명백합니다. 이는 기존 video-language models에서 관찰된 "anti-scaling law" 현상을 설명하며, 여기서 video length가 증가함에 따라 performance가 저하됩니다.

Experimental perspectives. Reward hacking을 조명하기 위해, 우리는 을 탐색하기 위한 극단적인 관점을 제안합니다. 우리는 perplexity ()를 활용하여 video context와 그 textual description 사이의 cumulative reward를 model링합니다. 더 높은 similarity는 더 큰 cumulative reward 및 더 낮은 model perplexity와 상관관계가 있습니다. 우리는 fully sampled video sequence를 video context로 사용하여 true cumulative reward를 시뮬레이션합니다. proxy cumulative reward의 극단적인 경우를 model링하기 위해, 우리는 전체 video context를 나타내기 위해 무작위로 샘플링된 단일 keyframe을 사용합니다 (즉, ). 이는 model이 minimal information을 기반으로 전체 video를 설명하려고 시도하는 시나리오를 시뮬레이션합니다. 이 두 rewards의 차이는 이 논문에서 temporal perplexity (TPL, 로 정의됨) 또는 temporal hackability로 정의됩니다. 공식적으로는 다음과 같습니다:  실제로, distributional shift를 피하기 위해, 우리는 전체 video data 세트로 trained된 자체 MLLM model을 사용하여 perplexity를 계산합니다. 우리는 각 sample에 대한 모든 text tokens에 걸쳐 평균 negative log-likelihood (NLL) loss (즉, perplexity의 logarithm)를 기록하여 을 나타냅니다.

Eq. 5와 Eq. 6을 결합함으로써, 우리는 동일한 training 설정 하에서 더 낮은 TPL score가 더 큰 을 나타내며, 이는 결국 temporal hacking의 더 심각한 발생으로 이어진다고 직관적으로 추론할 수 있습니다. 이를 증명하기 위해, 우리는 TPL score와 temporal hacking 간의 관계를 심층 분석하기 위해 Figure 2에 표시된 두 가지 실험을 수행합니다.

구체적으로, 우리는 먼저 다양한  범위를 가진 VideoChat2 data의 subsets를 사용하여 models를 fine-tuned한 다음, 다른 TPL을 가진 data를 혼합했습니다. 직관적으로, 더 높은 average TPL scores는 reward hacking의 가능성이 감소함을 나타내므로, 우수한 video comprehension performance로 이어집니다. Figure 2(a)는 이를 확증하며, 여러 benchmarks에 걸쳐 video performance와 TPL scores 간의 상당한 상관관계를 보여주며, 이는 temporal perplexity가 효과적으로  및 심지어 reward hacking을 측정함을 나타냅니다. 더욱이, TPL score가 낮을 때 data 양을 늘려도 performance 향상으로 이어지지 않음을 관찰할 수 있으며, 이는 anti-scaling law phenomenon의 발생을 나타냅니다.

그런 다음 우리는 동일한 video-text pairs에 대한 models의 attention maps을 분석하여 더 깊이 파고들었습니다. Figure 2(b)는 더 높은 average-Ttpl을 가진 data로 trained된 models이 잘 설명된 이 data에 대한 inference 동안 더 많은 frames를 활성화함을 보여줍니다. 반대로, 심각한 reward hacking과 열등한 video modeling으로 인해 lower-Ttpl을 가진 models은 더 적은 frames를 활성화합니다. 이러한 실험들은 우리의 TPL score가 temporal hacking의 정도를 효과적으로 반영할 수 있음을 보여주며, 이 문제를 해결하기 위한 전략을 탐색하기 위한 신뢰할 수 있는 metric을 제공합니다.

 

2 BACKGROUND & EXAMPLE ANALYSIS 섹션 정리노트 (AI 연구자용)

Temporal Hacking 정의:

  • Reward hacking의 특정 형태로, autoregressive video-language modeling에서 발생.
  • Model이 전체 video sequence ()를 이해하는 true objective () 대신, 일부 frames () 기반의 shortcut learning을 통해 proxy reward (, 예: token 예측 정확도)를 최대화하는 현상.
  • RL 프레임워크()로 모델링 가능하며, 이지만 인 상황으로 설명됨 (Eq. 2).

Temporal Hacking 원인 분석:

  • 이론적 원인: Proxy reward와 True reward 간의 불일치 ().
    • 실제 학습 시 사용되는 surrogate objective (Eq. 4)는 종종 일부 frames () 또는 집계된 정보에 기반한 text annotation을 reward로 사용.
    • 이는 이상적인 목표(모든 frame 을 포괄적으로 이해, Eq. 3)와 차이가 발생하며, 이 차이(, Eq. 5)가 reward hacking의 크기를 나타냄.
    • Video 길이()가 길어지거나 frame 간 중복성(압축 가능한 subset 의 크기 증가)이 클수록 이 커져 temporal hacking이 심화되고 "anti-scaling law" 현상이 발생.
  • 실험적 분석 및 측정 지표 제안:
    • Reward gap ()을 측정하기 위해 perplexity () 기반의 Temporal Perplexity (TPL, T_{tpl}) 제안 (Eq. 6).
    • 정의: 전체 video context () 사용 시와 단일 keyframe ( 또는 랜덤 keyframe) 사용 시의 negative perplexity 차이.
    • 낮은 TPL 값은 해당 video-text pair가 temporal hacking에 취약함(작은 노력으로 proxy reward 획득 용이, 큰 )을 의미.

실험적 검증 (Figure 2):

  • TPL 점수와 true performance 간의 강한 양의 상관관계 확인 (Fig 2a). 평균 TPL이 높은 data로 학습된 model 성능이 우수함. 낮은 TPL data에서는 data 양 증가 시 성능 향상이 제한적인 anti-scaling 현상 관찰.
  • Attention map 분석 (Fig 2b): 높은 average-TPL data로 학습된 model은 inference 시 더 많은 frames에 attention을 분산시키는 반면, 낮은 TPL model은 소수 frames에 집중하는 temporal hacking 경향을 보임.
  • 결론: TPL은 temporal hacking의 정도를 효과적으로 반영하는 신뢰성 있는 metric임.

쉬운 설명 : 2 BACKGROUND & EXAMPLE ANALYSIS

Temporal Hacking이 뭔가요?

  • Temporal Hacking은 AI가 동영상을 이해할 때 발생하는 '꼼수' 같은 거예요. AI(agent)가 똑똑하게 전체 동영상 내용을 파악해서 좋은 점수(reward)를 받아야 하는데, 실제로는 전체 내용을 보지 않고 몇몇 특정 장면(frames)만 보고도 점수를 잘 받는 방법을 찾아내는 거죠. 마치 시험공부는 안 하고 족보만 봐서 점수 따려는 것과 비슷해요.
  • 이 논문에서는 동영상 이해 과정을 AI 학습 방법 중 하나인 Reinforcement Learning(RL) 틀에서 설명해요. AI가 동영상을 보고 설명을 만들어내는 것을, AI가 매 순간(frame) 어떤 단어(action)를 선택할지 결정하는 문제로 보는 거죠.

왜 AI는 이런 꼼수(Temporal Hacking)를 쓸까요?

  • 이론적인 이유: 우리가 AI를 가르칠 때 주는 '정답'이나 '칭찬'(proxy reward)이 완벽하지 않기 때문이에요. 예를 들어, 동영상 전체 내용을 아주 자세하게 설명하는 대신, 몇몇 중요한 장면에 대한 설명만 주고 AI에게 학습하라고 할 때가 많아요 (왜냐면 모든 장면에 설명을 다는 건 힘드니까요!). AI는 이렇게 단순화된 '정답'에 맞춰 점수를 잘 받으려고 하다 보니, 자연스럽게 전체 동영상(true objective - 진짜 목표)을 이해하기보다는 그 특정 장면들만 잘 맞추는 '지름길'을 택하게 되는 거죠. 특히 동영상이 길거나 비슷한 장면이 반복되면 이런 경향이 더 심해질 수 있어요. 이게 바로 동영상 AI가 데이터를 많이 학습해도 성능이 오히려 떨어지는("anti-scaling law") 이유 중 하나일 수 있어요.
  • 실험적으로 확인하고 측정하기: 이 논문에서는 AI가 얼마나 꼼수를 쓰기 쉬운지를 측정하는 점수인 Temporal Perplexity (TPL)을 제안해요. TPL은 동영상 전체를 봤을 때 설명을 맞추는 것과, 딱 한 장면만 봤을 때 설명을 맞추는 것의 어려움 차이를 계산해요. 만약 한 장면만 보고도 설명을 쉽게 맞출 수 있다면(어려움 차이가 작다면), TPL 점수는 낮게 나오고, 그만큼 AI가 꼼수를 쓰기 쉽다는 뜻이에요.

실험 결과는 어떤가요? (Figure 2 참고)

  • 실제로 TPL 점수가 높은 (꼼수 쓰기 어려운) 데이터로 학습시킨 AI가 진짜 동영상 이해 능력(True Performance)도 더 좋았어요 (Figure 2a).
  • AI의 '뇌'라고 할 수 있는 attention map을 들여다보니, TPL 점수가 높은 AI는 동영상 전체의 여러 장면에 골고루 주의를 기울이는 반면, TPL 점수가 낮은 AI는 특정 몇몇 장면에만 집중하는 모습을 보였어요 (Figure 2b).

결론: AI가 동영상을 이해할 때 꼼수(Temporal Hacking)를 쓰는 이유는 현재의 학습 목표(proxy reward)가 완벽하지 않기 때문이고, 이 논문에서 제안한 TPL 점수로 이 문제의 심각성을 측정할 수 있다는 것을 실험으로 보여줬어요.

 

 

 

3 UNHACKABLE TEMPORAL REWARDING

더보기

3.1 HOW TO MITIGATE TEMPORAL HACKING?

섹션 2에서는 temporal hacking의 개념을 소개, 정의 및 분석했습니다. temporal perplexity (TPL score)라는 새로운 metric은 video-language modeling에서 temporal hacking 문제가 발생하는지 여부를 평가하기 위해 제안되었습니다. 이 시점에서 다음으로 중요한 질문이 생깁니다: Temporal hacking을 어떻게 완화하거나 예방할 수 있을까요? 앞서 언급한 분석을 바탕으로, 우리는 먼저 video-language temporal modeling에서 unhackable reward 설계를 안내하는 두 가지 원칙을 제안합니다:

  • Principle I: High frame information density. Video text의 내용은 가능한 한 많은 frames에 고유하게 해당해야 합니다.
  • Principle II: High inter-frame information dynamics. 서로 다른 frames에 대한 설명은 일관성이 있어야 하며 temporal variations 및 event progression을 반영해야 합니다.

Eq. 5에서 설명된 Principle I은 섹션 2.2에서 논의된 바와 같이 를 줄임으로써 을 완화하는 것을 목표로 합니다. 이는 video의 각 frame이 고유하게 설명되도록 보장함으로써 달성될 수 있습니다. Principle II는  을 더욱 줄일 뿐만 아니라 Eq. 3에서 policy state transitions의 연속성을 보장하여 model의 real-world physical laws에 대한 이해를 향상시키는 지속적인 dynamics를 강조합니다.

현재 temporal modeling approaches는 주로 video information의 관련성과 일관성을 최대화하는 데 중점을 둡니다 (Principle II). 그러나 높은 frame rates와 inter-frame redundancy로 인해 개별 frames의 textual descriptions이 복잡해져 Principle I을 해결하는 것은 여전히 어려운 과제입니다. InternVID 및 COSMO와 같은 고급 기술은 video interleave formats을 통해 어느 정도 information density를 개선하지만, 여전히 frames의 높은 information density로 어려움을 겪고 spatiotemporal dynamics를 효과적으로 model링하지 못하여 Principle II를 완전히 해결하지 못합니다. 또한, image-text pairs를 연결하여 video data를 생성하는 COSA와 같은 methods는 frames 간의 spatiotemporal relationships을 설정하지 못하여 Principle II를 완전히 위반합니다.

제안된 두 가지 원칙을 동시에 만족시키기 위해, 우리는 video-language modeling을 bootstrap하기 위한 Unhackable Temporal Rewarding (UTR)을 추가로 제안합니다.

3.2 UNHACKABLE TEMPORAL REWARDING

섹션 2에서 검증된 바와 같이, 최적이 아닌 proxy rewards는 models에서 쉽게 temporal hacking으로 이어집니다. 이를 해결하기 위해, 우리는 앞서 언급한 principles을 준수하는 새로운 temporal rewarding method를 제안합니다. Figure 3에 설명된 우리의 접근 방식은 video frames (행 1)에서 spatiotemporal attributes를 추출하고 이를 균일하게 queries (행 2)하여 video-language alignment을 model링합니다. 이 automated되고 scalable method는 모든 frames에 걸쳐 model의 observational tendencies를 안내함으로써 unhackable temporal modeling을 달성합니다.

Spatiotemporal attributes는 고유한 video frame content를 나타내는 데 핵심입니다. 앞서 언급했듯이 높은 frame rates와 videos의 information redundancy로 인해 temporal hacking을 완화하는 것은 어렵습니다. 우리는 각 frame에서 상대적으로 독립적인 information을 캡처하기 위해 spatiotemporal attributes (예: trajectory, identity, action)를 추출할 것을 제안합니다. 이 접근 방식은 두 가지 이점을 제공합니다:

  • Attributes, 특히 positional coordinates의 frame-to-frame variations은 frame-specific information의 modeling을 가능하게 하여 information density를 증가시킵니다 (Principle I과 일치).
  • 이러한 attributes는 video 전체에 걸쳐 information을 연결하는 queries로 기능하여 spatiotemporal dynamics의 learning을 용이하게 합니다 (Principle II와 일치).

구체적으로, Eq. 3과 동일한 의미를 갖는 video frame sequence 가 주어졌을 때, 우리는 각 frame에서 subjects의 attribute information을 다음과 같이 추출합니다: 여기서 는 각각 frame 에 있는 subjects의 location, appearance, action information을 나타냅니다. Function 는 labeled data 또는 GRiT 및 Grounding DINO와 같은 specialized models을 사용하여 이 information을 추출합니다. 그런 다음 이 subject information을 각 subject에 해당하는 trajectories로 구성합니다: 여기서 는 subject 의 trajectory이고 은 video에 있는 subjects의 수입니다. 구체적으로, 는 각각 frame 에 있는 subject 의 trajectory, identity, action information을 나타냅니다. Function 는 frames에 걸쳐 subjects를 연결하여 trajectories와 identities를 형성하며, 일반적으로 ByteTrack과 같은 tracking algorithms을 사용합니다.

Bidirectional querying은 spatiotemporal dynamics를 명시적으로 model링합니다. 이전 methods는 선택된 frames와 text를 인터리빙하여 상대적으로 dense information을 model링했지만, 중요한 spatiotemporal dynamics는 간과했습니다. Merlin에서 영감을 받아, 우리는 임의의 temporal attribute 또는 spatial attribute를 사용하여 global spatiotemporal attributes를 query하는 bidirectional querying mechanism을 제안합니다. 이 접근 방식은 두 가지 이점을 제공합니다:

  • Spatiotemporal attributes의 명시적인 modeling은 model이 각 frame을 읽도록 강제하여 Principle I과 일치합니다.
  • Time과 space에 걸친 querying의 임의성은 model의 spatiotemporal dynamics에 대한 understanding을 향상시키며, 이 arbitrariness가 강할수록 understanding이 깊어져 Principle II와 일치합니다.

특히, 우리는 하나 이상의 subjects의 information을 query attributes로 무작위로 샘플링하고 여러 frames를 query frames로 선택합니다. Model은 제공된 query data를 기반으로 완전한 subject information을 predict해야 합니다. 공식적으로는 다음과 같습니다:  여기서 는 샘플링된 subject identities를 나타내고, 는 선택된 query frames를 나타내며,  에서 샘플링된 선택된 subjects의 attribute information을 나타내며, 이는 location, appearance, action description일 수 있습니다.

특히, query frames 의 무작위 선택은 model이 video의 어느 부분(시작, 중간 또는 끝)에서든 query information을 단서로 사용하여 전체 trajectory를 추적하도록 보장합니다. 이 접근 방식은 model이 초기 또는 최종 frames에만 의존하는 것과 같은 shortcuts을 피하고 전체 video를 완전히 observe하고 comprehend하도록 강제할 뿐만 아니라 time-dependent physical laws에 대한 understanding도 향상시킵니다. Model이 다양한 temporal intervals에 걸쳐 states를 infer하도록 요구함으로써, 암묵적으로 momentum, velocity, acceleration과 같은 concepts을 학습하여 기본적인 spatiotemporal dynamics에 대한 grasp을 강화합니다.

 

 

Figure 3: Unhackable Temporal Rewarding (UTR)의 전체 pipeline. UTR은 먼저 mixture of expert models를 사용하여 고유한 spatiotemporal attributes를 추출하고, tracking algorithm을 사용하여 confidence levels에 기반한 다중 subject trajectories를 구성합니다 (data modeling, 상단). 그런 다음 temporal 및 spatial attributes의 bidirectional querying을 수행하여 dialogue data를 생성하고 (task modeling, 하단), 이를 통해 spatiotemporal dynamics를 학습합니다.

 

더보기

Figure 3 이미지 설명

Figure 3은 temporal hacking 문제를 해결하기 위해 제안된 Unhackable Temporal Rewarding (UTR) 방법론의 전체 과정을 두 단계로 나누어 보여줍니다.

1. Data Modeling (상단): 데이터 모델링 단계

  • 입력 (Video): 원본 동영상 시퀀스가 입력됩니다.
  • Expert Models: 다양한 전문가 AI 모델들 (Grounding DINO, GRiT 등)의 조합 (mixture of expert models)을 사용하여 각 비디오 frame에서 객체(예: 닉, 주디)의 위치(box), 외형("옆에서 웃고 있음", "겁먹음"), 행동 등 상세한 정보(Attributes, 즉 spatiotemporal attributes)를 추출합니다.
  • Tracking Algorithm: 추출된 frame별 정보들을 ByteTrack, DeepSort 같은 tracking algorithm을 이용해 시간 순서대로 연결합니다. 이를 통해 각 객체(subject)가 동영상 내에서 어떻게 움직이고 상태가 변하는지에 대한 경로(subject trajectories)를 만듭니다. 예를 들어, 닉의 움직임과 상태 변화, 주디의 움직임과 상태 변화를 시간 순서대로 추적하는 것이죠.
  • Attribution Trajectories: 이 단계의 최종 결과물은 각 객체의 시간별 위치, 식별 정보, 행동 등이 포함된 구조화된 trajectory 데이터입니다.

2. Task Modeling (하단): 태스크 모델링 단계

  • 입력 (Attribution Trajectories): 위 데이터 모델링 단계에서 생성된 구조화된 trajectory 데이터를 입력으로 받습니다.
  • Querying Attribution Trajectory & Select Query Attribute: 여기서 bidirectional querying (양방향 질의) 핵심 아이디어가 사용됩니다. 시스템은 trajectory 정보의 일부를 무작위로 선택하여 '질문'(query attributes)으로 제시하고, AI 모델에게 나머지 정보를 '답변'하도록 요구합니다.
    • 질문 예시 (Query Attributes): 특정 시간(temporal: frame t1-12, 시간 2.0~3.5초, 행동 'looking') 또는 특정 공간(spatial: 위치 <box1>, 장소 'on the side', 외형 'rabbit, scared') 정보를 질문으로 사용할 수 있습니다.
  • Task Conversation: 이 질의 과정을 AI 학습에 사용할 수 있는 대화 형태의 데이터(dialogue data, 질의응답 쌍)로 만듭니다.
    • 질문(Q) 예시: "프레임 <t1>에서 <box1>은 무엇을 하고 있으며 해당 객체의 전체 경로는 어떻게 되나요? 그건 그렇고, 이 비디오에서는 무슨 일이 일어나고 있나요?" (특정 프레임의 공간 정보를 기반으로 질의)
    • 답변(A): AI 모델은 전체 비디오 frames와 주어진 부분적인 query information을 함께 보고, 질문에서 빠진 나머지 trajectory 정보와 전체 맥락을 추론하여 답변을 생성해야 합니다.
  • 결과 (Policy): 이렇게 생성된 dialogue data로 AI를 학습시키면, AI는 질문에 제대로 답하기 위해 어쩔 수 없이 동영상 전체 frames를 모두 봐야 합니다 ("Policy: 아! 비디오의 각 프레임을 봐야 해!"). 특정 frame만 보고 넘겨짚는 temporal hacking을 방지하고, 시간과 공간에 따른 동영상의 변화(spatiotemporal dynamics)를 제대로 학습하게 됩니다. 이것이 UTR의 목표이며, 웃는 얼굴 이모티콘("Good Job!")은 이 방식이 성공적임을 의미합니다.

요약: UTR은 (1) 전문가 모델과 추적 알고리즘으로 비디오 내 객체들의 상세한 시공간 정보(spatiotemporal attributes)와 경로(trajectories)를 추출하고, (2) 이 정보의 일부를 질문으로 던져 나머지 정보를 추론하게 하는 bidirectional querying 방식의 학습 데이터를 생성함으로써, AI가 비디오 전체를 보도록 유도하여 temporal hacking을 막고 spatiotemporal dynamics 이해 능력을 높이는 방법론입니다.

 

3 UNHACKABLE TEMPORAL REWARDING 섹션 정리노트 (AI 연구자용)

목표: 섹션 2에서 분석한 temporal hacking 완화 및 방지 방안 제시.

Unhackable Reward 설계를 위한 2가지 원칙 제안:

  1. Principle I: High frame information density: 생성된 text가 가능한 한 많은 video frames 각각에 고유하게 대응되도록 함. 이는 Eq. 5의 값을 줄여 reward gap 을 최소화하는 것을 목표.
  2. Principle II: High inter-frame information dynamics: 다른 frames에 대한 설명이 시간적 변화와 event progression을 일관되게 반영하도록 함. 이는 을 추가로 줄이고, policy state transitions (Eq. 3)의 연속성을 확보하여 model의 물리 법칙 이해도를 높이는 것을 목표.

기존 방법론의 한계: 대부분 Principle II에 집중하나, frame 중복성 등으로 Principle I 충족에 어려움. InternVID, COSMO 등은 부분적 개선에 그치며, COSA 등은 Principle II를 위반.

제안 방법론: Unhackable Temporal Rewarding (UTR)

  • 두 원칙을 동시에 만족시켜 video-language modeling을 bootstrap하는 새로운 temporal rewarding method.

UTR Pipeline (Figure 3):

  1. Data Modeling Stage (상단):
    • Mixture of expert models (Grounding DINO, GRiT 등)을 활용하여 각 frame 에서 상세한 spatiotemporal attributes () 추출 (Eq. 7). (Principle I 충족 기반 마련)
    • Tracking algorithms (ByteTrack 등)을 사용하여 frame 간 subjects를 연결, subject trajectories 구성 (Eq. 8). (Principle II 충족 기반 마련)
  2. Task Modeling Stage (하단):
    • Bidirectional Querying: 전체 video 와 함께, 무작위로 선택된 subjects 의 무작위 frames 에서의 부분적인 attribute information 을 query 로 제공.
    • 학습 목표: Model이 주어진 를 바탕으로 전체 trajectory information 를 예측하도록 학습 ( 추정, Eq. 9).

UTR의 작동 원리 및 효과:

  • Bidirectional Querying은 model이 query에서 누락된 정보를 추론하기 위해 필연적으로 모든 frames를 관찰하도록 강제함.
  • 이를 통해 spatiotemporal attributes를 명시적으로 model링하고 (Principle I), time과 space에 걸친 임의적 querying을 통해 spatiotemporal dynamics 이해를 심화시킴 (Principle II).
  • Shortcuts (예: 시작/끝 frame만 보기) 사용을 방지하고, 시간 의존적 물리 법칙 (momentum, velocity 등)에 대한 암묵적 학습을 유도함.
  • 전체 과정은 automated, scalable하며 unhackable temporal modeling을 가능하게 함.

쉬운 설명 : 3 UNHACKABLE TEMPORAL REWARDING

이번엔 어떻게 AI 꼼수(Temporal Hacking)를 막을까?

앞서 (섹션 2) AI가 왜 동영상을 볼 때 꼼수를 쓰는지 알아봤죠? 이번 섹션에서는 그 꼼수를 막는 방법을 제안해요.

꼼수 방지 규칙 2가지:

AI가 동영상을 제대로 배우게 하려면, AI에게 점수를 주는 방식(reward)이 다음 두 가지 규칙을 따라야 한다고 해요:

  1. 규칙 1 (모든 장면이 중요해!): AI가 만드는 설명은 동영상의 가능한 한 많은 장면에 각각 연결되어야 해요. 특정 장면만 보고 대충 넘어가면 안 돼요. (높은 frame information density)
  2. 규칙 2 (시간의 흐름을 놓치지 마!): 설명은 시간이 흐르면서 내용이 어떻게 변하는지, 사건이 어떻게 진행되는지를 잘 담아내야 해요. (높은 inter-frame information dynamics)

기존 방식의 문제점: 근데 기존 방법들은 보통 규칙 2(이야기 흐름)에는 신경 쓰지만, 규칙 1(모든 장면 중요)은 잘 못 지켰어요. 동영상에는 비슷한 장면이 너무 많아서 모든 장면을 다 중요하게 만들기가 어려웠거든요.

새로운 해결책: UTR (꼼수 못 쓰게 하는 점수 주기)

그래서 이 논문은 UTR이라는 새로운 방법을 제안해요. 크게 두 단계로 진행돼요 (Figure 3 참고):

  1. 1단계: 엄청 상세한 비디오 노트 만들기 (Data Modeling):
    • 여러 전문가 AI들(expert models)이 팀을 이뤄서 동영상을 봐요. 각 전문가는 "누가 어디에 있는지?", "어떻게 생겼는지?", "뭘 하고 있는지?" 같은 spatiotemporal attributes 정보를 각 장면(frame)마다 아주 자세하게 뽑아내요.
    • 그 다음, 다른 AI(tracking algorithm)가 이 정보들을 시간 순서대로 연결해서, 각 등장인물이나 물체가 동영상 속에서 어떻게 움직이고 변하는지에 대한 상세한 이동 경로(trajectory) 노트를 만들어요. 이렇게 하면 각 장면의 고유한 정보도 담고(규칙 1), 시간 흐름에 따른 변화도 기록할 수 있죠(규칙 2 준비).
  2. 2단계: 깜짝 퀴즈 시간! (Task Modeling - Bidirectional Querying):
    • 이제 주인공 AI에게 이 동영상을 보여주면서 '깜짝 퀴즈'를 내는 거예요. 1단계에서 만든 상세한 노트에서 아주 일부분의 정보만 무작위로 알려줘요. 예를 들면, "5초 때 주디는 어디 있었게?" 라거나 "3초에서 5초 사이에 닉은 뭘 하고 있었게?" 같은 식이죠.
    • AI의 임무는? 이 **조각 정보(query)**와 전체 동영상을 보고, 노트에서 빠진 나머지 부분을 전부 추론해서 원래의 완전한 노트를 복원하는 거예요.

왜 이게 효과가 있을까요?

  • AI는 이 무작위 깜짝 퀴즈에 답하려면 어쩔 수 없이 동영상 전체를 아주 꼼꼼히 봐야 해요. 시작이나 끝 장면만 보고는 답을 맞출 수가 없으니까요.
  • 질문에 답하기 위해 과거와 미래의 정보를 연결하고 추론하는 과정에서 자연스럽게 시간과 공간의 변화(spatiotemporal dynamics)를 배우게 돼요.
  • 결과적으로 AI는 더 이상 꼼수(temporal hacking)를 쓸 수 없고, 동영상을 제대로 이해하는 방법을 배우게 되는 거죠! 마치 학생에게 요약본만 외우게 하는 대신, 책 전체를 읽고 무작위 질문에 답하게 해서 깊이 있는 학습을 유도하는 것과 같아요.

 

 

 

 

 

 

그래서 다시 한번 정리하면

 

 

1. 일부 프레임만 보고 비디오를 요약하는 문제가 있어서 잘못 요약할 가능성이 높음.

2. 그걸 제한하기 위해 여러 프레임을 다 보게끔 하긴 해야함.

3. 그래서 중간프레임에 대한 정보를 여러 모듈로 부터 얻고 그걸 가지고 질문.

4. 엄밀히 말하면 중간 중간 질문이 아니라. 한번의 인퍼런스를 ㄴ통해 loss가 흘러가는 구조로 봐야함.

중간 질문이라고는 표현이 되었지만. 내 생각엔 하나의 질문일뿐임. 특정 프레임을 파악하는.

왜냐하면 loss는 각각 흐르기 때문.