AI바라기의 인공지능

Benchmark : 논문리뷰 : TempCompass: Do Video LLMs Really Understand Videos? 본문

논문리뷰

Benchmark : 논문리뷰 : TempCompass: Do Video LLMs Really Understand Videos?

AI바라기 2025. 6. 25. 15:37

쉬운 설명

이 논문의 핵심 아이디어는 **"진짜 실력을 판별하는 까다로운 시험 문제"**를 만드는 것과 같습니다.

예를 들어, 학생에게 "왼쪽으로 굴러가는 공" 비디오를 보여주고 질문하면 쉽게 맞힐 수 있습니다. 하지만 만약 이 학생이 '공'이라는 단어만 보고 답을 찍는 것인지, '왼쪽으로 굴러간다'는 움직임을 이해한 것인지 알기 어렵습니다.

TempCompass는 이 문제를 해결하기 위해 쌍둥이 문제를 만듭니다. 즉, "왼쪽으로 굴러가는 공" 비디오와, 이걸 그대로 역재생한 "오른쪽으로 굴러가는 공" 비디오를 모두 보여줍니다. 만약 학생이 두 비디오에 대해 모두 "왼쪽으로 굴러간다"고 답한다면, 움직임을 이해한 것이 아니라 그냥 공의 모습만 보고 찍었다는 것을 알 수 있습니다. 이처럼 Conflicting Videos는 모델이 비디오의 시간적 흐름(움직임, 변화)을 정말로 이해했는지, 아니면 단순히 정적인 이미지 정보로 '꼼수'를 부리는 것인지를 정확히 가려내는 역할을 합니다.

 

용어 설명 (Glossary)

  • TempCompass: 이 논문에서 제안하는 Video LLM의 시간적 이해(temporal perception) 능력을 종합적으로 평가하기 위한 벤치마크.
  • Conflicting Videos: 본 벤치마크의 핵심 개념. 정적인 내용(static content)은 동일하지만 특정 시간적 측면(예: 방향, 속도, 순서)에서만 차이가 나는 비디오 쌍(pair) 또는 삼중항(triplet). 모델이 단일 프레임의 편향(single-frame bias)이나 언어적 선입견(language priors)에 의존해 정답을 맞히는 것을 방지하기 위해 설계됨.
  • Meta-information: 비디오의 핵심 정보를 담고 있는 반정형(semi-structured) 텍스트 데이터. 사람이 먼저 {'subject': 'ice cream', 'attribute_change': 'melting'}과 같이 핵심 정보를 주석으로 달면, LLM이 이를 기반으로 질문과 선택지를 생성함.
  • Temporal Aspects: 비디오의 시간적 정보를 구성하는 요소. 이 논문에서는 Action, Speed, Direction, Attribute Change, Event Order의 5가지 기본 측면과 10가지 세부 측면으로 분류함.
  • Match Rate: 모델의 응답이 정해진 형식(예: A, B, C, D)을 얼마나 잘 따르는지 측정하는 지표. Rule-based로 정답 선택지를 성공적으로 추출한 비율을 의미하며, 이것이 낮으면 LLM 기반의 추가 평가가 필요함을 시사함.

Purpose of the Paper

이 논문은 "Video LLM이 정말로 비디오의 시간적 역동성(temporal dynamics)을 이해하는가?"라는 근본적인 질문에 답하고자 합니다. 기존 벤치마크들은 다음과 같은 명확한 한계를 가집니다.

  • 한계 1 (세분화 부족): 대부분의 벤치마크가 속도, 방향, 순서 등 다양한 temporal aspect를 구분하지 않고 전체적인 성능만 측정하여, 모델의 시간적 이해 능력에 대한 심층적인 분석이 불가능했습니다.
  • 한계 2 (형식의 단조로움): 일부 벤치마크는 시간적 측면을 분류하더라도, Multi-Choice QA와 같은 단일 task format에 국한되어 있어 다양한 명령어 형식을 소화해야 하는 Video LLM의 일반화 성능을 평가하기에 부적합했습니다.

따라서 이 논문은 위의 한계들을 극복하기 위해, 다양한 temporal aspecttask format을 종합적으로 평가하고, 특히 Conflicting Videos라는 독창적인 장치를 통해 모델이 single-frame biaslanguage priors와 같은 '꼼수'에 의존하지 않고 오직 시간의 흐름을 이해해야만 풀 수 있도록 설계된 새로운 벤치마크 TempCompass를 제안합니다.

Key Contributions & Novelty

  • Contribution 1: 종합적인 시간 이해 능력 평가 벤치마크 TempCompass 제안
    • Novelty: 5개의 기본 temporal aspect와 4개의 서로 다른 task format (Multi-Choice QA, Yes/No QA, Caption Matching, Caption Generation)을 조합하여, 다각적이고 심층적인 분석이 가능한 최초의 벤치마크입니다.
  • Contribution 2: Conflicting Videos 구성 전략 도입
    • Novelty: 정적 내용은 같고 시간적 정보만 다른 비디오들을 만들어, 모델이 단일 프레임의 시각적 단서만으로 정답을 유추하는 것을 원천적으로 방지합니다. 이는 모델이 진정으로 시간의 흐름을 이해하는지를 검증하는 매우 독창적이고 효과적인 방법론입니다.
      • Reversing: 비디오를 역재생하여 Direction, Attribute Change를 평가
      • Spatial Concatenation: 속도가 다른 비디오를 공간적으로 이어 붙여 Speed를 평가
      • Temporal Concatenation: 두 비디오의 시간 순서를 바꿔 Event Order를 평가
  • Contribution 3: LLM을 활용한 자동화된 하이브리드 평가 방법론 설계
    • Novelty: Video LLM의 자유로운(free-form) 응답을 평가하기 위해, 간단한 rule-based 매칭을 먼저 시도하고 실패 시 ChatGPT를 평가자(oracle)로 활용하는 실용적인 접근법을 제시했습니다. 특히 Caption Generation 태스크는 생성된 캡션을 이용해 관련 Multi-Choice QA를 풀게 하는 방식으로 독창적으로 평가합니다.

Experimental Highlights

  • 핵심 발견: 현존하는 SOTA Video LLM들은 시간적 이해 능력이 매우 취약(notably poor)합니다.
    • Table 2: 5개의 Video LLM (LLaMA-VID, Panda-GPT, Valley 등)은 모든 태스크에서 random baseline을 겨우 넘어서는 수준의 처참한 성능을 보였습니다.
    • Video LLM vs. Image LLM: 놀랍게도, SOTA Image LLM인 SPHINX-v2Qwen-VL-Chat이 다수의 Video LLM보다 높은 성능을 기록했습니다. 이는 현재 Video LLM들이 시간 정보를 효과적으로 활용하지 못하고 있음을 강력하게 시사합니다.
  • Conflicting Videos의 효과 입증:
    • Table 5: Conflicting Videos를 제외하고 원본 비디오로만 Image LLM을 평가했을 때는 성능이 크게 상승했습니다. 이는 Conflicting Videossingle-frame bias를 효과적으로 완화시켰음을 실험적으로 증명한 것입니다.
  • Temporal Aspect 별 성능 차이:
    • 모델들은 단일 프레임으로도 유추 가능한 Action 인식에서는 준수한 성능을 보였지만, 시간의 흐름을 반드시 이해해야 하는 Speed, Direction, Event Order 등에서는 성능이 급격히 하락했습니다.

Limitations and Future Work

  • Limitations:
    1. 여전히 존재하는 편향: Conflicting Videos를 사용했음에도 불구하고, single-frame이나 language prior의 영향을 완벽하게 제거하지는 못했습니다. (예: Image LLM 성능이 여전히 random 보다는 높음)
    2. 자동 평가의 한계: 자동 평가에 사용된 GPT-3.5-Turbo가, Video LLM이 생성한 캡션에 hallucinated content(환각)가 포함된 경우 이를 제대로 감지하지 못하고 정답으로 오판하는 경우가 있었습니다.
  • Future Work:
    1. 편향을 더욱 강력하게 억제할 수 있는, 더 정교한 벤치마크 데이터 구성 방법에 대한 연구가 필요합니다.
    2. 생성된 결과물의 환각까지 탐지할 수 있는, 더 발전된 형태의 (아마도 multimodal) 자동 평가 에이전트 개발이 요구됩니다.

Overall Summary

이 논문은 Video LLM의 실제 시간적 이해 능력을 정밀하게 진단하기 위한 TempCompass 벤치마크를 제안합니다. Conflicting Videos라는 독창적인 장치를 통해 모델이 정적 단서에 의존하는 것을 막고, 다양한 시간적 측면과 태스크 형식을 결합하여 종합적으로 평가한 것이 핵심입니다. 실험 결과, 현재 SOTA Video LLM들이 시간적 정보를 거의 이해하지 못하며 심지어 Image LLM보다도 성능이 낮은 경우가 많다는 충격적인 사실을 밝혀냈으며, 이는 향후 Video LLM 연구가 나아가야 할 중요한 방향을 제시합니다.

 

 

 

Abstract

최근 video large language models (Video LLMs)에 대한 관심이 급증하고 있습니다.

그러나 기존 benchmarks는 Video LLMs의 temporal perception 능력에 대한 포괄적인 feedback을 제공하지 못합니다. 한편으로, 대부분은 속도, 방향과 같은 다양한 temporal aspects를 구별할 수 없어 이러한 특정 측면에 대한 미묘한 performance를 반영할 수 없습니다. 다른 한편으로는, multi-choice QA와 같은 task formats의 다양성이 제한되어 있어, temporal perception performance가 다양한 유형의 task에 따라 어떻게 달라질 수 있는지 이해하는 데 방해가 됩니다.

이 두 가지 문제에 동기를 부여받아, 우리는 다양한 temporal aspects와 task formats를 도입하는 TempCompass benchmark를 제안합니다. high-quality test data를 수집하기 위해, 우리는 두 가지 새로운 전략을 고안했습니다: (1) video collection에서는, 동일한 static 콘텐츠를 공유하지만 특정 temporal aspect에서 차이가 나는 상충되는 비디오를 구성하여 Video LLMs가 single-frame bias나 language priors를 활용하는 것을 방지합니다. (2) task instructions를 수집하기 위해, 우리는 인간이 먼저 비디오에 대한 meta-information을 annotate한 다음 LLM이 instruction을 generates하는 paradigm을 제안합니다. 우리는 또한 Video LLMs의 responses를 자동으로 정확하게 evaluate하기 위한 LLM-based approach를 설계합니다.

TempCompass를 기반으로, 우리는 8개의 state-of-the-art (SOTA) Video LLMs와 3개의 Image LLMs를 종합적으로 evaluate했으며, 이러한 models이 현저하게 낮은 temporal perception 능력을 보인다는 식별 가능한 사실을 밝혔습니다. data와 evaluation code는 https://github.com/llyx97/TempCompass에서 확인할 수 있습니다.

 

 

 

1 Introduction

더보기

video understanding systems의 개발은 오랫동안 artificial intelligence 연구에서 인기 있는 주제였습니다. large language models (LLMs)의 전례 없는 발전에 영감을 받아, video understanding 능력을 갖춘 LLMs를 구축하기 위한 초기 노력들이 있었습니다. 이러한 Video LLMs는 video and language tasks를 위한 다목적 multi-modal solvers 역할을 할 수 있으며, 다양한 실제 real-world applications에서 강력한 잠재력을 보여줍니다.

Video LLMs의 빠른 발전과 함께, "Video LLMs가 비디오의 temporal dynamics를 정말로 이해하는가"라는 중요한 질문이 제기됩니다. 이 질문의 중요성에도 불구하고, 현재의 benchmarks는 만족스러운 답변을 제공하지 못합니다. 첫째, 대다수는 다양한 temporal aspects(예: action 유형, 속도, 방향)를 구별하는 것을 소홀히 하여 temporal perception 능력을 진단하기 위한 포괄적인 시각을 제공하지 못합니다. 둘째, 일부 Video LLM benchmarks가 다양한 temporal aspects를 분류했지만, multi-choice QA와 같은 task format 다양성에 제한이 있습니다. 결과적으로, 다양한 tasks와 instruction formats에 걸쳐 generalize할 것으로 기대되는 Video LLMs를 assessing하기에 최적으로 적합하지 않습니다.

위의 문제에 대응하여, 이 연구는 Video LLMs의 temporal perception 능력을 종합적으로 evaluate하기 위한 benchmark인 TempCompass를 제안합니다. TempCompass는 Figure 1에 표시된 바와 같이 5개의 기본 temporal aspects(Action, Speed, Direction, Attribute Change, Event Order)와 10개의 fine-grained sub-aspects를 도입합니다. 또한, TempCompass는 Figure 2에 표시된 바와 같이 4가지 다른 유형의 task formats(Multi-Choice QA, Yes/No QA, Caption Matching, Caption Generation)를 포함하며, 이를 통해 Video LLMs의 temporal perception 능력이 다양한 task formats에 따라 어떻게 달라지는지 조사할 수 있습니다.

TempCompass의 비디오는 ShutterStock 플랫폼에서 가져왔습니다. 이러한 open-domain 비디오는 인간 활동에서부터 자연 시나리오에 이르기까지 다양한 콘텐츠를 다룹니다. Video LLMs가 tasks를 완료하기 위해 single-frame bias나 language priors를 활용하는 것을 방지하기 위해, 우리는 비디오들이 동일한 static 콘텐츠를 공유하지만 특정 temporal aspect에서 서로 다른 상충되는 비디오 쌍/삼중항을 구성합니다. 수집된 비디오를 바탕으로, 우리는 인간이 annotated한 meta-information과 LLM generation의 협업을 사용하여 4가지 유형의 tasks에 대해 7,540개의 task instructions를 도출합니다.

TempCompass의 다양한 task formats와 Video LLM responses의 free-form 특성으로 인해 Video LLMs의 performance를 자동으로 evaluate하는 것은 간단하지 않습니다. 이 문제를 해결하기 위해, 우리는 evaluation을 위해 LLMs의 language understanding 능력에 의존합니다. 각 task 유형에 대해, 우리는 Video LLM response가 올바른지 평가하기 위해 ChatGPT (gpt3.5-turbo)에 맞춤화된 evaluation prompts를 사용합니다. evaluation의 비용과 정확성의 균형을 맞추기 위해, 우리는 ChatGPT를 활용하기 전에 구현되는 일부 rule-based assessment methods도 채택합니다.

우리의 TempCompass benchmark를 기반으로, 우리는 8개의 Video LLMs와 3개의 Image LLMs를 포함한 11개의 SOTA multi-modal LLMs (MLLMs)를 evaluate합니다. evaluation results는 Video LLMs가 temporal perception 기술에 결함이 있음을 보여주며, Image LLMs counterparts를 능가하지 못했습니다. 또한 우리는 MLLMs의 temporal perception 능력이 실제로 다양한 task formats에 따라 크게 다르다는 것을 발견했으며, 이는 assessment 과정에 다양한 task formats를 포함할 필요성을 강조합니다.

이 연구의 주요 contributions는 다음과 같이 요약됩니다: (1) 우리는 Video LLMs의 temporal perception 능력을 종합적으로 evaluate하기 위해 다양한 temporal aspects와 task formats를 갖춘 benchmark를 제시합니다. (2) 우리는 Video LLMs가 singe-frame bias나 language priors를 활용하는 것을 방지하는 conflicting videos를 도입합니다. (3) 우리는 Video LLMs의 responses를 효율적이고 정확하게 evaluate하기 위해 rule-based 및 LLM-based methods를 결합합니다. (4) 우리의 empirical results는 SOTA Video LLMs의 약한 temporal perception 능력을 보여줍니다.

 

 

 

 

 

 

Introduction (1장) 핵심 정리노트

AI 연구자가 빠르게 핵심을 파악할 수 있도록 이 논문만의 고유한 내용 중심으로 정리했습니다.

  • 1. 문제 제기 (Problem Statement)
    • 기존 Video LLM benchmark들은 model의 temporal perception(시간적 동역학 이해) 능력을 제대로 평가하지 못함.
      • 한계 1 (세분화 부족): 속도, 방향, 순서 등 다양한 temporal aspects를 구분하지 않고 두루뭉술하게 평가하여 model의 강점과 약점을 파악하기 어려움.
      • 한계 2 (획일적 Task): 대부분 multi-choice QA 형식에 국한되어, 다양한 instruction과 task에 대한 model의 generalization 능력을 측정하지 못함.
  • 2. 제안: TempCompass Benchmark
    • 핵심 목표: Video LLM의 temporal perception 능력을 포괄적이고 심층적으로 evaluate하는 새로운 benchmark 제안.
    • 주요 특징:
      • 다양한 Temporal Aspects: 5가지 기본 aspect와 10가지 fine-grained sub-aspect로 시간 관련 개념을 체계화.
      • 다양한 Task Formats: Multi-Choice QA, Yes/No QA, Caption Matching, Caption Generation의 4가지 task 유형을 포함하여 model의 성능을 다각도로 분석.
  • 3. 방법론의 핵심 아이디어
    • Conflicting Videos: 이 논문의 가장 핵심적인 idea. Static content(정적인 장면)는 동일하지만 특정 temporal aspect(예: 방향)만 다른 비디오 쌍(pairs/triplets)을 제작.
      • 기대 효과: Model이 single-frame bias(단일 프레임만 보고 추론)나 language prior(언어적 선입견)에 의존하는 '꼼수'를 원천 차단. 오직 영상의 시간적 흐름을 이해해야만 풀 수 있도록 설계하여 순수한 temporal 이해 능력을 측정.
    • 효율적인 Evaluation: Free-form 답변을 rule-based 방식과 LLM-based 평가(ChatGPT 활용)를 결합하여 효율적이고 정확하게 자동 채점하는 pipeline 제안.
  • 4. 주요 실험 결과 및 시사점 (요약)
    • SOTA Video LLM들이 temporal perception에서 예상보다 매우 낮은 performance를 보임 (심지어 Image LLM 대비 우위를 보이지 못함).
    • Model의 성능은 task format에 따라 크게 달라져, benchmark에서 task 다양성 확보가 필수적임을 실증적으로 보임.

쉬운 설명 :

최신 AI 기술인 Video LLM은 동영상을 보고 이해하는 AI입니다. 그런데 이 AI가 정말 시간의 흐름(예: 누가 먼저 움직였는지, 물체가 빨라졌는지 등)을 제대로 이해하는지 확인하고 싶은데, 기존의 시험(benchmark)들이 너무 단순하다는 문제가 있었습니다. 기존 시험은 "영상에 고양이가 있나요?" 같은 단편적인 질문만 하거나, 전부 객관식 문제만 내서 AI가 진짜 동영상을 이해했는지, 아니면 그냥 한 장면만 보고 때려 맞히는지 알기 어려웠습니다.

그래서 이 연구팀이 TempCompass라는 새롭고 훨씬 똑똑한 시험을 만들었습니다.

이 시험의 가장 큰 특징은 'AI를 위한 숨은그림찾기' 같은 함정 문제를 만들었다는 점입니다. 예를 들어, 어떤 영상에서는 공이 왼쪽으로 굴러가고, 다른 영상에서는 똑같은 공이 오른쪽으로 굴러갑니다. 두 영상은 어느 한순간을 캡처해서 보면 완전히 똑같아 보입니다. AI가 이 문제를 맞히려면, 영상을 처음부터 끝까지 보고 시간의 흐름(방향)을 파악해야만 합니다. 한 장면만 보고는 절대 풀 수 없죠. 이런 식으로 AI가 꼼수를 부리지 못하게 하고 진짜 실력을 측정하는 것입니다.

또한, 객관식, 예/아니오, 문장 짝 맞추기, 장면 묘사하기 등 다양한 유형의 문제를 내서 AI가 어떤 종류의 시간 관련 질문에 강하고 약한지를 종합적으로 파악할 수 있게 했습니다.

놀랍게도, 이 새로운 시험으로 최고 성능의 Video LLM들을 테스트해보니 대부분이 이 시간의 흐름을 이해하는 데 매우 서툴다는 사실이 밝혀졌습니다. 이 연구는 현재 Video LLM 기술의 명확한 한계를 보여주고 앞으로 무엇을 더 발전시켜야 하는지 알려준다는 점에서 의미가 큽니다.

 

 

2 Related Work

더보기

2.1 Multi-Modal Large Language Models

pure-text LLMs의 성공에 이어, 최근 multi-modal LLMs (MLLMs)를 구축하려는 수많은 노력이 있었습니다. LLMs가 visual context를 이해할 수 있도록 두 가지 범주의 paradigms가 등장하고 발전했습니다. Pipeline paradigm은 off-the-shelf vision expert models를 활용하여 visual information을 텍스트 형태로 추출한 다음, 이를 LLMs에 입력하여 downstream vision tasks를 수행합니다. End-to-End paradigm은 vision encoders와 LLM을 end-to-end trainable 방식으로 통합합니다. vision encoders의 outputs는 linear projectors, attention-based projections 또는 mixed projections를 사용하여 LLM embedding space에 mapping됩니다. 최근의 Video LLMs는 주로 End-to-End paradigm을 따르며, frames 간의 temporal information을 model하기 위한 선택적인 temporal modules를 가집니다.

2.2 Temporal Perception Evaluation

Temporal perception은 video-centered applications와 image-centered applications 간의 근본적인 차이점입니다. LLMs 시대 이전에, video-language models의 temporal perception performance를 evaluate하기 위해 많은 연구가 수행되었습니다. 그러나 이러한 연구의 대부분은 다양한 temporal aspects 간의 구별을 소홀히 합니다. 이 문제를 해결하기 위해, Perception Test, VITATECS, ViLMA는 다양한 fine-grained temporal aspects를 도입하여, temporal perception capability에 대한 더 포괄적이고 미묘한 evaluation을 가능하게 합니다. 그러나 VITATECS와 ViLMA는 task formats의 다양성이 제한적이며, Perception Test는 indoor videos에 국한되어 있어 Video LLMs를 evaluate하기에는 덜 이상적입니다.

2.3 MLLM Benchmarks

MLLMs의 출현과 함께 MLLMs benchmarks의 수가 증가하고 있습니다. 그들 중 대다수는 특별히 Image LLMs를 위해 설계되었습니다. 최근에는 Video LLMs를 위한 맞춤형 benchmarks도 제안되었습니다. 그러나 이러한 Video LLM benchmarks 중에서 SEEDBench, VLM-Eval, Video-Bench는 다양한 temporal aspects를 구별하는 데 부족합니다. AutoEval-Video와 MVBench는 다양한 temporal aspects를 정의하고 통합했지만, 다양한 task formats가 부족합니다.


Table 1: 관련 benchmarks와의 비교.

Benchmark Temporal Diversity Task Diversity Open Domain
Video Understanding Benchmarks      
MSVD-QA
MSRVTT-QA
TGIF-QA
SSv2
SSv2-label
CLEVRER
ActivityNet-QA
NEXT-QA
ViLMA
Perception Test
VITATECS
Video LLM Benchmarks      
SEEDBench
Video-Bench
VLM-Eval
AutoEval-Video
MVBench
TempCompass (Ours)
Sheets로 내보내기

가장 오른쪽 세 개의 열은 각각 benchmark가 다양한 temporal aspects, task formats에 걸쳐 performance를 평가하는지, 그리고 open-domain 비디오를 포함하는지를 나타냅니다. 상세한 temporal aspects와 task formats는 Appendix A.6에 기술되어 있습니다.

Table 1은 TempCompass를 대표적인 video understanding 및 Video LLM benchmarks와 비교합니다. TempCompass는 다양한 temporal aspects, task formats, 그리고 open-domain 비디오를 강조함으로써 두각을 나타내는 것을 볼 수 있습니다.

 

 

 

Related Work (2장) 핵심 정리노트

AI 연구자가 이 논문의 학문적 위치(positioning)를 빠르게 파악할 수 있도록 기존 연구와의 차별점을 중심으로 정리했습니다.

  • 1. 기존 연구 분석 및 한계점 명시
    • 이 논문은 기존 연구를 크게 Temporal Perception Evaluation 연구와 최신 MLLM Benchmark 두 갈래로 나누어 분석하고, 각각의 명확한 한계(gap)를 지적합니다.
  • 2. 기존 Temporal Perception 평가 연구의 한계
    • 초기 연구: 대부분의 과거 benchmark는 temporal perception을 단일 개념으로 취급, 다양한 temporal aspects(속도, 방향, 순서 등)를 세분화하여 측정하지 못하는 문제점을 가집니다.
    • 최신 개선 연구 (Perception Test, VITATECS, ViLMA): Temporal aspect를 세분화하여 평가의 깊이를 더했지만, 여전히 아래와 같은 한계를 보입니다.
      • VITATECS, ViLMA: Task format이 획일적입니다. (다양한 방식의 질문에 model이 어떻게 반응하는지 알 수 없음)
      • Perception Test: Indoor 환경 영상에만 국한되어 open-domain에 대한 generalization 능력을 평가할 수 없습니다.
  • 3. 기존 Video LLM Benchmark의 한계
    • SEEDBench, Video-Bench 등: Temporal aspect의 세분화된 평가 기능이 부재합니다.
    • AutoEval-Video, MVBench: Temporal aspect는 고려했지만, task format이 다양하지 않아 model을 다각도로 평가하기 어렵습니다.
  • 4. 본 연구(TempCompass)의 차별점 및 기여
    • Table 1을 통해 시각적으로 명확히 보여주듯, TempCompass는 기존 연구들의 한계를 모두 극복하는 것을 목표로 합니다.
    • 즉, (1) Temporal Diversity (시간 개념의 세분화), (2) Task Diversity (질문 형식의 다양화), (3) Open Domain (다양한 종류의 영상 사용)이라는 세 가지 핵심 기준을 **모두 만족하는 최초의 benchmark**임을 강조하며 연구의 독창성과 필요성을 증명합니다.

쉬운 설명 :

이 논문의 2장(Related Work) 내용을 쉽게 설명해 드릴게요.

이 장은 한마디로 **"우리가 왜 이 새로운 시험(TempCompass)을 만들어야만 했는지"**를 다른 사람들이 만든 기존 시험들과 비교하며 설명하는 부분입니다.

이야기는 이렇습니다. 동영상을 이해하는 AI(Video LLM)의 실력을 제대로 평가하고 싶은데, 기존에 있던 시험지(benchmark)들은 다들 조금씩 부족했습니다.

  • 1세대 옛날 시험지들: 너무 단순했습니다. 예를 들어 "영상 속 자동차의 색깔은?"처럼 시간의 흐름과 상관없는 단편적인 것만 물어봐서 AI가 시간 개념을 이해하는지 알 수 없었습니다.
  • 2세대 개선된 시험지들: 몇몇 사람들이 좀 더 나은 시험지를 만들었습니다. "차가 점점 빨라졌나요?"처럼 시간과 관련된 세부사항(temporal aspect)을 묻기 시작했죠. 하지만 이 시험지들도 완벽하지 않았습니다.
    • 어떤 시험지(Perception Test)는 문제의 질은 좋았지만, 모든 문제가 '실내에서 찍은 영상'(indoor video)에 대한 것이었습니다. 이러면 AI가 다양한 환경의 영상을 얼마나 잘 이해하는지 알 수 없습니다.
    • 또 다른 시험지들(VITATECS, MVBench)은 시간 관련 질문은 잘했지만, 문제가 전부 '객관식'(limited task format)이었습니다. AI가 서술형 문제도 잘 푸는지, 다른 유형의 질문은 어떻게 대답하는지 알 수 없었죠.

결론적으로, 이 연구팀은 "시간과 관련된 다양한 질문을, 여러 종류의 영상으로, 객관식과 주관식을 섞어서 내는, 이 세 가지 조건을 모두 만족하는 완벽한 시험지는 아직 세상에 없었다"고 말합니다.

그래서 자신들이 이 모든 조건을 충족하는 최초의 종합 시험지인 TempCompass를 만들었다고 주장하는 것입니다. 이 부분이 바로 이 연구가 새롭고 중요한 이유를 설명하는 핵심입니다.

 

 

 

3 TempCompass Benchmark

더보기

TempCompass는 Video LLMs의 temporal perception 능력을 테스트하기 위한 videos와 task instructions의 dataset입니다. 이 섹션에서는 TempCompass에 포함된 temporal aspects, task formats, static contents(3.1절), videos와 task instructions를 수집하는 방법(3.2절), 그리고 TempCompass에서 Video LLMs를 자동으로 evaluate하는 방법(3.4절)을 소개합니다.

3.1 Benchmark Structure

3.1.1 Temporal Aspects

static visual information만 포함하는 이미지와 달리, 비디오는 시간에 따른 dynamic visual information, 즉 temporal information을 전달합니다. Figure 1에 표시된 바와 같이, 우리는 TempCompass에서 temporal information의 다섯 가지 기본 aspects를 식별합니다:

  • Action. 이 aspect는 video understanding models의 일반적인 task인 다양한 유형의 actions를 구별하는 능력을 평가합니다. 우리는 이 aspect를 Coarse-Grained Action과 Fine-Grained Action으로 더 나눕니다. 전자는 더 넓은 범위의 활동이나 움직임을 포함하는 반면, 후자는 더 구체적이고 상세한 actions에 관한 것입니다.
  • Speed. 이 aspect는 속도의 변화를 식별하는 능력에 대해 탐구하며, 두 가지 구성 요소로 더 분류됩니다. Absolute Speed는 특정 객체의 속도나 전체 비디오의 속도에 초점을 맞추고, Relative Speed는 다른 객체들의 속도를 비교합니다.
  • Direction. 이 aspect는 움직임 방향의 perception을 강조합니다. 이 aspect 하에서, 우리는 객체의 방향(Object Direction)과 카메라의 방향(Camera Direction)을 별도로 고려합니다.
  • Attribute Change. 이 aspect는 시간이 지남에 따라 객체나 전체 비디오의 속성이 어떻게 변하는지에 중점을 둡니다. Attribute change는 Size & Shape, Color & Light Change, Combined Change, Other Change를 포함한 네 가지 sub-aspects를 포함합니다.
  • Event Order. 이 aspect는 비디오에서 다른 events가 발생하는 시간 순서에 초점을 맞춥니다.

3.1.2 Task Formats

temporal information의 다양한 aspects에 대한 정의를 확립했으므로, 이제 "Video LLM이 특정 temporal information을 이해하는지 어떻게 검사할 것인가?"라는 질문을 다룹니다. Figure 2에 설명된 바와 같이, 주어진 비디오의 특정 temporal information에 대해 우리는 네 가지 유형의 tasks를 사용하여 Video LLMs의 temporal perception 능력을 테스트합니다:

  1. Multi-Choice QA는 model에게 여러 candidate choices 중에서 정답을 선택하도록 요청합니다.
  2. Yes/No QA는 model이 비디오를 기반으로 주어진 진술이 옳은지 판단하는 것을 포함합니다.
  3. Caption Matching은 model이 두 개의 video captions를 구별하도록 요구하며, 하나는 비디오와 일치하고 다른 하나는 관심 있는 temporal aspect에서 비디오와 일치하지 않습니다.
  4. Caption Generation task에서는, 주어진 temporal aspect에 대한 여러 정보가 model에 제시된 다음, 올바른 것을 선택하고 그에 따라 video caption을 generate하도록 요청받습니다. 이러한 제한된 형태의 captioning은 generate된 caption의 correctness를 자동으로 evaluate하기 더 쉽게 만듭니다 (자세한 내용은 3.4절 참조).

3.1.3 Static Contents

우리는 아홉 가지 카테고리의 static contents를 정의합니다: 사람, 동물, 식물, 음식, 자연물, 차량, 인공물, 건물, 추상 (자세한 설명은 Appendix A.1 참조). TempCompass의 각 비디오는 static visual content에 따라 하나 또는 여러 카테고리로 분류됩니다.

3.2 Data Collection

TempCompass의 각 data example은 video, meta-information, static content categories, task instructions의 네 가지 구성 요소를 포함합니다. Figure 2에 표시된 바와 같이, 우리는 이 구성 요소들을 네 단계로 수집합니다. (1) 먼저 temporal aspects와 static content categories 집합을 선택한 다음, 이를 기반으로 (2) annotated meta-information과 함께 video를 수집합니다. (3) 그 후, 우리는 LLM인 ChatGPT (gpt3.5-turbo)를 사용하여 meta-information에 따라 task instructions를 generate합니다. 다음으로, 세 가지 구성 요소를 수집하는 방법을 자세히 설명하겠습니다.

3.2.1 Video Collection

우리는 ShutterStock 플랫폼에서 raw videos를 수집합니다. video diversity를 향상시키기 위해, 우리는 static content distribution을 신중하게 제어하여 각 카테고리가 충분한 수의 video samples를 포함하도록 보장합니다. (Figure 4(b)는 분포를 보여줍니다). 동시에, 우리는 해당 비디오들이 video-language models의 pre-training에 널리 사용되는 dataset인 WebVid에 포함되지 않도록 합니다.

문헌에 따르면 video understanding models는 비디오의 temporal content를 진정으로 이해하지 않고도 language priors나 single-frame bias를 shortcuts로 활용하여 정답을 얻을 수 있음이 나타났습니다. Language priors는 language modeling에서 학습된 사전 지식입니다 (예: 아이스크림은 어는 것보다 녹을 가능성이 더 높다). Single-frame bias는 정답과 강하게 correlates하는 single frame의 static visual cues에 의존하는 것을 의미합니다 (예: single frame에서 차량의 orientation으로부터 이동 방향을 추론).

이러한 shortcuts의 영향을 완화하기 위해, 우리는 상충되는 video pairs/triplets를 구성합니다. 하나의 pair/triplet 내에서, 비디오들은 동일한 static content를 가지지만 특정 temporal aspect에서 서로 다릅니다. 이런 방식으로, 한 비디오에 대해 정답을 유도하는 바로 그 shortcut이 상충되는 상대 비디오에 적용될 때는 반대로 오답으로 이어질 것입니다. 구체적으로, Figure 3에 묘사된 바와 같이, 우리는 상충되는 비디오를 구성하기 위한 세 가지 방법을 제안합니다:

  • Reversing. 비디오의 Direction 및 Attribute Change 정보는 일반적으로 비디오를 역재생함으로써 수정될 수 있습니다. 따라서 이 두 temporal aspects에 대한 상충되는 video pairs는 원본 비디오와 그 역재생된 상대 비디오로 구성됩니다.
  • Spatial Concatenation. Speed aspect의 경우, 먼저 비디오를 가속하거나 감속시킵니다. 그런 다음, 이 수정된 비디오를 원본 비디오와 공간 차원을 따라 (1) 더 빠른 버전을 위쪽에 배치하거나 (2) 더 느린 버전을 위쪽에 배치하여 두 개의 상충되는 비디오를 만듭니다. 우리는 또한 정확히 동일한 두 비디오를 공간 차원에서 연결하여 세 번째 비디오를 구성합니다.
  • Temporal Concatenation. Event Order aspect의 경우, 두 비디오를 시간 차원을 따라 연결합니다. 두 개의 상충되는 비디오는 두 원본 비디오의 순서를 뒤집어 두 개의 다른 events sequence를 만들어 생성됩니다. 추가적으로, 우리는 두 원본 비디오를 공간적으로 연결하여 두 events를 동시에 제시함으로써 세 번째 비디오를 구성합니다.

3.2.2 Meta-Information Collection

수집된 비디오가 주어지면, 우리는 핵심 정보를 textual format으로 변환합니다. annotation의 부담을 줄이기 위해, 우리는 반구조화된(semi-structured) meta-information을 수동으로 annotate합니다. Figure 1, 2에서 볼 수 있듯이, 각 meta-information은 두 부분으로 구성됩니다: (1) subject를 설명하는 phrase와 (2) 관심 있는 temporal aspect와 관련된 정보를 설명하는 또 다른 phrase.

3.2.3 Instruction Collection

annotated된 meta-information을 가지고, 우리는 automatic generation과 manual refinement가 교차된 과정을 통해 task instructions를 얻습니다. 구체적으로, 우리는 먼저 ChatGPT를 사용하여 meta-information을 기반으로 Multi-Choice QA instructions를 자동으로 generate합니다. 그런 다음, 이 instructions는 사람에 의해 확인되고 수정됩니다. 이후, 우리는 수동으로 수정된 Multi-Choice QA instructions를 기반으로 ChatGPT에 Yes/No QA, Caption Matching, Caption Generation instructions를 generate하도록 prompt합니다. 이 instructions 또한 사람에 의해 추가로 확인되고 수정됩니다. instruction collection 및 instruction generation을 위한 prompts에 대한 자세한 내용은 Appendix A.2에 나와 있습니다.

3.2.4 Data Statistics

우리는 총 410개의 비디오와 500개의 meta-information을 수집합니다 (하나의 비디오는 여러 개의 meta-information으로 annotate될 수 있음). Figure 4는 video statistics를 보여주며, 각 basic temporal aspects에 걸쳐 고른 분포를 나타내며 각 aspect를 대표하는 비디오가 대략 100개씩 있습니다. 아홉 개의 content categories 또한 우리가 수집한 비디오에 의해 잘 포함됩니다. 이러한 data distributions는 temporal aspects와 static visual contents 양면에서 TempCompass의 diversity를 보여줍니다.

하나의 meta-information이 주어지면, 우리는 각 task 유형에 대해 여러 instructions를 수집합니다: Multi-Choice QA는 최소 3개, Yes/No QA는 2개, Caption Matching은 3개, Caption Generation은 4개입니다. 이러한 방식으로, 우리는 benchmark에서 총 7,540개의 instructions를 수집합니다. Appendix A.3에서는 task instructions, video duration, answer distribution의 상세한 분포를 보여줍니다. Appendix A.5에서는 video, meta-information, static content, instructions를 포함한 전체 data examples를 제시합니다.

3.3 Quality Verification

3.2절에서 설명한 data collection 과정 후에, 우리는 data quality를 검증하기 위해 200개의 task instructions를 무작위로 샘플링합니다. 이 instructions와 비디오는 세 명의 human annotators에게 제시되어 task를 수행하게 합니다. Human annotators는 instruction이 불합리하다는 것을 나타내는 "Cannot Answer"로 instruction을 label할 수도 있습니다. 600개의 annotated results 중 단 5개만이 "Cannot Answer"로 label되었습니다. Table 2는 또한 human annotators가 대부분의 tasks와 aspects에 걸쳐 거의 완벽에 가까운 accuracy를 달성했음을 보여주며, 이는 수집된 data의 높은 quality를 증명합니다. quality verification에 대한 자세한 내용은 Appendix A.4에서 찾을 수 있습니다.

3.4 Automatic Evaluation

Multi-Choice QA, Yes/No QA, Caption Matching의 경우, 우리는 Video LLMs에 의해 generate된 responses를 자동으로 evaluate하기 위해 rule-based methods와 ChatGPT를 통합하는 hybrid approach를 채택합니다. 우선, 우리는 response에 candidate option(예: A/B/C/D, Yes/No 또는 Caption A/Caption B)이 명시적으로 언급되었는지 확인하고 이를 ground-truth answer와 비교합니다. Hand-crafted matching rules는 다양한 types of tasks에 맞게 특별히 설계되었습니다. 그런 다음, candidate options와 일치하지 않는 responses에 대해서는, task instruction과 ground-truth answer를 기반으로 그것들이 옳은지 판단하기 위해 ChatGPT의 language understanding 능력에 의존합니다. matching rules와 LLM-based evaluation을 위한 prompts의 세부 사항은 Appendix B에 설명되어 있습니다.

Caption Generation task의 경우, 거의 모든 Video LLM responses가 free-form video captions이기 때문에 rule-based evaluation method는 비효율적입니다. 따라서 우리는 evaluation을 위해 전적으로 ChatGPT에 의존합니다. 구체적으로, 우리는 generate된 video caption을 context로 사용하여 해당 Multi-Choice 질문에 답하도록 ChatGPT에 prompt합니다. ChatGPT의 answer가 맞으면, generate된 caption은 올바른 것으로 간주되고 그 반대의 경우도 마찬가지입니다. 그 motivation은 만약 Video LLM이 부정확한 정보를 선택하여 caption을 generate하면, ChatGPT도 결과적으로 부정확한 option을 선택할 것이라는 점입니다. generate된 caption이 제공된 정보 중 어느 것도 포함하지 않을 가능성을 고려하여, 우리는 Multi-Choice 질문에 "None of the choices are correct"라는 추가 option을 포함합니다. ChatGPT가 이 option을 선택하는 경우, generate된 caption 또한 부정확한 것으로 간주됩니다.