dataset : 논문리뷰 : TimeLogic: A Temporal Logic Benchmark for Video QA (추가 필요)

논문리뷰

dataset : 논문리뷰 : TimeLogic: A Temporal Logic Benchmark for Video QA (추가 필요)

AI바라기 2025. 1. 15. 16:20

TimeLogic: A Temporal Logic Benchmark for Video QA 정리 노트

Purpose of the Paper

기존 Video Question Answering (VideoQA) benchmarks는 주로 객체 인식, 속성 파악, 간단한 순서 기반 논리 구조에 초점을 맞추어, 복잡한 시간적 추론 능력을 평가하기에는 한계가 있었습니다. 특히, human cognition의 핵심 요소인 시간 논리적 이해를 평가하는 데 소홀했습니다. 이 논문은 이러한 한계를 극복하고 VideoQA models의 심층적인 시간 논리적 이해 능력을 평가하기 위해 새로운 framework인 **Time Logic QA (TLQA)**와 benchmark를 제안합니다. TLQA는 기존 비디오 datasets의 temporal annotations과 논리 이론에서 파생된 temporal operators를 활용하여, 이벤트 시퀀스와 그 temporal relationships에 대한 이해를 요구하는 복잡한 question-answer (QA) pairs를 자동으로 생성합니다.

Key Contributions

TLQA Framework: 기존 비디오 datasets와 annotations을 활용하여 temporal logic QA pairs를 자동으로 대규모 생성할 수 있는 최초의 framework를 제안합니다.
TLQA Benchmark: 5개의 complexity levels로 구성된 16개의 temporal logic categories를 다루며, 다양한 datasets에 적용 가능한 포괄적이고 체계적인 temporal reasoning 능력을 평가하는 benchmark를 제공합니다.
Extensive Evaluation: 최신 state-of-the-art VideoQA models에 대한 zero-shot evaluation을 수행하고, 그들의 temporal logic understanding capabilities에 대한 심층적인 분석을 제공합니다.

Novelty

Formal Temporal Logic: 기존 연구들이 'and', 'or', 'not', 'before', 'after'와 같은 단순한 논리 구조에 집중했던 반면, TLQA는 logic theory에 기반한 16개의 temporal operators를 활용하여 훨씬 복잡하고 다양한 temporal relationships를 다룹니다.
Automatic QA Generation: dense scene graph annotations이나 temporal action segmentation annotations을 가진 어떠한 비디오 dataset에도 적용 가능한 generic하고 scalable한 QA generation framework를 제안합니다. 이를 통해 human annotation의 어려움을 극복하고 대규모의 temporal logic QA pairs를 자동으로 생성합니다.
Systematic Evaluation: 5개의 complexity levels로 세분화된 temporal logic categories를 통해 VideoQA models의 temporal reasoning 능력을 단계별로 체계적으로 평가할 수 있는 benchmark를 제공합니다.

Experimental Highlights

Datasets: STAR, Breakfast, AGQA, CrossTask의 4개 datasets를 활용하여 TLQA framework의 범용성을 검증합니다.
Models: VideoLLaVA, VideoChatGPT, ChatUnivi, SeViLA, IGVLM, LLOVI 등 다양한 architectures와 temporal capacities를 가진 state-of-the-art VideoQA models을 평가합니다.
Results:
- Multi-choice QA에서는 SeViLA가 전반적으로 우수한 성능을 보였지만, boolean QA에서는 모든 models가 random baseline에 가까운 성능을 보이며 어려움을 겪었습니다.
- Models는 boolean questions에 대해 dataset agnostic한 경향을 보였고, temporal categories에 따라 'yes' 응답 비율에 편차가 있었습니다.
- 전반적으로 temporal capacity가 높은 models가 더 나은 성능을 보이는 경향이 있었습니다.

Limitations

Dataset Bias: 사용된 datasets의 annotations quality와 diversity가 benchmark의 신뢰도에 영향을 미칠 수 있습니다.
Model Bias: 평가된 models의 특정 architectures나 training data에 대한 bias가 존재할 수 있습니다.
Limited Scope: 여전히 human level의 temporal reasoning 능력에는 미치지 못하며, real-world scenarios에서 요구되는 더욱 복잡한 추론 능력은 다루지 못합니다.

Future Work

More Complex Reasoning: 더욱 복잡한 temporal relationships와 causal reasoning을 다루는 categories를 추가하여 benchmark를 확장할 수 있습니다.
Real-World Scenarios: real-world video understanding tasks에 더욱 근접한 benchmark를 개발하여 models의 실용성을 높일 수 있습니다.
New Architectures: TLQA benchmark를 통해 얻은 insights를 바탕으로 temporal logic understanding에 특화된 새로운 VideoQA architectures를 개발할 수 있습니다.
Explainable Reasoning: models의 추론 과정을 분석하고 설명할 수 있는 methods를 개발하여 temporal reasoning 능력을 더욱 심층적으로 이해할 수 있습니다.

Abstract

Temporal logical understanding은 인간 인지의 핵심 측면으로서, 비디오 내에서 복잡한 순차적 이벤트와 그 시간적 관계를 포착하는 데 중추적인 역할을 합니다. 이 능력은 Video Question Answering (VideoQA)과 같은 작업에서 특히 중요한데, 여기서 목표는 시간 경과에 따른 visual data를 textual data와 함께 처리하여 일관된 답변을 제공하는 것입니다. 그러나 현재 VideoQA benchmarks는 temporal logic을 주석 처리하는 문제 때문에 이 중요한 기술을 평가하는 데 거의 중점을 두지 않습니다. vision-language models의 발전에도 불구하고, 그들의 temporal logical reasoning 능력을 평가하는 것은 여전히 과제로 남아 있습니다. 이는 주로 정형적이고 복잡한 temporal reasoning을 요구하는 question-answer 쌍이 부족하기 때문입니다. 이러한 격차를 해소하기 위해, 우리는 TimeLogic QA (TLQA) framework를 도입하여 QA 쌍을 자동으로 generate하며, 이는 VideoQA에서 temporal logical understanding을 평가하도록 특별히 설계되었습니다. 이를 위해 TLQA는 기존 video datasets의 temporal annotations과 logic theory에서 파생된 temporal operators를 활용하여 이벤트 시퀀스와 그 시간적 관계에 대한 이해를 테스트하는 질문을 구성합니다. 따라서 TLQA framework는 일반적이고 확장 가능하며, temporal action segmentation annotations이 있는 기존 video action datasets 또는 temporal scene graph annotations이 있는 video datasets를 모두 활용하여 temporal logical questions을 자동으로 generate할 수 있습니다. 우리는 4개의 datasets (STAR, Breakfast, AGQA, CrossTask)를 활용하고, 각 카테고리별로 2k 및 10k question-answer 쌍을 포함하는 두 가지 VideoQA dataset variants (small (TLQA-S) 및 large (TLQA-L))를 generate하여, dataset 당 총 32k 및 160k 쌍을 생성합니다. 우리는 TLQA를 사용하여 temporal logical understanding 능력을 benchmark 하는 등, 최첨단 VideoQA models에 대한 종합적인 평가를 수행합니다. 우리는 다양한 temporal complexity를 가진 16가지 temporal logic 카테고리에 대한 VideoQA model의 temporal reasoning 성능을 평가합니다.

연구 목적

기존 VideoQA 모델의 한계: 복잡한 시간적 관계 추론 능력이 부족함.
본 연구의 목표: VideoQA 모델의 "Temporal Logical Understanding" 능력을 평가하고 향상시키는 것.

핵심 아이디어

"TimeLogic QA (TLQA)" framework 개발:
- VideoQA에서 Temporal Logical Reasoning 능력을 평가하기 위한 framework.
- 자동으로 Question-Answer 쌍을 생성.
TLQA의 작동 방식:
- 기존 video datasets의 temporal annotations 활용.
- Logic Theory에서 파생된 temporal operators를 사용하여 질문 생성.
- 이벤트 시퀀스와 그 시간적 관계에 대한 이해를 중점적으로 테스트.

데이터셋 구축

4개의 datasets (STAR, Breakfast, AGQA, CrossTask) 활용.
두 가지 variants의 VideoQA dataset 생성:
- TLQA-S (Small): 각 카테고리별 2k question-answer 쌍 (총 32k).
- TLQA-L (Large): 각 카테고리별 10k question-answer 쌍 (총 160k).

평가 및 기여

최첨단 VideoQA models의 temporal logical understanding 능력을 TLQA framework로 benchmark.
16가지 temporal logic 카테고리에 대한 VideoQA model의 temporal reasoning 성능 평가.
VideoQA 모델의 temporal reasoning 능력 평가를 위한 새로운 framework 및 dataset 제시.

이 논문만의 차별점

"Temporal Logical Understanding"에 초점을 맞춘 최초의 VideoQA 평가 framework.
자동으로 temporal logic question을 생성하는 framework.
다양한 temporal complexity를 가진 16가지 temporal logic 카테고리 평가.
두 가지 규모의 새로운 VideoQA dataset (TLQA-S, TLQA-L) 구축.

기대 효과

VideoQA 모델의 temporal reasoning 능력 향상에 기여.
Temporal logical understanding을 갖춘 advanced VideoQA 모델 개발 촉진.

정리 노트 요약

본 논문은 VideoQA 모델의 "Temporal Logical Understanding" 능력을 평가하기 위한 새로운 framework인 "TimeLogic QA (TLQA)"를 제안합니다. TLQA는 기존 video datasets와 logic theory를 활용하여 자동으로 temporal logic question을 생성하며, 16가지 temporal logic 카테고리에 대한 VideoQA model의 성능을 평가합니다. 또한, 두 가지 규모의 새로운 VideoQA dataset (TLQA-S, TLQA-L)을 구축하여, VideoQA 모델의 temporal reasoning 능력 향상에 기여할 것으로 기대됩니다.

1. Introduction

vision과 language의 교차점에 있는 VideoQA는 독특한 과제를 제기합니다. VideoQA는 models가 시간에 따른 visual content를 정확하게 포착하고 textual information을 통합하여 일관되고 정확한 답변을 generate하도록 요구합니다. 이는 비디오의 일련의 이벤트를 기반으로 정보를 추론하고, 모호성을 해결하고, 질문에 답할 수 있게 해주는 근본적인 인간 기술인 temporal logical reasoning 영역에서 특히 어렵습니다. Temporal logical reasoning은 단순한 객체 인식과 그 공간적 관계를 넘어섭니다. 일련의 actions 및 events에 의해 영향을 받는 이러한 관계가 시간이 지남에 따라 어떻게 진화하는지에 대한 미묘한 이해가 필요합니다. 예를 들어, "사람이 캐비닛을 열기 전에 항상 발생하는 action은 무엇이며, 이는 사람이 옷을 잡기 전에 항상 발생합니다."와 같은 질문에 답하려면, model은 비디오에 묘사된 actions 간의 시간적 순서와 논리적 연결을 parse하고 reason해야 합니다.

그러나 temporal logic에 주석을 다는 것은 인간에게 어렵습니다. 따라서 기존 VideoQA benchmarks는 이 작업에 질문의 작은 부분만 할애하며, 주로 'and', 'or', 'not', 'before', 'after'와 같은 단순한 논리적 구성에 중점을 둡니다. 결과적으로, 이러한 benchmarks는 비디오 내에서 복잡한 temporal understanding에 대한 제한된 평가를 제공합니다. 현재 VideoQA benchmarks는 범위가 인상적이지만, 주로 객체, 세분화된 속성 및 단순한 순서 기반 논리적 구성을 중심으로 하는 질문을 충족하며, 표 1에 표시된 것처럼 비디오 데이터의 temporal reasoning에 내재된 전체 복잡성 스펙트럼을 캡슐화하지 못하는 경우가 많습니다.

이러한 과제를 인식하여, 우리는 VideoQA models 및 systems의 temporal understanding 능력을 명시적으로 평가하기 위한 새로운 framework인 Time Logic QA (TLQA) framework와 각각의 benchmark인 Time Logic QA (TLQA) benchmark를 소개합니다. 우리 framework는 표 1에 표시된 16개의 temporal logic categories 각각에 대해 미리 정의된 템플릿 질문을 사용하여 QA 쌍을 generate합니다. TLQA benchmark의 temporal categories는 5개의 complexity levels로 구성될 수 있으며, level 1이 가장 덜 복잡하고 level 5가 가장 복잡한 여러 추론 단계가 필요합니다. 제안된 TLQA framework는 STAR, AGQA, AnetQA와 같은 VideoQA datasets에서 활용되는 dense scene graph annotations 또는 Breakfast 및 CrossTask와 같은 기존의 temporal segmentation datasets를 포함하여 temporal annotations이 있는 모든 기존 video dataset에 일반적이고 확장 가능합니다. 제안된 framework는 temporal annotations이 있는 모든 video dataset을 temporal logic QA 쌍으로 변환할 수 있습니다.

TLQA benchmark는 logic theory에 뿌리를 둔 temporal operators를 캡슐화하도록 만들어진 구조화된 질문 모음을 구현합니다. 이러한 operators는 dataset이 video content에 묘사된 대로 이벤트의 순서, 동시성 및 인과 관계를 해독하는 model의 능력을 검사하는 도구입니다. video content 내에서 temporal logic의 체계적인 분석을 통합함으로써, TLQA는 현재 benchmarks의 중요한 격차를 메우고, 실제 이벤트의 temporal complexity와 logical depth를 반영하는 보다 도전적이고 포괄적인 테스트 베드를 제공하고자 합니다. TLQA는 16개의 temporal logic categories와 32k/160k QA 쌍으로 구성되며, dataset 당 16k/80k Boolean questions과 16k/80k multiple-choice questions을 포함합니다. 4개의 datasets를 결합하면 누적 128k/640k QA 쌍이 생성되어, 비디오 분석에서 temporal logical understanding을 평가하기 위한 포괄적이고 도전적인 benchmark를 제공합니다.

우리는 최첨단 VideoQA models에 대한 포괄적인 평가를 수행하여, 그들의 temporal logical understanding 능력을 benchmark하기 위해 TLQA를 사용합니다. 우리는 QA tasks에 특화된 models, expert models, caption-based QA를 포함하여 다양한 temporal capacities를 가진 다양한 architectures를 가진 현재 VideoQA models에 대해 Zero-Shot 평가를 수행합니다. 우리의 결과는 현재 models가 multiple-choice task에서는 비교적 잘 수행되지만, boolean questions에서는 상당히 어려움을 겪는다는 것을 나타냅니다. 또한, models는 boolean questions에 대해 dataset에 구애받지 않는 경향이 있으며, temporal categories에 걸쳐 'yes' 응답 비율에 차이가 있습니다. 이러한 결과를 강조함으로써, 우리는 temporal understanding의 모델링 발전의 필요성을 강조합니다.

우리의 주요 기여는 다음과 같습니다: (i) 우리는 기존 video datasets 및 그 annotations에서 대규모로 temporal logical QA 쌍을 자동으로 구축하는 TLQA framework를 제안합니다. (ii) 우리는 여러 levels의 complexity와 datasets에 걸쳐 temporal logical reasoning 능력을 평가할 수 있는 포괄적인 temporal QA 쌍 세트인 TLQA benchmark를 제안합니다. (iii) 우리는 temporal Video QA를 위한 현재 state-of-the-art models를 평가하고 광범위한 평가를 제공합니다.

기존 VideoQA의 문제점

VideoQA는 visual content와 textual information을 통합하여 정확한 답변을 생성해야 하는 복잡한 task.
특히, "Temporal Logical Reasoning" 능력이 중요하지만, 기존 VideoQA benchmarks는 이를 제대로 평가하지 못함.
- Temporal Logical Reasoning: 비디오 내 일련의 이벤트를 기반으로 정보를 추론하고, 모호성을 해결하고, 질문에 답하는 능력.
- 기존 benchmarks는 주로 객체, 속성, 단순 순서(예: 'before', 'after')에만 초점을 맞추어, 복잡한 시간적 관계 추론 능력을 평가하기에는 부족함.

본 논문의 핵심 아이디어: TimeLogic QA (TLQA) framework 제안

VideoQA models의 "Temporal Logical Understanding" 능력을 평가하기 위한 새로운 framework.
핵심 특징:
- Logic Theory 기반의 16가지 temporal logic categories 정의 (표 1 참고).
- 자동으로 QA 쌍을 생성:
  - 미리 정의된 템플릿 질문 사용.
  - 기존 video datasets의 temporal annotations 활용 (예: dense scene graph, temporal segmentation).
- 확장성: 다양한 video datasets에 적용 가능.
- 5단계의 complexity levels로 구성 (level 1: 가장 단순, level 5: 가장 복잡).
TLQA benchmark: TLQA framework를 사용하여 구축한, temporal logical reasoning 평가를 위한 benchmark.
- 4개의 datasets (STAR, Breakfast, AGQA, CrossTask) 활용.
- 128k/640k QA 쌍 (dataset 당 32k/160k, boolean/multiple-choice 각각 16k/80k).

평가 및 실험

다양한 architectures (QA 특화, expert, caption-based QA)를 가진 최신 VideoQA models에 대한 Zero-Shot 평가 수행.
주요 발견:
- Multiple-choice questions에서는 비교적 좋은 성능을 보이나, boolean questions에서 어려움을 겪음.
- Boolean questions에서 dataset에 agnostic한 경향.
- Temporal categories에 따라 'yes' 응답 비율에 차이 존재.

기여

Temporal Logical Reasoning에 초점을 맞춘 최초의 VideoQA 평가 framework 제안.
자동으로 temporal logic QA 쌍을 생성하는 확장 가능한 framework 개발.
다양한 complexity levels를 가진 새로운 benchmark (TLQA) 구축.
최신 VideoQA models의 temporal reasoning 능력에 대한 심층 분석 제공.

정리 노트 요약

본 논문은 기존 VideoQA benchmarks가 평가하지 못했던 "Temporal Logical Understanding" 능력을 평가하기 위한 새로운 framework인 **"TimeLogic QA (TLQA)"**를 제안합니다. TLQA는 16가지 temporal logic categories와 자동 QA 생성 기능을 통해 VideoQA models의 temporal reasoning 능력을 심층적으로 평가하고, 새로운 benchmark (TLQA)를 통해 이를 검증합니다. 실험 결과는 최신 models가 여전히 temporal reasoning에 어려움을 겪고 있음을 보여주며, 이 분야의 추가적인 연구 필요성을 강조합니다.

2. Related Works

VideoQA Benchmarks

VideoQA는 최근 몇 년 동안 상당한 주목을 받았으며, model capabilities를 평가하기 위해 여러 benchmarks가 제안되었습니다. 이러한 benchmarks는 객체 및 action에 대한 광범위한 질문을 다루며, 세분화된 속성, 단순한 인과 관계, 시공간적 추론을 포함합니다. 그러나 temporal processing은 video를 image 기반 QA와 구별하는 주요 기능 중 하나이지만, VideoQA benchmarks는 temporal logical reasoning 능력을 평가하는 데 있어 질문의 일부만 고려합니다. 예를 들어, STAR는 25%의 sequencing questions, NextQA는 29%의 temporal QA 쌍, ANetQA는 20.05%의 sequence 및 0.05%의 duration questions을 보고하며, 이러한 유형의 질문이 모든 유형의 질문 중에서 가장 낮은 성능을 보인다고 언급합니다. 또한, 표 1에 표시된 것처럼 이러한 질문은 주로 'and', 'or', 'not', 'before', 'after'와 같은 단순한 논리적 구성에 중점을 둡니다. video data에 대한 temporal QA 쌍의 automatic generation 측면에서, 지금까지 다양한 접근 방식이 활용되었습니다. CLEVRER는 synthetic data에 대한 복잡한 reasoning questions을 generate하며, temporal prediction도 포함합니다. STAR는 또한 situation hypergraphs에서 QA 쌍을 generate하기 위해 자동화된 scripts를 사용하며, sequences에 대한 질문을 포함합니다. 유사한 맥락에서, AGQA는 annotated scene graphs에 대해 작동하는 수작업 프로그램을 제안하여 questions과 answers를 자동으로 generate합니다. 그러나 이러한 scripts조차도 일반적으로 가능한 모든 temporal logic operators의 작은 부분만 다룹니다. 이러한 작업과 비교하여, 우리는 temporal logic operators를 temporal logic question generation에 대한 기존 annotation과 체계적으로 결합하여 이전 작업보다 가능한 temporal correlations에 대한 보다 포괄적인 범위를 제공합니다.

VideoQA models

VideoQA에 대한 초기 연구는 정교한 reasoning architectures를 구축하는 데 중점을 둔 반면, 이러한 추세는 language models의 가용성과 성능이 향상됨에 따라 변화했습니다. 결과적으로, 현재 architectures는 video input을 text 기반 처리와 결합하는 다양한 방법을 탐구합니다. SeViLA는 VideoQA system을 구축하기 위해 special localizer와 reasoning modules을 생성하기 위해 BLIP-2를 활용합니다. LLoVI는 video captioner를 활용하고 text LLM은 questions에 답하기 위해 captions와 함께 제공됩니다. 이러한 methods는 VideoQA tasks에 특화되어 있으며 진정한 general VideoLLMs는 아닙니다. Video LLaMA는 dual video 및 audio Q-Formers를 사용하여 video LLM을 구축하기 위해 BLIP-2를 확장하고 image-caption 및 video-caption data에 대해 trained한 최초의 methods 중 하나였습니다. Video-LLaVA는 images 및 videos의 representations을 통합하는 LanguageBind vision model을 활용하여 강력한 multimodal performance를 달성하며, shared language feature space에 projected됩니다. Video-ChatGPT는 강력한 vision foundation models를 활용하여 videos에서 semantic information을 추출하고, 이 corpus에서 questions과 answers를 generate하기 위해 LLM을 사용하여 고품질 Video instruction tuning dataset을 구축했습니다. VideoChat은 foundation models를 활용하여 video captions, tags 등을 generate하고 이를 video features와 함께 추가 input으로 활용합니다. LLaMA-VID는 video의 각 frame을 2개의 tokens으로 줄이기 위해 context attention module을 사용하여 video 당 많은 수의 input frames를 사용할 수 있습니다. Chat-UniVI는 동일한 목표를 달성하기 위해 token merging methods를 활용합니다. ImageGrid-VLM 및 PLLaVA는 videos를 image grids 또는 filmstrips로 pre-trained Image VLMs에 전달하는 다른 접근 방식을 취합니다.

Evaluation Protocols

마지막으로, VideoQA models의 성능을 평가하는 것은 benchmarking의 중요한 측면입니다. 기존 benchmarks에는 boolean, multiple-choice 및 open-ended questions과 같은 question types이 포함됩니다. boolean 및 multiple-choice는 ground-truth와 직접 일치할 수 있으므로 이 평가는 간단하기 때문에, 우리는 benchmarking을 위해 boolean 및 multiple-choice QA 쌍을 generate하기로 선택했습니다. open-ended answers의 경우, ground-truth text와 정확히 일치하지 않으면 잘못 분류될 수 있습니다. 이를 해결하기 위해 ChatGPT와 같은 external judges가 정확도를 계산하는 데 사용되지만, 일관성이 없고 편향에 취약할 수 있습니다. 또한, different models는 different form의 QA를 지원합니다. 일부 models resp QA tasks는 특정 target vocabulary에 대한 fine-tuning이 필요한 반면, LLMs 기반 models는 모든 형태의 open-ended QA를 처리할 수 있습니다.

기존 VideoQA Benchmarks의 한계

Temporal Reasoning 평가 부족:
- 대부분의 benchmarks가 객체, 속성, 단순 인과 관계, 시공간적 추론에 집중.
- Temporal processing은 video 이해의 핵심이지만, temporal logic reasoning을 평가하는 질문은 매우 적음 (STAR: 25%, NextQA: 29%, ANetQA: 20.05% sequence, 0.05% duration).
- 기존 연구들은 주로 'and', 'or', 'not', 'before', 'after'와 같은 단순 논리 연산자에만 집중.
자동 QA 생성의 한계:
- CLEVRER, STAR, AGQA 등 자동 QA 생성 연구들이 존재하지만, 다루는 temporal logic operators의 범위가 제한적임.

본 논문의 차별점: Temporal Logic Reasoning에 집중

포괄적인 Temporal Logic Operators 활용:
- 기존 연구들과 달리, 다양한 temporal logic operators를 체계적으로 결합하여 temporal logic question 생성.
- 이전 연구들보다 더 넓은 범위의 temporal correlations를 다룸.

VideoQA Models 관련 기존 연구 동향

초기 연구: 정교한 reasoning architectures 구축에 중점.
최근 연구: language models의 발전으로, video input과 text 기반 처리를 결합하는 방식으로 변화.
- SeViLA: BLIP-2를 활용하여 VideoQA system 구축.
- LLoVI: video captioner와 text LLM 활용.
- Video LLaMA: BLIP-2를 확장하여 video LLM 구축.
- Video-LLaVA: LanguageBind vision model 활용, images와 videos의 representations을 통합.
- Video-ChatGPT: 고품질 Video instruction tuning dataset 구축.
- VideoChat: foundation models를 활용하여 video captions, tags 등을 생성하고 추가 input으로 활용.
- LLaMA-VID: context attention module을 사용하여 각 frame을 2개의 tokens으로 축소.
- Chat-UniVI: token merging methods 활용.
- ImageGrid-VLM, PLLaVA: videos를 image grids 또는 filmstrips로 pre-trained Image VLMs에 전달.

본 논문과의 연관성

다양한 VideoQA models에 적용 가능한 평가 framework 및 benchmark를 제공하여, 기존 models의 temporal reasoning 능력을 평가하고 개선하는 데 기여할 수 있음.

기존 Evaluation Protocols

Question types: boolean, multiple-choice, open-ended.
평가 방식:
- Boolean, multiple-choice: ground-truth와 직접 비교.
- Open-ended: 정확히 일치하지 않으면 오분류 가능성 존재, external judges (예: ChatGPT) 활용 (일관성 및 편향 문제 존재).

본 논문과의 연관성

Boolean, multiple-choice QA 쌍을 생성하여, 객관적이고 자동화된 평가 가능.

정리 노트 요약

본 논문은 기존 VideoQA benchmarks가 "Temporal Logical Reasoning" 평가에 소홀하다는 점을 지적하며, 다양한 temporal logic operators를 체계적으로 활용하여 자동으로 QA 쌍을 생성하는 TLQA framework를 제안합니다. 이는 기존 연구들이 다루지 못했던 더 넓은 범위의 temporal correlations를 평가할 수 있도록 하며, 다양한 VideoQA models에 적용 가능한 객관적이고 자동화된 평가 benchmark (TLQA) 를 제공합니다. 이를 통해 VideoQA models의 temporal reasoning 능력 향상에 기여하고자 합니다.

3. TLQA Framework: Time-Logic QA

TLQA benchmark는 dense temporal scene graph annotations 또는 temporal action localization/segmentation datasets를 활용하여 자동으로 생성됩니다. 이러한 annotations을 기반으로 actions 및 그 순서와 관련된 questions를 생성합니다. temporal logic operators가 주어지면 표 3에 표시된 대로 각 temporal category에 대한 템플릿 questions를 정의합니다. 우리는 소규모/대규모 평가를 위해 16개 categories에 걸쳐 총 32k/160k QA 쌍을 포함하는 2가지 버전의 dataset을 제공합니다. 이러한 questions에 정확하게 답하려면 복잡한 temporal logical understanding과 multi-step inference가 필요합니다.

TLQA benchmark의 자동 생성은 다음을 포함합니다:

(1) temporal logic categories 정의; (2) 각 category에 대한 템플릿 questions 생성; (3) temporal annotations이 있는 모든 video dataset에 대한 instance states 구축; (4) 각 category에 대한 positive QA 쌍 자동 생성; (5) positive QA 쌍을 기반으로 boolean 및 multiple-choice questions에 대한 negatives 자동 생성.

3.1. Formal Temporal Logic Definition

Temporal logic은 temporal relationships의 formal representations을 위한 Description Logic의 확장입니다. 표 2에서는 16개 categories 각각에 대한 temporal operators와 그 syntax 및 formal definitions을 제시합니다. 단순화를 위해 그림 2에서 두 actions에 대한 적용을 그림으로 보여줍니다. X U Y는 그림 2와 같이 X가 Y 직전에 발생하는 것과 같습니다. 우리는 실제 상황에서 관찰되는 가장 일반적인 temporal order variants를 취합니다.

3.2. Template Questions with Temporal Operators

표 2와 같이, temporal categories는 unary 및 binary temporal operators를 포함합니다. unary 및 binary temporal operators를 넘어 더 많은 complexity를 추가하기 위해, 우리는 그것들을 의미 있게 결합하고 실제 비디오에서 흔히 발생하는 가장 관련성 높은 조합을 선택합니다. 표 3은 boolean question type에 대한 각 category에 대한 템플릿 questions를 보여줍니다. multiple-choice 템플릿 questions는 보충 섹션 4를 참조하십시오. 적절한 영어 syntax structure로 questions을 generate하기 위해, 우리는 과거, 현재, 미래, 진행, 완료 시제를 정확하게 표현하기 위해 모든 actions에 대한 시제를 정의합니다. 예를 들어: 'Has the been since they ?'.

Question Types VideoQA의 결정론적 평가를 위해 questions을 Boolean과 Multiple-Choice의 두 가지 type으로 분류합니다. Boolean questions은 model이 간단히 'yes' 또는 'no'로 응답하도록 요구합니다. 반대로, Multiple-Choice type questions은 model에 여러 options을 제시하고, 그 중에서 질문에 올바르게 답하는 하나를 선택해야 합니다. 다음 섹션에서는 체계적인 평가 framework를 보장하는 multiple-choice 선택 및 question sampling에 대한 방법론을 자세히 설명합니다.

3.3. Building Instance States: Re-purposing Existing Annotated Datasets

우리의 framework는 Breakfast, CrossTask와 같은 temporal annotations이 있는 기존 video action datasets를 활용하는 동시에, STAR, AGQA와 같이 dense annotations이 있는 이전 VideoQA datasets로 확장되는 등 여러 datasets에 대해 일반적이고 확장 가능합니다. dataset 세부 정보는 섹션 4에서 논의합니다.

dense scene graph/temporal annotations이 주어지면, 그림 1과 같이 video의 각 time step에서 object와 action을 포착하는 포괄적인 instance states를 구축합니다. 예를 들어, video의 instance states를 검사함으로써, 그림 1과 같이 '휴대폰을 들고 있는' action이 video 전체에서 발생한다는 것을 추론할 수 있습니다. 이제 instance states가 주어진 자동 QA 생성 프로세스를 정의합니다.

3.4. Automatic Positive QA Generation

temporal category에 대한 템플릿 questions이 주어지면, 이제 temporal annotations이 있는 video datasets에서 생성된 instance states를 활용하는 완전 자동화된 positive QA 생성 프로세스를 제시합니다. 각 video에 대해, 우리는 그 안에서 발생하는 모든 고유한 actions을 계산하고 각 action을 'actor'와 'action'으로 나타냅니다. actor에 대한 annotation이 없는 경우(Breakfast/CrossTask와 같이 action annotations만 있는 경우), '사람'을 사용하여 actor를 나타냅니다. 또한 전체 action set을 나타내기 위해 dataset의 모든 고유한 actions을 저장합니다. 템플릿 question과 video의 모든 instance states가 주어지면, 템플릿 question의 temporal operators에 대한 모든 유효한/positive questions을 찾기 위해 dynamic programming 솔루션을 구현합니다. 우리는 표 2의 정의에 따라 temporal logic을 충족하는 positive questions 집합을 재귀적으로 구축하기 위해 각 temporal category에 대한 scripts를 정의합니다. 먼저, instance states에서 각 time-step에서 모든 positive instance-level objectives를 생성합니다. 즉, time step t에서 모든 positive actions set을 가집니다. 그런 다음, 각 temporal operator에 대한 logic을 구현하여 주어진 category의 temporal operators를 충족하는 positive actions 집합을 재귀적으로 구축합니다. 예를 들어, eventual category에 대한 모든 positive questions을 generate하기 위해, 각 time-step에서 actions list를 가져와 재귀적으로 병합하여 해당 category에 대한 고유한 positive actions을 얻습니다. 그것들을 positive questions으로 변환하기 위해, 템플릿 question의 <action>과 <object>를 계산된 고유한 positive actions으로 바꾸고, boolean questions의 경우 answer는 'yes'로 설정됩니다. multiple-choice questions의 경우, positive actions은 올바른 answer choice를 형성하며, 균일한 answer-choice 분포를 갖도록 다른 위치(a, b, c, d)에 무작위로 배치합니다. 유사하게, always temporal category의 경우, 제약 조건을 충족하기 위해 action은 모든 time steps에서 발생해야 합니다. 우리는 표 2의 정의에 따라 각 video에 대한 고유한 positive actions을 계산하는 동안 이 제약 조건을 구현합니다.

3.4.1. Automatic Negative QA Generation

temporal category에 대한 템플릿 questions과 positive actions set 및 instance states가 주어지면, 이제 negative QA 생성 프로세스를 제시합니다. negative questions을 generate하기 위해, 각 video에 대한 모든 고유한 actions 목록을 가져와 positive actions을 제거하여 해당 video에 대한 negative actions 목록을 얻습니다. 이것들은 video와 관련이 있지만 negatives인 actions이기 때문에 hard-negative actions set을 형성합니다. positive actions list가 video의 모든 고유한 actions과 일치하는 categories의 경우, dataset의 전체 action set을 가져와 positive actions set을 제거하여 negative actions list를 생성합니다. boolean category에 대한 균형 잡힌 negative questions 분할을 generate하기 위해, positive questions 수와 일치하도록 동일한 수의 negatives를 샘플링합니다. negative action list를 questions으로 변환하기 위해, 템플릿 question의 <action>과 <object>를 계산된 negative actions으로 바꾸고, boolean question의 경우 answer는 'no'로 설정됩니다. multiple-choice의 경우, negative actions list에서 세 개의 negative options을 무작위로 샘플링하여 choices를 생성합니다. 우리는 negative questions을 generate하기 위해 'no' 또는 'not'을 추가하지 않고, 대신 논의된 대로 video에 대해 true가 아닌 questions을 generate합니다.

TimeLogic QA (TLQA) 논문 3. TLQA Framework: Time-Logic QA 섹션 핵심 정리 노트

TLQA Framework 개요

목표: VideoQA 모델의 "Temporal Logical Understanding" 능력 평가를 위한 framework.
핵심: 자동으로 Time-Logic QA 쌍을 생성.
- 기존 VideoQA datasets (dense temporal scene graph annotations 또는 temporal action segmentation) 활용.
- 16가지 temporal logic categories 정의 (표 2 참고).
- 각 category에 대한 템플릿 questions 생성 (표 3 참고).
- 두 가지 versions (small/large scale) - 각 dataset 당 32k/160k QA 쌍.

TLQA Framework 작동 방식 (5단계)

Temporal Logic Categories 정의:
- 16가지 temporal logic categories 정의 (표 2).
- Formal Temporal Logic (Description Logic 확장) 기반.
- Unary 및 binary temporal operators, 그리고 그 조합을 활용하여 real-world video에서 흔히 발생하는 temporal relationships 표현.
템플릿 Questions 생성:
- 각 category에 대한 템플릿 questions 생성 (표 3).
- 정확한 영어 syntax structure를 위해 actions에 대한 시제 (tense) 정의.
- Question Types:
  - Boolean: 'yes'/'no' 응답.
  - Multiple-Choice: 여러 options 중 정답 선택.
Instance States 구축:
- 기존 video action datasets (Breakfast, CrossTask) 및 VideoQA datasets (STAR, AGQA) 활용.
- "Instance States": video의 각 time step에서 object와 action을 포착하는 정보 (그림 1).
Positive QA 쌍 자동 생성:
- 핵심: 템플릿 question과 instance states를 사용하여 temporal logic을 만족하는 positive QA 쌍 자동 생성.
- 과정:
  1. 각 video에서 발생하는 모든 고유한 actions 계산 (actor, action).
  2. Dynamic programming을 사용하여 temporal operators에 대한 유효한 questions 탐색.
  3. Temporal category 별 scripts를 사용하여 positive questions 집합 재귀적 구축.
  4. 템플릿 question의 placeholders (<action>, <object>)를 계산된 positive actions으로 치환.
  5. Boolean questions의 경우 answer를 'yes'로 설정.
  6. Multiple-choice questions의 경우, positive actions을 정답으로 설정하고, 무작위 위치에 배치.
Negative QA 쌍 자동 생성:
- 핵심: Positive QA 쌍과 instance states를 기반으로 negative QA 쌍 생성.
- 과정:
  1. 각 video의 고유한 actions 목록에서 positive actions을 제거하여 "hard-negative actions set" 생성.
  2. Positive actions list가 video의 모든 actions과 일치하는 경우, dataset 전체 action set에서 positive actions을 제거.
  3. Boolean questions의 경우, positive questions 수와 동일한 수의 negative questions 샘플링.
  4. 템플릿 question의 placeholders를 negative actions으로 치환.
  5. Boolean questions의 경우 answer를 'no'로 설정.
  6. Multiple-choice questions의 경우, negative actions list에서 3개의 negative options을 무작위로 샘플링.
  7. 중요: 'no'나 'not'을 추가하는 대신, video에 대해 **"false"**인 questions을 생성.

이 논문만의 핵심 및 차별점

자동화된 Time-Logic QA 생성: temporal annotations이 있는 모든 video dataset에 적용 가능한 확장성.
Formal Temporal Logic 기반: 16가지 categories의 temporal logic을 정의하고, 이를 기반으로 QA 쌍 생성.
다양한 Complexity Levels: unary, binary operators 및 그 조합을 활용하여 real-world video의 복잡한 temporal relationships 포착.
Hard-negative Sampling: video와 관련 있지만 정답이 아닌 "hard-negative" actions을 사용하여, 보다 정확한 평가 가능.

정리 노트 요약

TLQA Framework는 자동으로 Time-Logic QA 쌍을 생성하여 VideoQA 모델의 "Temporal Logical Understanding" 능력을 평가하는 framework입니다. Formal Temporal Logic을 기반으로 16가지 categories의 temporal logic을 정의하고, 템플릿 questions와 instance states를 활용하여 positive 및 negative QA 쌍을 자동 생성합니다. 다양한 video datasets에 적용 가능하며, hard-negative sampling을 통해 보다 정확한 평가를 제공합니다. TLQA는 VideoQA 모델의 temporal reasoning 능력 평가 및 향상에 크게 기여할 것으로 기대됩니다.