AI바라기의 인공지능

VLM : 논문리뷰 : Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports 본문

논문리뷰

VLM : 논문리뷰 : Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports

AI바라기 2025. 5. 20. 14:16

Sports-QA 논문 학습 노트

용어 설명 (Terminology)

  • VideoQA (Video Question Answering): Video content를 기반으로 질문에 답하는 AI task.
  • Coarse-grained vs. Fine-grained Understanding: 대략적인 이해 vs. 세밀하고 구체적인 이해. 이 논문은 스포츠 영상에 대한 fine-grained understanding을 강조.
  • Professional Action Understanding: 일반적인 행동이 아닌, 특정 스포츠 분야의 전문적인 동작 및 전술 이해.
  • Counterfactual Questions: "만약 ~했다면 어떻게 되었을까?" 와 같이 실제 일어나지 않은 가상 상황에 대한 질문.
  • Sports-QA: 이 논문에서 제안하는 스포츠 VideoQA를 위한 대규모 benchmark dataset.
  • Auto-Focus Transformer (AFT): 이 논문에서 제안하는 모델로, 질문에 따라 동적으로 Video의 특정 시간적 범위(temporal scale)에 집중하는 Transformer 기반 모델.
  • Auto-Focus Attention (AFA): AFT의 핵심 메커니즘으로, 질문에 따라 다양한 focal length에 동적으로 가중치를 부여하여 시간적 주의(attention)를 조절.
  • Focal Lengths (in AFT context): AFT에서 미리 정의된 다양한 시간적 주의 범위 (예: 짧은 3프레임, 중간 9프레임, 긴 80프레임).
  • MultiSports, FineGym: Sports-QA dataset 구축에 사용된 기존의 고품질 스포츠 Video dataset.
  • Attributes (for ball games): Sports-QA에서 농구, 축구, 배구와 같은 구기 종목의 action instance에 대해 Team, Outcome, Cause of Outcome, Cause of Action, Effect of Action 등 5가지로 정의하고 annotate한 속성들.
  • BlindQA: Video를 보지 않고 질문의 언어적 정보만을 이용해 답변하는 baseline model.
  • Open-ended task: 객관식 선택이 아닌, 생성형으로 답변을 만들어내는 task.
  • Debiasing: Dataset 내 특정 질문-답변 쌍의 높은 상관관계로 인한 편향을 줄이기 위한 과정.

Purpose of the Paper

  • 기존 연구의 한계:
    • 대부분의 VideoQA dataset은 일상생활 Video에 대한 일반적이고 coarse-grained 이해에 초점.
    • 이는 전문적인 action 이해와 fine-grained motion analysis를 요구하는 복잡한 스포츠 시나리오에는 부적합.
    • 스포츠 영상에 대한 causal, counterfactual reasoning을 평가할 수 있는 dataset 부재.
  • 새로운 문제 정의 및 접근 방식:
    • 전문적이고 복잡한 스포츠 Video에 특화된 VideoQA task의 필요성 대두.
    • 이를 해결하기 위해, 최초로 스포츠 VideoQA를 위한 대규모 benchmark dataset인 **Sports-QA**를 제안.
    • Sports-QA의 특성을 고려하여, 질문에 따라 Video의 다양한 시간적 정보 스케일(temporal scale)에 동적으로 초점을 맞출 수 있는 Auto-Focus Transformer (AFT) 모델을 제안.

Key Contributions & Novelty

  • Sports-QA Dataset 구축:
    • Contribution:
      • 약 94,000개의 QA 쌍, 다양한 스포츠(농구, 축구, 배구, 체조 등) 및 질문 유형(기술적, 시간 순서, 인과관계, 반사실적 조건) 포함.
      • MultiSportsFineGym dataset을 기반으로, 특히 구기 종목에 대해서는 Team, Outcome 등 5가지 attribute를 직접 annotate하고, 이를 기반으로 QA 쌍 생성.
    • Novelty:
      • 단순 행동 인식을 넘어 전문적인 스포츠 action, 선수/팀 간 상호작용, fine-grained motion 분석 및 복잡한 reasoning을 요구하는 최초의 스포츠 특화 VideoQA dataset.
      • 기존 dataset과 달리, 스포츠 규칙 및 맥락에 대한 깊은 이해 필요.
  • Auto-Focus Transformer (AFT) 모델 제안:
    • Contribution:
      • 질문에 따라 Video 정보의 특정 시간적 스케일(예: 단기, 중기, 장기)에 자동으로 초점을 맞추는 Auto-Focus Attention (AFA) 메커니즘을 갖는 새로운 Transformer encoder 제안.
    • Novelty:
      • 기존 Transformer 모델들이 주로 전역적인 dependency를 포착하는 반면, AFT는 질문의 특성에 맞춰 동적으로 필요한 시간적 범위에만 집중함으로써, 스포츠 VideoQA에서 다양한 시간적 granularity를 효과적으로 처리.
  • 광범위한 Benchmark 실험:
    • Contribution: Sports-QA dataset에 대한 baseline 연구 및 기존 VideoQA 방법론들의 성능 평가.
    • Novelty: 새로운 스포츠 VideoQA task에 대한 초기 benchmark를 확립하고, 제안 모델의 우수성을 입증.

Experimental Highlights

  • Datasets: Sports-QA (5,967 videos, 94K QA pairs, 8종목 스포츠). Train/Valid/Test = 60%/20%/20%.
  • Metrics: Accuracy (정확도), F1-score (특히 불균형한 답변 분포를 고려).
  • Baselines: Random Choosing, Semantic-Aware Random Choosing, BlindQA (LSTM/Transformer 기반).
  • Compared Methods: CoMem, HME, HGA, MASN, HQGA, IGV 등.
  • Key Results:
    • AFT의 SOTA 성능: AFT (BERT 사용 시)는 Sports-QA test set에서 59.1% Accuracy, 25.4% F1-score를 달성하며, 비교된 모든 baseline 및 기존 VideoQA 모델들을 능가. (기본 Transformer encoder를 사용한 baseline (Ours) 대비 Accuracy +1.2%, F1-score +1.5% 향상)
    • Focal Length의 영향: 단일 focal length보다 여러 focal length를 조합(예: 3과 9)하고 AFA를 통해 동적으로 가중치를 부여했을 때 성능이 가장 좋았음 (최종 59.2% Accuracy). 이는 AFT의 핵심 아이디어인 동적 초점 조절의 유효성을 시사.
    • 스포츠 간 일반화 능력 (Generalization Ability across Sports): 특정 스포츠 그룹으로 pretraining 후 다른 스포츠로 fine-tuning 했을 때, 처음부터 학습하는 것보다 성능 향상 (평균 +1.2% ~ +1.8% Accuracy). 이는 모델이 공통된 스포츠 semantic feature를 학습함을 의미.
    • Focus Weight 시각화: 질문 유형에 따라 AFT가 실제로 다른 focal length에 높은 가중치를 할당함을 시각적으로 확인 (예: 특정 행동 질문 -> 단기, 횟수 질문 -> 장기, 행동 간 관계 질문 -> 중기).

Limitations and Future Work

  • Limitations:
    • AFT는 미리 정의된 focus의 수에 따라 계산량이 선형적으로 증가. 이는 memory가 제한된 장치에서는 도전 과제가 될 수 있음.
  • Future Work:
    • AFT의 핵심적인 동적 초점 조절 기능은 유지하면서 계산 효율성을 높이고 memory 제약을 해결할 수 있는 새로운 architectural framework 개발.

Overall Summary

이 논문은 전문적이고 복잡한 스포츠 영상에 대한 fine-grained understandingreasoning을 요구하는 VideoQA task를 위해, 최초의 대규모 benchmark dataset인 **Sports-QA**를 제안한다. 또한, 질문의 특성에 따라 Video의 다양한 시간적 스케일에 동적으로 주의를 집중하는 Auto-Focus Transformer (AFT) 모델을 개발하여 Sports-QA에서 SOTA 성능을 달성했다. 이 연구는 스포츠 분석 및 Video 이해 분야에서 보다 심층적인 reasoning을 가능하게 하는 중요한 첫걸음이며, 향후 관련 연구의 기반을 마련했다는 점에서 의의가 크다.

쉬운 설명 (Easy Explanation)

이 논문은 스포츠 경기 영상을 보고 "방금 저 선수가 성공한 기술은 무엇인가요?"(단기 집중), "저 팀은 이번 경기에서 특정 기술을 몇 번이나 시도했나요?"(장기 집중), 또는 "A 선수의 패스가 B 선수의 득점으로 이어진 이유는 무엇인가요?"(중-장기 집중) 와 같은 다양한 질문에 답하는 AI를 만드는 연구입니다. 이를 위해, 이런 질문들과 스포츠 영상들을 모아 **Sports-QA**라는 큰 문제집(dataset)을 만들었습니다. 그리고 **Auto-Focus Transformer (AFT)**라는 AI 모델을 개발했는데, 이 모델은 마치 사람이 질문에 따라 비디오의 특정 부분에만 집중해서 보듯이, 질문의 종류에 맞춰 영상의 짧은 순간, 중간 길이, 또는 전체 흐름 등 필요한 시간대에만 "자동으로 초점을 맞춰" 정보를 찾아내는 똑똑한 기능을 가지고 있습니다.

 

 

 

Abstract

Question answering을 위한 sports videos에 대한 Reasoning은 player training 및 information retrieval과 같은 수많은 application을 가진 중요한 task입니다. 그러나 이 task는 관련 datasets의 부족과 그것이 제시하는 challenging한 특성으로 인해 탐구되지 않았습니다. Video question answering (VideoQA)을 위한 대부분의 datasets는 주로 일상생활 videos에 대한 일반적이고 coarse-grained understanding에 중점을 두며, 이는 professional action understanding과 fine-grained motion analysis를 필요로 하는 sports scenarios에는 적용할 수 없습니다. 본 논문에서는 sports VideoQA task를 위해 특별히 설계된 첫 번째 dataset인 Sports-QA를 소개합니다. Sports-QA dataset은 descriptions, chronologies, causalities, counterfactual conditions와 같은 다양한 유형의 questions를 포함하며 여러 sports를 다룹니다. 또한, sports VideoQA task의 특성을 해결하기 위해 question answering을 위한 temporal information의 특정 scales에 자동으로 focus할 수 있는 새로운 Auto-Focus Transformer (AFT)를 제안합니다. 우리는 Sports-QA에 대한 광범위한 experiments를 수행하며, baseline studies와 다양한 methods의 evaluation을 포함합니다. 결과는 우리의 AFT가 state-of-the-art performance를 달성함을 보여줍니다.

Keywords

Video Question Answering, Sports Video, Benchmark, Auto-Focus Transformer

 

 

 

 

1 Introduction

Sports video analysis는 최근 몇 년 동안 점점 더 많은 관심을 끌고 있습니다. Sports action recognition과 같은 tasks에서 연구 진전이 있었지만, question answering을 위한 sports videos에 대한 reasoning은 아직 탐구되지 않았습니다. 인간으로서 우리는 sports videos에서 players의 actions을 인식할 뿐만 아니라 players의 actions의 효과를 이해하고, 팀이 점수를 잃은 이유를 설명하며, counterfactual situations에서 어떤 일이 일어날지 상상할 수 있습니다. Reasoning에 대한 우리의 인상적인 능력은 sports videos와 관련된 복잡한 questions에 답할 수 있게 해주며, 이는 player/team performance qualification을 위한 경기에서의 중요한 통계 획득, performance 향상을 위한 players의 actions 및 팀 strategies 분석, 그리고 관중과 analysts를 위한 정보의 효율적인 검색과 같은 applications에서 매우 중요합니다. Sports video reasoning은 분명히 중요하지만, challenges와 datasets의 부족으로 인해 충분히 탐구되지 못했습니다.

본 논문에서는 question answering을 위한 sports videos에 대한 reasoning에 초점을 맞춘 sports VideoQA를 다룹니다. 이는 주로 descriptive 및 temporal 측면을 포함하는 general video understanding에 중점을 둔 general VideoQA와는 구별됩니다 (그림 1 참조). General VideoQA에 비해 sports VideoQA는 questions가 특정 팀과 professional actions을 포함할 수 있고, actions에 대한 fine-grained understanding과 팀 내부/팀 간 relation modeling을 필요로 하기 때문에 더욱 challenging합니다. 지적된 바와 같이: 1) coarse-grained global video understanding은 actions이 빠르고 구별하기 어려운 sports analysis에 불충분합니다; 2) coarse-grained datasets에서 pre-trained된 models은 fine-grained tasks에 항상 유익한 것은 아닙니다. 한편, individual actions의 fine-grained recognition에서 상당한 발전이 있었지만, 이러한 datasets는 sports scenarios에서 개인이나 팀이 수행한 actions에 대한 temporal 및 causal reasoning 능력을 효과적으로 평가하는 데 부족할 수 있습니다. Sports VideoQA를 위한 명시적이고 포괄적인 reasoning을 위해서는 sports 관련 questions의 상세한 annotations을 포함하는 대규모 dataset이 필요합니다.

이러한 격차를 해소하기 위해, 우리는 sports activities에 특별히 초점을 맞춘 최초의 video QA dataset인 Sports-QA라는 새로운 dataset을 소개합니다. MultiSports와 FineGym의 sports videos와 professional action labels를 활용하여 우리 dataset을 구축합니다. 두 소스 모두 잘 정의된 action labels이 있는 고품질 sports videos를 제공하여 각 중요한 action instance에 대한 필수 attributes를 annotate 할 수 있게 해줍니다. 이러한 annotations를 사용하여 description, chronology, causality, counterfactual conditions와 같은 측면을 다루는 사전 정의된 templates를 기반으로 QA pairs를 generate합니다. Sports-QA dataset은 약 94K개의 QA pairs로 구성된 최초의 dataset으로, sports VideoQA를 위한 여러 sports와 다양한 question types를 포함합니다. 표 1은 Sports-QA와 여러 널리 사용되는 VideoQA datasets 간의 비교를 제공합니다.

기존 datasets와 비교하여, 우리의 Sports-QA는 VideoQA에 대한 새로운 insights를 제공합니다: 1) group activities (예: 농구)와 single-person sports (예: 체조) 모두에서 특정 용어 및 actions과 관련된 questions를 포함합니다. 이는 models이 question answering을 위해 다양한 수의 interactions이 있는 scenarios에서 dynamic patterns을 포착하고 reasoning을 수행할 수 있는 능력을 갖도록 요구합니다. 2) 복잡한 sports videos에 대한 포괄적인 understanding을 달성하기 위해 Sports-QA는 다양한 temporal granularities에서 video information을 포함하는 다양한 questions를 포함합니다. 이는 global long-term temporal dependencies와 fine-grained short-term dependencies를 모두 포함합니다. 예를 들어, actions의 수를 묻는 question은 model이 global dependencies를 포착하도록 요구하는 반면, 특정 action의 효과에 대한 question은 short-term temporal information에 의존합니다. 또한, Sports-QA는 다른 tasks에 활용될 잠재력을 가지고 있습니다. Actions의 사전 정의된 attributes는 multiple labels로 취급될 수 있어, dataset이 포괄적인 action understanding을 위한 multi-label classification tasks에 사용될 수 있도록 합니다. 추가적으로, annotated된 action attributes를 기반으로, question answering에서 declarative sentences로 templates를 수정하여 descriptive 또는 explanatory narrations를 generate하고 포괄적인 sports video captioning을 가능하게 할 수 있습니다.

Dataset 외에도 sports VideoQA를 위한 새로운 method를 제시합니다. Sports VideoQA는 model이 다양한 temporal granularities에서 multiple frames로부터 information을 포착해야 한다는 점을 인식하고, Auto-Focus Attention mechanism을 특징으로 하는 Auto-Focus Transformer (AFT)를 소개합니다. 개념적으로, model은 dynamic focal length를 가진 temporal magnifying glass와 유사하게 작동하여 다양한 temporal dependencies를 가진 questions에 답하기 위해 video를 검사할 수 있도록 합니다. 보다 구체적으로, 우리가 설계한 Auto-Focus Attention은 question에 따라 attention focus를 동적으로 선택합니다. 이 mechanism은 model이 다양한 time spans에 걸친 video information을 포함하는 questions를 처리할 수 있도록 합니다.

기여는 다음과 같이 요약됩니다:

  • 우리는 VideoQA를 위해 다양한 types의 questions와 multiple sports로 구성된 대규모 dataset에 기여합니다. 우리가 아는 한, 이는 professional sports actions에 대한 complex reasoning을 위한 최초의 dataset입니다.
  • 우리는 question에 따라 attention focus가 adaptive하여 model이 다양한 scales의 temporal information을 요구하는 questions를 처리할 수 있도록 하는 새로운 Auto-Focus Transformer (AFT)를 제안합니다.
  • 우리는 baseline study, 기존 methods의 evaluation, predictions의 visualization을 포함하여 우리 dataset에 대한 광범위한 experiments를 수행합니다. 결과는 sports VideoQA에 대한 제안된 AFT의 우수성을 보여줍니다.

 

 

1 Introduction 정리노트 (AI 연구자 대상)

핵심 문제점 (Problem):

  • 기존 VideoQA datasets는 일반적 (general)이며 coarse-grained understanding (일상 video 위주)에 치중되어, professional action understanding, fine-grained motion analysis, 복합적 reasoning (causal, counterfactual 등)을 요구하는 sports video에는 부적합합니다.
  • Sports video reasoning을 위한 특화된 dataset 부재.

제안 1: Sports-QA Dataset

  • 정의: Sports video에 특화된 최초의 대규모 (약 94K QA pairs) VideoQA dataset.
  • 구성:
    • 다양한 sports 포함 (농구, 체조 등 group/single-person sports).
    • 질문 유형: Description, chronology, causality, counterfactual conditions.
    • 구축 기반: MultiSports, FineGym datasets (professional action labels, 고품질 video)의 action instances에 대한 attributes annotation 후, 사전 정의된 templates를 통해 QA pairs 생성.
  • Sports-QA의 주요 특징 및 차별점:
    • 구체적인 sports 용어 및 actions 관련 질문 포함 (다양한 수의 interactions이 있는 scenarios에서 dynamic patterns 포착 및 reasoning 필요).
    • 다양한 temporal granularities (global long-term 및 fine-grained short-term dependencies)에서의 video information을 요구하는 질문들로 구성.
    • 추가 활용 가능성: Multi-label action classification, sports video captioning.

제안 2: Auto-Focus Transformer (AFT) Model

  • 목표: Sports VideoQA에서 요구하는 다양한 temporal granularities의 multiple frames 정보 포착.
  • 핵심 기술: Auto-Focus Attention mechanism.
    • Question에 기반하여 attention focus를 동적으로 선택 (dynamic focal length를 가진 temporal magnifying glass처럼 작동).
    • 다양한 time spans에 걸친 video information을 요구하는 질문 처리 능력 향상.

주요 Contributions:

  • Professional sports actions에 대한 complex reasoning을 위한 최초의 대규모 dataset (Sports-QA) 제공.
  • Question에 따라 attention focus를 조절하여 다양한 temporal scales에 대응 가능한 새로운 Auto-Focus Transformer (AFT) model 제안.
  • Sports-QA dataset에서의 광범위한 experiments (baseline study, 기존 methods 평가, predictions 시각화 포함)를 통해 제안된 AFT의 state-of-the-art performance 입증.

쉬운 설명: 1 Introduction 섹션

AI가 스포츠 비디오를 보고 질문에 답하게 만드는 것은 꽤 어려운 일입니다. 예를 들어 "방금 그 선수가 왜 슛을 놓쳤을까?" 또는 "만약 다른 작전을 썼다면 결과가 어땠을까?" 같은 질문에 답하는 것이죠. 기존의 AI들은 대부분 일상생활 비디오를 이해하는 수준이라, 이렇게 전문적이고 세밀한 스포츠 분석에는 부족한 점이 많았습니다. 스포츠 영상을 제대로 이해하고 분석하기 위한 전용 학습 데이터(datasets)도 거의 없었고요.

이 논문에서는 이 문제를 해결하기 위해 두 가지 중요한 것을 선보입니다.

  1. "Sports-QA"라는 새로운 학습 데이터(dataset)를 만들었습니다.
    • 이건 스포츠 영상만을 위한 특별한 데이터 모음이에요. 약 9만 4천 개의 질문과 답변 쌍으로 이루어져 있고, 농구나 체조처럼 여러 명이 하는 운동부터 혼자 하는 운동까지 다양한 스포츠를 다룹니다.
    • 질문들도 단순 묘사를 넘어 "왜 그랬을까?", "만약에...", "시간 순서대로 말해봐" 같이 복잡한 생각을 해야 답할 수 있는 것들이 많습니다.
    • 이렇게 스포츠에 특화된 대규모 데이터가 있으면 AI가 스포츠를 훨씬 더 깊이 있게 학습할 수 있게 됩니다.
  2. "Auto-Focus Transformer (AFT)"라는 새로운 AI 모델(model)을 개발했습니다.
    • 이 AI 모델은 마치 비디오를 볼 때 필요에 따라 특정 장면에 더 집중하거나 전체 흐름을 보는 것처럼, 질문의 내용에 맞춰 영상의 중요한 부분을 자동으로 찾아냅니다.
    • 예를 들어, 아주 짧은 순간의 동작에 대한 질문이면 그 순간에 집중하고, 경기 전체에 대한 질문이면 넓은 시간대의 정보를 활용하는 식입니다. 마치 똑똑한 돋보기로 필요한 부분만 확대해서 보는 것과 같아요.

결국 이 연구는 AI가 스포츠 영상을 단순히 보는 것을 넘어, 선수들의 움직임을 세밀하게 분석하고, 경기의 인과관계를 이해하며, 더 나아가 가상의 상황까지 추론할 수 있도록 만드는 것을 목표로 합니다. 이를 위해 새로운 전용 데이터셋과 똑똑한 AI 모델을 제시한 것이죠.

 

 

 

 

2 Related Work

VideoQA Datasets

VideoQA의 발전은 TGIF-QA, MSVD-QA, MSRVTT-QA, DramaQA, NExT-QA, NExT-OOD와 같은 다양한 datasets의 출현으로 크게 촉진되었습니다. 예를 들어 TGIF-QA는 일반 videos에서의 temporal reasoning을 위해 설계된 4개의 포괄적인 sub-tasks 세트를 제공하며 VideoQA community에서 널리 인정받고 있습니다. MSVD-QA와 MSRVTT-QA는 기존 video captions로부터 구축된 open-ended datasets인 반면, DramaQA는 hierarchical QAs와 character-centered video annotation을 통해 드라마 이야기를 이해하는 데 중점을 둡니다. Temporal actions를 설명하고 해설하기 위해 도입된 NExT-QA는 manual annotation을 통해 multi-choice 및 open-ended questions를 모두 제공합니다. 그러나 기존 datasets는 주로 일상적인 scenarios에서의 general video understanding에 중점을 두거나 coarse-grained action/event reasoning을 포함합니다. 이와 대조적으로, 우리의 기여는 sports scenarios 내에서의 fine-grained 및 professional analysis에 있습니다. 우리는 다양한 특성을 가진 multiple sports에 대한 description, chronology, causality, counterfactual conditions의 측면을 다루는 dataset인 Sports-QA를 제시합니다.

VideoQA Methods

VideoQA는 questions에 답하기 위해 models이 videos로부터 spatial 및 temporal information을 모두 파악해야 하므로 상당한 challenge를 제기합니다. 다양한 deep models이 개발되어 서로 다른 관점에서 이 task에 접근하고 있습니다. 예를 들어, Jiang 등의 deep heterogeneous graph alignment network는 intra/inter-modality information을 동시에 aligning하여 VideoQA를 해결합니다. 또 다른 접근 방식은 Fan 등이 제안한 multimodal attention model을 포함하는데, 여기서 heterogeneous memory는 visual features로부터 global context를 학습하고, question memory는 questions의 복잡한 semantics를 포착합니다. Li 등이 도입한 IGV는 보완적인 contents에 invariant한 causal relations를 고려하여 videos에서 question-critical scenes를 grounding합니다. 그러나 이러한 접근 방식들의 한계는 서로 다른 questions가 특정 scales의 temporal dependencies를 필요로 할 수 있다는 사실을 고려하지 않는다는 점입니다. 이 challenge에 대응하여, 우리는 VideoQA를 위해 question에 기반하여 특정 temporal scale에 자동으로 focus하도록 설계된 Auto-Focus Transformer를 제안합니다.

Sports Video Understanding

Sports video understanding은 최근 몇 년 동안 점점 더 많은 관심을 끌고 있습니다. 연구자들은 sports action recognition, multi-person action detection, action quality assessment와 같은 다양한 tasks에서 많은 노력을 기울여 왔습니다. 한편, 수많은 sports datasets가 구축되었습니다. 예를 들어, AQA-7은 professional action quality assessment를 위해 구축되었습니다. 이 dataset에는 7가지 types의 actions이 포함되어 있으며 모든 action instances는 quality scores와 연관되어 있습니다. MultiSports는 professional sports actions의 spatial-temporal detection을 위해 제안되었습니다. FineGym은 체조 action의 atomic level에 대한 정확한 understanding을 요구하는 fine-grained activity localization에 중점을 둡니다. 본 연구에서는 sports analysis에서 visual modality와 textual modality 사이의 간극을 메우는 sports VideoQA를 위한 첫 번째 dataset인 Sports-QA를 구축합니다.

 

 

2 Related Work 정리노트 (AI 연구자 대상)

VideoQA Datasets:

  • 기존 Datasets 현황: TGIF-QA (general videos, temporal reasoning), MSVD-QA, MSRVTT-QA (open-ended, video captions 기반), DramaQA (드라마 스토리, character-centered), NExT-QA (temporal actions 설명/해설), NExT-OOD 등 다수 존재.
  • 본 논문이 지적하는 한계: 기존 datasets는 주로 일상 scenarios의 general video understanding 또는 coarse-grained action/event reasoning에 초점.
  • 본 논문의 차별점 (Sports-QA):
    • Sports scenariosfine-grained 및 professional analysis에 특화.
    • 다양한 특성의 multiple sports에 대해 description, chronology, causality, counterfactual conditions 등의 복합적 reasoning 측면을 다루는 최초의 dataset.

VideoQA Methods:

  • 기존 Methods 현황: Deep heterogeneous graph alignment (intra/inter-modality alignment), multimodal attention models (heterogeneous memory, question memory), IGV (causal relations 기반 question-critical scene grounding) 등.
  • 본 논문이 지적하는 한계: 기존 접근법들은 서로 다른 questions가 특정 scales의 temporal dependencies를 요구할 수 있다는 점을 충분히 고려하지 않음.
  • 본 논문의 차별점 (Auto-Focus Transformer - AFT):
    • Question에 기반하여 특정 temporal scale에 자동으로 focus하도록 설계.
    • 이를 통해 다양한 temporal dependencies를 요구하는 questions에 효과적으로 대응.

Sports Video Understanding:

  • 기존 연구 현황: Sports action recognition, multi-person action detection, action quality assessment 등 다양한 task 및 관련 datasets (AQA-7: professional action quality assessment, MultiSports: spatial-temporal detection, FineGym: fine-grained activity localization) 존재.
  • 본 논문이 메우는 간극 (Sports-QA):
    • Sports VideoQA를 위한 최초의 dataset을 구축.
    • Sports analysis에서 visual modality와 textual modality 간의 간극을 연결하여, 단순 action 인식을 넘어선 복합적인 reasoning을 가능하게 함.

쉬운 설명: 2 Related Work 섹션

이 부분에서는 이 연구가 나오기 전에 다른 연구들은 어떠했는지, 그리고 이 연구가 어떤 점에서 새로운지를 설명하고 있어요. 크게 세 부분으로 나뉩니다.

  1. 비디오 질문 답변(VideoQA) 학습 데이터(Datasets)는 뭐가 있었나?
    • AI가 비디오를 보고 질문에 답하는 것을 학습하려면 많은 데이터가 필요해요. 이전에도 이런 학습 데이터들이 있었어요. 예를 들면, 일반적인 일상생활 비디오에 대한 질문들, 드라마 줄거리에 대한 질문들, 또는 특정 행동의 시간 순서를 묻는 데이터들이 있었죠.
    • 문제점: 하지만 이런 데이터들은 대부분 일반적인 상황을 다루거나, 행동이나 사건을 대략적으로만 이해하는 수준이었어요. 스포츠처럼 전문적이고 아주 세밀한 분석이 필요한 영역에는 잘 맞지 않았죠.
    • 이 논문의 새로운 점: 여기서 소개하는 "Sports-QA" 데이터는 오직 스포츠 영상만을 위해 만들어졌어요. 선수들의 전문적인 동작, 경기 상황의 원인과 결과, "만약에..." 같은 가상 상황에 대한 질문까지 포함해서 훨씬 더 깊이 있는 이해를 요구합니다.
  2. 비디오 질문 답변(VideoQA)을 위한 AI 기술(Methods)은 어땠나?
    • AI가 비디오와 질문을 동시에 이해하도록 만드는 여러 기술들이 개발되어 왔어요. 예를 들어, 비디오의 장면과 질문의 단어들을 서로 연결 짓거나, 중요한 장면에 더 집중하는 기술들이 있었죠.
    • 문제점: 기존 기술들은 종종 질문에 따라 AI가 영상의 어느 부분에, 얼마나 길게 집중해야 하는지를 잘 파악하지 못했어요. 어떤 질문은 아주 짧은 순간의 행동에 대한 것일 수도 있고, 다른 질문은 경기 전체의 흐름을 봐야 할 수도 있는데 말이죠.
    • 이 논문의 새로운 점: 이 논문에서 제안하는 "Auto-Focus Transformer (AFT)"라는 AI 모델은 질문의 내용에 맞춰서 자동으로 영상의 특정 시간대에 "초점"을 맞출 수 있도록 설계되었어요. 마치 우리가 질문에 따라 비디오를 짧게 보거나 길게 돌려보는 것처럼요.
  3. 스포츠 비디오 이해(Sports Video Understanding) 연구는 어디까지 왔었나?
    • 스포츠 영상을 AI가 이해하도록 하는 연구는 이전에도 꾸준히 있었어요. 예를 들어, 선수들의 특정 동작을 인식하거나, 여러 선수들의 움직임을 동시에 감지하거나, 동작의 완성도를 평가하는 연구들이 있었죠. 이를 위한 스포츠 데이터들도 있었고요.
    • 문제점 (간접적): 하지만 이런 연구들은 주로 특정 동작을 인식하거나 분류하는 데 중점을 두었고, 스포츠 영상에 대해 "질문을 하고 답을 얻는" 방식의 깊이 있는 소통을 위한 데이터나 기술은 부족했어요.
    • 이 논문의 새로운 점: "Sports-QA" 데이터는 스포츠 영상을 보고 (visual modality) 관련된 질문(textual modality)에 답하는, 즉 영상 정보와 언어 정보를 연결하는 다리 역할을 해요. 이를 통해 AI가 스포츠를 더 깊이 있게 분석하고 추론할 수 있게 됩니다.

요약하자면, 이 "Related Work" 섹션은 기존 연구들이 가진 한계를 지적하고, 이 논문이 "Sports-QA"라는 특화된 데이터셋과 "AFT"라는 새로운 AI 모델을 통해 어떻게 그 한계를 넘어서 스포츠 비디오 질문 답변 분야에 기여하는지를 강조하고 있습니다.

 
 

 

 

 

 

 

 

 

3 Sports-QA Dataset

3.1 Data Source

Sports videos 수집과 관련하여 다음 측면을 고려합니다: 1) Video data의 visual quality는 video resolution 및 frame rate와 같이 fine-grained video understanding을 수행하기에 충분히 높아야 합니다. 2) 단일 type의 sports에 적용하는 대신, multiple sports를 포함하는 VideoQA dataset을 기대합니다. Sports video understanding에 대한 연구를 심층적으로 조사한 후, MultiSports와 FineGym datasets가 우리의 목적에 매우 적합하다는 것을 발견했습니다. MultiSports와 FineGym의 세부 정보는 다음과 같습니다.

MultiSports는 sports actions의 temporal localization을 위한 dataset으로, 4가지 sports (즉, basketball, football, volleyball, aerobic gymnastics)와 66개의 fine-grained action categories를 포함합니다. MultiSports의 action categories는 "run"이나 "stand"와 같은 일반적이고 atomic actions 대신 "volleyball spike", "football tackle", "basketball defensive rebound"와 같은 professional terms입니다. 각 action instance에 대해 dataset은 action의 starting frame부터 ending frame까지 player의 bounding boxes를 제공하여 action spatial-temporal tube를 형성합니다. MultiSports의 통계는 표 2에 나와 있습니다.

FineGym은 기존 techniques에서 관찰된 한계를 해결하여 action recognition 분야를 향상시키기 위해 설계된 dataset입니다. 현재 benchmarks를 능가하도록 개발되었으며, content의 풍부함, quality, diversity의 독특한 조합을 제공합니다. 이 dataset은 gymnasium videos를 기반으로 구축되어 action recognition 연구를 위한 현실적이고 다양한 environment를 제공합니다. FineGym이 다른 datasets와 차별화되는 점은 action 및 sub-action levels 모두에서 세심한 temporal annotation을 특징으로 하며, 3단계 semantic hierarchy를 갖추고 있다는 것입니다. 이러한 hierarchical structure는 activities에 대한 보다 미묘한 understanding을 가능하게 하여 연구자들이 actions를 더 세밀하게 탐색하고 분석할 수 있도록 합니다. 예시로, event는 elementary sub-actions의 sequence로 annotated됩니다. 중요하게도, 이러한 세트 내의 각 sub-action은 세밀하게 정의된 class labels로 추가 annotated되어 action recognition에서 더 높은 수준의 granularity에 기여합니다. 그림 2는 MultiSports 및 FineGym datasets의 action hierarchy를 보여줍니다.

MultiSports와 FineGym의 action categories는 "run"이나 "stand"와 같은 일반적이고 atomic actions 대신 "volleyball spike", "football tackle", "basketball defensive rebound", "vault Salto backward tucked"과 같은 professional terms입니다. 이러한 professional labels은 우리 dataset에 매우 가치가 있습니다. Videos의 길이가 매우 다양하기 때문에 (몇 초에서 몇 분까지), videos를 clips로 segment하고 이러한 clips를 기반으로 QA pairs를 generate합니다.

3.2 Question-Answer Pair Generation

대부분의 기존 연구에서 QA pairs는 다음 두 가지 접근 방식을 사용하여 generated됩니다: 1) 사전 정의된 question templates를 사용하여 video captions를 기반으로 questions와 answers를 자동으로 generating합니다. 이 method는 효율적이지만, captions를 questions와 answers로 변환하는 동안 명백한 문법적 오류를 유발하거나 중요한 information을 잃을 수 있습니다. 2) Crowdsourcing을 통해 questions와 answers를 수동으로 annotating합니다. 이 접근 방식은 accuracy와 expression 측면에서 고품질의 QA pairs를 생성하지만, manual annotation은 시간이 많이 걸리고 비용이 많이 듭니다. 본 연구에서는 annotation 비용을 고려하면서 textual data의 quality를 보장하는 것을 목표로 합니다. 기존 labels과 새로 labeled된 actions의 attributes를 기반으로 사전 정의된 templates를 사용하여 QA pairs를 generating함으로써 이를 달성합니다. 우리의 접근 방식은 정교한 templates의 세심한 설계를 통해 videos의 중요한 information을 포착하는 문법적으로 오류 없는 QA pairs를 보장합니다. 또한, ball games와 gymnastics는 뚜렷한 특성을 가지고 있으므로 다음과 같이 설명된 대로 다른 방식으로 QA pairs를 generate합니다.

3.2.1 QA Pair Generation for Ball Games

구체적으로, basketball, football, volleyball을 포함한 ball games의 경우, actions에 대해 다섯 가지 attributes (Team, Outcome, Cause of Outcome, Cause of Action, Effect of Action)를 정의합니다. 그런 다음 각 action의 attributes를 수동으로 annotate합니다. 이러한 attributes의 정의 및 annotation process는 다음과 같이 자세히 설명됩니다.

Attribute Definition. MultiSports는 ball games에서 45개의 action categories로 구성되며, 일부는 professional sports statistics 또는 players/teams의 performance를 정량화하는 데 중요합니다. 예를 들어, basketball 경기에서의 "2-Point Field Goal Percentage"는 모든 "2-point shot" actions에 대한 fine-grained understanding을 필요로 하는 반면, football에서의 "saving" actions는 골키퍼의 performance를 직접적으로 반영합니다. 본 연구에서는 표 ??에 나열된 28개의 중요한 actions에 중점을 둡니다. 실용적인 applications와 연구 목적을 모두 고려하여 중요한 각 action instances에 대해 다음과 같이 다섯 가지 attributes를 정의합니다.

  1. Team: Action의 player가 속한 team은 left team 또는 right team의 두 가지 옵션으로 표시됩니다. 구체적으로 basketball과 football에서는 오른쪽 또는 왼쪽으로 공격하는 team에 따라 left 또는 right team이 결정됩니다. Volleyball에서는 네트의 왼쪽 또는 오른쪽에 대한 상대적인 위치에 따라 left 또는 right team이 지정됩니다.
  2. Outcome: 이 attribute는 action의 결과가 기대를 충족하는지 평가하며 successful 또는 failed의 binary label로 정의됩니다. 예를 들어, basketball에서 "2-point shot"이 골을 넣으면 successful로 annotated되고, 그렇지 않으면 failed로 labeled됩니다.
  3. Cause of Outcome: 이 attribute는 basketball의 "2-point shot", football의 "shoot", volleyball의 "spike"와 같은 offensive actions의 failure 원인 또는 football의 "block", volleyball의 "save"와 같은 defensive actions의 success 원인을 나타냅니다. 구체적으로, offensive actions의 failure 원인은 player의 단점을 반영합니다. 예를 들어, football에서 offensive "long pass"의 failure는 defensive interception, bad pass 또는 bad catch에 기인할 수 있습니다. 정확한 원인을 식별하면 팀이 약점을 파악하고 performance를 개선하는 데 도움이 됩니다. 유사하게, defensive actions의 success 원인은 player의 강점을 강조합니다. 예를 들어, volleyball에서 defensive "save"의 success는 offensive out of bounds, offensive blocked by net 또는 실제로 공을 잡는 것 때문일 수 있으며, 마지막 경우는 defensive performance를 직접적으로 반영합니다. Offensive actions의 success 원인이나 defensive actions의 failure 원인은 다른 경우로 귀속될 수 없으므로 고려하지 않습니다. 예를 들어, "football saving"의 failure는 골키퍼가 공을 놓친 것으로만 설명될 수 있습니다. 따라서 이러한 원인은 논의할 가치가 없습니다. 적용 가능한 action categories에 대해 다양한 cause options를 정의하고 annotators에게 그중에서 선택하도록 요청합니다. 이 attribute는 특정 action categories에 적용 가능하며, causes는 다른 action categories에 따라 다릅니다.
  4. Cause of Action: 이 attribute는 현재 action을 유발한 actions를 나타냅니다. Video의 각 action instance는 처음에 시작 시간을 기준으로 시간 순서로 labeled되며, 이는 video에서 action의 unique ID 역할을 합니다. 각 중요한 action에 대해 annotators는 현재 action을 유발한 actions의 IDs를 제공하도록 요청받습니다. 이러한 causes는 반드시 중요한 actions일 필요는 없습니다. 결과적으로 Cause of Action은 현재 action에 대부분 temporally adjacent한 actions의 IDs로 구성된 list입니다. 일부 actions의 causes는 unique하기 때문에 모든 중요한 action categories가 이 attribute를 제공해야 하는 것은 아닙니다. 예를 들어, "volleyball first pass"의 유일한 cause는 "volleyball serve"입니다.
  5. Effect of Action: 이 attribute는 Cause of Action과 유사하게 현재 action에 의해 유발된 actions를 식별하는 것을 목표로 합니다. Cause와 effect는 결합적이지만, 일부 actions는 중요하지 않으므로 그중 하나만 고려할 수 있습니다. 예를 들어, ACTION M (중요한 action)이 ACTION N (중요하지 않은 action)을 유발하는 경우, ACTION N을 ACTION M의 effect로만 label합니다.

Attribute Annotation. 위에서 언급한 attributes를 정의한 후, MultiSports의 각 중요한 action instance에 대해 이를 annotate하는 작업을 진행합니다. Annotation process는 pre-annotation, formal annotation, quality check의 세 단계로 나뉩니다.

Pre-annotation 단계에서 annotators는 세 가지 categories로 그룹화되며, 각 그룹은 특정 type의 ball game에 대한 책임을 할당받습니다. 그런 다음 그룹 내 각 annotator는 지정된 sport에 해당하는 여러 videos를 할당받습니다. 이 단계에서 annotators는 처음 50개의 action instances의 attributes를 labeling하는 작업을 수행합니다. 그 후, understanding bias 또는 잠재적인 실수와 관련된 문제를 해결하고 예상치 못한 또는 드문 상황을 처리하기 위해 그룹 내 check가 수행됩니다. Annotation은 annotators가 프로토콜에 설명된 대로 각 attribute에 대해 일관된 understanding을 달성할 때만 다음 단계로 진행될 수 있습니다.

Formal annotation 단계로 이동하여 annotators는 공유 프로토콜을 사용하여 이전 annotations를 수정하고 나머지 action instances를 label합니다. 모든 actions가 labeled되면 모든 annotations에 대해 그룹 간 quality check를 수행합니다. 이 그룹 간 check의 목적은 annotations가 일반 개인의 공통된 understanding과 일치하는지 확인하는 것입니다. Annotation process는 1개월 이내에 완료되며 15명의 대학원생이 협력합니다.

Attributes를 기반으로, 이러한 attributes에 대해 문의하기 위해 다양한 templates(논문 말미에 나열됨)를 설계하여 videos에 대한 questions를 generate합니다. 예를 들어, 그림 3에 표시된 video가 주어지면 "spike" action에 대한 attributes를 annotating한 후, action의 특정 attribute(예: Outcome)를 querying하는 question(예: "Is the ‘spike’ of the right team successful? ")이 generated될 수 있습니다. 구체적으로, 우리 dataset은 descriptive, temporal, causal, counterfactual의 네 가지 types의 questions를 포함합니다. 각 type의 세부 정보는 다음과 같습니다.

  1. Descriptive: Descriptive questions는 전체적인 comprehension을 요구하며 videos로부터 다양한 측면의 information을 포함합니다. 이러한 questions에는 "What is the video about? " 및 "Does SOME-TEAM perform SOME-ACTION? "과 같은 단순한 queries와 "How many times does SOME-TEAM perform SOME-ACTION? " 및 "Does SOME-TEAM successfully do their i-th SOME-ACTION? "과 같이 counting 및 actions의 outcome을 포함하는 복잡한 queries가 포함됩니다.
  2. Temporal: Temporal questions는 동일하거나 다른 teams의 actions 간의 temporal relations에 중점을 둡니다. 구체적으로, 이러한 questions는 intra-group temporal relations 및 inter-group temporal relations에 대한 understanding을 요구합니다. 이러한 type의 question에 대한 일반적인 templates는 "What does SOME-TEAM do before/after their i-th SOME-ACTION? " 및 "What does the left/right team do before/after the other team performs their i-th SOME-ACTION? "입니다.
  3. Causal: Causal questions는 action instances 간의 causal relations를 밝히고 actions의 reasons 또는 특정 process를 설명하는 것을 목표로 합니다. Temporal questions와 달리 이러한 questions는 visual cues를 기반으로 한 causal reasoning을 요구합니다. 이러한 questions의 templates에는 "Why does SOME-TEAM do the i-th SOME-ACTION? " 및 "What is the effect of the i-th SOME-ACTION of SOME-TEAM? "과 같은 causal queries와 "How does SOME-TEAM succeed in doing/fail to do the i-th SOME-ACTION? "과 같은 explanation queries가 포함됩니다.
  4. Counterfactual: 실제로 발생한 details을 querying하는 위 세 가지 types의 questions와 달리, counterfactual questions는 video에서 발생하지 않은 hypothetical conditions를 설정하고 conditions에 기반한 예상 outcomes에 대해 query합니다. 이러한 type의 question은 다양한 상상된 situations에 대한 reasoning을 요구하며 actions 간의 causal relations에 따른 outcomes를 기대합니다. 이러한 type의 question에 대한 template은 "Would the left/right team succeed in do the i-th SOME-ACTION if the other team did not do SOME-ACTION? "입니다.

From Attributes to Question-Answer Pairs. 특히, questions는 attributes에 대한 queries이며, 그 answers는 우리의 annotations로부터 직접 얻거나 annotations에 대한 logical reasoning 및 statistical analysis를 통해 얻을 수 있습니다. 예를 들어, 특정 action의 cause에 대해 묻는 question의 경우, answer는 해당 cause attribute로부터 쉽게 검색할 수 있습니다. 특정 action이 successful인지 묻는 question의 경우, outcome attribute를 확인할 수 있습니다. 이전에 언급한 바와 같이 attributes의 annotations를 확인했으므로 answers의 정확성을 보장합니다. 이러한 answers에는 "yes/no", 숫자 값, sports names (예: "volleyball"), MultiSports 및 FineGym의 action categories (예: "block"), reasons를 설명하는 짧은 구문 (예: "out of bounds")과 같은 응답이 포함됩니다. Attributes 및 해당 generated QA pairs의 더 구체적인 예는 그림 3을 참조하십시오.

우리 dataset의 흥미로운 측면은 2단계 annotation process로 인해 다른 tasks에 활용될 수 있다는 것입니다. 구체적으로, 각 action instance에 대해 여러 attributes를 정의했으며, 이는 multiple labels로 간주될 수 있습니다. 결과적으로 우리 dataset은 multi-label classification을 수행하는 데 사용될 수 있습니다. 또한, template을 question answering에서 declarative sentences로 변경하여 sports videos에 대한 descriptive 또는 explanatory narrations를 generate할 수 있습니다. 따라서 우리 dataset은 sports video captioning에도 활용될 수 있습니다.

3.2.2 QA Pair Generation for Gymnastics

Aerobic gymnastics/FineGym과 ball games의 주요 차이점은 team의 개념이 없다는 것입니다. 또한 이러한 sports에서 수행되는 actions 간에는 causal relations가 없습니다. 따라서 aerobic gymnastics/FineGym에 대해서는 annotations를 기반으로 descriptive 및 temporal questions만 generate합니다. Ball games에 사용된 templates 외에도 몇 가지 새로운 templates를 설계했습니다. Descriptive questions의 경우, "How many actions does the player perform? " 및 "How many times does the player perform SOME-ACTION? "과 같이 players 또는 actions의 수에 대한 queries를 포함합니다. Temporal questions의 경우, "How many times do the players do SOME-ACTION before SOME-ACTION?"과 같은 counting questions를 추가합니다. 이러한 QA design은 datasets의 fine-grained features를 활용하며, models이 전체 gymnastic event에서 salient sub-actions에 focus하도록 강제하는 challenging temporal reasoning을 구성합니다.

3.3 Diversity, Debiasing and Problem Setting

Diversity of Questions. 사전 설계된 templates를 사용하여 questions를 generating하는 데 있어 제한된 diversity는 여러 가지 이유로 datasets의 중요성에 큰 영향을 미치지 않을 수 있습니다. 첫째, sports의 맥락에서 규칙과 특정 content에 의해 높은 수준의 제한이 부과되어 관중이 특정 actions 및 events에 더 집중하게 됩니다. Sports content의 이러한 고유한 structure는 잠재적인 questions의 범위를 좁혀 template-based question generation을 실행 가능한 접근 방식으로 만듭니다. 둘째, template-based question generation의 관행은 VideoQA datasets 구축에 널리 받아들여지고 사용됩니다. 평판 좋은 datasets에서 이 접근 방식을 채택한 것은 그 효과와 수용성을 입증합니다. 따라서 questions는 template-based이지만 sports 맥락에서의 관련성과 중요성은 보존되어 analysis 및 evaluation을 위한 dataset의 robustness를 보장합니다.

Debiasing. 일상적인 scenarios와 달리 sports의 players는 규칙에 의해 크게 제한됩니다. 예를 들어, left team이 "volleyball serve"를 실행한 후 right team은 "first-pass"로 이어져야 합니다. 이로 인해 videos에서 actions이 고도로 correlated되며, generated pairs에서 questions와 answers도 고도로 correlated됩니다. 그러나 이러한 questions는 VideoQA에 의미가 없는 경우가 많습니다. 왜냐하면 answers는 규칙이나 상식을 통해 쉽게 inferred될 수 있으며 제거되어야 하기 때문입니다. 이를 해결하기 위해 먼저 original questions에서 team information과 actions의 순서를 제거하여 meta-questions를 얻습니다. 예를 들어, "What does the left team do after the other team does the second spike? "에 대한 meta-question은 "What does the team do after the other team does spike? "가 됩니다. 그런 다음 meta-questions와 그 answers 간의 correlations를 조사합니다. Meta-question에 대한 answer가 하나만 있는 경우 해당 QA pairs를 제거합니다. Meta-question에 대한 answer가 다른 answers보다 더 자주 발생하는 경우 (frequency가 0.5보다 큼), 해당 QA pairs를 무작위로 제거하여 frequencies를 균형 있게 조정하여 모두 0.5 미만이 되도록 합니다.

Problem Setting. 의 접근 방식을 따라, generated QA pairs를 기반으로 open-ended task를 정의합니다. Open-ended setting은 multiple-choice setting과 함께 VideoQA 분야에서 널리 사용된다는 점에 유의하는 것이 중요합니다. 두 가지 이유로 multiple-choice task 대신 open-ended task를 선택했습니다: 1) Open-ended task는 models이 여러 주어진 options 중에서 선택하는 대신 큰 answer set에서 선택해야 하므로 더 challenging합니다. 2) Answer choices를 몇 가지 options로 제한하면 dataset의 diversity가 크게 감소합니다. 구체적으로, QA pairs의 모든 answers는 answer pool을 형성하며, 이는 191개의 classes로 처리됩니다 (30개 미만의 samples를 가진 classes는 폐기 후).

Why not Fine-Grained Action Recognition? Sports-QA에 대해서는 단순히 fine-grained action recognition을 달성하는 것만으로는 충분하지 않다는 점을 강조하는 것이 중요합니다. 이 맥락에서 questions의 특성은 actions의 정확한 detection뿐만 아니라 복잡한 temporal 및 causal modeling을 포함합니다. 예를 들어, 특정 actions의 effects에 대해 문의하는 questions는 temporally adjacent actions의 정확한 식별과 그 causality에 대한 미묘한 understanding을 필요로 합니다. 요약하자면, Sports-QA는 기본 action recognition을 넘어서는 더 높은 수준의 comprehension 및 temporal reasoning을 요구합니다.

3.4 Dataset Statistics

표 3은 Sport-QA에서 다양한 question types 및 다른 sports에 대한 QA pairs의 수를 보여줍니다. 우리 dataset은 약 94K개의 QA pairs로 구성됩니다. Descriptive questions의 상당 부분이 복잡한 action temporal localization 및 counting을 포함하여 다른 question types와 유사한 challenges를 제시한다는 점은 주목할 가치가 있습니다. 또한, 다른 sports에 걸쳐 questions의 수를 균형 있게 조정했습니다. 우리 dataset의 총 videos 수는 5,967개이며, 다른 sports에 다음과 같이 분포되어 있습니다: basketball (879), football (1,030), volleyball (586), gym (505), vault (501), uneven bars (834), floor exercise (770), balance beam (862). Sports-QA는 training, validation, testing sets (60%/20%/20%)로 나뉩니다. 구체적으로, 동일한 sport의 videos는 각 set에 무작위로 할당되어 subsets에 걸쳐 sport types의 유사한 distributions를 보장합니다. 또한, 다른 subsets에서 answer classes의 distributions가 유사하도록 보장했습니다.

그림 4는 Sports-QA에서 question types별로 분류된 answer classes의 distribution을 보여줍니다. 더 많은 examples가 있는 처음 80개의 classes만 보여줍니다. 그림에서 볼 수 있듯이 answers의 distribution은 long-tailed이며, 불균형한 특성은 우리 dataset의 challenge를 더합니다. 한편, "yes/no"와 같은 동일한 type의 classes는 균형을 이룹니다. 이는 models이 question type에 따라 단순히 answer를 추측하는 대신 question에 답하기 위해 video를 검토해야 하므로 우리 dataset의 난이도를 더욱 높입니다.

 

 

 

 

3 Sports-QA Dataset 정리노트 (AI 연구자 대상)

3.1 Data Source

  • 선정 기준: Fine-grained video understanding을 위한 높은 visual quality (resolution, frame rate), multiple sports 포함.
  • 원본 Datasets:
    • MultiSports: 4개 sports (basketball, football, volleyball, aerobic gymnastics), 66개 fine-grained professional action categories (예: "volleyball spike", "football tackle", 단순 "run" 아님). Action instance별 player bounding box 및 spatial-temporal tube 제공.
    • FineGym: Action recognition 한계 극복 목표. Gymnasium videos 기반, action/sub-action level의 세밀한 temporal annotation, 3단계 semantic hierarchy (nuanced understanding 가능).
  • 핵심 가치: Professional action labels 사용. Video 길이가 다양하여 clips로 분할 후 QA 생성.

3.2 Question-Answer Pair Generation

  • 접근 방식: 기존 labels (MultiSports, FineGym) 및 새롭게 labeling된 actions의 attributes 기반으로 사전 정의된 templates 사용. (자동 생성의 효율성 + 수동 crowdsourcing의 quality 절충)
    • 문법 오류 없고, video의 crucial information 포착 보장.
    • Ball games와 gymnastics 특성 차이 반영하여 QA 생성 방식 구분.
  • 3.2.1 QA Pair Generation for Ball Games (Basketball, Football, Volleyball)
    • 신규 정의 Attributes (28개 crucial actions 대상 수동 annotation):
      1. Team: Left/Right team.
      2. Outcome: Successful/Failed (binary).
      3. Cause of Outcome: Offensive action의 failure 원인 / Defensive action의 success 원인. Action category별 다양한 options.
      4. Cause of Action: 현재 action을 유발한 (주로 temporally adjacent한) actions의 IDs list.
      5. Effect of Action: 현재 action에 의해 유발된 actions의 IDs list.
    • Attribute Annotation Process: 3단계 (Pre-annotation 및 intra-group check, Formal annotation 및 공유 protocols 사용, Inter-group quality check) - 15명 대학원생, 1개월 소요.
    • Attributes 기반 생성 Question Types:
      1. Descriptive: Holistic comprehension (video 내용, 특정 팀/액션 수행 여부, 횟수, 특정 액션의 성공 여부 등).
      2. Temporal: Actions 간 intra/inter-group temporal relations (예: "SOME-TEAM이 i번째 SOME-ACTION 전/후에 무엇을 했는가?").
      3. Causal: Action instances 간 causal relations, reasons, specific process (예: "왜 SOME-TEAM이 i번째 SOME-ACTION을 했는가?", "SOME-ACTION의 효과는?").
      4. Counterfactual: Video에 발생하지 않은 hypothetical conditions 기반 예상 outcome query (예: "만약 상대팀이 SOME-ACTION을 하지 않았다면, left/right team이 i번째 SOME-ACTION에 성공했을까?").
    • Answer 생성: Annotations에서 직접 추출 또는 logical reasoning/statistical analysis 통해 획득. Answer 형태: "yes/no", 숫자, sports name, action category, 이유 설명 단문구.
    • 추가 활용성: 정의된 attributes는 multi-label classification task에 사용 가능. Templates 변경 시 sports video captioning용 narrations 생성 가능.
  • 3.2.2 QA Pair Generation for Gymnastics (Aerobic Gymnastics/FineGym)
    • 차이점: Team 개념 부재, actions 간 명확한 causal relations 부재.
    • 생성 Question Types: Descriptive 및 Temporal questions만 생성.
    • 신규 Templates (Gymnastics용): Player/action 수 counting (예: "선수가 몇 개의 action을 수행했는가?"), 특정 action 이전 다른 action 수행 횟수 counting (fine-grained features 활용, challenging temporal reasoning).

3.3 Diversity, Debiasing and Problem Setting

  • Diversity of Questions: Template 기반 생성 방식 채택. Sports의 규칙 및 특정 content로 인해 관객의 관심이 특정 actions/events에 집중되므로, template 방식이 현실적이며 VideoQA dataset 구축에 널리 사용됨.
  • Debiasing:
    • 문제점: Sports 규칙으로 인해 actions 간 (및 QA 간) 높은 correlation 발생 (예: volleyball serve 후 first-pass). 이는 common sense로 추론 가능하여 VideoQA에 무의미.
    • 해결책:
      1. Meta-questions 생성 (team 정보, action 순서 제거).
      2. Meta-question과 answer 간 correlation 조사.
      3. Meta-question에 대한 answer가 유일하면 해당 QA pair 제거.
      4. 특정 answer의 frequency가 0.5 초과 시, 해당 QA pair 무작위 제거하여 frequency 0.5 미만으로 조정.
  • Problem Setting: Open-ended task. QA pairs의 모든 answers로 answer pool 구성, 191개 classes로 처리 (sample < 30개인 class 폐기). Multiple-choice보다 challenging하고 dataset diversity 유지에 유리.
  • Why not Fine-Grained Action Recognition?: Sports-QA는 단순 action recognition 이상을 요구. Questions는 actions의 정확한 detection뿐 아니라, 복잡한 temporal 및 causal modeling (effects, causes 등)을 통한 advanced comprehension 및 temporal reasoning 필요.

3.4 Dataset Statistics

  • 총 QA pairs: 약 94K.
  • Descriptive questions 상당수가 복잡한 action temporal localization 및 counting 포함하여 타 question type만큼 challenging.
  • Sports별 question 수 균형 조정.
  • 총 Videos: 5,967개 (Basketball: 879, Football: 1,030, Volleyball: 586, Gym: 505, Vault: 501, Uneven bars: 834, Floor exercise: 770, Balance beam: 862).
  • Split: Training 60% / Validation 20% / Testing 20%. Sport type별 분포 유사하게 유지, answer classes 분포도 유사하게 유지.
  • Answer Distribution: Long-tailed, 불균형 (challenge 요소). "yes/no" 등 동일 type 내 classes는 balanced (model이 video 검토하도록 유도).

쉬운 설명: 3 Sports-QA Dataset 섹션

이 섹션에서는 "Sports-QA"라는 새로운 AI 학습용 데이터(dataset)를 어떻게 만들었는지 자세히 설명하고 있어요.

1. 어떤 스포츠 영상(Data Source)을 사용했나요?

  • AI가 스포츠를 잘 이해하려면 아주 좋은 품질의 영상이 필요해요. 그래서 이미 검증된 두 개의 스포츠 영상 모음(MultiSports, FineGym)에서 영상을 가져왔어요.
  • MultiSports는 농구, 축구, 배구, 에어로빅 체조 같은 팀 스포츠 영상이 많고, 각 동작(예: "배구 스파이크")이 아주 세세하게 표시되어 있어요. 그냥 "달린다" 같은 단순한 동작이 아니라 전문적인 용어로 된 동작들이죠.
  • FineGym은 체조 영상 모음인데, 이것도 동작 하나하나를 아주 정밀하게 나눠서 표시해 뒀어요.
  • 이런 전문적이고 세밀한 동작 정보가 AI 학습에 아주 중요해요. 영상 길이가 제각각이라, 질문과 답변을 만들기 좋게 짧은 클립(clip)으로 잘랐어요.

2. 질문과 답변(Question-Answer Pair Generation)은 어떻게 만들었나요?

  • 질문-답변 쌍을 만드는 방법은 여러 가지가 있는데, 여기서는 아주 효율적이면서도 품질 높은 방법을 사용했어요.
  • 미리 만들어둔 질문 틀(templates)을 사용하되, 영상 속 동작에 대한 여러 가지 중요한 세부 정보(attributes)를 사람들이 직접 표시(labeling)하도록 했어요. 이렇게 하면 AI가 엉뚱한 걸 배우는 걸 막을 수 있죠.
    • 팀 스포츠 (농구, 축구, 배구)의 경우:
      • 먼저 각 동작에 대해 "어느 팀이 했나?", "성공했나, 실패했나?", "왜 성공/실패했나?", "이 동작 전에 무슨 일이 있었나?", "이 동작 후에 무슨 일이 있었나?" 같은 중요한 세부 정보(attributes)를 15명의 대학원생이 약 한 달 동안 꼼꼼하게 표시했어요.
      • 그런 다음, 이 정보를 바탕으로 질문 틀을 사용해 다양한 질문을 만들었어요. 예를 들면:
        • 묘사 질문(Descriptive): "이 영상은 뭐에 대한 건가요?", "A팀이 B동작을 몇 번 했나요?"
        • 시간 순서 질문(Temporal): "A팀이 B동작을 하기 전/후에 뭘 했나요?"
        • 원인-결과 질문(Causal): "A팀은 왜 B동작을 했나요?", "그 동작의 결과는 뭐였나요?"
        • 가상 상황 질문(Counterfactual): "만약 C선수가 D동작을 하지 않았다면, A팀이 골을 넣었을까요?" (이게 특히 어려운 질문이죠!)
      • 답변은 미리 표시해둔 정보에서 바로 가져오거나, 약간의 추론을 통해 만들었어요. 답변 종류는 "예/아니오", 숫자, 스포츠 이름, 동작 이름, 이유를 설명하는 짧은 문장 등 다양해요.
      • 이렇게 만든 세부 정보(attributes)는 나중에 AI가 영상에 대한 설명을 만드는(captioning) 데도 쓸 수 있어요.
    • 체조의 경우:
      • 체조는 팀도 없고, 동작 간의 원인-결과도 팀 스포츠만큼 뚜렷하지 않아요.
      • 그래서 "몇 명의 선수가 있나요?", "A동작을 몇 번 했나요?", "B동작 전에 A동작을 몇 번 했나요?" 같이 주로 동작 자체나 순서에 대한 질문(descriptive, temporal)을 만들었어요.

3. 질문의 다양성, 편향 제거, 문제 설정 (Diversity, Debiasing and Problem Setting)

  • 질문이 너무 단순하지 않을까? (Diversity of Questions): 스포츠는 규칙이 명확해서 중요한 장면이나 질문이 어느 정도 정해져 있어요. 그래서 질문 틀을 써도 괜찮다고 봤어요. 다른 AI 연구에서도 흔히 쓰는 방법이고요.
  • AI가 너무 쉬운 답만 고르지 않도록 (Debiasing): 스포츠에는 규칙상 당연히 이어지는 동작들이 있어요 (예: 배구에서 서브 다음엔 반드시 리시브). 이런 건 AI가 영상을 안 보고도 맞힐 수 있겠죠? 이런 "너무 뻔한" 질문-답변들은 일부러 줄여서 AI가 진짜 영상을 보고 이해하도록 만들었어요.
  • AI는 어떻게 평가받나요? (Problem Setting): AI는 여러 보기 중 하나를 고르는 게 아니라, 직접 답변을 만들어내야 해요(open-ended task). 약 191가지 종류의 답변 중에서요. 이게 훨씬 어렵고 AI가 진짜 이해했는지 알 수 있어요.
  • 단순히 동작만 알아보는 것과는 달라요 (Why not Fine-Grained Action Recognition?): 이 데이터셋은 AI가 단순히 "저건 스파이크다"라고 알아보는 걸 넘어, "왜 저 스파이크가 성공했지?", "만약 수비가 없었다면 어땠을까?" 같이 시간의 흐름과 원인-결과까지 깊이 생각해야 답할 수 있는 질문들로 이루어져 있어요.

4. 그래서 데이터셋은 얼마나 큰가요? (Dataset Statistics)

  • 질문-답변 쌍이 약 9만 4천 개나 돼요!
  • 영상은 총 5,967개고, 농구, 축구, 배구, 체조(세부 종목 포함 5가지) 등 다양한 스포츠를 다루고 있어요.
  • 데이터는 학습용(60%), 검증용(20%), 시험용(20%)으로 나눠져 있고, 스포츠 종류나 정답 종류가 골고루 섞이도록 신경 썼어요.
  • 정답 중에는 자주 나오는 답도 있지만 아주 가끔 나오는 답도 있어서(long-tailed distribution), AI가 학습하기에 더 까다롭고 도전적인 데이터셋이에요.

요약하면, "Sports-QA" 데이터셋은 AI가 스포츠 영상을 깊이 있게 이해하고 복잡한 질문에도 답할 수 있도록 아주 체계적이고 세심하게 만들어진 학습 자료라고 할 수 있어요.

 

 

4 Auto-Focus Transformer for Sports Video Question Answering

Sports VideoQA task의 핵심 특징은 multiple objects에 대해 다양한 scales의 temporal dependencies에 대한 reasoning이 필요하다는 것입니다. 예를 들어, actions의 수를 묻는 question은 model이 video에서 global dependencies를 포착하도록 요구하는 반면, action의 effect를 querying하는 question은 short-term temporal information에 의존합니다. 요구되는 temporal dependency의 scale은 question에 따라 다릅니다. 그러나 현재 Transformer-based 또는 GNN-based VideoQA methods는 요구되는 temporal information의 scale에 관계없이 global dependencies에 집중하는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 sports VideoQA를 위해 특별히 설계된 새로운 multi-head Auto-Focus Attention (AFA) mechanism을 특징으로 하는 새로운 Transformer encoder인 Auto-Focus Transformer (AFT)를 제안합니다.

구체적으로, 우리는 pretrained ResNet과 I3D를 사용하여 frame의 appearance feature와 motion feature를 추출하는 것으로 시작합니다 (자세한 내용은 Section 5.1 참조). 그 후, 이러한 features를 concatenate하고 dimension reduction 및 feature fusion을 위해 linear layer에 input합니다. 결과적으로, 각 video에 대해 frame representations의 sequence ()를 얻습니다. Question과 관련하여, word embedding과 bi-directional RNN을 활용하여 global representation ()과 local representations ()을 모두 포함하는 text representations를 얻습니다.

그런 다음 AFT를 사용하여 frames 간의 dependencies를 포착하며, 여기서 AFA mechanism은 다음과 같이 계산됩니다 (multi-head AFA도 유사하게 정의됨): key set {}, value set {}, 그리고 query (는 AFA에서 로부터 mapped됨)가 주어졌을 때,

(1)

여기서 는 사전 정의된 focal lengths의 집합입니다. 는 focal length 내에서 의 이웃들의 index set입니다. 는 focus 의 dynamic weight이며, 을 만족하고 question에 따라 달라집니다. 그림 5에서 보듯이, 는 question의 global representation에 linear projection과 softmax를 적용하여 얻어집니다. 어떤 경우에도 global dependencies를 models하는 traditional attention과 비교하여, 우리의 AFA는 question에 의해 요구되는 scale의 temporal dependencies만을 포착합니다. 이 design은 model이 crucial information에만 focus하고 더 나은 prediction을 위해 관련 없는 부분을 버릴 수 있도록 합니다. AFT의 output을 으로 표기합니다.

Video-text integration을 위해, 우리는 graph convolutional network (GCN)와 block fusion을 사용하는 연구들에서 영감을 얻었습니다. 자세한 정보는 해당 논문을 참조하십시오. 궁극적으로, 우리는 fused feature 를 얻고 linear projection과 softmax를 사용하여 answer를 predict합니다.

 
 

4 Auto-Focus Transformer for Sports Video Question Answering 정리노트 (AI 연구자 대상)

핵심 문제 (Problem Addressed):

  • Sports VideoQA는 다양한 temporal scales (예: action의 효과는 short-term, action의 총 횟수는 global)에 걸친 reasoning을 요구합니다.
  • 기존 Transformer-based 또는 GNN-based VideoQA methods는 질문의 특정 요구사항과 관계없이 주로 global dependencies에 집중하는 경향이 있습니다.

제안 솔루션 (Proposed Solution): Auto-Focus Transformer (AFT)

  • Sports VideoQA를 위해 특별히 설계된 새로운 Transformer encoder입니다.
  • 핵심 구성요소: Multi-head Auto-Focus Attention (AFA) mechanism.

AFT Architecture 개요:

  • Visual Feature Extraction:
    • Appearance feature: Pretrained ResNet 사용.
    • Motion feature: Pretrained I3D 사용.
    • 추출된 features를 concatenate 후 linear layer를 통해 dimension reduction 및 feature fusion 수행 frame representations의 sequence () 획득.
  • Textual Feature Extraction:
    • Word embedding과 bi-directional RNN을 사용하여 global () 및 local () text representations 획득.

Auto-Focus Attention (AFA) Mechanism (핵심 아이디어):

  • AFA 계산식: (1)
    • : 사전 정의된 focal lengths (다양한 temporal window 크기)의 집합.
    • : Query 에 대해 focal length 내의 이웃 index 집합.
    • : 각 focal length 에 대한 dynamic weight.
      • 을 만족.
      • 핵심: 는 질문에 따라 결정됨 (질문의 global representation 에 linear projection 및 softmax를 적용하여 획득).
  • 기존 Attention과의 차별점:
    • Traditional attention은 항상 global dependencies를 model합니다.
    • AFA는 질문에 의해 요구되는 특정 scale의 temporal dependencies만을 선택적으로 포착하여, crucial information에 집중하고 관련 없는 부분은 무시함으로써 더 나은 prediction을 가능하게 합니다.
  • AFT의 output은 으로 표기합니다.

Video-Text Integration 및 Prediction:

  • 기존 연구 (Li et al., 2022; Jiang and Han, 2020)에서 영감을 받았습니다.
  • Graph Convolutional Network (GCN)와 block fusion을 사용합니다.
  • 최종적으로 fused feature 를 얻고, linear projection과 softmax를 통해 answer를 predict합니다.

쉬운 설명: 4 Auto-Focus Transformer for Sports Video Question Answering 섹션

AI가 스포츠 영상을 보고 질문에 답해야 할 때 어려운 점이 뭘까요? 어떤 질문은 아주 짧은 순간에 일어난 일에 대해 묻는 반면 (예: "방금 그 선수의 발리슛 결과는?"), 어떤 질문은 꽤 긴 시간 동안 일어난 일에 대해 묻기도 합니다 (예: "오늘 경기에서 A 선수는 총 몇 골을 넣었나?"). 기존의 AI들은 이런 구분 없이 그냥 영상 전체를 비슷한 방식으로 훑어보는 경우가 많았어요. 그러다 보니 질문에 딱 맞는 중요한 순간을 놓치거나, 덜 중요한 정보에 너무 많은 신경을 쓸 수 있었죠.

그래서 "Auto-Focus Transformer (AFT)"라는 새로운 AI 기술이 등장했어요!

  • 이건 스포츠 영상 질문 답변을 위해 특별히 만들어진 똑똑한 AI 두뇌 같은 거예요.
  • 가장 큰 특징은 "Auto-Focus Attention (AFA)", 즉 "자동 초점 주의집중" 기능이 있다는 점입니다.

"자동 초점 주의집중" 기능은 어떻게 작동하나요?

  • 마치 우리가 필요에 따라 돋보기를 바꿔 쓰는 것과 비슷해요. 아주 작은 글씨를 볼 때는 배율 높은 돋보기를 쓰고, 전체 그림을 볼 때는 넓게 보는 돋보기를 쓰잖아요?
  • AFA는 질문을 받으면 먼저 질문이 어떤 종류의 정보를 필요로 하는지 파악해요.
  • 그리고 그 질문에 맞춰서 영상의 어느 정도 길이(짧은 순간, 중간 길이, 또는 긴 시간)에 "초점"을 맞춰야 할지 자동으로 결정해요.
    • 예를 들어, "방금 그 슛은 성공했어?"라는 질문에는 아주 짧은 순간에 집중하고, "경기 내내 왼쪽 팀은 어떤 전략을 주로 사용했어?"라는 질문에는 더 긴 시간대의 정보를 살펴보는 거죠.
    • 이렇게 각기 다른 "초점 길이"에 얼마나 중요도를 둘지(가중치, )를 질문 내용에 따라 조절해요.
  • 이렇게 하면 AI는 질문과 관련된 핵심 정보에만 집중하고, 불필요한 정보는 걸러내서 더 정확하고 효율적으로 답변을 찾을 수 있어요.

그 외 AI 구성 요소는요?

  • 물론 이 AFT가 전부다는 아니에요.
    • 먼저, AI는 영상의 각 장면에서 중요한 시각 정보(선수들의 모습, 움직임 등)를 뽑아내요 (ResNet, I3D 같은 기존 AI 기술 사용).
    • 동시에 질문 문장도 분석해서 그 의미를 파악하고요.
    • 그다음, 위에서 설명한 "자동 초점 주의집중(AFA)" 기능이 영상 정보와 질문 정보를 아주 똑똑하게 연결해 줍니다.
    • 마지막으로, 다른 AI 기술들(GCN, block fusion)을 이용해 모든 정보를 종합해서 최종 답변을 만들어내요.

결론적으로, 이 "Auto-Focus Transformer"는 AI가 질문의 종류에 따라 영상의 어느 부분에 얼마나 집중해야 할지를 자동으로 조절해서, 스포츠 영상에 대한 질문에 더 똑똑하게 답할 수 있도록 도와주는 기술이라고 생각하시면 됩니다!