VLM : 논문리뷰 : VideoMultiAgents: A Multi-Agent Framework for Video Question Answering

논문리뷰

VLM : 논문리뷰 : VideoMultiAgents: A Multi-Agent Framework for Video Question Answering

AI바라기 2025. 6. 30. 14:08

쉬운 설명

이 논문은 비디오에 대한 질문에 답하기 위해 마치 여러 명의 똑똑한 전문가(Agent)들이 함께 일하는 팀을 만든 것과 같습니다.

각 전문가의 역할 분담: 팀에는 세 명의 전문가가 있습니다. 한 명은 비디오 영상 자체를 분석하고, 다른 한 명은 비디오 내용을 요약한 글(캡션)을 분석하며, 마지막 한 명은 영상 속 객체들 간의 관계(Scene Graph)를 분석합니다.
똑똑한 캡션 생성: 비디오 내용을 요약하는 글을 만들 때, 단순히 비디오를 설명하는 것이 아니라 **"질문"에 맞춰서 필요한 정보만 골라 설명해주는 똑똑한 방식 (Question-Guided Captioning)**을 사용합니다. 마치 질문에 답하기 위한 "맞춤형 메모"를 만드는 것과 같습니다.
팀장의 최종 결정: 각 전문가들은 독립적으로 자신의 분석 결과와 의견을 **"총괄 팀장"(Organizer Agent)**에게 보고합니다. 팀장은 각 전문가의 의견을 모두 듣고, 만약 의견이 다르다면 누가 더 정확한 근거(예: 시간 정보)를 제시하는지 따져본 후 최종 정답을 결정합니다.
효과: 이러한 시스템 덕분에, 영상이 길거나 질문이 복잡해도 더 정확하고 유연하게 답변할 수 있게 된 것이며, 실제로 어려운 비디오 질문 데이터셋에서 가장 좋은 성적을 얻었습니다.

용어 설명 (Terminology)

VQA (Video Question Answering): 비디오 콘텐츠에 대한 자연어 질문에 답하는 task.
LLM (Large Language Model): 대규모 텍스트 데이터로 학습되어 복잡한 언어 이해 및 생성 능력을 가진 모델.
VLM (Vision-Language Model): 시각(영상/이미지) 및 텍스트 정보를 통합하여 처리하는 모델.
Scene Graph: 비디오 내 객체, 인물, 동작 및 그들 간의 관계를 구조화된 그래프 형태로 표현한 것. 시간적 변화도 포함할 수 있음.
Zero-shot performance: 특정 task에 대해 명시적인 fine-tuning 학습 없이, 처음 접하는 task에 대해 일반화된 지식을 기반으로 직접 성능을 발휘하는 능력.
Organizer Agent: VideoMultiAgents 프레임워크의 중앙 제어 에이전트로, 다른 specialized agents의 출력을 통합하고 갈등을 해결하며 최종 답변을 결정하는 역할.
Text Analysis Agent: 질문과 비디오 캡션(Question-Guided Captions)을 분석하여 핵심 엔티티와 동작을 추출하는 에이전트.
Video Analysis Agent: 원본 비디오 데이터에서 상세한 시각적 feature를 추출하고 객체, 상호작용, 시간적 이벤트를 식별하는 에이전트. (VLM 기반)
Graph Analysis Agent: 비디오에서 Scene Graph를 구축하고 분석하여 객체 간의 관계 및 인과적 동학(causal dynamics)을 이해하는 에이전트.
Question-Guided Caption Generation: 질문에서 추출된 핵심 명사 및 동사를 기반으로 VLM이 해당 질문에 직접적으로 관련성이 높은 캡션을 생성하도록 유도하는 방법.
Multi-Agent Framework: 여러 개의 독립적인 specialized agents가 서로 협력하여 복잡한 문제를 해결하는 시스템 구조.
Report structure (multi-agent architecture): 각 에이전트가 독립적으로 자신의 분석 결과를 Organizer에게 보고하고, Organizer가 이들을 종합하여 최종 결정을 내리는 구조 (다른 에이전트의 중간 결과에 직접적으로 영향을 받지 않음).

Purpose of the Paper

이 논문은 기존 Video Question Answering (VQA) 시스템의 핵심적인 한계를 극복하고자 합니다.

기존 연구의 한계:
- 대부분의 기존 VQA 방법은 비디오 프레임을 캡션으로 변환한 후 단일 모델에 입력하여 추론을 수행했습니다. 이로 인해 긴 비디오의 시간적(temporal) 맥락, 상호작용(interactive context), 상세한 시각 정보를 제대로 포착하지 못했습니다.
- 캡션이 질문과 독립적으로 생성되어, 복잡한 질문에 답하는 데 필요한 핵심 시각적/공간적(spatial) 세부 정보를 놓치는 경우가 많았습니다.
- VideoAgent와 같은 에이전트 기반 접근 방식은 텍스트 캡션에만 의존하거나, 단일 에이전트 구조로 인해 확장성 및 유연성에 한계를 보였습니다. VDMA와 같은 동적 에이전트 생성 방식도 적합한 에이전트 역할 선택에 크게 의존했습니다.
본 연구의 목적:
- 이러한 한계를 해결하기 위해, VideoMultiAgents라는 새로운 multi-agent framework를 제안합니다. 이 프레임워크는 vision, scene graph analysis, text processing에 특화된 여러 에이전트를 통합하여 상호 보완적인 멀티모달 추론을 가능하게 함으로써 비디오 이해를 심화하고, 질문-가이드 캡션 생성을 통해 답변 정확도를 향상시키는 것을 목표로 합니다.

Key Contributions

이 논문의 핵심적인 기여와 기존 연구 대비 참신성은 다음과 같습니다.

Novelty (참신성)
- VideoMultiAgents Framework: VQA를 위해 모달리티별 (Text, Video, Scene Graph)로 전문화된 세 개의 독립적인 에이전트와 이들의 출력을 통합하고 갈등을 해결하는 중앙 Organizer Agent를 도입한 점이 독창적입니다. 특히, 에이전트 간의 독립성을 보장하는 "Report structure" 아키텍처를 채택하여, 에이전트 간 정보 흐름으로 인한 bias 전파를 방지하고 견고한 의사결정 과정을 가능하게 합니다.
- Question-Guided Caption Generation: 기존의 일반적인 비디오 캡션 생성 방식과 달리, 질문(query)과 답변 선택지에서 추출된 핵심 명사 및 동사를 명시적으로 활용하여 캡션 생성 모델(VLM)을 유도합니다. 이는 질문에 직접적으로 관련된 정보에 집중하고 불필요한 정보를 줄임으로써 VQA 정확도를 크게 향상시키는 참신한 접근 방식입니다. 또한, 단일 프레임이 아닌 여러 프레임을 한 번에 처리하여 시간적 동학을 포착합니다.
- Scene Graphs for Comprehensive Video Understanding: 단순히 픽셀 수준의 시각적 feature 분석에 그치지 않고, 비디오 내 객체, 인물, 동작 및 그들 간의 시간적/공간적 관계를 구조화된 Scene Graph 형태로 표현하고 이를 Graph Analysis Agent가 활용합니다. 이는 비디오 내용의 인과 관계 및 시간적 역학을 더 깊이 이해하는 데 기여하는 차별점입니다.
Contributions (핵심 기여)
- Modality-Specific Agent Collaboration: Text Analysis Agent, Video Analysis Agent, Graph Analysis Agent가 각자의 전문성을 활용하여 비디오를 다각도로 분석하고, Organizer Agent가 이들의 독립적인 분석 결과를 통합하고 충돌을 해결하여 최종 답변을 도출하는 효율적인 멀티모달 추론 시스템을 구축했습니다.
- State-of-the-Art Performance: NEXT-QA, Intent-QA, EgoSchema 등 주요 VQA 벤치마크 데이터셋에서 zero-shot 설정임에도 불구하고 기존 SOTA 성능을 뛰어넘는 결과를 달성하여, 프레임워크의 강력한 일반화 능력과 다양한 비디오 및 질문 유형에 대한 적응성을 입증했습니다.
- Effective Conflict Resolution: Case study를 통해 Organizer Agent가 각 에이전트의 근거(특히 시간적 증거)를 신중하게 평가하여, 개별 에이전트 간의 상충되는 추론을 성공적으로 해결하고 정확한 최종 답변을 도출하는 능력을 보여주었습니다.

Experimental Highlights

이 논문은 NEXT-QA, Intent-QA, EgoSchema 세 가지 주요 비디오 QA 데이터셋을 사용하여 VideoMultiAgents 프레임워크의 성능을 평가했습니다. 모든 실험은 zero-shot 설정에서 진행되었습니다.

주요 데이터셋 및 평가 메트릭:
- NExT-QA: 인과적(Causal) 및 시간적(Temporal) 추론에 중점을 둔 단편 비디오(third-person) 데이터셋. Accuracy (%)로 평가.
- Intent-QA: 추론 기반 질문(Causal-Why, Causal-How, Temporal)에 중점을 둔 데이터셋. Accuracy (%)로 평가.
- EgoSchema: 장편의 egocentric (1인칭 시점) 비디오 데이터셋. Accuracy (%)로 평가 (subset 및 fullset).
핵심 실험 결과 (Zero-Shot Performance):
- NExT-QA:
  - 총 정확도 79.6% 달성 (SOTA). 이는 이전 SOTA인 Tarsier*(추가 학습 데이터 사용)의 79.2%보다 +0.4%p 높은 수치입니다.
  - 특히 Causal(80.5%), Temporal(75.7%), Descriptive(84.7%) 모든 카테고리에서 강력한 성능을 보였습니다.
- Intent-QA:
  - 총 정확도 79.0% 달성 (SOTA). 이는 이전 SOTA인 VideoINSTA의 72.8%보다 +6.2%p 크게 향상된 수치입니다.
  - 추론 기반 질문에 대한 프레임워크의 효과성을 강조합니다.
- EgoSchema (subset):
  - subset에서 75.4% 달성 (SOTA). 이전 방법 대비 +3.4%p 향상되었습니다.
  - 장거리 시간적 추론 능력의 효과성을 입증했습니다. (Fullset에서는 68.0%로 HCQA의 75.0%보다 낮았는데, 이는 subset과 fullset 간 질문 카테고리 분포 차이 때문일 수 있다고 분석)
Ablation Study (요소 분석):
- 단일 에이전트 모달리티 비교 (Table 4):
  - Video 에이전트는 Descriptive 질문(객체 수, 상세 묘사)에 가장 강했고, Text 에이전트는 Causal 및 Temporal 질문에, Graph 에이전트는 Descriptive Location 질문에 강점을 보여 각 모달리티의 상호 보완적인 강점을 확인했습니다.
- 멀티 에이전트 아키텍처 효율성:
  - "Report architecture" (각 에이전트가 독립적으로 Organizer에게 보고)가 "Majority Vote", "Star", "Debate"와 같은 다른 multi-agent 아키텍처보다 가장 우수한 성능을 보였습니다. 이는 에이전트 독립성 유지가 bias 전파를 막고 정확한 추론에 필수적임을 시사합니다.
- Question-Guided Captioning의 효과 (Table 5):
  - Question-Guided Captioning을 사용했을 때 77.0%의 정확도를 달성하여, 일반 LLaVA Caption(68.7%)이나 GPT-4o Caption(74.8%)보다 명확하게 높은 성능을 보였습니다. 이는 질문과 관련된 핵심 정보를 강조하는 것이 VQA 성능 향상에 매우 중요함을 입증합니다.

Limitations and Future Work

이 논문에서 명확하게 언급된 한계점과 향후 연구 방향은 다음과 같습니다.

Limitations (한계점)
- EgoSchema Fullset에서의 성능 격차: EgoSchema subset에서는 SOTA를 달성했지만, fullset에서는 다른 SOTA 모델(HCQA)보다 낮은 성능을 보였습니다. 이는 subset과 fullset 간의 질문 카테고리 분포 차이 때문일 수 있으며, 현재 모델이 모든 종류의 egocentric 비디오 질문에 대해 균일하게 최적화되지 않았음을 시사합니다. 이 한계는 모델의 전반적인 적응성과 견고성 향상을 위한 추가적인 분석과 개선의 필요성을 보여줍니다.
- Video Analysis Agent의 Temporal Reasoning 한계: Case study에서 VLM 기반 Video Analysis Agent가 긴 이벤트 지속 시간에 대한 시간적 추론에서 오답을 냈습니다. 이는 현재 VLM이 raw video 데이터에서 미묘한 시간적 동학을 정확히 파악하는 데 여전히 한계가 있음을 나타냅니다.
Future Work (향후 연구 방향)
- Video Analysis Agent의 Temporal Reasoning 강화: VLM이 시간적 맥락과 이벤트 지속 시간을 더 잘 이해하도록 개선하는 연구가 필요합니다. 이는 long-form video에 대한 VQA 성능을 더욱 향상시킬 것입니다.
- Multi-Agent Framework의 확장성 및 유연성 활용: 현재 프레임워크는 새로운 모달리티별 에이전트나 분석 도구를 쉽게 통합할 수 있도록 설계되었습니다. 향후 연구에서는 VideoMultiAgents를 다른 멀티모달 task (예: 비디오 요약, 이벤트 예측)나 새로운 유형의 복잡한 VQA challenge에 적용하여 프레임워크의 잠재력을 더욱 탐구할 수 있습니다.
- EgoSchema Fullset 성능 개선: fullset과 subset 간의 질문 분포 차이를 심층적으로 분석하고, 이에 맞춰 모델을 최적화하여 EgoSchema fullset에서의 성능 격차를 줄이는 연구가 필요합니다.

Overall Summary

VideoMultiAgents는 기존 VQA(Video Question Answering) 방법론의 한계(일반 캡션, 시각/시간 정보 손실)를 극복하기 위해 제안된 혁신적인 Multi-Agent Framework입니다. 이 프레임워크는 Vision, Scene Graph, Text 분석을 담당하는 Specialized Agents와 이들의 출력을 통합하여 최종 답변을 결정하는 Organizer Agent의 협력을 통해 깊이 있는 멀티모달 추론을 수행합니다. 특히, 질문 의도를 반영한 Question-Guided Captioning과 견고한 "Report structure" 기반의 agent 협력 방식은 zero-shot VQA 벤치마크(NEXT-QA, Intent-QA, EgoSchema)에서 SOTA 성능을 달성하는 데 크게 기여했습니다. 이 연구는 VQA 분야에서 멀티모달 정보 통합 및 복잡한 추론 문제를 해결하는 새로운 패러다임을 제시하며, 미래 AI 시스템의 유연성과 확장성에 대한 중요한 통찰을 제공합니다.

Abstract

Video Question Answering (VQA)는 본질적으로 video 콘텐츠에 대한 더 깊은 이해를 달성하기 위해 visual, 시간적, 언어적 단서를 통합하는 multimodal reasoning에 의존합니다. 그러나 많은 기존 방법은 프레임 수준의 캡션을 단일 model에 입력하는 데 의존하므로 시간적 및 상호작용적 맥락을 적절하게 포착하기 어렵습니다.

이러한 한계를 해결하기 위해 우리는 vision, 장면 그래프 분석 및 텍스트 처리를 위한 특화된 agents를 통합하는 framework인 VideoMultiAgents를 소개합니다. 이는 독립적으로 작동하는 agents로부터 상호 보완적인 multimodal reasoning을 활용하여 video 이해를 향상시킵니다. 우리의 접근 방식은 또한 주어진 쿼리와 직접적으로 관련된 객체, 행동 및 시간적 전환을 강조하는 캡션을 생성하여 답변 정확도를 향상시키는 question 기반 caption generation으로 보완됩니다.

실험 결과는 우리의 방법이 Intent-QA에서 (이전 SOTA 대비 ), EgoSchema 서브셋에서 (), 그리고 NExT-QA에서 ()의 state-of-the-art 성능을 달성했음을 보여줍니다.

소스 코드는 https://github.com/PanasonicConnect/VideoMultiAgents 에서 확인할 수 있습니다.

Introduction

Video understanding은 natural language로 된 질문에 답하기 위해 temporal sequences에 대해 reasoning 하면서 visual 정보와 textual 정보를 통합해야 하는 어려운 작업입니다. 최근 large language models (LLMs)의 발전은 multimodal 데이터를 처리하는 능력을 극적으로 향상시켰습니다. 이러한 models은 이제 visual 정보와 textual 정보를 원활하게 통합하여 두 가지 맥락을 동시에 이해해야 하는 복잡한 질문을 처리할 수 있습니다. 그러나 기존의 video question answering (VQA) 접근 방식은 여전히 중요한 한계에 직면해 있습니다. 가장 주목할 점은, 현재 방법들이 일반적으로 긴 video를 downstream reasoning을 위해 텍스트로 변환하기 위해 captioning systems에 의존하지만, 이러한 시스템들은 temporal dynamics, causal 관계, 그리고 상세한 visual 맥락을 정확하게 포착하는 데 어려움을 겪는다는 것입니다. 이는 주로 video frames를 dense captions로 압축할 때 중요한 visual 정보가 손실되고, 특정 질문에 맞춰지지 않은 범용 captions에 의존하기 때문입니다.

이러한 문제들을 극복하기 위해 수많은 접근 방식이 제안되었습니다. LLoVi는 video frames를 captions로 변환하고 이를 LLM을 통해 처리하는 text-centric 접근 방식을 도입하여 VQA 작업을 language-based reasoning으로 효율적으로 축소했습니다. 그러나 captions는 특정 question과 독립적으로 생성되기 때문에 복잡한 질문에 답하는 데 필요한 중요한 세부 정보가 누락될 수 있습니다. VideoAgent는 LLM에 의해 구동되는 혁신적인 agent-based iterative frame selection 방법을 도입하여 computational 비용을 크게 줄이고 프레임 효율성을 향상시켰습니다. 이러한 발전에도 불구하고, VideoAgent는 주요 modality로서 textual captions에만 의존하므로, 정밀한 reasoning에 중요한 필수 visual 및 spatial 세부 정보를 놓칠 수 있습니다. VideoTree는 효율적인 context retention을 위해 hierarchical structure를 사용하지만, 유사하게 일반적이고 question과 무관한 captions를 생성하여 특정 질문에 정보를 맞추는 능력이 제한됩니다. VDMA는 각 query에 대해 특화된 agents를 동적으로 생성하여 성능을 향상시키지만, 그 효과는 적절한 agent 역할을 선택하는 데 크게 의존하므로, 해당 modality-specific 강점을 완전히 활용하는 데 한계가 있을 수 있습니다.

이러한 과제를 극복하기 위해, 우리는 video question answering을 위한 새로운 multi-agent framework인 VideoMultiAgents를 제안합니다(Fig. 1 참조). 이 framework에서, organizer agent는 중앙 통합자(central integrator) 역할을 하며, multimodal reasoning의 다양한 측면(예: visual, textual 또는 graph analysis)에 각각 특화된 여러 독립적인 modality-specific agents로부터 정보를 종합합니다. 각 modality-specific agent는 할당된 modality를 기반으로 독립적으로 inference를 수행하고 그 결과를 organizer에게 보고합니다. 그러면 organizer는 이러한 outputs을 취합하고, 잠재적인 불일치를 해결하며, final answer를 결정합니다. 이 구조화된 접근 방식은 최종 의사 결정 과정에서 일관성을 유지하면서 특화된 agents의 상호 보완적인 강점을 활용하여 multimodal reasoning을 실질적으로 향상시킵니다.

우리의 주요 기여는 다음과 같이 요약됩니다.

Modality-Specific Agents with Organizer: 우리의 framework는 세 가지 특화된 agents로 구성됩니다: (1) question-guided textual captions를 생성하고 분석하는 Text Analysis Agent, (2) video frames에서 상세한 visual features를 추출하는 Video Analysis Agent, 그리고 (3) temporal 및 spatial 관계를 포착하는 구조화된 scene graphs를 구성하는 Graph Analysis Agent. 또한, Organizer Agent는 이러한 agents로부터의 outputs을 수집하고 통합하여, 최종 답변을 도출하기 전에 일관성을 보장하고 모든 모순을 해결합니다.
Question-Guided Caption Generation: 이전 방법들과 달리, 우리의 caption generation은 question과 매우 관련성이 높은 captions를 만들기 위해 query에서 파생된 핵심 명사와 동사를 명시적으로 활용합니다. 이 접근 방식은 관련 없는 정보를 실질적으로 줄이고 필수적인 entities와 actions를 강조함으로써, 일반적인 caption-based 방법의 단점을 직접적으로 해결합니다.
Scene graphs for enhancing video understanding: 사람과 객체 간의 상호작용뿐만 아니라 묘사된 장면과 그 시간적 변화를 포착하는 것은 강력한 video recognition에 필수적입니다. 사람과 객체를 nodes로, 그들의 관계와 actions를 edges로 인코딩하는 Scene graphs는 video 콘텐츠의 간결하면서도 명시적인 representation을 제공합니다. 복잡한 spatiotemporal 정보를 체계적으로 정리함으로써, 이러한 그래프는 causal 관계와 temporal dynamics의 식별을 용이하게 할 뿐만 아니라, models이 video 콘텐츠를 보다 포괄적으로 해석하고 설명할 수 있도록 합니다.

VQA benchmark datasets에 대한 포괄적인 평가를 통해, VideoMultiAgents는 기존 state-of-the-art 방법에 비해 우수한 zero-shot performance를 보여주며, Intent-QA에서 (이전 SOTA 대비 향상), EgoSchema subset에서 (), NExT-QA에서 ()를 달성했습니다. 이러한 결과는 우리 framework의 강력한 generalization capability와 task-specific training 없이 새로운 작업에 대한 적응성을 명확하게 보여주며, 다양한 실제 시나리오에 대한 실용적인 잠재력을 보여줍니다. 중요하게도, 우리의 multi-agent framework는 여러 modalities를 효과적으로 결합하여 reasoning performance와 adaptability를 크게 향상시킵니다. 이 접근 방식은 본질적으로 scalable하며, 새로운 작업이나 새로운 도전에 대해 추가적인 modality-specific agents를 쉽게 통합할 수 있습니다.

이미지는 "VideoMultiAgents"라는 시스템의 전체 구조를 보여줍니다. 이 시스템은 비디오에 대한 질문에 답변하는(Video Question Answering, VQA) 작업을 수행하기 위해 여러 개의 독립적인 'agent'들을 통합하여 사용하는 방식을 나타냅니다.

이미지의 왼쪽에는 입력으로 주어지는 'Video Frames' (비디오 프레임)와 'Question and 5 options' (질문과 5개의 선택지)이 표시되어 있습니다. 질문은 "Why did the woman kneel on the grass patch at the end of the video?" (왜 그 여자는 비디오 마지막에 잔디밭에 무릎을 꿇었을까요?) 이고, 5개의 선택지는 다음과 같습니다: A: to read the cards (카드를 읽기 위해), B: take picture (사진을 찍기 위해), C: adjust the baby's position (아기의 자세를 조정하기 위해), D: kiss the baby girl (아기에게 뽀뽀하기 위해), E: indicating to the camera man (카메라맨에게 신호하기 위해).

중앙에는 VideoMultiAgents 시스템의 핵심 구성 요소인 세 개의 specialized agents와 하나의 Organizer Agent가 있습니다.

Video Analysis Agent: 비디오 입력과 질문을 받아 비디오를 분석하고 관련 정보를 추출합니다. 출력은 Organizer Agent로 전달됩니다.
Text Analysis Agent: 질문을 받아 'Question-Guided Captions' (질문 기반 캡션)을 생성하고 분석합니다. 생성된 캡션은 Organizer Agent로 전달됩니다.
Graph Analysis Agent: 비디오 입력과 질문을 받아 'Scene Graph' (장면 그래프)를 생성하여 비디오 내 객체 간의 관계나 시간적 변화 등을 구조적으로 표현합니다. 생성된 장면 그래프는 Organizer Agent로 전달됩니다.

오른쪽 상단에는 노란색 박스에 "Based on what all the agents say, Option B should be the answer." (모든 agent들이 말한 것에 따르면, B 옵션이 정답이어야 합니다.) 라는 문구가 적혀 있어, 각 agent들의 분석 결과를 종합하여 정답을 도출하는 과정을 암시합니다.

가장 오른쪽 하단에는 'Organizer Agent'가 세 개의 specialized agents로부터 받은 정보를 종합하여 최종 답변 'Answer: Option B' (답변: 옵션 B)를 출력하는 것을 보여줍니다.

이미지 하단에는 Figure 1의 제목인 "Overview of VideoMultiAgents: Integrating Video, Captions, and Scene Graphs through Multi-Agent Collaboration for accurate Video Question Answering." (VideoMultiAgents 개요: 정확한 비디오 질의 응답을 위한 다중 에이전트 협업을 통한 비디오, 캡션, 장면 그래프 통합)과 함께, 파란색 화살표는 VideoMultiAgents로의 입력 및 출력 흐름을 나타내고, 노란색 화살표는 개별 에이전트 간의 상호 작용 및 정보 교환을 나타내며, Organizer Agent에 의해 최종 답변이 결정된다는 설명이 있습니다.

전반적으로 이 이미지는 VideoMultiAgents라는 시스템이 다양한 종류의 정보를 처리하는 특화된 agent들을 활용하고, 이들의 결과를 중앙의 Organizer Agent가 통합하여 최종 비디오 질의 응답을 수행하는 과정을 시각적으로 보여줍니다.

VideoMultiAgents: Introduction 정리노트 (For AI Researchers)

1. 문제 제기 (Problem Statement)

기존 Video Question Answering (VQA) 모델들은 긴 비디오를 텍스트 captions으로 변환 후, LLM을 통해 reasoning하는 방식에 크게 의존함.
이러한 접근법의 본질적 한계는 비디오의 temporal dynamics, causal 관계, 상세 visual 정보 등 중요 정보가 captioning 과정에서 손실된다는 점임.
특히 captions이 question-agnostic (질문과 무관하게)하게 생성되어, 특정 query에 답하기 위한 핵심 디테일을 놓치는 경우가 많음.
- (Prior Work 한계) LLoVi, VideoTree 등은 question-agnostic captions 문제, VideoAgent는 textual modality에만 의존하는 문제, VDMA는 agent 역할 선택에 성능이 크게 좌우되는 문제가 있음.

2. 제안 방법론 (Proposed Solution: VideoMultiAgents)

핵심 idea는 VQA reasoning 과정을 여러 독립적인 modality-specific agents에게 분배하는 multi-agent framework를 제안하는 것임.
Architecture의 중심에는 Organizer Agent가 있으며, 각 전문 agent로부터의 inference 결과를 종합하고 잠재적 불일치를 해결하여 최종 답변을 도출함.
각 전문 agent (e.g., vision, text, graph)는 독립적으로 자신의 modality에 기반한 분석을 수행함. 이 구조는 각 modality의 강점을 극대화하면서 최종 의사 결정의 일관성을 유지함.

3. 핵심 기여 (Key Contributions)

Modality-Specific Agents with Organizer: Text Analysis Agent (질문 기반 캡션 분석), Video Analysis Agent (상세 시각 피처 추출), Graph Analysis Agent (시공간 관계 모델링)라는 3개의 전문 agent와 이들의 결과를 통합/조정하는 Organizer Agent로 구성된 framework 자체.
Question-Guided Caption Generation: query에서 핵심 명사/동사를 추출하여 question의 의도와 직접적으로 관련된 captions를 생성함. 이는 기존의 question-agnostic 방식의 정보 누락 문제를 직접적으로 해결함.
Scene Graphs for Enhancing Video Understanding: 비디오 내 객체(nodes)와 그들의 상호작용 및 관계(edges)를 scene graph로 명시적으로 representation함. 이를 통해 단순 caption 방식으로는 포착하기 어려운 복잡한 spatiotemporal 및 causal 관계를 효과적으로 모델링함.

4. 실험 결과 요약 (Results)

주요 VQA benchmark datasets (Intent-QA, EgoSchema, NExT-QA)에서 zero-shot 성능으로 state-of-the-art (SOTA)를 달성함.
구체적으로 Intent-QA에서 기존 SOTA 대비 $6.2%$의 성능 향상을 보이는 등, 별도의 task-specific training 없이도 높은 generalization 능력을 입증함.

쉬운 설명 :

이 논문의 Introduction 섹션은 비디오에 대해 질문하고 답하는 AI의 기존 방식이 가진 문제점을 지적하고, 자신들이 제안하는 새로운 해결책을 소개하는 내용입니다.

어떤 문제가 있었을까요? 기존의 AI는 비디오 내용을 이해하기 위해 비디오를 먼저 글로 요약(caption)한 다음, 이 요약본을 읽고 질문에 답하는 방식을 주로 사용했습니다. 하지만 이 방식은 마치 영화 전체를 몇 줄로 요약해버리는 것과 같아서, "주인공이 마지막에 왜 무릎을 꿇었지?" 같은 구체적인 질문에 답하는 데 필요한 아주 사소하지만 결정적인 장면이나 행동을 놓치기 쉬웠습니다. 또한 질문 내용과 상관없이 항상 똑같은 방식으로 요약했기 때문에 비효율적이었습니다.

이 논문이 제안하는 해결책은 무엇일까요? 이 문제를 해결하기 위해 '전문가 팀'을 꾸리는 방식을 제안합니다. 이 팀의 이름이 바로 'VideoMultiAgents'입니다.

영상 분석 전문가 (Video Analysis Agent): 비디오의 시각적인 부분을 집중해서 분석합니다.
텍스트 분석 전문가 (Text Analysis Agent): 질문의 핵심을 파악하고, 그 질문과 관련된 내용 위주로 비디오를 설명하는 글(caption)을 만듭니다.
관계 분석 전문가 (Graph Analysis Agent): 비디오 속 인물이나 사물이 '누가, 언제, 무엇을, 어떻게' 했는지 관계도를 그려서 복잡한 상황을 한눈에 파악할 수 있게 합니다.
팀장 (Organizer Agent): 각 전문가의 분석 결과를 모두 보고받아 종합하고, 혹시 서로 다른 의견이 있으면 조율해서 최종적으로 가장 정확한 답변을 내놓습니다.

결론적으로, 이 논문은 하나의 AI가 모든 것을 처리하는 대신, 각자 다른 능력을 가진 여러 전문 AI(agent)가 협력하여 비디오에 대한 질문에 훨씬 더 깊이 있고 정확하게 답변하는 새로운 framework를 제안하고 있습니다.

2. Related Work

이 섹션에서는 Video Question Answering에 대한 이전 연구를 네 가지 주요 관점으로 분류하며, 각 관점은 다음 소제목에서 설명합니다.

2.1. Classification of VQA approaches

VQA는 end-to-end, caption-based, graph-based, multimodal fusion, 그리고 agent-based 방법을 포함한 여러 paradigms으로 크게 분류될 수 있습니다. 이 중에서 VLM-based, caption-based, 그리고 agent-based 접근 방식은 VQA 시스템의 performance, adaptability, interpretability를 향상시키는 데 특히 유망한 결과를 보여주었습니다. 다음 섹션에서는 VQA performance 향상에 유망한 잠재력을 보여준 vision-language models, caption-based 전략, 그리고 multi-agent reasoning에 초점을 맞춥니다.

2.2. Vision-Language Model-based methods

Vision-Language Models (VLMs)는 visual 및 textual modalities를 공동 embedding space로 통합하여 다양한 multimodal tasks에서 강력한 performance를 달성합니다. 최근의 VLMs는 고급 representation learning 및 instruction-tuning 접근 방식을 통해 video understanding 능력을 향상시켰습니다. InternVideo는 masked video modeling과 contrastive learning을 사용하여 일반화된 video-language representations을 학습하여 여러 tasks에 걸쳐 강력한 zero-shot performance를 가능하게 합니다. 그러나 이는 large-scale multimodal datasets에 대한 광범위한 pre-training에 크게 의존하므로, 다양한 downstream VQA tasks를 처리할 때 scalability와 adaptability가 제한됩니다. mPLUG-Owl은 two-stage training (pre-training 및 instruction tuning)을 사용하여 multimodal integration을 해결하여 복잡한 multimodal tasks에 대한 adaptability를 효과적으로 향상시킵니다. 그러나 이 접근 방식은 주로 static images를 처리하므로 비디오에 내재된 temporal dynamics를 관리하는 능력이 제한됩니다. Video-LLaVA는 image 및 video data에 대해 공동으로 training함으로써 multimodal capabilities를 확장하여 temporal reasoning을 개선합니다. 효과적이기는 하지만, fine-tuning을 위해 광범위한 multimodal instruction-following data가 필요하여 scalability 문제와 새로운 tasks로 신속하게 generalizing하는 데 어려움이 있습니다. Video-LLaMA는 video 및 audio encoders를 통합하는 multimodal LLM을 소개합니다. audio-visual integration 및 temporal reasoning에서 강력하지만, 특정 pre-trained visual 및 audio encoders에 의존하기 때문에 새로운 modalities나 domains에 적응하는 데 flexibility가 제한되어 adaptability에 영향을 미칩니다.

일반적으로 기존 VLMs는 multimodal understanding을 크게 발전시켰지만, 제한된 modality support, 상당한 retraining 없이는 특정 task instructions에 대한 adaptability 부족, 그리고 광범위한 training 요구 사항으로 인한 내재적인 scalability 문제를 포함한 주요 한계에 직면합니다. 대조적으로, 우리가 제안하는 VideoMultiAgents framework는 적응적으로 상호 작용하는 specialized agents를 활용하여 이러한 한계를 명시적으로 해결하고, 다양한 복잡한 VQA tasks를 효과적으로 처리하기 위해 multimodal data를 동적으로 통합합니다.

2.3. Caption-based methods.

Caption-based methods는 먼저 비디오의 visual 콘텐츠를 textual descriptions (captions)으로 변환한 다음, LLMs 또는 다른 NLP models를 활용하여 queries에 답변하는 방식으로 video question answering (VQA)을 해결합니다. VQA task를 순전히 textual question-answering 문제로 변환함으로써, 이러한 방법들은 현대 LLMs의 뛰어난 reasoning capabilities를 직접 활용하여 performance에서 상당한 발전을 이룹니다.

VideoTree는 유사한 frames를 clustering하고 question과 관련된 clusters만 추출하여 긴 비디오와 관련된 문제를 해결함으로써 efficiency와 accuracy를 모두 향상시킵니다. LLoVi는 image captioning model을 사용하여 frame-level captions를 독립적으로 생성한 후 LLM을 사용하여 답변을 도출합니다. LifelongMemory는 중복되거나 noisy한 captions를 걸러내어 추출된 information이 간결하고 관련성 있도록 보장함으로써 이 paradigm을 더욱 개선합니다. HCQA는 few-shot prompting strategies를 통합하여 caption quality와 contextual relevance를 향상시켜 주목할 만한 performance 개선을 이끌어냈습니다.

그러나 caption-based methods는 공통적으로 두 가지 중요한 한계에 직면합니다. 첫째, captions는 일반적으로 query context를 명시적으로 고려하지 않고 생성되므로, 정확한 답변에 중요한 question-specific visual details이 누락될 가능성이 있습니다. 둘째, frame-by-frame captioning 접근 방식은 비디오의 temporal relationships과 dynamics를 적절히 representation하지 못할 수 있어, model이 temporal understanding에 명시적으로 의존하는 queries를 처리하는 능력을 제한합니다. 이러한 단점을 해결하는 것은 caption-based VQA 방법론을 발전시키는 데 여전히 필수적입니다.

2.4. Agent-based methods.

더욱이, agent-based methods는 최근 video VQA domain에서 부상하고 있습니다. 예를 들어, VideoAgent는 LLMs를 활용하여 주어진 query를 기반으로 관련 frames를 효율적으로 선택하여 computational efficiency를 크게 향상시킵니다. 그러나 frame selection 이후에는 전적으로 textual information에 의존하기 때문에 정확한 답변에 중요한 필수적인 visual 및 spatial details를 놓칠 수 있습니다. 유사하게, 또 다른 VideoAgent는 여러 external tools를 사용할 수 있는 LLM에 의해 구동되는 single agent를 사용하지만, single agent structure는 tools의 수가 증가함에 따라 scalability와 flexibility를 제한합니다. 대조적으로, VDMA는 query 당 다른 subtasks에 대해 specialized agents를 동적으로 생성하여 performance를 향상시키지만, agent role selection에 크게 의존하여 modality-specific strengths를 잠재적으로 충분히 활용하지 못할 수 있습니다.

이러한 문제에 대응하여, 우리가 제안하는 VideoMultiAgents framework는 modality(textual, visual, graph-based)별로 특화된 multiple agents를 도입하고 Organizer를 통해 이들을 조정합니다. 이 설계는 modality-specific strengths를 효과적으로 활용하여 다양한 video question-answer tasks를 해결하는 데 있어 efficiency와 adaptability를 모두 향상시킵니다.

2. Related Work: 정리노트 (For AI Researchers)

1. 연구 동향 분석의 목적

본 섹션은 기존 Video Question Answering (VQA) 연구를 VLM-based, caption-based, agent-based 세 가지 주요 접근법으로 분류하고, 각 방법론의 명확한 한계를 지적함으로써 본 논문이 제안하는 VideoMultiAgents framework의 필요성과 독창성을 부각하는 데 목적이 있음.

2. 기존 방법론 및 그 한계 (Limitations of Prior Arts)

2.2 Vision-Language Model (VLM)-based Methods
- 접근법: Visual과 Textual 정보를 하나의 joint embedding space로 통합하여 처리.
- 한계점:
  - Scalability & Adaptability 문제: 대규모 datasets을 이용한 막대한 pre-training에 의존하므로, 새로운 downstream task에 유연하게 적응하기 어려움 (e.g., InternVideo).
  - Temporal Dynamics 처리 미흡: 주로 static images 처리에 맞춰져 있어, 비디오의 시간적 흐름이나 동적인 관계를 포착하는 데 한계가 있음 (e.g., mPLUG-Owl).
  - Fine-tuning 의존성: 새로운 task에 일반화하기 위해 방대한 양의 instruction-following data를 필요로 함 (e.g., Video-LLaVA).
  - Flexibility 부족: 특정 pre-trained encoders에 고정되어 있어, 새로운 modality나 domain에 대한 확장성이 떨어짐 (e.g., Video-LLaMA).
2.3 Caption-based Methods
- 접근법: Video → Text (Captions) 변환 후, LLM을 이용해 Text Q&A 문제로 치환.
- 한계점:
  - Query-Agnostic 생성: Caption이 query의 맥락 없이 생성되므로, 질문 답변에 필수적인 visual details이 누락될 가능성이 높음. (가장 치명적인 문제)
  - Temporal 정보 손실: Frame-by-frame 방식은 비디오의 temporal relationships와 dynamics를 효과적으로 representation하지 못함.
2.4 Agent-based Methods
- 접근법: LLM을 agent로 사용하여 frame selection이나 tool 사용과 같은 subtask를 수행.
- 한계점:
  - Modality 편향: 초기 frame selection 후 textual information에만 전적으로 의존하여, 핵심적인 visual 및 spatial details을 놓칠 수 있음 (e.g., VideoAgent).
  - Scalability 부족: Single-agent 구조는 사용할 tool의 종류가 늘어날수록 확장성과 유연성이 떨어짐.
  - Sub-optimal 역할 분배: Query마다 agent를 동적으로 생성하는 경우(e.g., VDMA), agent의 역할 선택에 따라 성능이 크게 좌우되며 각 modality의 강점을 완전히 활용하지 못할 수 있음.

3. 본 연구의 차별점 (Positioning of VideoMultiAgents)

위의 한계들을 극복하기 위해, modality(textual, visual, graph-based)별로 사전 정의된 전문 agents를 활용하고, 이를 Organizer가 조율하는 multi-agent 구조를 제안함. 이는 각 modality의 강점을 극대화하고, scalability와 adaptability를 동시에 확보하기 위한 전략임.

쉬운 설명 :

이 부분은 "우리가 만든 AI가 왜 좋은지 설명하기 전에, 기존에 있던 다른 AI들은 어떤 방식이었고 각각 어떤 단점이 있었는지 살펴볼게요."라고 설명하는 부분입니다.

기존의 방법들은 크게 세 가지가 있었습니다:

1. 한 명의 천재에게 모든 걸 가르치는 방법 (VLM-based)

어떤 방식인가요? 하나의 아주 똑똑한 AI에게 영상과 글을 한꺼번에 학습시켜 모든 것을 처리하게 하는 방식입니다.
단점은 뭔가요? 이 '천재 AI'는 너무 많은 것을 배워야 해서 시간과 비용이 많이 들고(Scalability 문제), 새로운 유형의 질문에는 잘 적응하지 못합니다(Adaptability 문제). 특히, 사진을 보는 데는 익숙하지만, 영상처럼 시간이 흐르면서 상황이 변하는 것을 이해하는 데는 약한 모습을 보였습니다.

2. 영상 내용을 글로 요약해서 푸는 방법 (Caption-based)

어떤 방식인가요? 비디오를 보고 먼저 글로 된 '상황 보고서'(caption)를 작성한 다음, AI는 오직 이 보고서만 읽고 질문에 답하는 방식입니다.
단점은 뭔가요? 가장 큰 문제는, 질문이 뭔지도 모르는 상태에서 보고서를 작성한다는 것입니다. 그래서 질문에 답할 결정적인 단서가 영상에 있었더라도, 보고서 작성자가 중요하지 않다고 생각해 빼먹었을 수 있습니다. 또한 'A가 B를 한 다음에 C가 일어났다' 같은 복잡한 시간 순서를 글로만 완벽하게 표현하기는 어렵습니다.

3. 탐정 한 명이 모든 도구를 써서 조사하는 방법 (Agent-based)

어떤 방식인가요? '탐정' 역할을 하는 AI(agent) 하나가 영상 분석 도구, 글 분석 도구 등을 사용해 질문을 해결하는 방식입니다.
단점은 뭔가요? 탐정 혼자서 너무 많은 도구를 다루려고 하니, 일이 복잡해지면 버거워합니다. 또, 이 탐정이 글 분석은 잘하지만 영상 분석은 서툴 수 있는데, 혼자서 다 처리하려다 보니 실수가 생길 수 있었습니다.

이러한 단점들 때문에, 이 논문은 한 명의 천재나 탐정에게 의존하는 대신, **'영상 분석 전문가', '글 분석 전문가', '관계도 분석 전문가'로 구성된 전문가 팀(VideoMultiAgents)**을 만들어 협력하는 것이 훨씬 효과적이라고 주장하는 것입니다.

3. Method

이 섹션에서는 Figure 2에 설명된 Video Question Answering (VQA)을 위한 multi-agent framework인 VideoMultiAgents를 소개합니다. 우리의 접근 방식은 Text Analysis Agent, Video Analysis Agent, Graph Analysis Agent라는 세 개의 specialized agents의 outputs을 통합하여 일관된 final answer를 생성하는 Organizer Agent를 특징으로 합니다.

3.1. MultiAgent Framework

현재의 framework 설계를 확정하기 전에, 우리는 star structures (agents와 organizer 간의 dynamic communication 허용) 및 debate structures (agents 간의 sequential critique 가능)를 포함한 여러 대안적인 multi-agent architectures를 탐색했습니다. 그러나 organizer가 너무 일찍 답변에 접근하게 하거나 agents 간의 직접적인 소통을 허용하면 biased answer generation과 error propagation으로 이어져, 결국 개별 agent performance를 저하시키고 결과적으로 전체 system의 효율성을 떨어뜨렸습니다. 대신, 우리는 Organizer Agent가 독립적인, modality-specialized agents로부터 insights을 수집하는 report structure가 더 견고하고 균형 잡힌 decision-making process로 이어진다는 것을 발견했습니다. 각 agent는 자신의 modality 내에서 독립적으로 작동하여, specialization을 유지하면서 interference를 방지합니다. 그 후 Organizer Agent는 결과를 종합하고, 충돌을 해결하며, final answer를 결정합니다. 이 접근 방식은 안정적인 reasoning process를 보장하고, single-agent domination을 피하며, 각 agent의 강점을 완전히 활용합니다. 우리는 ablation studies 6.2에서 이 경향을 추가로 분석하며, 다양한 communication structures가 system 효율성에 미치는 영향을 비교합니다.

Figure 2에서 볼 수 있듯이, 우리 system은 input video와 multiple-choice answers가 있는 question을 처리합니다. 각 specialized agent는 자신의 modality 내에서 할당된 비디오의 측면을 분석하고, partial answers와 supporting evidence를 반환합니다. 그 후 Organizer Agent는 모든 agents의 응답을 종합하고 재고합니다. 각 agent의 reasoning을 평가함으로써, 가장 정확한 final answer를 종합하고 가장 잘 맞는 multiple-choice 옵션을 선택합니다.

3.2. Organizer Agent

Organizer Agent는 여러 specialized agents의 outputs을 통합하여 일관성 있고 잘 reasoned된 final answer를 생성하는 역할을 합니다. 각 specialized agent는 독립적으로 실행되며, 할당된 modality—text, video, 또는 graph—를 처리하고 structured response를 반환합니다. 그 후 Organizer Agent는 이러한 응답들을 평가하여, consistency를 보장하고, 충돌을 해결하며, final answer를 종합합니다.

agents 간의 interference를 방지하기 위해, 소통은 각 agent와 Organizer 간의 상호작용으로 제한됩니다. 이 설계는 각 agent가 자신의 modality에 깊이 파고들면서도 자신만의 independent memory를 유지하도록 보장합니다. specialized agents로부터 독립적으로 도출된 insights을 통합함으로써, framework는 다양한 비디오 기반 질문들을 효과적으로 처리합니다.

3.3. Specialized Agents

각 specialized agent는 modality-specific analysis tool을 사용하여 특정 modality를 해석하는 임무를 맡습니다. agent는 비디오에서 증거를 찾기 위해 다른 arguments로 tool을 반복적으로 호출할 수 있으며, 답변에 확신이 생기면 최종 결정을 내립니다.

Text Analysis Agent: 이 agent는 video captions를 사용하여 question을 해결하는 역할을 합니다. 비디오의 각 segment에 대해 question-guided captions를 생성하는 caption analysis tool에 접근할 수 있습니다.
Video Analysis Agent: 이 agent는 비디오의 raw visual content를 해석하고 question에 답하는 데 필요한 key evidence를 추출하는 역할을 합니다. vision language models (VLM)로 구동되는 video analysis tool에 접근하여, agent는 tool을 사용하여 비디오의 다양한 측면에 대해 학습할 수 있습니다.
Graph Analysis Agent: 이 agent는 fine-grained video question answering MOMA-QA 및 EASGs에서의 최근 발전에 영감을 받아, 비디오 내에서 causal relationships, spatial dependencies, temporal dynamics에 대한 reasoning 능력을 향상시키기 위해 시간 경과에 따른 objects, actions, 그리고 그들의 relationships의 structured representations을 구성하도록 설계되었습니다. 비디오는 작은 temporal segments로 처리되며, 각 segment에 대해 scene graph가 생성됩니다. scene graph는 nodes가 objects, 캐릭터 또는 주요 entities에 해당하고 edges가 그들의 relationships과 actions을 representation하는 구조화된 representation입니다. 주로 pixel-level features에 초점을 맞추는 video analysis agent와 달리, 이 agent는 상호작용을 graph-based structure로 추상화하여 시간의 다른 순간에 걸쳐 entities가 어떻게 상호작용하는지를 포착합니다.

3.4. Question-Guided Caption Generation

이 섹션에서는 우리의 두 번째 기여인 Question Guided Captioning을 소개합니다. 최근, 각 video frame을 textual information으로 변환하는 image captioning techniques이 video recognition tasks에서 encoders로 널리 채택되었습니다. 예를 들어, LloVi는 images를 text로 변환한 다음 그 captions을 large language model (LLM)에 입력하여, 비교적 간단한 pipeline을 통해 강력한 performance를 달성합니다. 그러나 이러한 접근 방식의 한 가지 주요 우려는, 만약 생성된 captions이 question에 답하는 데 필요한 중요한 요소를 강조하지 못하면, VQA와 같은 후속 reasoning tasks가 부정적인 영향을 받을 수 있다는 것입니다. 대조적으로, 인간이 콘텐츠에 대한 질문에 답할 목적으로 비디오를 볼 때, 그들은 일반적으로 question과 관련된 objects와 actions에 주의를 기울입니다.

이 문제를 해결하기 위해, 우리의 접근 방식은 먼저 question과 그 답변 선택지를 분석하여 중요한 nouns, verbs, 그리고 다른 keywords를 추출합니다. 그런 다음 우리는 추출된 용어들을 강조하는 captions를 생성하도록 VLM을 유도하여, question과 밀접하게 정렬된 텍스트를 생성합니다. 또한, frame by frame으로 captions를 생성하는 대신, 우리는 temporal information을 포착하기 위해 한 번에 여러 frames를 처리합니다. 이 전략은 actions이 어떻게 전개되는지 또는 objects가 시간 경과에 따라 어떻게 움직이는지를 이해하는 데 특히 효과적이며, 이는 동사를 정확하게 식별하고 해석하는 데 필수적입니다. question-related keywords에 초점을 맞추고 time-based context를 통합함으로써, 우리의 question-guided captioning method는 관련 없는 세부 사항을 걸러내고 VQA에 필요한 핵심 요소를 강조하는 captions를 산출합니다. 결과적으로, 우리는 기존의, general-purpose captioning methods에 비해 downstream tasks에서 더 정확한 performance를 기대합니다.

네, 두 개의 이미지를 순서대로 설명해 드리겠습니다. 두 이미지는 모두 'VideoMultiAgents'라는 AI 시스템이 어떻게 작동하는지를 보여주는 그림입니다.

첫 번째 이미지 (Figure 1: 개요)

이 이미지는 VideoMultiAgents 시스템의 전체적인 개요를 보여줍니다.

입력 (Input): 왼쪽에는 시스템에 입력되는 정보가 표시됩니다.
- Video Frames: 분석해야 할 비디오 영상입니다.
- Question and 5 options: "비디오 마지막에 여자는 왜 잔디밭에 무릎을 꿇었나요?"라는 질문과 5개의 객관식 선택지가 주어집니다.
처리 과정 (Processing): 중앙의 큰 사각형이 VideoMultiAgents 시스템입니다. 내부에는 4개의 로봇 모양 아이콘으로 표현된 agent들이 있습니다.
- Video Analysis Agent (영상 분석): 비디오 자체를 분석합니다.
- Text Analysis Agent (텍스트 분석): 비디오를 설명하는 글(Captions)을 분석합니다.
- Graph Analysis Agent (그래프 분석): 영상 속 인물, 사물, 행동 간의 관계를 구조화한 Scene Graph를 분석합니다.
- Organizer Agent (총괄): 위의 세 전문 agent들로부터 분석 결과를 노란색 화살표를 통해 전달받습니다.
결과 종합 (Synthesis): Organizer Agent 옆의 노란색 말풍선에는 "모든 agent들의 의견에 따르면, B가 정답인 것 같아."라고 쓰여 있어, 각 전문가의 의견을 종합하는 과정을 보여줍니다.
출력 (Output): 오른쪽에는 Organizer Agent가 최종적으로 도출한 정답 "Answer: Option B" (정답: B)가 녹색 상자에 표시됩니다.

요약: 이 그림은 VideoMultiAgents가 비디오, 텍스트, 관계 그래프라는 각기 다른 종류의 정보를 전문적으로 분석하는 agent들을 활용하고, Organizer Agent가 이들의 분석 결과를 종합하여 최종 답변을 내리는 협업 구조임을 한눈에 보여줍니다.

두 번째 이미지 (Figure 2: 상세 구조 및 작동 예시)

이 이미지는 VideoMultiAgents 시스템이 실제로 어떻게 작동하는지 더 상세한 예시를 통해 보여줍니다. 이 그림의 핵심은 각 전문 agent들이 서로 다른 의견을 낼 수 있으며, Organizer Agent가 이를 해결하는 과정을 보여준다는 점입니다.

입력 (Input): 왼쪽에는 다른 비디오와 질문("검은 옷을 입은 여자는 금발 머리 여자에게 다가간 후 무엇을 했나요?")이 주어집니다.
각 Agent의 독립적인 분석 및 추론:
- Video Analysis Agent (영상 분석): 영상을 직접 분석한 결과, "검은 옷의 여자가 금발 여자와 함께 몸을 흔들었다"고 판단하여 **"C"**를 가장 가능성 있는 답으로 제시합니다.
- Text Analysis Agent (텍스트 분석): 영상의 자막/설명을 분석한 결과, "여자가 다른 사람들과 상호작용하며 TV 쪽을 가리켰다"고 판단하여 **"B"**를 가장 가능성 있는 답으로 제시합니다.
- Graph Analysis Agent (그래프 분석): 인물 간의 관계도를 분석한 결과, "두 여자 간의 명확한 상호작용은 없으며, 파티에서 흔히 하는 제스처를 볼 때 하이파이브(E)가 가장 그럴듯하다"고 판단하여 **"E"**를 가장 가능성 있는 답으로 제시합니다.
결과 종합 및 갈등 해결 (Synthesis & Resolution):
- 오른쪽 노란색 상자에는 각 agent가 서로 다른 해석(C, B, E)을 내놓았음이 명시되어 있습니다.
- Organizer Agent는 이 상충하는 의견들을 검토한 후, **"직접적인 시각적 증거(direct visual evidence)에 의해 가장 잘 뒷받침되는 것은 C(몸을 흔드는 것)이다"**라는 결론, 즉 합의(Consensus)를 도출합니다.
최종 출력 (Output): Organizer Agent는 종합적인 판단을 통해 최종 정답으로 "Answer: Option C"를 출력합니다.

요약: 이 그림은 각 전문 agent들이 독립적으로 분석하여 서로 다른 결론에 도달할 수 있다는 점, 그리고 Organizer Agent가 단순히 의견을 취합하는 것을 넘어, 각 증거의 신뢰도를 평가하고 논리적인 판단을 통해 갈등을 해결하여 가장 설득력 있는 최종 답변을 만들어내는 핵심적인 역할을 수행함을 구체적으로 보여줍니다.

3. Method: 정리노트 (For AI Researchers)

1. Framework 아키텍처 및 설계 원칙

최종 채택 구조: Report Structure
- 각 modality-specialized agent가 독립적으로 inference를 수행한 후, 중앙의 Organizer Agent에게 결과를 보고하는 방식. Agent 간의 직접적인 소통은 의도적으로 차단됨.
설계 근거 (Rationale):
- 초기 탐색 단계에서 star나 debate 같은 동적 소통 구조를 검토했으나, biased answer generation (편향된 답변 생성) 및 error propagation (오류 전파) 문제를 야기함을 발견함.
- Report Structure는 agent 간의 불필요한 interference(간섭) 및 single-agent domination(특정 에이전트의 지배)을 방지하여, 전체 reasoning process의 안정성과 견고함을 확보하는 최적의 방안으로 채택됨. 이 설계 선택은 Ablation Studies (6.2)에서 그 효과가 입증됨.

2. Organizer Agent: 중앙 통제 및 종합

핵심 역할: 여러 specialized agents로부터 제출된 structured response들을 통합하여 최종 답변을 생성.
주요 기능:
1. Consistency 검증: 각 agent가 제출한 결과들 사이의 일관성을 평가.
2. Conflict 해결: Agent들의 분석 결과가 서로 상충할 경우, 각 응답의 근거(evidence)를 재평가하여 모순을 해결.
3. 최종 답변 종합: 모든 insights을 종합하여 가장 논리적으로 타당한 final answer를 도출하고, 객관식 보기 중 최적의 옵션을 선택.

3. Specialized Agents: Modality별 심층 분석

Text Analysis Agent:
- 도구: Caption Analysis Tool.
- 핵심 기능: Question-Guided Captions를 활용하여 텍스트 정보 내에서 질문의 해답을 찾음. Question의 keywords에 집중하여 분석을 수행.
Video Analysis Agent:
- 도구: VLM 기반의 Video Analysis Tool.
- 핵심 기능: 비디오의 raw visual content (pixel-level features)를 직접 분석하여 question 해결에 필요한 시각적 증거(key evidence)를 추출.
Graph Analysis Agent:
- 도구: Scene Graph 생성 및 분석.
- 핵심 기능: 비디오를 temporal segments로 나누고, 각 구간의 objects, actions, relationships을 nodes와 edges로 구성된 graph-based structure로 추상화함. 이를 통해 causal, spatial, temporal 관계에 대한 reasoning을 전문적으로 수행.

4. 핵심 기술: Question-Guided Caption Generation

문제 인식: 기존의 general-purpose captioning은 query와 무관하게 생성되어 VQA에 필요한 핵심 정보를 누락하는 경향이 있음.
제안 메커니즘:
1. Keyword 추출: Question과 선택지 텍스트를 먼저 분석하여 핵심 nouns와 verbs를 추출.
2. Caption 생성 유도: VLM이 추출된 keywords를 중심으로 caption을 생성하도록 가이드함.
3. Temporal 정보 강화: Frame-by-frame이 아닌, 여러 frames를 한 번에 처리하여 시간적 맥락과 동사의 의미를 더 정확하게 포착함.
기대 효과: Query와의 관련성이 높은 caption을 생성하여 불필요한 정보를 필터링하고, downstream VQA task의 정확도를 향상시킴.

쉬운 설명 :

이 부분은 이 논문이 제안한 'AI 전문가 팀'(VideoMultiAgents)이 구체적으로 어떻게 구성되고, 어떤 방식으로 일하는지를 설명하는 '작전 계획서'와 같습니다.

1. 팀은 어떻게 구성하고 운영하나요? (팀의 구조) 연구진은 처음에는 전문가들끼리 자유롭게 토론하는 방식을 생각했지만, 오히려 서로의 잘못된 의견에 영향을 받거나 한 명의 목소리 큰 전문가에게 끌려다니는 부작용을 발견했습니다.

그래서 최종적으로 채택한 방식은 이렇습니다:

"각자 조사하고 팀장에게만 보고하기" 각 전문가(agent)는 다른 전문가와 절대 상의하지 않고, 자신만의 방식으로 독립적으로 조사를 마친 뒤 '팀장'(Organizer Agent)에게만 보고서를 제출합니다. 이렇게 해야 서로에게 나쁜 영향을 주지 않고 각자의 전문성을 최대한 발휘할 수 있기 때문입니다.

2. 팀장(Organizer Agent)은 무슨 일을 하나요? 팀장은 각 분야 전문가들이 제출한 보고서를 모두 모아 최종 결론을 내리는 아주 중요한 역할을 합니다.

만약 영상 전문가는 "C가 정답"이라 하고, 글 분석 전문가는 "B가 정답"이라고 하는 등 의견이 충돌하면, 팀장은 각 보고서의 근거가 얼마나 탄탄한지 비교하고 따져서 가장 합리적인 최종 결론을 내립니다.

3. 전문가들은 각자 어떤 전문가인가요?

글 분석 전문가 (Text Analysis Agent): 비디오에 대한 설명을 글로 읽고 분석합니다. 특히, 그냥 읽는 게 아니라 질문에 나온 핵심 단어를 먼저 파악하고 그 단어와 관련된 내용만 콕 집어 읽는 아주 효율적인 능력을 가졌습니다.
영상 분석 전문가 (Video Analysis Agent): 비디오 장면을 사람처럼 직접 눈으로 보면서 "이 장면이 결정적인 단서야" 하고 시각적 증거를 찾습니다.
관계 분석 전문가 (Graph Analysis Agent): 비디오 속 인물이나 사물들이 "누가 누구와, 언제, 무엇을 했는지" 복잡한 관계도를 그립니다. 시간의 흐름에 따라 상황이 어떻게 변하는지 큰 그림을 파악하는 데 최고 전문가입니다.

결론적으로, 이 시스템은 각자 역할이 명확한 전문가들이 독립적으로 일한 뒤, 지혜로운 팀장이 이를 종합하여 최상의 결론을 내리는 매우 체계적이고 효율적인 팀워크를 바탕으로 작동합니다.

주인장 이해

text 기반 에이전트는

사용해서 핵심 명사와 동사를 추출하고

일정 프레임 묶음 단위로 각 프레임 청크에 대해 캡션을 생성.

캡션들을 하나의 컨텍스트로 보고 다시 지시해서

답과 리즈닝을 뱉게함.

video 에이전트는

비디오와 질문을 통해 비디오의 다양한 시각적 측면을 사용해서 시각적 증거로 사용해서 추론과 답볍 생성. 이는 tool은 제미나이 플래시임

graph 기반 에이전트는

프레임 청크 단위로 scene graph를 만들고 생성모델에 입력해서 고른 옵션과 리즈닝을 뱉게함

프레임은 어떻게 청크 단위로 만든건지?

-> 1프레임씩 짤라서 5프레임단위로 묶는데 1프레임씩은 겹치게

암튼

다 모아서 최종답변을 선택하는 대장이 있음