VLM : 논문 리뷰 : STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

VLM : 논문 리뷰 : STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training 본문

논문리뷰

VLM : 논문 리뷰 : STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

AI바라기 2025. 8. 22. 15:20

쉬운 설명 (Simple Explanation)

이 논문의 핵심 아이디어는 Video-LLM에게 **"스스로 공부할 수 있는 해설이 아주 상세한 문제집을 만드는 법"**을 가르쳐주는 것과 같습니다.

먼저, 복잡한 video를 보고 **등장인물, 사물, 행동, 시간 순서 등을 정리한 '마인드맵' 또는 '사건 관계도'(이것이 STSG)**를 그리게 합니다.
그 다음, 이 관계도를 보면서 "A가 B를 한 뒤에 C는 어디에 있었어?" 와 같은 복잡한 질문과 "영상 초반에 A는 B를 했고, 그 직후 C는 D 장소에 있었기 때문에 정답은 D야" 라는 **친절한 풀이 과정(CoT Rationale)**까지 스스로 만들어 냅니다.
마지막으로, 자기가 만든 이 '고품질 해설 문제집'으로 직접 공부하면서(self-training) video를 깊이 있게 이해하고 추론하는 능력을 키우는 방식입니다.

용어 설명 (Glossary)

Video-LLMs (Video Large Language Models): Video를 이해하고 이에 대한 질문에 답하거나 captioning을 수행할 수 있도록 기존 Large Language Models (LLMs)을 확장한 모델.
Compositional Reasoning: 여러 객체, 관계, 행동, 이벤트를 다단계의 시공간적 추론을 통해 종합적으로 이해하는 능력. (예: "소파에 앉기 전에 마지막으로 만진 흰색 물체는 무엇인가?")
STEP (Spatio-Temporal Graph-guided Self-Training): 본 논문에서 제안하는 방법론. Video로부터 Spatio-Temporal Scene Graph (STSG)를 생성하고, 이를 기반으로 reasoning이 풍부한 Q&A 데이터를 자동으로 생성하여 Video-LLM을 self-training 시키는 프레임워크.
STSG (Spatio-Temporal Scene Graph): Video의 시공간적 의미 정보를 구조화한 그래프. 객체(node), 속성, 관계(edge), 시간에 따른 변화 등을 포함하여 video의 세밀한 내용을 표현.
CoT (Chain-of-Thought): 복잡한 질문에 대해 최종 답변에 도달하기까지의 중간 추론 과정을 단계별로 서술하는 방식. 모델의 reasoning 과정을 명시적으로 보여줌.
Symbolic Structure Induction: Raw video의 복잡하고 비정형적인 시각 정보를 구조화된 STSG라는 상징적(symbolic) 형태로 변환하는 과정.
Stepwise Graph-driven Rationale Learning: 유도된 STSG의 reasoning 경로를 따라 단계별 CoT 근거(rationale)와 Q&A 쌍을 생성하여 모델을 학습시키는 과정.

Purpose of the Paper

이 논문은 기존 Video-LLMs가 가진 고질적인 Compositional Reasoning 능력 부족 문제를 해결하고자 했습니다. 기존 연구들은 다음과 같은 명확한 한계를 가졌습니다.

Extensive manual labor: 복잡한 reasoning 학습에 필요한 고품질 데이터셋을 만드는 데 막대한 수작업과 비용이 발생.
Inadequacy of spatio-temporal compositionality: 기존 학습 데이터는 video의 세밀한 시공간적 상호작용 및 관계를 충분히 담아내지 못함.
Absence of explicit reasoning supervision: 모델이 정답을 맞히더라도, 어떤 논리적 과정을 통해 답을 도출했는지(rationale)에 대한 감독(supervision)이 부재하여 '우연히' 정답을 맞히는 경우가 많고, 복잡한 문제에 대한 일반화 성능이 떨어짐.

STEP은 이러한 한계를 극복하기 위해, **raw video만으로 모델 스스로 고품질의 reasoning 학습 데이터를 생성(self-training)**하여 Compositional Reasoning 능력을 강화하는 새로운 접근 방식을 제시합니다.

Key Contributions & Novelty

Key Contributions

Graph-guided Self-Training Framework (STEP) 제안: Raw video에서 STSG를 자동으로 구축하고, 이를 기반으로 CoT rationale이 포함된 QA 데이터를 생성하여 Video-LLM을 스스로 학습시키는 완전 자동화 프레임워크를 제안.
Symbolic Structure Induction Process: Raw video를 fine-grained 시공간 정보를 담은 통일된 STSG로 변환하는 4단계(visual splitting, semantics parsing, dynamic merging, cross-clip bridging) 프로세스를 체계적으로 설계.
Explicit Rationales Supervision 도입: 모델이 단순히 정답만 학습하는 것이 아니라, 정답을 도출하는 논리적 과정(rationale)까지 명시적으로 학습하도록 loss function을 설계하여 reasoning 과정을 내재화.

Novelty

Self-Training 방식의 독창성: 기존의 수동 데이터 제작이나 GPT-4V 같은 외부 강력한 모델에 의존하는 distillation 방식이 아닌, 모델 스스로가 STSG라는 구조적 지식을 활용해 학습 데이터를 생성한다는 점에서 참신함. 이는 데이터 생성 비용을 획기적으로 줄이고 확장성을 높임.
STSG의 활용: Video의 내용을 구조화된 그래프(STSG)로 먼저 변환하고, 이 그래프 경로를 샘플링하여 복잡하고 논리적인 질문과 답변을 생성하는 아이디어는 기존 Video-LLM 연구와 차별화됨. 이는 데이터의 compositionality를 보장함.
Rationale의 통합 학습: 생성된 rationale을 단순 보조 정보로 사용하지 않고, 답변과 함께 학습의 핵심 목표(integral components of the training objective)로 삼아 모델의 reasoning 능력을 직접적으로 강화한 점이 독창적임.

Experimental Highlights

압도적인 Compositional Reasoning 성능 향상:
- STAR 데이터셋에서 3단계 이상의 복잡한 reasoning이 필요한 task의 경우, baseline 모델(VideoChat2*) 대비 21.3%의 상당한 성능 향상을 달성함.
- AGQA 데이터셋에서도 3단계 이상 reasoning task에서 11.1%의 성능 향상을 보임.
- 이 결과는 STEP이 특히 다단계 추론이 요구되는 복잡한 문제 해결에 매우 효과적임을 입증함.
주요 실험 설정:
- Datasets: Compositional reasoning 평가를 위해 AGQA, STAR를, 일반 video understanding 평가를 위해 MSVD-QA, MSRVTT-QA, ActivityNet-QA, MVBench, TempCompass 등 다양한 benchmark를 사용.
- Backbones: VideoChat2 (7B)와 VILA (3B) 두 가지 다른 크기와 architecture의 모델에 STEP을 적용하여 model-agnostic한 효과를 증명.
- Baselines: Instruct (수동 제작 데이터로 학습), Distillation (GPT-4V로 데이터 생성 후 학습) 모델과 성능을 비교하여 self-training 방식의 우수성을 보임.
Self-Training의 우수성 입증:
- Instruct 모델(더 많은 양의 수동 제작 데이터 사용)보다 적은 양의 self-generated 데이터로 더 높은 reasoning 성능을 달성하여, STEP이 생성하는 데이터의 질적 우수성을 증명함.
- 더 강력한 teacher model(GPT-4V)을 사용한 Distillation 모델보다도 뛰어난 성능을 보여, STEP의 self-training이 base model의 특성에 더 잘 맞는 학습 데이터를 생성함을 시사함.

Limitations and Future Work

Limitations:
- 논문에서 명시적으로 한계점을 서술하지는 않았으나, 전체 프로세스의 성능이 초기 STSG 생성 품질에 크게 의존한다는 잠재적 한계가 있음. 즉, 초기 모델이 video 내용을 STSG로 부정확하게 변환하면, 이후 생성되는 학습 데이터의 품질도 저하될 수 있음 (Garbage in, garbage out).
- STSG를 생성하는 Symbolic Structure Induction 과정 자체가 계산 비용이 많이 들 수 있음.
Future Work:
- 논문에서 구체적인 향후 연구 방향을 제시하지는 않음.
- 하지만, STSG 생성의 정확도와 효율성을 높이는 연구나, 더 다양한 종류의 compositional reasoning task(예: 인과관계 추론)로 확장하는 연구가 자연스러운 후속 연구 방향이 될 수 있음.

Overall Summary

이 논문은 Video-LLM의 다단계, 복합적 추론 능력(Compositional Reasoning)을 향상시키기 위해 STEP이라는 novel graph-guided self-training 프레임워크를 제안합니다. STEP은 raw video를 시공간적 정보가 구조화된 STSG로 변환하고, 이 그래프를 기반으로 CoT rationale이 포함된 양질의 Q&A 학습 데이터를 자동으로 생성하여 모델 스스로를 학습시킵니다. 실험 결과, STEP은 특히 3단계 이상의 복잡한 reasoning task에서 기존 방법들을 압도하는 성능 향상을 보였으며, 이는 Video-LLM이 데이터 부족 문제를 극복하고 스스로 reasoning 능력을 발전시킬 수 있는 새로운 가능성을 제시했다는 점에서 큰 의의를 가집니다.

Abstract

Video Large Language Models (Video-LLMs)는 최근 captioning 및 개략적인 question answering과 같은 기본적인 비디오 이해 task에서 강력한 performance를 보여주었지만, 객체 관계, 상호 작용 및 이벤트에 걸쳐 다단계 시공간 추론이 필요한 compositional reasoning에는 어려움을 겪고 있습니다. 이 능력을 향상시키는 데에는 많은 수작업, 기존 training data의 시공간적 compositionality 부족, 명시적인 reasoning 감독의 부재 등이 포함됩니다.

본 논문에서는 Video-LLM이 원본 비디오에서 reasoning이 풍부한 fine-tuning data를 generate하여 스스로를 개선할 수 있도록 하는 새로운 그래프 기반 self-training 방법인 STEP을 제안합니다. 구체적으로, 우리는 먼저 다양한 비디오의 시공간적 장면 그래프(STSG) representation을 유도하여 세분화되고 다중 세분성을 가진 비디오 의미를 포착합니다. 그런 다음 STSG는 Chain-of-Thought (CoT) 근거를 가진 다단계 reasoning Question-Answer (QA) data의 파생을 안내합니다. 답변과 근거는 모두 training 목표로 통합되며, 명시적인 reasoning 단계에 대한 감독을 통해 model의 reasoning 능력을 향상시키는 것을 목표로 합니다.

실험 결과는 STEP이 다양한 규모의 models에서 효과적임을 보여주며, 세 단계 이상의 reasoning 단계가 필요한 task에서 21.3%의 상당한 개선을 보였습니다. 더 나아가, 이는 compositional reasoning과 포괄적인 이해 벤치마크 모두에서 최소한의 양으로 자체 생성된 근거가 풍부한 training 샘플을 사용하여 우수한 performance를 달성하며, 이는 광범위한 적용 가능성과 큰 잠재력을 강조합니다.

1. Introduction

최근 VideoChat, Video-LLaMA, VideoLLaVA와 같은 Video Large Language Models (Video-LLMs)는 video understanding 분야, 특히 video captioning, 개략적인 visual question answering, 그리고 일반적인 summarization과 같은 전반적인 해석 task에서 인상적인 결과를 보여주었습니다. 그러나 최근의 경험적 연구에 따르면, Figure 1 (a)의 상당한 performance 격차에서 볼 수 있듯이 가장 발전된 Video-LLM조차도 다양한 객체 속성, 관계, 동적 캐릭터 상호 작용 및 이벤트에 걸친 multi-step 시공간 reasoning이 필요한 compositional reasoning task에서 어려움을 겪고 있습니다. Compositional reasoning은 현실 세계 비디오의 복잡한 visual 의미를 이해하는 데 필수적이며, 이것이 없으면 Figure 1 (c)의 예시에서처럼 Video-LLM이 실제 응용 분야로 나아가는 데 방해가 됩니다.

몇몇 연구들이 이 문제에 대처하려고 시도했지만, 다음과 같은 주목할 만한 한계가 남아있습니다:

광범위한 수작업 및 일반화 부족: CLEVRER, TVQA, NExT-QA와 같은 compositional datasets이 models의 reasoning 능력을 향상시키기 위한 fine-tuning 자원으로 개발되었지만, 사람이 주석을 단 data 구축에는 상당한 수작업이 필요하여 대규모 training 샘플을 generate하는 것이 비현실적입니다. 더욱이, 이러한 datasets에만 의존하는 방법은 task에 특화되어 있으며 새롭고 보지 못한 시나리오에 일반화할 유연성이 부족한 경우가 많습니다.
시공간적 compositionality의 부적절성: Video 의미는 일반적으로 제한된 clip-level descriptors를 사용하여 추출되는데, 이는 visual 상호 작용과 시간적 역학의 풍부함을 제한하여 비디오의 시공간적 세부 사항에 대한 더 깊은 이해를 방해합니다. 또한, LLM을 prompting하여 생성된 대규모 datasets는 단순한 질문을 낳는 경향이 있어, models이 복잡한 문제를 분해하고 multi-step reasoning을 수행하도록 training하는 데 한계가 있습니다.
reasoning 과정에 대한 명시적 감독 부재: 현재의 black-box training 방법은 model output과 ground truth 사이의 loss만 계산하므로, models은 답변 뒤에 있는 구조화된 중간 reasoning 단계("rationales") 대신 spurious correlations에 의존하게 됩니다. 이러한 감독의 부재는 여러 reasoning 단계가 일관된 sequence로 잘 결합되어야 하는 compositional reasoning 능력을 저해합니다. 이 reasoning 과정을 안내하기 위해 multi-step rationales를 효과적이고 제어 가능하게 얻는 방법은 여전히 미해결 문제로 남아 있습니다. 요약하자면, 이상적인 학습 패러다임은 다중 세분성의 시공간적 비디오 세부 정보가 풍부한 compositional training data를 generate할 뿐만 아니라, Video-LLM을 더 잘 train하기 위해 명시적인 reasoning 감독을 제공해야 합니다.

본 논문에서는 새로운 그래프 기반 비디오 self-training 방법인 STEP을 제안하여, model이 원본 비디오에서 세분화되고 reasoning이 풍부한 fine-tuning data를 스스로 generate하여 자신을 개선할 수 있도록 합니다. 구체적으로, 1) 우리는 비디오의 공간적, 시간적 세부 사항에 대한 구조화된 representation을 가능하게 하기 위해, 다중 세분성의 세분화된 비디오 의미를 포착하고자 visual 분할, 의미 분석, 동적 병합, 클립 간 연결이라는 네 가지 정의된 작업을 통해 모든 원본 비디오에서 SpatioTemporal Scene Graph (STSG)의 상징적 구조 유도를 수행합니다. 2) 우리는 구조화된 STSG representations에 대해 단계적 그래프 기반 rationale 학습 과정을 구현하고, multi-step reasoning 경로를 샘플링하여 단계별 Chain-of-Thought (CoT) rationales와 함께 다양하고 reasoning이 풍부한 Question-Answer (QA) task를 generate합니다. 그런 다음 우리는 model이 답변과 rationales를 training objective의 필수 구성 요소로 학습하도록 train하여, reasoning 과정을 추출하고 복잡한 multi-step compositional reasoning 능력을 향상시킵니다.

우리의 framework에서는 Video-LLM의 self-training 능력을 활용하여 광범위한 인간 주석 data에 대한 의존도를 크게 줄입니다. 복잡한 비디오 의미를 캡슐화하기 위한 통합된 구조적 기반으로 STSG를 사용함으로써, model은 세분화된 공간 관계와 시간적 역학을 높은 충실도로 효과적으로 포착하여 여러 비디오 계층에 걸쳐 compositional task를 generate하는 framework의 능력을 향상시킵니다. 또한, 우리의 단계적 그래프 기반 rationale 학습 과정을 통해 model은 그래프 구조 내의 고유한 reasoning 논리를 활용하여, rationale의 각 단계를 compositional task의 하위 질문과 정확하게 일치시킬 수 있습니다. 이러한 잘 추론되고 해석 가능한 rationales를 training objective의 필수 구성 요소로 통합함으로써, 우리는 model의 compositional reasoning 능력을 크게 향상시킵니다.

광범위한 실험을 통해 STEP은 다양한 parameters와 architectures를 가진 Video-LLM의 compositional reasoning performance를 현저하게 향상시키며, 특히 세 단계 이상의 reasoning 단계가 필요한 task에서 21.3%의 개선을 보였습니다. 더 나아가, 수동으로 주석이 달린 datasets에서 trained된 models과 비교할 때, STEP은 최소한의 양으로 자체 생성된, reasoning이 풍부한 training 샘플을 사용하여 다양한 벤치마크에서 우수한 model performance를 달성하며, 이는 광범위한 적용 가능성과 큰 잠재력을 강조합니다. 우리의 기여는 다음과 같이 요약할 수 있습니다:

우리는 spatio-temporal scene graphs를 활용하여 model이 training을 위한 reasoning이 풍부한 QA task와 CoT rationales를 자체 생성하도록 안내함으로써 compositional reasoning 능력을 향상시키는 새로운 그래프 기반 self-training 방법인 STEP을 소개합니다.
STEP은 model-agnostic하여 다양한 Video-LLM architectures에 쉽게 적용할 수 있으며, 최소한의 수작업으로 작동하도록 설계되어 대규모의 레이블 없는 원본 비디오를 training에 효과적으로 활용합니다.
더 작은 dataset 크기로, STEP은 복잡한 compositional reasoning datasets뿐만 아니라 표준 VQA, 포괄적 및 긴 video understanding 벤치마크에서도 향상된 performance를 보여주어 우리 접근 방식의 효과와 큰 잠재력을 강조합니다.

Introduction 정리노트 (for AI Researchers)

1. 문제 제기 (Problem Statement)

현상: 현재 Video-LLM들은 Video Captioning이나 일반적인 Q&A 같은 전체적인(global) 비디오 이해 task에서는 우수한 performance를 보임.
핵심 문제: 하지만 여러 단계의 시공간적 추론(multi-step spatio-temporal reasoning)이 요구되는 compositional reasoning task에서는 performance가 크게 저하됨. 이는 객체의 속성, 관계, 동적인 상호작용 등을 복합적으로 이해하는 능력의 부재를 의미함.

2. 기존 연구의 한계점 (Limitations of Prior Work)

이 논문은 compositional reasoning 능력 향상을 저해하는 요인을 3가지로 명확히 정의함.

Data의 한계 (Manual Labor & Generalization): CLEVRER, NExT-QA 같은 compositional datasets은 존재하지만, 수작업(human-annotated)으로 제작되어 비용이 높고 규모 확장이 어려움. 또한, 특정 dataset에만 의존하는 방식은 새로운 시나리오에 대한 일반화(generalize) 성능이 떨어짐.
Representation 및 생성의 한계 (Spatio-temporal Compositionality):
- 기존 방법들은 제한된 clip-level descriptors로 video semantics를 추출하여 시공간적 상호작용의 풍부함을 담지 못함.
- LLM prompting으로 data를 자동 생성하는 경우, 복잡한 문제를 분해하고 multi-step reasoning을 학습하기에는 너무 단순한 질문들만 생성되는 경향이 있음.
학습 방식의 한계 (Absence of Explicit Supervision):
- 현재의 black-box training 방식은 최종 output과 ground truth 간의 loss만 계산함.
- 이로 인해 model은 정답에 이르는 중간 reasoning 과정(rationales)을 학습하는 대신, spurious correlations에 의존하게 됨. 즉, '왜' 그렇게 생각했는지에 대한 명시적인 감독(supervision)이 부재함.

3. 제안 방법론: STEP (Graph-guided Self-training)

이 논문은 위 한계들을 극복하기 위해 STEP이라는 새로운 graph-guided self-training framework를 제안함.

핵심 아이디어: Model이 레이블 없는 원본 비디오(raw videos)로부터 reasoning이 풍부한 fine-tuning data를 스스로 생성(self-generate)하여 자체 성능을 향상시킴.
작동 방식:
1. Spatio-Temporal Scene Graph (STSG) 생성: 비디오로부터 시공간적 관계와 의미를 구조화한 그래프 representation을 자동으로 생성함. 이는 비디오 내의 세분화된(fine-grained) 디테일을 포착하는 역할을 함.
2. Graph 기반 QA 및 Rationale 생성: 생성된 STSG를 기반으로 복잡한 multi-step reasoning 경로를 샘플링하여, Question-Answer (QA) 쌍과 단계별 Chain-of-Thought (CoT) rationales를 함께 생성함.
핵심적인 학습 기법: 최종 정답(answer)뿐만 아니라, 정답에 이르는 과정인 rationales까지 training objective에 포함시켜 model이 reasoning 과정을 명시적으로 학습하도록 함.

4. 기대 효과 및 기여 (Contributions)

성능 향상: 3단계 이상의 reasoning이 필요한 task에서 21.3%의 상당한 성능 향상을 보임.
효율성: 사람이 만든 datasets보다 훨씬 적은 양의 자체 생성 데이터로 더 높은 performance를 달성함.
주요 기여:
1. STSG를 활용해 reasoning-rich QA와 CoT rationales를 자체 생성하여 compositional reasoning을 강화하는 self-training 방법론 STEP을 제안.
2. STEP은 model-agnostic하여 다양한 Video-LLM architecture에 쉽게 적용 가능하며, 대규모의 레이블 없는 비디오를 활용할 수 있음.
3. 복잡한 compositional reasoning datasets 뿐만 아니라 표준적인 VQA 및 비디오 이해 벤치마크에서도 효과를 입증함.

쉬운 설명 :

현재 비디오를 이해하는 AI들은 영화를 보고 "슈퍼맨이 도시를 구하는 내용이야"처럼 한 줄 요약은 잘하지만, "악당은 왜 빨간 보석보다 파란 보석을 먼저 훔쳤을까?"와 같이 여러 사건의 인과관계를 따져야 하는 복잡한 질문에는 답을 잘 못 합니다.

이 문제를 해결하기 어려운 이유는 크게 세 가지입니다. 첫째, 이런 복잡한 질문과 답이 포함된 학습자료(datasets)를 사람이 일일이 만드는 건 너무 비싸고 힘듭니다. 둘째, AI가 비디오를 볼 때 장면의 세세한 관계나 시간 순서에 따른 변화를 깊이 있게 파악하지 못합니다. 셋째, 기존의 AI 학습법은 정답만 알려주고 '왜 그게 정답인지' 생각하는 과정은 가르치지 않습니다. 그냥 정답을 맞혔는지 틀렸는지만 알려주는 black-box 방식이라 AI가 엉뚱한 이유를 근거로 답을 맞히는 경우가 많습니다.

이 논문은 'STEP'이라는 새로운 AI 학습법을 제안합니다. 이 방법은 AI가 스스로 똑똑해지도록 가르칩니다.

사건 관계도 그리기 (STSG 생성): 먼저 AI가 아무 비디오나 보고, 영상 속에서 '누가, 언제, 어디서, 무엇을, 어떻게 했는지'와 같은 모든 사건과 인물, 사물의 관계를 담은 상세한 '사건 관계도(Graph)'를 스스로 그립니다.
스스로 문제 내고 풀기 (QA 및 Rationale 생성): 그 다음, 이 관계도를 보면서 AI는 스스로에게 "악당이 파란 보석을 먼저 훔친 이유는 무엇일까?"와 같은 복잡한 질문을 던집니다. 여기서 가장 중요한 점은, AI가 질문을 만들면서 "1. 파란 보석은 보안 시스템을 끄는 열쇠였다. 2. 빨간 보석은 그 보안 시스템에 의해 보호받고 있었다. 3. 따라서 악당은 빨간 보석을 훔치기 위해 파란 보석을 먼저 훔쳐야만 했다." 와 같이 정답에 도달하는 논리적인 생각의 과정(Chain-of-Thought rationales)까지 스스로 만들어 낸다는 것입니다.

결론적으로, 이 AI는 정답과 함께 '생각하는 과정'까지 통째로 학습합니다. 이렇게 하니 최종 정답만 보고 배울 때보다 훨씬 더 깊이 있게 reasoning 하는 능력이 길러져서, 복잡하고 여러 단계의 추론이 필요한 질문에 훨씬 더 정확하게 답할 수 있게 되었습니다.

2. Related Work

Video Large Language Models (Video-LLMs)

Large Language Models (LLMs)의 주목할 만한 성공에 이어, 많은 연구들이 LLM의 reasoning 및 상호작용 기술과 비디오 인식을 결합하는 것을 목표로 LLM을 비디오 modality에 적용해왔습니다. 이러한 방법들은 projection layers를 통해 visual features를 LLM의 feature space에 정렬하여 video captioning 및 QA와 같은 task를 가능하게 합니다. 그러나 현재의 Video-LLM들은 비디오의 인지적 표면에 머물러 있으며, fine-grained 시공간적 이해와 compositional reasoning 능력이 부족합니다.

주목할 만한 노력인 Video-of-Thought (VoT)는 pixel-level의 시공간적 이해를 위해 STSG representations를 model input에 통합하고, 단계별 task 분해를 위해 CoT prompts를 적용합니다. 그러나 이는 STSG encoder를 위한 전문적인 training이 필요하여 computational overhead를 추가하며, 특정 task를 위해 맞춤형 CoT prompts에 의존하여 generalization과 scalability를 제한합니다. 반면, 우리의 접근 방식은 다양한 Video-LLM architectures에 걸쳐 적용하기에 더 다재다능합니다. STSG representation을 encode하기 위한 추가적인 modules이 필요 없으며, 대신 STSG의 풍부한 의미를 fine-grained QA와 reasoning이 풍부한 rationales로 추출하여 다양한 reasoning task에 대한 적응성을 향상시킵니다.

Visual Instruction Tuning and Self-Training

수많은 연구들이 Video-LLM의 performance를 향상시키기 위해 visual instruction tuning의 중요성을 입증했습니다. 그러나 수동 주석 작업의 높은 비용과 비효율성은 compositional reasoning을 위한 대규모 data 수집을 방해합니다. 결과적으로, LLM이 training data를 자율적으로 generate하는 self-training 방법들이 확장 가능한 instruction tuning을 위해 주목받고 있습니다.

최초의 video self-training 접근 방식인 Video-STAR는 이 방법의 실현 가능성을 보여주었습니다. 그러나 이 방법은 레이블이 있는 메타데이터에 의존하여 사용 가능한 datasets의 범위를 제한하고, training data 생성을 위해 단순한 prompts를 사용하여 복잡한 reasoning task를 위한 training data의 품질이 낮아지는 결과를 낳습니다. 반면, 우리의 방법은 수동 주석이 필요 없으며 가공되지 않은 원본 비디오를 직접 처리할 수 있습니다. STSG representation을 활용함으로써, 이 방법은 fine-grained 시공간적 세부 사항을 포착하여 compositional reasoning을 향상시키는 동시에, 더 reasoning이 풍부한 training data를 제공합니다.

Related Work 정리노트 (for AI Researchers)

1. Video-LLMs 분야에서의 포지셔닝

현황: 기존 Video-LLM들은 LLM을 비디오 modality에 적용하기 위해 projection layer를 통해 visual features와 language feature space를 정렬하는 방식을 주로 사용함. 이는 captioning이나 간단한 QA에 유효함.
문제점: 이러한 접근은 fine-grained한 시공간적 이해나 compositional reasoning 능력이 부족함.
주요 연구 (VoT)와의 비교:
- VoT (Video-of-Thought): STSG representation을 model input으로 직접 활용하여 pixel-level 이해를 꾀하고, CoT prompts를 사용해 task를 분해함.
- VoT의 한계: STSG를 encode하기 위한 별도의 encoder가 필요해 computational overhead가 발생하고, task에 맞는 CoT prompts를 제작해야 하므로 generalization과 scalability가 떨어짐.
- 본 논문(STEP)의 차별점: STSG representation을 encode하기 위한 추가 module이 필요 없음. 대신, STSG에 담긴 풍부한 의미를 fine-grained QA와 reasoning-rich rationales로 '추출(distill)'하여 training data로 활용함. 이로 인해 특정 architecture에 종속되지 않고 다양한 reasoning task에 대한 적응성이 높음.

2. Visual Instruction Tuning & Self-Training 분야에서의 포지셔닝

현황: Visual instruction tuning은 performance 향상에 중요하지만, compositional reasoning을 위한 데이터는 수동 제작 비용이 매우 높음. 이 때문에 LLM이 스스로 training data를 생성하는 self-training이 대두됨.
주요 연구 (Video-STAR)와의 비교:
- Video-STAR: 최초의 video self-training 방법론으로 가능성을 보여줌.
- Video-STAR의 한계: 레이블된 메타데이터에 의존하여 사용할 수 있는 datasets가 한정적이며, 단순한 prompts를 사용해 training data를 생성하므로 복잡한 reasoning을 학습시키기에는 데이터 품질이 낮음.
- 본 논문(STEP)의 차별점: 수동 주석이나 메타데이터가 전혀 필요 없으며, 가공되지 않은 원본 비디오(raw, untrimmed videos)를 직접 처리할 수 있음. STSG representation을 활용해 fine-grained한 시공간적 디테일을 포착하여, 훨씬 더 reasoning이 풍부하고 질 높은 training data를 생성함.

쉬운 설명 :

이 논문이 다른 AI 연구들과 어떻게 다른지 설명해 드릴게요. 기존의 비디오 AI 연구는 크게 두 가지 흐름이 있었습니다.

첫 번째 흐름: "AI에게 비디오에 대한 참고서를 주는 방식" (Video-LLMs) 어떤 연구(VoT)는 AI가 비디오를 더 잘 이해하도록, 비디오 내용에 대한 상세한 '사건 관계도(STSG)'를 참고서처럼 만들어 AI에게 함께 보여주는 방식을 썼습니다. 이건 분명 도움이 되지만, AI가 이 참고서를 읽는 법(encoder)을 따로 배워야 해서 학습이 복잡해지고, 문제 유형마다 선생님이 참고서 보는 법(prompts)을 다르게 알려줘야 해서 유연성이 떨어지는 단점이 있었습니다.

하지만 우리 AI(STEP)는 다릅니다. 우리는 AI에게 사건 관계도를 통째로 줘서 읽게 하는 대신, 그 관계도를 '핵심 요약 노트'와 '예상 문제 + 모범 답안(QA + rationales)'으로 만들어 학습시킵니다. AI는 이 자료로 혼자 공부하기 때문에, 별도의 과외 없이도 어떤 종류의 문제에도 더 잘 적응할 수 있습니다.

두 번째 흐름: "AI가 스스로 학습자료를 만드는 방식" (Self-Training) AI 학습에 필요한 자료를 만드는 게 너무 힘드니, "AI가 스스로 학습자료를 만들게 하자"는 연구(Video-STAR)도 있었습니다. 하지만 이 방식은 AI가 이미 누군가 밑줄을 쳐 놓은 교과서(레이블된 메타데이터)만 가지고 학습자료를 만들 수 있었고, 주로 '빈칸 채우기' 같은 단순한 문제들만 만들어서 복잡한 서술형 문제를 푸는 데는 큰 도움이 되지 않았습니다.

하지만 우리 AI(STEP)는 이 점도 다릅니다. 우리는 아무런 표시가 없는 깨끗한 원본 비디오(raw video)를 줘도, AI가 스스로 깊이 있는 '사건 관계도'를 그려냅니다. 그리고 이를 바탕으로 단순한 단답형이 아닌, 여러 단계의 생각을 거쳐야 하는 수준 높은 서술형 문제와 그에 대한 완벽한 단계별 풀이 과정(rationales)까지 만들어냅니다. 이렇게 질 좋은 학습자료로 혼자 공부하니, 다른 AI들보다 훨씬 뛰어난 reasoning 능력을 갖추게 됩니다.

3. Method

최소한의 수작업으로 Video-LLM의 compositional reasoning을 향상시키기 위해, 우리는 Figure 2에 묘사된 바와 같이 Video-LLM이 스스로를 개선하기 위한 reasoning이 풍부한 training data를 효과적으로 generate할 수 있도록 하는 model-agnostic한 graph-guided self-training 방법인 STEP을 소개합니다. 원본 비디오(raw video)가 주어지면, 먼저 복잡한 visual 콘텐츠를 구조화된 STSG representation으로 추상화하기 위해 symbolic structure induction을 수행합니다(Section 3.1). 그런 다음, STSG 상의 reasoning paths로부터 CoT rationales를 가진 QA 쌍을 도출하기 위해 stepwise graph-driven rationale learning 과정을 구현하여, training 중에 명시적인 supervision을 제공합니다(Section 3.2).

3.1. Symbolic Structure Induction

Raw videos는 혼란스럽고, 비구조적이며, 중복된 visual information으로 가득 차 있어 model training에 직접 활용하기 어렵습니다. 이전 연구들에서 구조화된 비디오 representations의 효과를 보여주었지만, 이는 주로 object-level semantics에 집중되어 있고 rule-based 추출에 의해 제약되어 fine-grained 시공간적 세부 사항을 놓쳤습니다. 우리는 한 연구에서 영감을 받아, model이 raw videos를 통일되고, open-vocabulary이며, fine-grained한 STSG로 상징화하도록 유도하는 체계적인 패러다임을 설계합니다. Visual splitting, semantics parsing, dynamic merging, cross-clip bridging이라는 네 가지 정의된 작업은 다중 세분성의 시공간적 세부 사항을 STSG의 nodes와 edges로 효과적으로 포착하고 조직하며, 이는 objects, relations, actions, events를 포함하여 더 구조적이고 포괄적인 reasoning을 가능하게 합니다.

Visual Splitting. 편집되지 않은 raw video가 주어지면, PySceneDetect를 사용하여 장면 전환을 감지하고 이를 별개의 clips로 분할하여 다양한 장면 전환을 포착합니다. 그런 다음, clustering-based extraction 방법을 적용하여 대표적인 keyframes를 얻음으로써, redundant features를 최소화하면서 fine-grained한 key semantics를 유지합니다.

Semantics Parsing. 시간 의 각 keyframe에 대해, 우리는 model이 자동으로 Frame Scene Graph (FSG)를, 즉 $G_t = (O_t, A_t, R_t)$를 생성하도록 안내하기 위해 일련의 목적 중심 parsing instructions를 설계합니다. 더 구체적으로, keyframe의 scene narrative로부터 object nodes의 집합 $O_t = {o_1, o_2, \dots, o_n}$을 유도한 다음, model에게 이를 static 또는 dynamic으로 분류하도록 지시합니다. 각 object 에 대해, 우리는 fine-grained attribute nodes를 추출하기 위한 상세한 설명을 요청하며, 이는 attribute nodes의 집합 $A_t = {a_{i,j} | o_i \in O_t}$에 기여합니다. 이어서, 각 object 쌍 $(o_i, o_j)$에 대해, 그들의 관계적 대응을 포착하기 위해 주어-술어-목적어 삼중항(subject-predicate-object triples)을 구성하여, 관계를 설명하는 $p_{i,j}$가 있는 relation edges $r_{i,j} = (o_i, p_{i,j}, o_j)$를 형성합니다. 이러한 edges는 집합적으로 $R_t = {r_{i,j} | o_i, o_j \in O_t}$를 정의합니다. 잠재적인 hallucinations과 부정확성을 줄이기 위해, 우리는 이중 검증 과정(dual verification process)을 사용합니다: (i) 개의 응답을 sampling하여 node/edge 빈도를 confidence scores로 계산하고 신뢰도가 낮은 것들은 폐기합니다; (ii) model에게 각 node/edge가 비디오에 존재하는지 검증하도록 prompting하여 "아니오"라고 레이블된 것들은 폐기합니다. 이는 신뢰할 수 있는 visual information extraction을 보장합니다.

Dynamic Merging. FSG가 fine-grained visual semantics를 포착하는 반면, 연속된 프레임 간의 짧은 시간 간격은 종종 redundant nodes와 edges를 도입하여 computation과 propagation을 방해합니다. 이를 해결하기 위해, 우리는 프레임 간에 동일한 static object nodes를 통합된 하나의 node로 병합하여, 필수 attributes를 보존하고 연결된 edges를 업데이트하여 공간적 관계를 유지합니다. dynamic nodes의 경우, 우리는 motion relationship을 간결하게 포착하기 위해 motion edges $m_k = (o_{i,t_1}, p_k, o_{i,t_2}; [t_1, t_2])$를 도입합니다. 여기서 $o_{i,t_1}$과 $o_{i,t_2}$는 서로 다른 timestamps에서의 동일한 object 를 나타내고, 는 motion type을 설명하며, $[t_1, t_2]$는 이 motion이 발생하는 temporal interval을 명시합니다. 집합 $M_k = {m_k}$는 model이 시간 경과에 따른 object movements를 포착하고 구별할 수 있게 하여, redundancy를 줄이면서 dynamic interactions의 representation을 향상시킵니다. 결과로 나온 그래프는 Temporal Scene Graph (TSG)라 불리며, static 및 dynamic 요소를 통합하여 object trajectories와 상호작용 분석이 필요한 temporal reasoning tasks를 위한 풍부한 기반을 제공합니다.

Cross-clip Bridging. TSG가 포괄적인 clip 내 공간 및 시간 정보를 제공하지만, clip 간의 관계(cross-clip relations)는 여전히 제대로 표현되지 않습니다. 이를 연결하기 위해, 우리는 clips 간의 object nodes 사이에 reference edges를 도입하여 semantic coherence와 temporal continuity를 보장합니다. clip 의 object 가 clip 의 object 와 일치하는지 결정하기 위해, 우리는 각각의 keyframes를 추출된 labels 및 attributes와 함께 Video-LLM에 입력하고, 명시된 objects가 동일한지 평가하도록 prompting합니다. 이는 model이 장면 전반에 걸쳐 objects를 일관되게 track하는 능력을 향상시켜, long-term temporal reasoning과 continuity를 요구하는 task를 지원합니다. 추가적으로, 우리는 각 clip에 대한 event edges를 얻어 모든 clips에 대한 전체적인 설명과 시각을 제공합니다.

궁극적으로, 우리는 frame level에서 fine-grained visual information을 추출하고, redundant details를 병합하며, dynamic motions를 통합하고, cross-clip relation information을 연결하여 통일된 STSG representation을 만듭니다.

3.2. Stepwise Graph-driven Rationale Learning

유도된 STSGs는 비디오의 시공간적 구조를 represent하며, compositional learning을 위한 풍부한 fine-grained visual details와 dynamic interactions를 제공합니다. 그러나 이러한 graph structures의 복잡한 특성으로 인해, 이를 models의 reasoning mechanisms에 inputs 또는 outputs으로 직접 파악하고 통합하는 것은 비실용적입니다. reasoning tasks가 구조화된 계층적 그래프(structured hierarchical graph)에서 생성될 수 있다는 통찰에서 동기를 얻어, 우리는 nodes와 edges의 visual semantics를 구조화된 compositional question-answer로 구성하기 위한 multi-step reasoning path sampling 방법을 제안하며, 동시에 graph-inferable answers에 대한 명시적인 reasoning process를 반영하는 step-to-step CoT rationales를 생성합니다. 마지막으로, 우리는 answers와 그에 해당하는 rationales가 모두 training objective에 통합되는 explicit rationales supervision을 구현하여, model의 compositional reasoning을 향상시킵니다.

Multi-step Reasoning Path Sampling. STSG의 각 node가 비디오의 visual semantic을 represent한다는 점을 고려할 때, 연결된 어떤 두 node 쌍이라도 single-step visual question을 형성할 수 있습니다. 복잡한 multi-step reasoning tasks의 구성을 용이하게 하기 위해, 우리는 그래프 전반에 걸쳐 여러 nodes와 edges를 통과하는 다양한 reasoning paths를 샘플링합니다. reasoning steps의 수에 해당하는 각 경로의 길이는 task 복잡도를 정밀하게 제어할 수 있게 하여, 간단한 queries와 고급 multi-step reasoning 과제의 균형 잡힌 통합을 가능하게 합니다.

주어진 시공간적 장면 그래프 와 명시된 reasoning steps의 수 $N \in \mathbb{Z}^+$에 대해, 우리는 번의 반복을 통해 확장하며 reasoning path 를 반복적으로 샘플링합니다.

Initialization: 빈 경로 에서 시작하고 두 집합, 즉 question set 와 answer set 를 초기화합니다. 의 nodes는 현재 질문의 구성 요소에 해당하며, 확장이 아직 열려 있는 reasoning 부분을 나타냅니다. 반면, 의 nodes는 이미 이전 하위 질문의 답변으로 통합되어 더 이상 확장할 수 없습니다. 2) N-step Expansion: 먼저 에서 연결된 한 쌍의 nodes를 무작위로 선택하여, 하나는 에 다른 하나는 에 넣어 초기 질문과 답변을 생성합니다. 이후 각 반복에서, 에서 node 하나를 무작위로 선택하고 그에 연결된 nodes를 확장하여, 질문을 점진적으로 더 복잡한 형태로 변형하고 reasoning path에 한 단계를 더 추가합니다. 확장된 node는 그 다음 로 이동하여 완전히 확장되었음을 나타냅니다. 이 과정은 에서 더 이상 확장할 수 있는 node가 없을 때까지, 또는 최대 reasoning steps 수 에 도달할 때까지 계속됩니다. 3) Temporal Contextualization: temporal 측면을 통합하기 위해, 우리는 event edge를 선택하고 질문에 시간 범위를 적용하여 질문을 특정 temporal context에 기반을 두게 합니다.

이 과정에서, 각 node expansion은 새로운 하위 질문의 추가에 해당하며, 이는 multi-step inference process 내의 개별적인 reasoning step을 나타냅니다. 각 expansion마다, 우리는 해당 하위 질문과 답변을 기록하여 점차 더 풍부하고 상세한 CoT rationale을 구축합니다. 최종적으로, 우리는 답변이 있는 복잡한 multi-step question뿐만 아니라, 이 답변이 일련의 reasoning steps를 통해 어떻게 도출되었는지를 개괄하는 명시적인 CoT rationale도 얻게 됩니다. 그런 다음, 우리는 Video-LLM 내의 language model을 활용하여 QA types를 다양화하고, rationales의 logical flow를 향상시켜(자세한 내용은 Appendix A.2 참조), task가 templates에 제약받지 않고 더 다양하고 적응성 있게 만듭니다.

Explicit Rationales Supervision. 전통적인 black-box training에 내재된, model의 중간 reasoning steps에 대한 명시적인 supervision 부족 문제를 해결하기 위해, 우리는 생성된 rationales를 training 과정에 통합합니다. 이러한 rationales는 단순히 보조적인 inputs이 아니라, 각 단계에서 model의 reasoning에 대한 투명성을 제공함으로써 중요한 역할을 합니다. rationales를 고립된 구성 요소로 취급하는 대신, 우리는 학습 과정을 multi-task problem으로 구성하여, answers와 그에 해당하는 rationales가 model의 reasoning ability를 향상시키기 위해 공동으로 학습되도록 합니다. 즉, 와 $f(x, q, i_r) \rightarrow \hat{r}$는 다음으로 trained 됩니다:

$$L_{\text{rationale}} = \frac{1}{N} \sum_{k=1}^{N} l(f(x_k, q_k, i_{r_k}), \hat{r}_k) \quad (2)$$여기서 $\hat{a}$는 비디오 $x$의 compositional question $q$에 대한 answer를 나타내고, $\hat{r}$는 해당하는 CoT rationales를 represent합니다. $i_a$와 $i_r$는 각각 answer와 rationale generation을 위한 별개의 instructions입니다. 이 공식은 model이 reasoning process를 내재화하면서 task answers를 predict할 수 있게 합니다. loss function은 다음과 같이 정의됩니다:$$L = L_{\text{answer}} + \lambda L_{\text{rationale}} \quad (3)$$

우리는 answer prediction과 rationale generation에 동등한 우선순위를 보장하기 위해 를 1로 설정합니다. 우리 접근 방식의 이러한 균형은 정확한 predictions를 생성할 뿐만 아니라 일관성 있고 논리적인 rationales를 명확히 설명하는 데 능숙한 model을 육성하려는 우리의 헌신을 강조합니다.

Method 정리노트 (for AI Researchers)

이 논문의 방법론(Method)은 두 가지 핵심 단계로 구성됩니다: (1) 비디오를 구조화된 그래프(STSG)로 변환하고, (2) 이 그래프를 기반으로 Reasoning 훈련 데이터를 자동 생성하여 모델을 학습시키는 것입니다.

3.1. Symbolic Structure Induction (STSG 생성)

목표: 비정형적인 raw video를 compositional reasoning의 기반이 되는 통일되고(unified), open-vocabulary이며, fine-grained한 STSG representation으로 변환.

핵심 프로세스 (4단계):
1. Visual Splitting: 비디오를 장면 단위의 clips로 나누고, 각 clip에서 중복을 최소화한 대표 keyframes를 추출. (전처리 단계)
2. Semantics Parsing: 각 keyframe에서 Frame Scene Graph (FSG)를 생성.
  - LLM을 prompting하여 object nodes, attribute nodes, relation edges (주어-술어-목적어 형태)를 추출.
  - 품질 보증: LLM의 hallucination을 줄이기 위해 이중 검증(dual verification process) 수행.
    - (i) 여러 응답을 sampling하여 빈도 기반 confidence score로 필터링.
    - (ii) LLM 스스로 추출한 node/edge가 비디오에 실제로 존재하는지 재확인.
3. Dynamic Merging: 프레임 단위의 FSG들을 Temporal Scene Graph (TSG)로 통합.
  - 프레임 간 동일한 static object는 단일 node로 병합하여 redundancy 제거.
  - dynamic object의 움직임은 motion edges를 도입하여 시간의 흐름에 따른 상태 변화를 명시적으로 represent.
4. Cross-clip Bridging: 여러 clips에 걸쳐 있는 TSG들을 연결.
  - Video-LLM을 활용해 서로 다른 clip에 등장하는 object의 동일성을 판단하고, 이를 reference edges로 연결. 이를 통해 long-term temporal reasoning의 기반을 마련.
  - 각 clip의 내용을 요약하는 event edges를 추가하여 계층적 이해를 도움.
결과물: 비디오의 시공간적 정보(객체, 속성, 관계, 행동, 이벤트)가 계층적으로 구조화된 단일 STSG.

3.2. Stepwise Graph-driven Rationale Learning (데이터 생성 및 학습)

목표: 생성된 STSG가 너무 복잡하여 model의 input으로 직접 사용하기 어려우므로, 이를 '청사진'으로 활용하여 reasoning이 풍부한 QA 데이터와 CoT rationales를 생성하고, 이를 통해 model을 학습시킴.

핵심 프로세스:
1. Multi-step Reasoning Path Sampling:
  - STSG 내에서 여러 nodes와 edges를 통과하는 경로(path)를 reasoning 문제로 간주. 경로의 길이가 곧 reasoning의 복잡도(step 수)가 됨.
  - Question set (Q)과 Answer set (A)을 이용하여 경로를 반복적으로 확장하며, 각 확장 단계가 하나의 sub-question과 answer가 되어 자연스럽게 step-by-step CoT rationale을 구성함.
  - 생성된 QA와 rationale은 LLM을 통해 자연스럽게 다듬어져(diversify) template의 한계를 벗어남.
2. Explicit Rationales Supervision:
  - 기존 black-box training의 한계(중간 추론 과정 감독 부재)를 극복하기 위한 핵심 학습 전략.
  - 학습을 **multi-task problem**으로 정의: model이 최종 answer와 reasoning 과정인 CoT rationale을 모두 예측하도록 훈련함.
  - Loss Function: (로 설정)
  - answer 예측과 rationale 생성에 동일한 가중치를 부여함으로써, model이 정답만 맞히는 것이 아니라 논리적인 reasoning process 자체를 내재화하도록 강제함.

쉬운 설명 :

AI가 복잡한 영상(예: 영화)을 보고 어려운 질문에 답하게 만드는 방법을 두 단계로 설명해 드릴게요.

1단계: AI가 영상 내용을 '마인드맵'으로 정리하기

AI는 먼저 뒤죽박죽인 영상 정보를 사람이 이해하기 쉬운 거대한 '마인드맵(STSG)'으로 정리합니다.

장면 나누기: 영화를 여러 개의 주요 장면(clips)으로 자르고, 각 장면에서 가장 중요한 순간들(keyframes)만 사진처럼 뽑아냅니다.
사진 속 정보 분석하기: 각 사진마다 "누가 있는지, 무엇을 입었는지, 서로 어떤 관계인지" 등을 아주 상세하게 기록합니다. 이때 AI가 헛것을 보거나 잘못된 정보를 기록하지 않도록, 스스로 여러 번 확인하고 검증하는 절차를 거칩니다.
시간 순서로 연결하기: 여러 사진을 시간 순으로 보면서, 움직이지 않는 사물(예: 탁자)은 하나로 합치고, 움직이는 사람에게는 "A가 B로 걸어갔다"처럼 화살표(motion edges)를 그려 넣어 시간의 흐름에 따른 변화를 기록합니다.
전체 이야기 잇기: 마지막으로, 1번 장면과 10번 장면에 같은 사람이 나오면 "이 둘은 같은 인물이다"라고 선을 그어 연결해 줍니다. 이렇게 해서 영화 전체의 인물과 사건 관계를 담은 완벽한 마인드맵 하나가 완성됩니다.

2단계: AI가 직접 '문제집'을 만들어 스스로 공부하기

완성된 마인드맵은 너무 복잡해서 통째로 외우기 힘듭니다. 그래서 AI는 이 마인드맵을 가지고 스스로 공부할 '문제집'을 만듭니다.

문제와 풀이 과정 만들기: AI는 마인드맵에서 "인물 A → 열쇠를 집음 → 문을 엶" 같은 경로를 하나 무작위로 고릅니다. 그리고 이것을 문제와 풀이 과정으로 만듭니다.
- 문제: "인물 A는 문을 어떻게 했나요?"
- 정답: "열었습니다."
- 단계별 풀이 과정(CoT rationale): "1. 인물 A가 열쇠를 집었습니다. 2. 그 열쇠를 사용해 문을 열었습니다."
정답과 '풀이 과정'을 함께 채점하기: AI가 이 문제집으로 공부할 때, 우리는 AI에게 두 가지를 모두 잘해야 한다고 가르칩니다. 바로 정답을 맞히는 것과 풀이 과정을 논리적으로 설명하는 것입니다. 이렇게 '왜 그게 정답인지' 생각하는 과정 자체를 학습(Explicit Rationales Supervision)시키면, AI는 단순히 정답을 암기하는 게 아니라, 진짜로 생각하고 추론하는 능력을 기를 수 있게 됩니다.

'논문리뷰' 카테고리의 다른 글

VLM : 논문리뷰 : Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning (1)	2025.08.27
VLM : 논문리뷰 : InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency (3)	2025.08.27
Brain : 논문 리뷰 : The Algonauts Project 2025 Challenge: How the Human Brain Makes Sense of Multimodal Movies (2)	2025.08.22
VLM : 논문리뷰 : VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning (7)	2025.08.11
VLM : 빠른논문리뷰 : Enhancing Long Video Question Answering with Scene-Localized Frame Grouping (5)	2025.08.08

'논문리뷰' Related Articles

AI바라기의 인공지능

VLM : 논문 리뷰 : STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training 본문

VLM : 논문 리뷰 : STEP: Enhancing Video-LLMs’ Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training

쉬운 설명 (Simple Explanation)

용어 설명 (Glossary)

Purpose of the Paper

Key Contributions & Novelty

Key Contributions

Novelty

Experimental Highlights

Limitations and Future Work

Overall Summary

Abstract

1. Introduction

Introduction 정리노트 (for AI Researchers)

1. 문제 제기 (Problem Statement)

2. 기존 연구의 한계점 (Limitations of Prior Work)

3. 제안 방법론: STEP (Graph-guided Self-training)

4. 기대 효과 및 기여 (Contributions)

쉬운 설명 :

2. Related Work

Video Large Language Models (Video-LLMs)

Visual Instruction Tuning and Self-Training

Related Work 정리노트 (for AI Researchers)

1. Video-LLMs 분야에서의 포지셔닝

2. Visual Instruction Tuning & Self-Training 분야에서의 포지셔닝

쉬운 설명 :

3. Method

3.1. Symbolic Structure Induction

3.2. Stepwise Graph-driven Rationale Learning

Method 정리노트 (for AI Researchers)

3.1. Symbolic Structure Induction (STSG 생성)

3.2. Stepwise Graph-driven Rationale Learning (데이터 생성 및 학습)

쉬운 설명 :

1단계: AI가 영상 내용을 '마인드맵'으로 정리하기

2단계: AI가 직접 '문제집'을 만들어 스스로 공부하기

'논문리뷰' 카테고리의 다른 글

티스토리툴바