AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering 본문
VLM : 빠른 논문 리뷰 : Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering
AI바라기 2025. 10. 21. 18:10쉬운 설명 (Easy Explanation)
이 논문의 핵심 아이디어를 탐정이 복잡한 사건을 해결하는 과정에 비유할 수 있습니다.
- 기존 방식 (Black-box Model): 탐정에게 "범인은 저택의 주인이 파티가 끝난 후 처음으로 만진 물건으로 그를 공격했는가?" 라는 복잡한 질문을 던지면, 탐정은 그냥 "네" 라고만 대답합니다. 왜 그렇게 생각하는지, 어떤 단서를 봤는지 전혀 설명해주지 않아 믿기 어렵습니다.
- VA³ 방식:
- Align (증거 확보): 먼저 탐정은 "주인이 파티 후 누군가를 만지는 장면"과 "주인이 물건을 만지는 장면"이 담긴 CCTV 영상 클립들을 정확히 찾아냅니다. 불필요한 영상은 보지 않고 핵심 증거에만 집중합니다.
- Aggregate (단서 종합): 그 다음, "주인이 누군가를 만났나?", "그때 만진 물건은 무엇인가?", "그것이 처음 만진 물건인가?" 와 같은 하위 질문들의 답을 순서대로 연결하며 최종 결론을 내립니다. 모든 작은 질문들의 답이 일관되게 연결되어야만 최종 질문에 "네"라고 확신할 수 있습니다.
이처럼 VA³는 먼저 정확한 증거(video clip)를 확보하고, 작은 질문들(sub-questions)의 답을 논리적으로 조합하여 최종 결론에 도달하기 때문에, 더 신뢰할 수 있고 그 과정을 이해하기 쉽습니다.
용어 설명 (Glossary)
- VideoQA (Video Question-Answering): Video 콘텐츠에 대한 질문에 Text로 답변하는 AI task.
- Compositional Reasoning: 복잡한 질문을 더 작은 단위의 하위 질문들로 분해하고, 각 하위 질문의 답을 조합하여 최종 답을 추론하는 능력.
- VA³ (Video Alignment and Answer Aggregation): 이 논문에서 제안하는 model-agnostic framework의 이름. Video Aligner와 Answer Aggregator 두 개의 module로 구성됨.
- Model-agnostic: 특정 VideoQA model 구조에 종속되지 않고, 다양한 기존 model들에 부착하여 성능을 향상시킬 수 있는 방식.
- QDG (Question Decomposition Graph): 하나의 메인 질문(main question)이 여러 하위 질문(sub-questions)으로 분해될 때, 이 질문들 간의 논리적, 계층적 관계를 나타내는 방향성 비순환 그래프(directed acyclic graph).
- Video Aligner: 질문과 가장 관련 있는 video clip들을 계층적(object, appearance, motion level)으로 찾아내는 module.
- Answer Aggregator: QDG를 따라 각 sub-question들의 답변 정보를 종합하여 main question의 답변을 추론하는 module.
- Compositional Consistency: 복잡한 질문에 대한 답을 맞힐 때, 그 근거가 되는 모든 하위 질문들에 대해서도 일관되게 올바른 답을 내리는 능력. "올바른 이유로 정답을 맞히는 것"을 의미.
- AGQA-Decomp: Compositional reasoning 능력을 평가하기 위해 QDG와 sub-questions를 포함하도록 확장된 AGQA dataset.
- cP (consistency Precision) / cR (consistency Recall) / c-F1: 논문에서 기존 metric (CA, RWR)의 비대칭성 문제를 해결하기 위해 새롭게 제안한 compositional consistency 평가 지표.
Purpose of the Paper
기존 VideoQA model들은 다음과 같은 한계를 가집니다:
- Black-box Nature: 모델이 어떤 reasoning 과정을 통해 답을 도출하는지 이해하기 어려움.
- Inconsistent Compositional Reasoning: 복잡한 질문의 정답은 맞히지만, 그 질문을 구성하는 더 쉬운 sub-questions들은 틀리는 등 추론 과정의 일관성이 부족함.
이 논문은 model-agnostic한 VA³ framework를 제안하여, 기존 VideoQA 모델에 추가적인 module을 부착하는 방식으로 reasoning 과정의 투명성(transparency)과 compositional consistency를 향상시키는 것을 목표로 합니다. 즉, 모델이 단순히 정답을 맞히는 것을 넘어 "올바른 이유로 정답을 맞히도록" 유도하는 새로운 접근 방식을 제시합니다.
Key Contributions & Novelty
Key Contributions
- VA³ Framework 제안: Video Aligner와 Answer Aggregator라는 두 개의 핵심 module로 구성된 model-agnostic framework를 제안하여 기존 VideoQA 모델의 정확도와 compositional consistency를 모두 향상시킴.
- Automatic Question Decomposition Pipeline 구축: LLM을 활용하여 QDG가 없는 일반적인 VideoQA dataset(MSVD, NExT-QA)에도 VA³ framework를 적용할 수 있도록 자동화된 질문 분해 파이프라인을 제안함.
- 새로운 Compositional Consistency Metrics 제안: 기존 metric(CA, RWR)의 비대칭적이고 불안정한 문제를 지적하고, 이를 보완하는 cP, cR, c-F1 score를 새롭게 제안하여 더 균형 잡힌 평가가 가능하게 함.
Novelty
- Two-stage Reasoning Process: 질문에 관련된 video clip을 먼저 명시적으로 찾아내고(Align), 이후 질문들 간의 관계(QDG)를 이용해 답변을 종합(Aggregate)하는 분리된 접근 방식은 기존의 end-to-end black-box model과 차별화됨.
- Hierarchy in Alignment: Video Aligner가 단순히 video 전체를 보는 것이 아니라, object-level, appearance-level, motion-level의 계층적 feature를 활용하여 더 정교한 video-question alignment를 수행함.
- Generality (Model-agnostic & Dataset-agnostic): 제안된 VA³ framework는 특정 모델 아키텍처에 국한되지 않으며, LLM 기반 파이프라인을 통해 QDG가 없는 데이터셋으로까지 확장 가능한 범용성을 가짐.
Experimental Highlights
- Datasets: AGQA-Decomp, MSVD, NExT-QA.
- Baselines: HME (memory-based), HGA (graph-based), HQGA (hierarchy-based) 등 다양한 카테고리의 모델을 사용.
- Key Results on AGQA-Decomp (Table 2):
- 모든 baseline 모델에 VA³ framework를 적용했을 때, main question 정확도가 1.23% ~ 2.71% 향상되었고, sub-question 정확도는 3.16% ~ 3.29% 향상됨.
- 가장 중요한 compositional consistency 지표인 c-F1 score가 2.97% ~ 3.54%까지 크게 향상되어, 모델이 더 일관성 있는 reasoning을 수행하게 되었음을 입증함.
- Generalization Ability Test (Table 3):
- 학습 데이터에 없었던 새로운 유형의 질문(Novel composition)이나 더 복잡한 질문(More composition step)에 대해서도 VA³ framework가 baseline 대비 1.8% 이상의 정확도 및 c-F1 향상을 보이며, 뛰어난 일반화 성능을 입증함.
- Applicability on General Datasets (Table 5):
- Automatic question decomposition pipeline을 사용하여 MSVD와 NExT-QA 데이터셋에 적용했을 때, baseline 모델들의 성능을 MSVD에서 3.23% ~ 4.76%, NExT-QA에서 3.58% ~ 4.51% 향상시켜 제안된 방법론의 실용성과 범용성을 증명함.
Limitations and Future Work
- Limitations: 논문에서 명시적으로 한계점을 서술한 부분은 없으나, 다음과 같은 잠재적 한계를 추론할 수 있습니다.
- VA³ framework는 두 개의 추가 module을 사용하므로 기존 모델 대비 계산 복잡도와 학습 시간이 증가할 수 있음.
- LLM 기반의 automatic question decomposition pipeline의 성능이 LLM 모델 자체의 능력에 크게 의존하며, 분해된 질문의 품질이 전체 성능에 직접적인 영향을 미침.
- Future Work:
- 이 논문에서 제시한 interpretable framework를 기반으로, VideoQA 모델의 신뢰성과 투명성을 더욱 높이는 방향의 연구를 진행할 수 있음.
- 더 복잡하고 다양한 시나리오의 real-world VideoQA 문제에 VA³ framework를 적용하여 그 효과를 검증하는 연구가 가능함.
Overall Summary
이 논문은 기존 VideoQA 모델들이 가진 'black-box' 특성과 'compositional reasoning'의 한계를 해결하기 위해, VA³라는 model-agnostic framework를 제안합니다. 이 framework는 질문과 관련된 영상 부분을 먼저 정확히 찾아내고(Align), 질문들의 논리적 관계를 바탕으로 답을 종합(Aggregate)함으로써, 모델이 더 투명하고 일관된 방식으로 정답을 추론하도록 돕습니다. 실험을 통해 VA³는 다양한 baseline 모델의 정확도를 크게 향상시켰을 뿐만 아니라, "올바른 이유로 정답을 맞히는 능력"인 compositional consistency를 눈에 띄게 개선했음을 보여주었습니다. 이 연구는 향후 더 신뢰할 수 있고 해석 가능한 VideoQA 모델 개발의 중요한 방향을 제시합니다.
1. 질문을 작은 단위의 서브 질문들로 분해함. LLM을 활용하거나 미리 정의된 데이터셋 활용
2. 분해된 질문들 간의 관계를 그래프로 만듬.
3. Question Decomposition Graph를 생성. 먼저 답해야하는 명시적인 관계를 그래프로 표현.
4. 전체 비디오(Video)와 위에서 만든 질문 묶음(QDG)이 Framework에 입력
5. Video Aligner Module이 각각의 질문(main, sub 모두)에 대해 전체 비디오에서 가장 관련 있는 부분(clip)들을 찾아냄.
- 클립 자체는 일정한 간격으로 잘랐다고 나와있음. -
- 모델이 관련성 점수를 계산 클립과 질문에 대해 -
Object-level Interaction -> Appearance-level Interaction -> Motion-level Interaction
이런식으로 진행되어 클립마다 관련성 점수를 계산
6. 각 질문은 자신과 가장 관련이 깊은 **"정렬된 비디오 클립 (aligned video clips)"**과 쌍을 이룸
7. VideoQA 모델이 쌍을 받음. 이 후 결합 특징 벡터 (joint feature vector)를 추출 .
8. 이제 Answer Aggregator Module이 모든 질문에 대한 "결합 특징 벡터" 들과 맨 처음에 만들었던 질문 관계도(QDG)를 함께 입력받음. (QDG는 그래프 형태로 피쳐화)
9. Answer Aggregator는 자기의 인풋을 2차 어텐션을 진행 이웃의 정보 받고 그 이후엔 이웃의 이웃 정보까지 받게됨
10. 그 피쳐를 가지고 MLP를 통과해서 클래시피 케이션을 진행.
"질문을 쪼개고, (쪼개진) 질문마다 클립을 찾아서 문제를 해결하겠다."
