AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : Bridging Vision Language Models and Symbolic Grounding for Video Question Answering 본문
VLM : 빠른 논문 리뷰 : Bridging Vision Language Models and Symbolic Grounding for Video Question Answering
AI바라기 2025. 9. 18. 10:48쉬운 설명 (Easy Explanation)
이 논문의 핵심 아이디어는 VLM에게 비디오를 보여주고 "이 영상에서 무슨 일이 일어나고 있니?" 라고 물었을 때, 그냥 정답을 바로 말하게 하는 대신 중간에 요점 정리 노트를 만들게 하는 것과 비슷합니다. 여기서 '요점 정리 노트'가 바로 Scene Graph에 해당합니다.
예를 들어, "주황색 고양이가 다른 고양이가 밥 먹는 것을 왜 보고 있나요?" 라는 질문에 대해, VLM은 다음과 같은 노트를 먼저 만듭니다:
- [Frame 10] (주황색 고양이) - [보고 있다] -> (얼룩 고양이)
- [Frame 10] (얼룩 고양이) - [먹고 있다] -> (음식)
그 후, VLM은 이 구조화된 노트를 참고하여 "자신의 차례를 기다리고 있다"는 더 정확하고 논리적인 답변을 생성합니다. 즉, VLM의 두뇌(holistic reasoning)와 잘 정리된 노트(symbolic grounding)를 함께 사용하여 더 똑똑하게 문제를 푸는 방식이라고 볼 수 있습니다.
용어 설명 (Terminology)
- VLM (Vision Language Model): 이미지나 영상 같은 visual data와 text를 함께 이해하고 처리하는 model.
- Symbolic Grounding: 추상적인 symbol (예: 단어 'cat')을 실제 세계의 구체적인 대상 (예: 영상 속 고양이)과 연결하는 과정.
- SG (Scene Graph): 이미지나 영상 속 객체(object)들을 node로, 객체 간의 관계(relation)를 edge로 표현한 그래프. "A cat sits on a chair"를 (cat) - [sits on] -> (chair) 와 같이 구조화하여 표현.
- SG-VLM: 이 논문에서 제안하는 framework. Frozen VLM을 활용해 Scene Graph를 생성하고, 이를 다시 VLM의 입력으로 사용하여 Video Question Answering을 수행하는 modular framework.
- VideoQA (Video Question Answering): 영상(video)과 관련된 질문(question)이 주어졌을 때, 영상의 내용을 이해하고 정답(answer)을 찾는 task.
- Frozen VLM: Pre-trained 된 VLM의 parameter를 update(fine-tuning)하지 않고 그대로 사용하는 방식.
Purpose of the Paper
- 기존의 강력한 VLM들이 VideoQA task에서 높은 성능을 보이지만, 종종 'shallow correlation' (얕은 상관관계)에 의존하여 정답을 맞추는 한계를 지적.
- 특히, 복잡한 영상에서 VLM이 temporal(시간적) 또는 causal(인과적) 관계를 제대로 파악하지 못하고, hallucination(환각)을 일으키는 문제를 해결하고자 함.
- 이러한 한계를 극복하기 위해, VLM의 holistic reasoning 능력과 Symbolic Scene Graph의 구조화된 object-relation 표현 능력을 결합하는 hybrid 접근 방식을 제안. 즉, VLM이 '왜' 그리고 '어떻게' 정답을 찾았는지 해석 가능한 중간 grounding signal(Scene Graph)을 제공하여 reasoning 과정을 보완하는 것이 핵심 목표.
Key Contributions & Novelty
- Contribution 1: VLM을 활용한 Symbolic Grounding Framework 제안
- 별도의 pre-trained 된 Scene Graph 생성 model 없이, 'frozen' VLM 자체를 prompting하여 video로부터 Scene Graph를 직접 생성하는 model-agnostic하고 lightweight한 SG-VLM framework를 제안.
- Novelty: 기존 연구들이 별도의 무거운 model을 학습시켜 Scene Graph를 생성했던 것과 달리, VLM의 내재된 능력을 활용하여 추가 training 없이 Scene Graph를 생성. 이는 다양한 VLM backbone에 쉽게 적용 가능한 유연성을 제공.
- Contribution 2: 체계적인 Scene Graph 통합 방법론 연구
- 생성된 Scene Graph를 VideoQA에 통합하기 위한 4가지 전략(Full SGs, question-based selection, temporal extension, SG summaries)을 공식화하고 실험적으로 비교 분석.
- Novelty: 단순히 Scene Graph를 사용하는 것을 넘어, 어떤 Scene Graph 정보가 VQA에 더 유용한지 체계적으로 분석하고, 'question-aware selection'이 가장 효과적임을 실험적으로 증명.
- Contribution 3: 광범위한 실험을 통한 Symbolic Grounding의 가능성과 한계 동시 규명
- 3개의 주요 VideoQA benchmark(NExT-QA, iVQA, ActivityNet-QA)와 2개의 강력한 VLM backbone(QwenVL, InternVL)을 통해 제안된 방법론을 체계적으로 평가.
- Novelty: Symbolic Grounding이 VLM의 causal 및 temporal reasoning 능력을 향상시키는 'promise'(가능성)와, 강력한 VLM baseline 대비 이득이 제한적인 'current limitations'(현재의 한계)를 동시에 명확하게 보여줌.
Experimental Highlights
- Datasets: Temporal/Causal reasoning에 초점을 맞춘 NExT-QA, human-object interaction을 다루는 iVQA, 그리고 long-video reasoning이 필요한 ActivityNet-QA를 사용하여 다양한 측면에서 모델을 평가.
- Key Finding 1: SG-VLM의 성능 향상
- SG-VLM은 모든 benchmark에서 기존 baseline들을 능가. 특히 InternVL-14B backbone과 결합했을 때, NExT-QA에서 83.6%, iVQA에서 76.9%, ActivityNet-QA에서 52.7%의 성능을 달성하며 강력한 성능을 입증.
- 이는 Symbolic Grounding이 VLM의 reasoning을 보완하여 성능을 향상시킬 수 있음을 시사.
- Key Finding 2: Question-Aware Selection의 중요성
- Ablation study 결과, 모든 Scene Graph를 사용하는 것(Full-SG)보다 질문과 관련된 frame의 Scene Graph만 선택적으로 사용하는 것(FrameSel-SG)이 모든 dataset과 backbone에서 일관되게 더 높은 성능을 보임.
- 이는 불필요한 정보(noise)를 제거하고 질문의 핵심에 집중하는 것이 Symbolic Grounding의 효과를 극대화하는 데 결정적임을 보여줌.
- Key Finding 3: Dataset에 따른 Symbolic Grounding 효과 차이
- 단계별(step-by-step) human-object interaction reasoning이 중요한 iVQA dataset에서 SG-VLM은 VLM-only baseline 대비 가장 뚜렷한 성능 향상을 보임.
- 반면, 영상이 길고 복잡한 ActivityNet-QA나 이미 VLM이 잘하는 NExT-QA에서는 Symbolic Grounding의 이득이 상대적으로 제한적이거나, 오히려 성능이 하락하는 경우도 관찰됨. 이는 SG 추출의 부정확성이 VLM의 reasoning을 방해할 수 있음을 의미.
Limitations and Future Work
- Limitation 1: Noisy Relation Extraction
- 현재 VLM을 통해 추출된 Scene Graph의 관계(relation) 정보는 종종 부정확하거나(noisy) 불완전함. 이로 인해 특히 복잡한 causal question에 대한 reasoning 능력이 제한됨.
- 이는 Symbolic Grounding이 항상 VLM 성능을 향상시키지 못하는 주요 원인으로 작용.
- Limitation 2: Strong VLM Baseline 대비 제한적 성능 향상
- 이미 매우 강력한 성능을 보이는 VLM(e.g., InternVL-14B)에 Symbolic Grounding을 추가했을 때, 얻는 성능 이득이 크지 않음. 때로는 부정확한 Scene Graph 정보가 오히려 VLM의 판단을 방해하여 성능을 저하시키기도 함.
- Future Work:
- Robust Relation Extraction: 더 정확하고 신뢰도 높은 action 및 relation 추출 기술을 개발하여 Scene Graph의 quality를 높이는 연구가 필요.
- Adaptive Integration: 언제 Symbolic Grounding이 유용한지를 model이 동적으로 판단하여, 필요할 때만 Scene Graph 정보를 활용하는 adaptive integration 전략을 탐구.
- Long-Horizon & Causal Dependencies: 더 긴 시간의 인과 관계나 복잡한 의존성을 포착할 수 있도록 Symbolic method를 확장하는 연구를 제안.
Overall Summary
이 논문은 VLM이 Video Question Answering task에서 겪는 temporal 및 causal reasoning의 한계를 극복하기 위해, VLM 자체를 활용하여 Symbolic Scene Graph를 생성하고 이를 reasoning에 다시 통합하는 SG-VLM framework를 제안한다. 포괄적인 실험을 통해, 이 접근법이 특히 human-object interaction reasoning에서 VLM의 성능을 보완하고 해석 가능성을 높일 수 있음을 보여주었다. 그러나 동시에, 현재의 Scene Graph 추출 기술의 부정확성이란 한계점과 강력한 VLM 대비 이득이 제한적임을 명확히 하여, 향후 hybrid VLM-symbolic 접근법의 발전 방향을 제시하는 중요한 연구이다.
주인장 이해
- 비디오에서 시각적 변화가 큰 프레임들을 샘플링합니다.
- 샘플링된 각 프레임에 대해, 질문과 관련 있는지 VLM이 먼저 판단합니다.
- 관련 있다고 판단된 프레임에 대해서만 Scene Graph를 생성합니다.
- 최종적으로 (관련된 프레임) + (그 프레임으로 만든 Scene Graph) 를 모두 입력으로 사용해 QA를 수행합니다.
