AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking 본문
VLM : 빠른 논문 리뷰 : GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking
AI바라기 2026. 4. 23. 19:27용어 설명
- GraphThinker: 본 논문에서 제안하는 강화학습 기반의 post-training 프레임워크. 비디오 내 이벤트 간의 인과 관계를 명시적으로 모델링하여 video reasoning 과정의 hallucination을 줄이는 방법론.
- EVSG (Event-based Video Scene Graph): 이 논문에서 제안한 새로운 그래프 구조. 비디오를 여러 이벤트 구간으로 나누고, 단일 이벤트 내의 객체 상호작용(intra-event)과 시간순에 따른 이벤트 간의 연결 관계(inter-event)를 모두 명시적으로 담아낸 텍스트 기반 구조체.
- GRPO (Group Relative Policy Optimization): PPO에서 파생된 reinforcement learning 기법으로, 별도의 critic 모델 없이 language model의 policy를 직접 최적화하는 post-training 방식.
- Visual Attention Reward: 모델이 추론을 생성할 때, 텍스트 형태의 EVSG(그래프)에만 의존하지 않고 실제 입력된 비디오 토큰(visual cues)에 더 높은 attention을 부여하도록 유도하는 이 논문 고유의 보상 함수. "Visual thinking drift" 현상을 방지함.
- Visual thinking drift: 모델이 reasoning 과정에서 실제 시각적 증거(video)를 확인하지 않고, 입력된 텍스트 단서나 내부 language prior에만 의존하여 그럴듯한 오답을 만들어내는 현상.
- Temporal Sequence Hallucination (TSH) / Scene Transition Hallucination (STH): 비디오 내 사건의 발생 순서나 장면 전환 과정의 인과관계를 모델이 잘못 파악하여 존재하지 않는 사실을 지어내는 현상.
Purpose of the Paper
- 기존 한계점: 기존 MLLMs는 video reasoning을 위해 dense captions나 video summaries를 활용하지만, 이는 단순히 토큰 간의 암시적 상관관계에 의존할 뿐 명확한 인과관계(causal structure)를 파악하지 못함. 이로 인해 사건의 선후 관계나 인과를 묻는 복잡한 질문에서 극심한 hallucination을 겪음. 기존 SFT나 RL 방식 역시 language prior에 과적합되어 시각적 근거가 결여된 답변을 내놓는 문제가 있음.
- 새로운 접근 방식: 수작업 어노테이션 없이 모델 스스로 비디오의 구조적 인과관계를 파악하게 하는 방식 제안. 이벤트 간의 명시적인 시간적/논리적 관계를 담은 EVSG를 생성하여 reasoning의 중간 사고 과정(intermediate thinking process)으로 활용하고, 시각적 증거를 강제로 참조하게 만드는 새로운 보상 체계를 적용한 RL post-training을 도입함.
Key Contributions
- Self-generate & Self-refine 방식의 EVSG 구축:
- 인간의 개입 없이 MLLM을 활용해 다양한 단위(coarse, middle, fine)의 dense captions를 생성하고, 이를 교차 검증하여 hallucination을 필터링한 뒤 시간축 기반의 이벤트 그래프(EVSG)로 변환하는 파이프라인 제시.
- Novelty: 전체 비디오 단위의 모호한 그래프가 아니라, 타임스탬프 기반으로 정확히 분할된 intra-event와 inter-event 관계를 계층적으로 구조화했다는 점에서 참신함.
- Graph-based GRPO Post-training:
- 구축된 EVSG를 MLLM의 입력으로 제공하여 reasoning 과정을 제한 및 가이드하는 강화학습 구조 설계.
- Novelty: 구조화된 텍스트 그래프를 단순히 프롬프트로 넣는 것에 그치지 않고, RL 최적화 과정에 직접 결합하여 시간적 일관성을 강제함.
- Visual Attention Reward의 도입:
- 전체 보상 함수를 Accuracy, Format, Visual Attention 세 가지로 구성. 특히 생성된 답변 토큰이 텍스트 그래프 토큰보다 비디오 토큰에 더 높은 attention 비중을 두도록 유도.
- Novelty: 텍스트 형태의 EVSG가 너무 완벽할 경우 모델이 정작 비디오 자체를 보지 않는 부작용을 방지하기 위해, 내부 attention matrix를 직접 분석하여 visual grounding을 강제하는 보상 신호를 설계한 점이 독창적임.
Experimental Highlights
- 실험 설정:
- Datasets: RexTime (복잡한 인과관계 및 시간 구간 추정 평가), VidHalluc (Action, Temporal, Scene Transition 단위의 hallucination 평가).
- Baselines: Qwen2.5-VL-7B (기본 모델로 사용), GPT-4o, Gemini-1.5-Pro, VITAL, TimeSearch 등.
- Metrics: mIoU, Accuracy, Accuracy at IoU>=0.5 등.
- 주요 결과:
- State-of-the-art 성능 달성 (RexTime): GraphThinker(7B)는 mIoU 41.46, Accuracy at IoU>=0.5에서 30.75를 기록하여 기존 오픈소스 최고 성능인 TimeSearch(7B)를 능가함. 특히 Accuracy at IoU>=0.5 지표에서는 거대 상용 모델인 GPT-4o (28.67)와 Gemini-1.5-Pro (18.33)의 성능을 압도함.
- Hallucination 대폭 감소 (VidHalluc): Qwen2.5-VL 기본 모델 대비 TSH(시간 순서 오류)에서 8.83%p 향상된 76.33을 기록하며, 모델이 비디오 내 사건의 선후 관계를 훨씬 정확하게 파악함을 증명함.
- Ablation 증명: 단순 EVSG 추가만으로도 정확도가 오르지만, EVSG에 Visual Attention Reward를 결합한 GRPO를 적용했을 때 Accuracy at 0.5 지표가 6.20에서 33.49로 비약적으로 상승하며 제안한 가설을 완벽히 입증함.
Limitations and Future Work
- 한계점 (Limitations):
- Dense captions 생성 시 이벤트 분할 개수(5, 10, 15 등)를 사전에 설정해야 함. 비디오 길이나 복잡도에 따라 최적의 이벤트 수가 다르며, 개수를 너무 적게 잡으면 세부 정보가 누락되고, 너무 많게 잡으면 중복과 hallucination이 발생하는 trade-off가 존재함.
- VidHalluc 벤치마크의 특정 지표에서는 여전히 파라미터 수가 압도적으로 큰 closed-source 모델(GPT-4o, Gemini)에 미치지 못하는 부분적인 한계가 있음.
- 향후 연구 방향 (Future Work):
- 사전에 이벤트 상한선을 지정하는 것이 아니라, 비디오의 내용을 분석하여 동적으로 최적의 이벤트 노드를 생성하고 분할하는 적응형 그래프 구축 방법론으로 발전시켜야 함. 이를 통해 초장기(long-form) 비디오에서의 확장성을 확보할 수 있음.
Overall Summary
기존 비디오 MLLMs는 이벤트 간의 복잡한 인과관계를 파악하지 못해 환각(hallucination) 오류를 빈번하게 발생시키는 치명적인 약점이 있었습니다. 본 논문은 모델 스스로 시간축 기반의 명시적 이벤트 관계도인 EVSG를 생성하게 하고, 모델이 추론 시 텍스트 요약본에만 의존하지 않고 실제 비디오 화면을 적극적으로 참조하도록 강제하는 Visual Attention Reward 기반의 강화학습(GraphThinker)을 제안했습니다. 이 방법은 극소수의 파라미터(7B)만으로도 시간적 인과관계 추론 능력을 극대화하여 거대 상용 모델(GPT-4o 등)을 뛰어넘는 정확도를 달성했으며, 향후 오픈소스 multimodal 모델의 구조적 추론 및 visual grounding 성능을 한 단계 끌어올릴 중요한 이정표를 제시했습니다.
쉬운 설명
이 논문의 아이디어는 **"줄거리 요약본만 읽고 시험 치는 학생의 버릇을 고치는 선생님"**과 같습니다.
기존 AI는 비디오 전체를 세밀하게 보지 않고, 대충 텍스트로 된 자막이나 줄거리(dense captions)의 느낌만 보고 "아, 이 사람이 먼저 일어났고 그다음에 물을 마셨겠지?"라고 순서를 마음대로 지어내는 병(hallucination)이 있었습니다.
이 논문은 두 가지 극약 처방을 내립니다. 첫째, 학생 스스로 완벽한 **타임라인 마인드맵(EVSG)**을 그리게 해서 논리적 뼈대를 잡게 합니다. 둘째, 정답을 맞혔더라도 마인드맵만 쳐다보고 풀었으면 점수를 주지 않고, 실제 비디오 화면(Visual Attention Reward)을 똑바로 쳐다본 비율이 높을 때만 보상을 줍니다. 그 결과, 논리적인 뼈대는 마인드맵에서 얻되 실제 눈으로 비디오의 단서를 확인한 뒤 답변하는 아주 똑똑한 AI를 만들어냈습니다.
비디오와 질문을 가지고 정답 문장과, 그 시간 구간까지 맞춰야한다.
영상을 3번에 걸쳐서 설명문을 만듬.
coarse: 최대 5개 이벤트로 나눠서
middle: 최대 10개 이벤트로 나눠서
fine: 최대 15개 이벤트로 나눠서
각각을 설명하게 함. 즉 fine 일 수록 세밀한 정보가 담길 수 있음.
여기서 미들 캡션을 통해 초기 그래프를 생성함.
캡션을 이벤트 그래프로 변환
그걸 모으면, 미들의 수만큼 이벤트 그래프가 생기게 되고 그 이벤트 끼리 시간기반 연결을 해버림
이제 초기 그래프가 만들어졌고,
콜스 캡션과 파인 캡션을 사용해서 그래프를 살짝 수정
--------이제 모델 단계 --------
(video, EVSG, question) 를 받아서 GRPO
정확도(answer + time), 형식, 영상쪽 어텐션 많으면 보상