VLM : 빠른 논문 리뷰 : AdsQA: Towards Advertisement Video Understanding
쉬운 설명 (Easy Explanation)
이 논문에서 제안한 ReAd-R의 학습 방식은, 학생에게 수학 문제 풀이 과정을 하나하나 가르치는 대신(Chain-of-Thought 방식), 최종 시험 점수(reward)만 알려주고 스스로 공부하게 하는 것과 비슷합니다. 학생은 어떤 풀이법이 더 높은 점수로 이어지는지 시행착오를 통해 스스로 터득하게 됩니다. 이처럼 ReAd-R은 광고 영상을 보고 질문에 답한 뒤, 그 답이 "얼마나 좋은 답변인지"에 대한 점수(reward)를 받아 스스로 더 나은 답변을 생성하는 방향으로 학습합니다. 이는 정해진 공식 없이 숨은 의도와 감성을 파악해야 하는 광고 이해에 더 효과적인 접근법입니다.
용어 설명 (Terminology)
- AdsQA: 이 논문에서 제안하는 광고 영상 이해를 위한 새로운 Video Question Answering (QA) benchmark.
- ReAd-R (Reinforced Ad Reasoner): 이 논문에서 제안하는 Deepseek-R1 스타일의 Reinforcement Learning (RL) 기반 모델. 광고 영상의 암시적 논리를 이해하도록 설계됨.
- "if A, then B" reasoning: 수학이나 코딩 문제처럼 명확한 규칙과 단계적 절차에 기반한 논리적 추론 방식. 기존 LLM이 강점을 보이는 분야.
- Associative reasoning: 광고 영상처럼 명시적인 규칙 없이, 구체적인 시각적 단서와 추상적인 개념(감정, 설득 전략 등)을 연결하는 연상적 추론 방식. 이 논문이 해결하고자 하는 핵심 과제.
- VU (Visual Concept Understanding): 광고의 시각적 요소(인물, 객체, 슬로건 등) 이해 능력을 평가하는 AdsQA의 5가지 task 중 하나.
- ER (Emotion Recognition): 광고가 유발하는 감정을 파악하는 능력 평가 task.
- TE (Theme and Core Message Extraction): 광고의 핵심 주제와 메시지를 추출하는 능력 평가 task.
- PS (Persuasion Strategy Mining): 시청자를 설득하기 위해 사용된 전략(유머, 과장 등)을 분석하는 능력 평가 task.
- AM (Potential Audience Modeling): 광고의 잠재적인 타겟 고객을 식별하는 능력 평가 task.
- GRPO (Group-based Reward Policy Optimization): 모델이 생성한 여러 답변 그룹 내에서 상대적으로 더 나은 답변에 높은 보상을 주어 학습을 최적화하는 Reinforcement Learning 알고리즘.
Purpose of the Paper
기존의 Large Language Models (LLMs)은 수학 문제처럼 명확한 단계와 논리를 따르는 "if A, then B" 스타일의 추론에는 능숙하지만, 광고 영상처럼 비언어적, 암시적, 감성적 단서를 통해 복합적인 의미를 전달하는 연상적 추론 (associative reasoning) 에는 한계를 보입니다. 이 논문은 이러한 한계를 극복하기 위해, 광고 영상을 새로운 test-bed로 제시합니다. 광고는 시청자 참여, 설득 전략, 마케팅 논리 등 복잡하고 정보 밀도가 높은 특성을 가지고 있어 LLM의 깊은 인지 추론 능력을 평가하기에 적합합니다. 결국 이 연구의 목적은, 기존 Video QA 연구의 범위를 물리적 콘텐츠 이해를 넘어, 광고 도메인의 암시적이고 인지적인 추론 능력을 측정하고 향상시키는 새로운 benchmark와 model을 제시하는 것입니다.
Key Contributions & Novelty
- Contribution 1: AdsQA Benchmark 제시
- 광고 영상 도메인을 위한 최초의 Video QA benchmark를 구축했습니다.
- 1,544개의 광고 영상(총 22.7시간)과 10,962개의 질문-답변 쌍으로 구성되어 있습니다.
- 단순 사실 확인을 넘어 VU, ER, TE, PS, AM 등 5가지의 깊은 추론을 요구하는 task를 포함합니다.
- Novelty: 기존 Video QA benchmark들이 주로 일상적인 영상의 물리적 상호작용에 초점을 맞춘 반면, AdsQA는 설득, 상징, 감성 등 광고에 특화된 암시적이고 비물리적인(implicit, non-physical) 추론 능력을 평가한다는 점에서 독창적입니다.
- Contribution 2: ReAd-R 모델 제안
- DeepSeek-R1 스타일을 차용한 Reinforcement Learning (RL) 기반의 추론 모델을 제안했습니다.
- 정답의 정답/오답 여부만으로 평가하는 reward function을 통해 모델이 시행착오(trial and error)를 거쳐 스스로 학습하도록 합니다.
- Chain-of-Thought (COT)처럼 정해진 단계별 추론 과정 없이, 최종 결과에 대한 보상만으로 모델의 파라미터를 직접 최적화합니다.
- Novelty: 복잡한 step-wise supervision 데이터 없이, 제한된 고품질 데이터만으로도 광고 영상의 암시적 논리를 이해하는 특화된 추론 능력을 향상시킬 수 있음을 보여준 초기 연구 중 하나입니다.
- Contribution 3: SOTA 모델들에 대한 광범위한 Benchmarking
- GPT-4, Qwen2.5-VL 등 14개의 주요 LLM들의 성능을 AdsQA benchmark에서 측정하고 그 한계를 명확히 보여주었습니다.
- ReAd-R 모델이 강력한 reasoning 능력을 갖춘 다른 모델들을 능가하며 state-of-the-art 성능을 달성했습니다.
- Novelty: 광고 영상 이해라는 새로운 분야에서 현재 SOTA 모델들의 취약점을 실험적으로 증명하고, RL 기반 접근법의 효과를 입증했습니다.
Experimental Highlights
- Dataset Statistics: AdsQA는 1,544개 광고, 10,962개 클립, 총 22.7시간 분량으로 구성되며, 평균 영상 길이는 52.9초입니다. 질문-답변 쌍은 총 7,859개입니다.
- SOTA 모델의 한계: 강력한 상용 모델인 GPT-4o조차 AdsQA에서 29.4%(Strict Accuracy), 56.6%(Relaxed Accuracy)의 성능을 보여, 이 benchmark가 매우 도전적임을 입증했습니다.
- ReAd-R의 성능: ReAd-R (Qwen2.5-VL-7B) 모델은 SFT나 다른 reasoning-based model (VOT, EvolAgent) 대비 더 높은 성능(Overall Strict Acc. 25.0%)을 달성했으며, 이는 500개의 Q&A 쌍만으로 fine-tuning한 결과입니다.
- Reasoning 방식의 차이: 수학/코드 추론에 강한 모델들이 AdsQA에서는 큰 성능 향상을 보이지 못했습니다. 이는 광고 영상 이해에 필요한 연상적 추론이 기존의 단계적 논리 추론과 근본적으로 다름을 시사합니다.
- Ablation Study: ReAd-R 학습 시, 정제되지 않은 데이터(uncurated data)를 사용하거나, 너무 엄격한 보상(strict reward) 규칙을 적용하면 오히려 성능이 저하되었습니다. 이는 RL 기반 학습에서 데이터 품질과 적절한 보상 설계가 매우 중요함을 보여줍니다.
| Model | Overall (Strict Acc.) | Overall (Relaxed Acc.) |
| GPT-4o | 29.4 | 56.6 |
| Qwen2.5-VL-72B | 31.0 | 55.8 |
| ReAd-R (Qwen2.5-VL-7B) (Ours) | 25.0 | 51.5 |
(Table 1. Experimental Results 요약. ReAd-R은 더 작은 backbone 모델을 사용했음에도 경쟁력 있는 성능을 보임)
Limitations and Future Work
- Limitations:
- Data Contamination: AdsQA 구축 시 기존 LLM의 training corpus에 포함된 영상들을 제거하려 노력했지만, pretraining 데이터와의 완벽한 분리를 보장할 수는 없습니다.
- Human Bias: 데이터 수집 및 annotation 과정에서 annotator들의 주관적인 편향이 개입되었을 수 있습니다.
- LLM-generated Data: QA 쌍의 상당수가 LLM에 의해 자동 생성되어, LLM 고유의 편향이 데이터셋에 내재될 수 있습니다.
- Auto-Evaluation Challenges: 모델 기반 자동 평가는 신중한 prompt 설계에도 불구하고 인간의 평가와 항상 일치하지는 않는 한계가 있습니다.
- Future Work:
- 위에서 언급된 한계점들을 향후 연구에서 해결할 계획입니다.
- AdsQA를 ICCV 2025 MARS2 Workshop의 competition track testset으로 사용하여, 이 분야의 연구를 더욱 활성화시킬 예정입니다.
Overall Summary
이 논문은 기존 LLM의 추론 능력을 평가하는 새로운 지평을 열기 위해, 광고 영상을 활용한 최초의 Video QA benchmark인 **AdsQA**를 제안합니다. 또한, 복잡하고 암시적인 광고의 논리를 이해하기 위해 Reinforcement Learning을 적용한 ReAd-R 모델을 개발하여 그 효과를 입증했습니다. GPT-4와 같은 강력한 모델들도 AdsQA에서 고전하는 결과를 통해, 이 연구는 현재 AI 모델들이 '정답이 정해지지 않은' 연상적, 인지적 추론에 약점이 있음을 명확히 보여주며, 이 분야의 발전을 위한 중요한 토대를 마련했다는 의의가 있습니다.
주인장 이해
광고 QA 데이터 셋을 제작함. 트레이닝 셋과 테스트 셋을 모두 제공
특별할건 없이 광고 QA set에 GRPO적용.