AI바라기의 인공지능
VLM : 논문리뷰 : VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning 본문
VLM : 논문리뷰 : VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning
AI바라기 2025. 8. 11. 14:12쉬운 설명 (Easy Explanation)
이 논문의 핵심 아이디어는 비디오 품질 평가 전문가를 AI로 만드는 것과 같습니다. 전문가가 비디오를 보고 "음, 화면이 좀 흔들리고, 색감도 약간 바랜 것 같네. 그래서 7점이야."라고 말하는 것처럼, VQAThinker 모델도 먼저 <think> 태그 안에 "camera movement is quite shaky and unsteady... " 와 같이 품질 문제를 분석하는 '생각'을 텍스트로 출력합니다. 그리고 그 분석을 바탕으로 최종 점수를 <answer> 태그에 내놓습니다.
Reinforcement learning은 이 과정을 훈련시키는 '코치' 역할을 합니다. 코치는 모델의 '생각'이 얼마나 논리적인지, 그리고 최종 점수가 실제 점수와 얼마나 가까운지를 보고 **'칭찬(reward)'**을 해줍니다. 특히, 정답에 '매우 근접한' 점수를 내면 훨씬 큰 칭찬(bell-shaped reward)을 해줘서 모델이 더 정밀해지도록 격려합니다. 이러한 훈련 방식 덕분에 AI는 스스로 생각하는 법을 배워, 처음 보는 어려운 영상도 잘 평가하고 왜 그렇게 평가했는지 설명까지 할 수 있게 됩니다.
VQAThinker 학습 노트
용어 설명 (Glossary)
- VQAThinker: 이 논문에서 제안하는, reinforcement learning 기반의 generalizable하고 explainable한 video quality assessment (VQA) framework의 이름입니다.
- GRPO (Group Relative Policy Optimization): 이 연구에서 사용된 특정 reinforcement learning 알고리즘입니다. 여러 개의 생성된 결과물(group)을 상대적으로 비교하여 더 나은 결과에 reward를 부여하는 방식으로, 명시적인 value function 없이 policy를 최적화합니다.
- LMM (Large Multimodal Model): Text, image (video frames) 등 여러 종류의 data를 동시에 이해하고 처리할 수 있는 대규모 모델입니다.
- OOD (Out-of-Distribution): Training data와는 다른 분포를 가진 data를 의미합니다. (예: 일반 UGC 영상으로 학습하고 게임 영상으로 test)
- Reasoning Trace: 모델이 최종 점수를 내기 전에, 영상 품질에 대한 분석 과정을 <think> tag 안에 생성하는 자연어 설명입니다. 이를 통해 모델의 판단 근거를 파악할 수 있습니다.
- Bell-shaped Regression Reward: 예측 점수가 실제 점수(ground truth)에 가까워질수록 reward가 기하급수적으로 커지는 새로운 reward function입니다. 모델이 더 정밀한 점수를 예측하도록 유도합니다.
- Pairwise Ranking Reward: 두 영상의 품질 순서를 모델이 올바르게 예측했을 때 reward를 부여하여, 영상 간의 상대적인 품질 서열을 잘 학습하도록 돕는 reward입니다.
- Temporal Consistency Reward: 원본 영상과 시간적으로 왜곡된(프레임이 섞이거나 끊기는) 영상을 비교하여, 원본 영상에 더 높은 점수를 주도록 유도하는 reward입니다.
- SRCC (Spearman's Rank Correlation Coefficient): 예측 점수의 순위와 실제 점수의 순위가 얼마나 일치하는지를 측정하는 지표입니다. (monotonicity)
- PLCC (Pearson Linear Correlation Coefficient): 예측 점수와 실제 점수 간의 선형 상관관계를 측정하는 지표입니다. (linearity)
Purpose of the Paper
기존 Video Quality Assessment (VQA) 모델들은 다음과 같은 두 가지 핵심적인 한계에 직면해 있었습니다.
- Poor Generalization: Training에 사용된 특정 유형의 영상이나 왜곡(distortion)에는 강하지만, 한 번도 보지 못한 OOD (Out-of-Distribution) 영상에 대해서는 성능이 급격히 저하됩니다.
- Limited Explainability: 대부분의 모델이 단순히 최종 품질 점수(quality score)만 출력하여, '왜' 그런 점수를 주었는지에 대한 근거를 알 수 없었습니다. 이는 모델의 신뢰도를 떨어뜨리고 실제 현장에서의 활용을 제한했습니다.
이 논문은 이러한 한계를 극복하기 위해, 단순히 점수를 예측하는 것을 넘어 인간처럼 품질 저하의 원인을 먼저 '추론(reasoning)'하고 그 근거를 바탕으로 점수를 매기는 새로운 framework인 VQAThinker를 제안합니다. 특히, 비싼 instruction-tuning data 없이 score-level supervision만으로도 generalization과 explainability를 동시에 달성하는 것을 목표로 합니다.
Key Contributions & Novelty
- Reasoning-driven VQA Framework (VQAThinker)
- Contribution: LMM과 Reinforcement Learning (GRPO)을 결합하여, 영상 품질을 이해(understanding)하고 점수를 매기는(scoring) 과정을 통합적으로 모델링했습니다.
- Novelty: 모델이 <think> tag 안에 품질 분석 과정을 먼저 서술(reasoning trace)하고, 그 후에 <answer> tag로 최종 점수를 출력하도록 RL을 통해 학습시킵니다. 이는 explainability를 별도의 후처리나 instruction data 없이 학습 과정에 내재화시킨 새로운 접근입니다.
- VQA-specific Reward Functions
- Contribution: Score-level supervision만으로 VQA에 특화된 세 가지 reward function을 설계했습니다.
- Bell-shaped Regression Reward: 정답에 가까울수록 reward를 급격히 높여 정밀한 점수 예측을 유도합니다.
- Pairwise Ranking Reward: 영상 쌍(pair)의 상대적 품질 순서를 올바르게 예측하도록 유도합니다.
- Temporal Consistency Reward: 프레임 셔플 등 시간적 왜곡에 둔감하지 않고 민감하게 반응하도록 학습시킵니다.
- Novelty: 기존 RL 기반 IQA/VQA 연구들의 단순한 reward 설계를 넘어, VQA 문제의 세 가지 핵심 측면(정밀도, 상대성, 시간성)을 직접적으로 공략하는 복합적인 reward 체계를 구축했습니다.
- Contribution: Score-level supervision만으로 VQA에 특화된 세 가지 reward function을 설계했습니다.
- SOTA Performance with High Generalization & Explainability
- Contribution: 10개의 VQA benchmark에서 SOTA 수준의 성능을 달성했으며, 특히 OOD 데이터셋에서 기존 모델들 대비 압도적인 성능 향상을 보였습니다.
- Novelty: 별도의 instruction-tuned dataset 없이, 오직 점수(score) 데이터만으로 학습했음에도 불구하고, distortion attribution (왜곡 원인 분석) 및 quality description (품질 설명) task에서 뛰어난 "zero-shot" explainability를 입증했습니다.
Experimental Highlights
- Video Quality Scoring (Table 1)
- In-domain Datasets: 5개의 in-domain 데이터셋 전반에서 기존 SOTA 모델들과 대등하거나 더 높은 성능을 보였습니다. (Overall SRCC: 0.855, PLCC: 0.866)
- Out-of-Distribution (OOD) Datasets: 5개의 OOD 데이터셋에서 기존 모든 모델들을 압도하는 성능을 달성했습니다. 평균 SRCC에서 19.1%의 상대적 성능 향상을 기록하며, VQAThinker의 강력한 generalization 능력을 증명했습니다. (Overall SRCC: 0.661, PLCC: 0.698)
- Video Quality Understanding (Explainability) (Table 2 & 3)
- FineVD (Distortion Attribution): VQAThinker는 해당 task에 특화되어 fine-tuned된 FineVQ 모델마저 능가하는 성능을 보였습니다. 이는 RL을 통한 reasoning 학습이 별도의 instruction-tuning보다 효과적일 수 있음을 시사합니다. (Overall Accuracy: 72.45%)
- Q-Bench-Video (Quality Description): Open-source LMM은 물론, 강력한 closed-source LMM (Gemini 1.5 Pro, GPT-4o)보다도 높은 성능을 기록했습니다. 157K개의 instruction 데이터로 학습한 VQA2-Assistant와 비교해도 성능 차이가 미미하여, 적은 비용으로 높은 수준의 explainability를 확보했음을 보여줍니다.
- Ablation Study (Table 4 & 8)
- Rewards: 제안된 세 가지 reward (Regression, Ranking, Temporal) 모두 성능 향상에 기여했으며, 특히 bell-shaped regression reward가 성능에 가장 큰 영향을 미쳤습니다. 세 가지를 모두 사용했을 때 성능이 가장 높았습니다.
- Reasoning: Reasoning trace (<think> tag) 생성 과정을 제거했을 때, 특히 OOD 데이터셋에서 성능이 크게 하락했습니다. 이는 명시적인 추론 과정이 모델의 generalization 능력에 매우 중요하다는 가설을 뒷받침합니다.
Limitations and Future Work
- Limitations:
- 현재 모델은 기존에 레이블링된 VQA 데이터셋에 의존하여 학습합니다. 이는 데이터셋의 규모나 다양성에 의해 성능이 제한될 수 있음을 의미합니다.
- Future Work:
- Scaling Up with Synthetic Data: 대규모 synthetic distortion data와 pseudo-labeling을 활용하여 training content의 다양성을 대폭 늘릴 계획입니다. 이를 통해 모델의 generalization 성능을 한층 더 강화할 수 있습니다.
- Test-time Scaling: Test 시점의 scaling 기법을 탐구하여 비디오 품질 평가 및 이해 성능을 추가적으로 향상시킬 것입니다.
Overall Summary
VQAThinker는 Large Multimodal Model에 reinforcement learning (GRPO)과 3가지 독창적인 VQA-specific reward를 적용하여, 영상 품질에 대해 먼저 '생각(reasoning)'하고 점수를 매기도록' 학습시킨 VQA framework입니다. 그 결과, 별도의 instruction-tuning 없이도 기존 모델을 압도하는 generalization 성능(특히 OOD 영상에서)과 뛰어난 explainability를 동시에 달성했습니다. 이 연구는 VQA 분야에서 단순 점수 예측을 넘어, 신뢰할 수 있고 일반화 성능이 뛰어난 모델을 구축하는 효과적인 경로로서 reinforcement learning의 가능성을 명확히 보여주었다는 점에서 큰 의의를 가집니다.
Abstract
Video quality assessment (VQA)는 human visual perception에 맞춰 perceptual quality 저하를 객관적으로 정량화하는 것을 목표로 합니다. 최근의 발전에도 불구하고, 기존 VQA models은 여전히 두 가지 중요한 한계를 겪고 있습니다: out-of-distribution (OOD) 비디오에 대한 낮은 generalization과 제한된 explainability. 이는 real-world 시나리오에서의 적용 가능성을 제한합니다.
이러한 문제들을 해결하기 위해, 우리는 VQAThinker를 제안합니다. 이는 large multimodal models (LMMs)와 reinforcement learning을 활용하여 video quality understanding과 scoring을 공동으로 model링하고, 인간의 perceptual decision-making을 모방하는 reasoning-based VQA framework입니다. 구체적으로, 우리는 score-level supervision 하에 비디오 품질에 대한 reasoning을 가능하게 하는 rule-guided reinforcement learning algorithm인 group relative policy optimization (GRPO)을 채택하고, 세 가지 VQA 관련 rewards를 도입합니다: (1) prediction error가 감소함에 따라 빠르게 증가하고 ground truth에 가까워질수록 점차 덜 민감해지는 bell-shaped regression reward, (2) model이 비디오 쌍 간의 상대적 품질을 정확하게 결정하도록 유도하는 pairwise ranking reward, 그리고 (3) model이 교란된 비디오보다 시간적으로 일관된 비디오를 선호하도록 장려하는 temporal consistency reward입니다.
광범위한 experiments는 VQAThinker가 in-domain 및 OOD VQA benchmarks 모두에서 state-of-the-art performance를 달성하며, video quality scoring에 대한 강력한 generalization을 보여준다는 것을 입증합니다. 나아가, video quality understanding tasks에 대한 evaluations는 기존의 explainable VQA models 및 LMMs와 비교하여 distortion attribution 및 quality description에서 VQAThinker의 우수성을 입증합니다. 이러한 결과는 reinforcement learning이 오직 score-level supervision만으로 generalizable하고 explainable한 VQA models을 구축하는 효과적인 경로를 제공한다는 것을 보여줍니다.
Introduction
Video quality assessment (VQA)는 acquisition, compression, enhancement와 같은 단계 전반에 걸쳐 perceptual quality를 평가하는 주요 기준으로 작용하며 video processing systems에서 근본적인 역할을 합니다. 대부분의 기존 VQA models은 비교를 위해 원본 reference video를 사용할 수 있는 full-reference (FR) 설정에 의존합니다. 많은 real-world 시나리오, 특히 user-generated content (UGC)를 포함하는 경우, reference video를 사용할 수 없어 FR 방법은 적용할 수 없습니다. 따라서, reference video에 의존하지 않고 품질을 평가하는 no-reference (NR) VQA는 더 넓은 real-world 적용 가능성을 제공하며 이 연구의 초점입니다.
NR-VQA는 natural scene statistics (NSS)와 같은 초기 handcrafted feature-based methods부터 convolutional neural networks (CNNs), Transformers, 그리고 최근에는 large multimodal models (LMMs)를 포함하는 deep neural network (DNN) architectures에 이르기까지 상당한 발전을 이루었습니다. 그러나 대부분의 기존 방법은 특정 비디오 content나 distortion datasets을 사용한 supervised fine-tuning (SFT)에 의존하여, 좁은 시나리오에 대한 전문가처럼 작동하지만 보지 못한 비디오 domain에 대해서는 낮은 generalization을 보이는 models을 만듭니다. generalization을 향상시키기 위해, 최근 연구들은 multi-dataset joint training, unsupervised 및 self-supervised learning과 같은 전략을 탐구하여 labeling costs를 최소화하면서 training 다양성을 개선하는 것을 목표로 합니다. 그럼에도 불구하고, 이러한 접근 방식은 증가된 data scale과 model complexity로 인해 종종 훨씬 더 높은 training costs를 발생시킵니다.
또한, interpretability는 실제 NR-VQA applications에 있어 중요한 역량이 되었습니다. 기존의 VQA models은 일반적으로 단일 또는 다차원의 quality scores를 출력하지만, real-world 시나리오에서는 compression artifacts, temporal instability 등과 같은 quality degradation의 근본 원인을 밝히는 diagnostic assessments가 종종 필요합니다. 이러한 interpretability는 VQA predictions의 신뢰성을 향상시킬 뿐만 아니라, 식별된 distortions에 기반한 목표 restoration strategies를 안내하여 closed-loop video processing을 가능하게 합니다. 최근 LMMs의 등장은 explainable VQA의 발전을 촉진했으며, 여기서 models은 일반적으로 인간이 주석을 단 quality instruction datasets에 대해 fine-tuned됩니다. 그러나 이러한 datasets은 보통 LMM-generated descriptions에서 부트스트랩되고 나중에 human annotators에 의해 정제되므로, 최종 annotations은 source models의 biases와 limitations에 취약해집니다. 더욱이, 종종 연관된 quality scores가 부족하여, human perceptual decision-making을 모방하는 것으로 여겨지는 과정인 quality understanding과 scoring의 joint learning을 방해합니다.
reinforcement learning (RL), 특히 group relative policy optimization (GRPO)을 사용한 최근의 발전은 명시적인 value function 없이도 다양한 tasks에 걸쳐 LMMs의 reasoning capabilities를 향상시키는 데 강력한 잠재력을 보여주었습니다. quality assessment의 맥락에서, 이 learning paradigm은 비디오의 잠재적인 quality degradation 원인에 대해 먼저 reasoning하고 그에 따라 quality judgment를 내리는 인간의 perceptual process와 본질적으로 일치합니다. 비록 GRPO가 image quality assessment (IQA)에 적용되어 개선된 generalizability를 보여주었지만, 이러한 연구에서의 기존 reward designs는 종종 coarse-grained quality predictions를 초래하고 temporal distortion modeling capabilities가 부족합니다.
위의 문제들을 해결하기 위해, 우리는 LMMs와 reinforcement learning을 활용하여 video quality understanding과 scoring을 공동으로 model하는 새로운 reasoning-driven VQA framework인 VQAThinker를 제안합니다. 구체적으로, 우리는 model이 final quality score를 생성하기 전에 video quality assessment를 위한 reasoning process를 생성하도록 장려하기 위해 GRPO를 채택하고, 이 과정을 score-level supervision을 사용하여 최적화합니다. 이 framework 하에서, 우리는 세 가지 VQA 관련 reward functions를 설계합니다: (1) prediction error가 감소함에 따라 rewards를 급격히 증가시키고 ground truth에 가까워질수록 점진적으로 덜 민감해져 fine-grained quality prediction을 가능하게 하는 bell-shaped regression reward. 이는 Q-Insight 및 VQ-Insight와 같은 기존 GRPO-based methods의 constant 또는 linearly scaled rewards의 한계를 극복합니다. (2) fidelity loss를 사용하여 inter-video comparison을 명시적으로 modeling함으로써 비디오 쌍 간의 relative quality consistency를 장려하는 pairwise ranking reward, 그리고 (3) 원본 비디오와 시간적으로 교란된 비디오에 대한 model의 predictions을 비교하여 비디오 프레임 전반의 temporal distortions를 포착하는 temporal consistency reward입니다.
우리는 LSVQ dataset에서 score-level supervision으로 VQAThinker를 train했으며, experimental results는 VQAThinker가 UGC VQA benchmarks에서 state-of-the-art performance를 달성할 뿐만 아니라 다양한 content와 distortion types을 특징으로 하는 out-of-distribution (OOD) VQA benchmarks에서도 기존 방법들을 능가함을 보여줍니다. 또한, 우리는 video distortion attribution 및 video quality description tasks에서 VQAThinker의 quality understanding ability를 검증했으며, 그 결과는 VQAThinker가 어떠한 video quality instruction data 없이 trained되었음에도 불구하고 경쟁력 있는 performance를 제공한다는 것을 보여줍니다.
우리의 주요 기여는 다음과 같이 요약됩니다:
- 우리는 LMMs와 reinforcement learning을 결합하여 quality understanding과 scoring을 공동으로 model하는 reasoning-based VQA method인 VQAThinker를 제안합니다.
- 우리는 score-level supervision 하에서 fine-grained score regression, quality order preservation, temporal distortion awareness를 가능하게 하기 위해 세 가지 VQA 관련 rewards를 포함하는 GRPO-based training scheme을 설계합니다.
- 광범위한 experiments는 VQAThinker가 in-domain 및 OOD benchmarks 모두에서 state-of-the-art performance를 달성하고, instruction-tuned datasets을 사용하지 않고도 강력한 interpretability를 제공함을 보여줍니다.
Introduction 정리노트 (For AI Researchers)
이 노트는 Introduction 섹션의 핵심 내용을 요약하여 연구의 본질을 빠르게 파악할 수 있도록 돕습니다.
- 연구 목표 (Objective)
- Reference video가 없는 현실적인 시나리오(예: UGC)를 위한 No-Reference Video Quality Assessment (NR-VQA) model의 성능 개선.
- 기존 연구의 한계점 (Limitations of Prior Work)
- Poor Generalization: 기존 VQA models은 특정 distortion dataset에 supervised fine-tuning (SFT) 되어 학습 데이터와 분포가 다른 out-of-distribution (OOD) 비디오에 대한 일반화 성능이 낮음.
- Limited Interpretability: 대부분의 model은 단일 품질 점수(quality score)만 출력. 품질 저하의 원인(예: compression artifacts, temporal instability)을 설명하지 못해 실제 적용에 한계가 있음.
- Explainable VQA의 문제점: 최근 LMM 기반의 explainable VQA 연구들은 사람이 주석을 단 quality instruction dataset에 의존함. 하지만 이 dataset은 (1) LMM으로 생성되어 source model의 bias에 취약하고 (2) quality score가 없어 '이해(understanding)'와 '평가(scoring)'의 joint learning이 어려움.
- RL 적용의 한계: Image Quality Assessment (IQA)에 Reinforcement Learning (RL), 특히 GRPO를 적용하여 generalization을 높이려는 시도가 있었으나, 기존의 reward 설계는 (1) coarse-grained 예측에 머무르고 (2) 비디오의 핵심 문제인 temporal distortion modeling 능력이 부족함.
- 제안 방법론 (Proposed Method: VQAThinker)
- Framework: LMMs와 **Reinforcement Learning (GRPO)**을 결합한 새로운 reasoning-driven VQA framework인 VQAThinker를 제안.
- 핵심 아이디어: Model이 최종 quality score를 내기 전에, 비디오 품질에 대한 reasoning process (설명 텍스트)를 먼저 생성하도록 함. 이를 통해 video quality understanding과 scoring을 공동으로 모델링.
- 학습 방식:昂貴한 설명 텍스트 없이 score-level supervision만으로 학습.
- 핵심 기술 (VQA-specific Rewards): 기존 RL 기반 방법론의 한계를 극복하기 위해 3가지 새로운 reward function을 설계.
- Bell-shaped Regression Reward: 예측 오차가 작아질수록 reward를 기하급수적으로 높여 fine-grained 품질 예측을 가능하게 함.
- Pairwise Ranking Reward: 두 비디오 간의 상대적 품질 순서를 정확히 예측하도록 model을 유도.
- Temporal Consistency Reward: 원본 비디오와 시간적으로 왜곡된 비디오의 예측 결과를 비교하여 temporal distortion을 명확히 감지하도록 학습.
- 주요 기여 (Main Contributions)
- 단순한 score-level supervision만으로 SOTA 성능과 높은 일반화(OOD) 성능을 달성.
- 별도의 instruction-tuned dataset 없이도 품질 저하의 원인을 설명하는 강력한 interpretability 확보.
- reasoning과 RL을 결합한 VQAThinker가 generalizable 하고 explainable 한 VQA model을 만드는 효과적인 경로임을 입증.
쉬운 설명 : Introduction 섹션 요약
AI가 동영상의 화질을 자동으로 평가한다고 상상해보세요. 이 논문은 그 기술을 더 똑똑하게 만드는 방법에 대한 이야기입니다.
기존 AI의 문제점은 크게 두 가지였습니다. 첫째, AI에게 특정 문제(예: 깨진 화면)만 가르치면, 한 번도 본 적 없는 새로운 종류의 문제(예: 화면 떨림)가 나타났을 때 점수를 제대로 매기지 못했습니다. 둘째, AI는 그저 "이 영상 화질은 70점"이라고 점수만 알려줄 뿐, '왜' 70점인지 이유를 설명하지 못했습니다.
이 논문은 VQAThinker라는 새로운 AI를 제안합니다. VQAThinker의 가장 큰 특징은 사람처럼 먼저 생각하고 점수를 매긴다는 것입니다. 동영상을 보고 "압축이 심해서 화면이 좀 깨지고, 약간의 흔들림도 보이네. 그래서 화질이 좋지 않아" 라고 스스로 reasoning(추론)을 한 뒤, 이를 바탕으로 최종 점수를 매깁니다.
더 놀라운 것은 학습 방식입니다. 사람이 "이건 화면 깨짐 때문이야"라고 일일이 알려주지 않아도, '화질 점수' 데이터만 가지고 스스로 이유를 추론하는 법을 배운다는 점입니다. 연구진은 AI가 더 똑똑하게 학습하도록 3가지 특별한 '보상(reward)' 규칙을 만들었습니다.
- 정답에 가까워질수록 더 큰 칭찬: 정답 점수에 가까워질수록 훨씬 큰 보상을 주어 더 정밀하게 점수를 예측하도록 유도합니다.
- 순위 맞추기 보상: 두 동영상 중 어떤 것의 화질이 더 좋은지 순위를 맞혔을 때 보상을 줍니다.
- 시간차 공격 방어 보상: 영상의 시간을 살짝 뒤섞어 놓고도 AI가 속지 않고 시간적 문제(깜빡임, 흔들림 등)를 잘 찾아내면 보상을 줍니다.
결론적으로, VQAThinker는 처음 보는 유형의 영상에 대해서도 정확하게 화질을 평가하고, 왜 그런 점수를 매겼는지 이유까지 설명할 수 있는 똑똑하고 실용적인 AI 모델입니다.
Related Work 정리노트 (For AI Researchers)
이 노트는 Related Work 섹션을 요약하여, 이 논문이 기존 연구들과 비교하여 어떤 위치에 있으며 어떤 차별점을 갖는지 명확히 보여줍니다.
- Generalizable VQA (일반화 가능한 VQA)
- 문제점 인식: DNN 기반의 SOTA VQA 모델들도 결국 학습한 데이터셋에 과적합되어, 처음 보는 유형의 콘텐츠나 distortion에 대한 generalization 성능이 떨어진다는 한계를 명확히 인지하고 있습니다.
- 기존 해결책의 한계: Mixed-dataset training이나 contrastive learning 같은 기존의 generalization 향상 시도들은 더 많은 데이터를 요구하여 cost와 training overhead가 크다는 단점이 있습니다.
- 본 논문의 차별점: VQAThinker는 추가 학습 데이터 없이 generalization 성능을 높여 efficiency 측면에서 기존 연구들과 차별화됨을 강조합니다.
- Explainable VQA (설명 가능한 VQA)
- 문제점 인식: 최근 LMM을 활용한 설명 가능한 VQA 연구들은 비싼 instruction-based annotated dataset에 의존하며, 생성된 설명(understanding)과 실제 품질 점수(scoring)가 분리되는 경향이 있습니다.
- 최신 경쟁 기술 (RL 기반 VQA): Reasoning 능력 향상을 위해 Reinforcement Learning (특히 GRPO)을 도입한 Q-Insight(IQA용), VQ-Insight(VQA용) 같은 최신 연구 동향을 정확히 짚고 있습니다.
- 본 논문의 차별점 (vs. VQ-Insight): 가장 직접적인 경쟁 기술인 VQ-Insight가 복잡한 cold-start 및 multi-stage training을 사용하는 것과 달리, 이 논문의 방법은 단일 단계의 end-to-end 학습으로 더 간단하고 효율적입니다. 또한, 비디오 평가에 더 특화된 자체적인 VQA-specific rewards를 설계하여 성능과 효율성에서 우위를 점한다고 주장합니다.
쉬운 설명 : Related Work 섹션 요약
이 섹션은 이 논문이 나오기까지 다른 연구들이 무엇을 했고, 어떤 한계가 있었는지를 설명하는 부분입니다. 한마디로 "우리가 왜 새로운 연구를 했는지"에 대한 배경 설명이죠.
- "어떤 영상이든 잘 평가하는 AI"를 향한 노력 🧐
- 과거의 AI들은 특정 문제(예: 화면 깨짐)만 잘 찾아내는 '전문가' 같았습니다. 그래서 처음 보는 문제(예: 화면 떨림)가 나오면 당황했죠.
- 다른 연구자들은 이 문제를 해결하기 위해 AI에게 엄청나게 많은 종류의 동영상을 보여주는 '다양성 훈련'을 시켰습니다. 하지만 이건 시간과 비용이 너무 많이 드는 방법이었습니다.
- 이 논문의 주장: "우리는 AI에게 많은 영상을 보여주지 않고도, 처음 보는 영상의 품질까지 잘 평가하도록 만들었습니다. 훨씬 효율적이죠!"
- "이유를 설명하는 AI"를 향한 노력 🗣️
- 기존 AI들은 "이 영상 화질은 70점"이라고 점수만 알려줬습니다. 왜 70점인지 이유를 알려주지 않아 답답했죠.
- 최근 다른 연구자들이 AI에게 "이유를 설명하는 법"을 가르치기 시작했습니다. 하지만 그러려면 사람이 영상마다 "이건 화면이 깨졌고 색감이 별로야"라고 상세한 설명을 달아줘야 해서 매우 힘들었습니다.
- 또한, 가장 최신 기술은 훈련 과정이 너무 복잡하다는 단점이 있었습니다.
- 이 논문의 주장: "우리는 사람이 만든 상세 설명 없이, 오직 '화질 점수'만 가지고도 AI가 스스로 이유를 추론하고 설명하게 만들었습니다. 훈련 과정도 훨씬 간단하고요!"
Method
Model Architecture
그림 2에 설명된 바와 같이, 우리는 VQAThinker의 backbone으로 off-the-shelf LMM을 활용합니다. 이는 video 와 text prompt 를 input으로 받아, 각각 <reasoning> 및 <score> tags로 구분되는 quality reasoning trace 와 scalar quality score 로 구성된 quality-aware response 를 생성합니다. temporal-aware quality modeling을 가능하게 하기 위해, 우리는 local temporal dynamics를 추출하기 위한 frozen motion feature extractor와 추출된 temporal features를 language space로 mapping하는 motion projector를 추가로 통합합니다. 자세한 model architecture 및 video preprocessing 절차는 보충 자료에 제공됩니다. 우리는 이 inference process를 다음과 같이 공식화합니다:
여기서 는 fine-tuned weights 로 parameterized된 motion projector로 보강된 LMM을 나타내고, 은 frozen motion feature extractor를 나타냅니다.
Reinforcement Learning Strategy
우리는 VQAThinker를 train하기 위해 GRPO를 채택하며, 이는 그룹화된 responses 간의 relative comparisons을 활용하여 명시적인 value function의 필요성을 제거합니다. training 동안, batch size를 나타내는 에 대해 batch of videos $V = {v_1, v_2, ..., v_N}$가 주어지면, GRPO는 이전 training epoch의 weights인 $\theta_{old}$로 parameterized된 이전 policy $\pi_{\theta_{old}}$를 사용하여 에 대한 개의 quality-aware response $q(v_i) = [q_1(v_i), q_2(v_i), ..., q_K(v_i)]$를 generates합니다. 이 responses는 VQA-specific rewards에 의해 evaluated되어 reward values $r(v_i) = [r_1(v_i), r_2(v_i), ..., r_K(v_i)]$를 얻습니다.
video 에 대한 responses 그룹 내에서 -번째 response $r_k(v_i)$의 상대적 장점을 평가하기 위해, GRPO는 개의 responses에 대한 reward를 normalizing하여 standardized advantage score $a_k(v_i)$를 계산합니다:
여기서 $\mu(\cdot)$와 $\sigma(\cdot)$는 각각 mean 및 standard deviation operators를 나타냅니다.
GRPO의 optimization objective는 다음과 같이 정의됩니다:
여기서 $\rho_i = \frac{\pi_{\theta}(q_k|v_i)}{\pi_{\theta_{old}}(q_k|v_i)}$는 현재 policy $\pi_{\theta}$와 이전 policy 사이의 importance sampling ratio로, advantage-weighted reward의 크기를 조정합니다. $\bar{\rho}i = \text{clip}(\rho_i, 1-\epsilon_s, 1+\epsilon_s)$는 stable policy updates를 보장하기 위해 에 의해 제어되는 작은 범위 내에서 ratio를 clips합니다. 는 KL divergence regularization term의 균형을 맞추는 coefficient이며, 이 항은 일반적으로 reinforcement learning 이전의 model parameters로 인스턴스화되는 reference policy $\pi{ref}$로부터의 deviation에 penalizes를 가합니다.
VQA-specific Rewards
Reward function은 policy를 바람직한 행동으로 이끄는 training signals을 제공합니다. 이를 위해, 우리는 model이 video quality understanding과 quality scoring을 learn할 수 있도록 하는 일련의 VQA-specific reward functions를 설계합니다. response (qk(vi)의 단순화된 표기)에 대한 rewards는 다음을 포함합니다:
Format Reward. Model response 가 reasoning trace는 <reasoning> tags 안에, predicted score는 <score> tags 안에 포함되는 예상된 format을 따르도록 보장하기 위해, 우리는 DeepSeek-R1에서 영감을 받은 binary format reward를 도입하며, 이는 다음과 같이 정의됩니다:
여기서 $I[\cdot]$는 조건이 참일 때 1, 그렇지 않을 때 0이 되는 indicator function을 나타내고, $\text{PatternMatch}(q_k^i)$는 output 가 요구되는 format 제약 조건을 만족하면 True를 반환합니다.
Bell-shaped Regression Reward. VQA는 자연스럽게 regression task로 공식화되지만, 기존의 regression-based rewards는 fine-grained training signals을 제공하는 데 어려움을 겪습니다. 일부 방법은 constant binary rewards를 사용하여 예측이 threshold 내에 속할 때 고정된 값을 할당하며, ground truth에 대한 proximity를 포착하지 못합니다. 다른 방법들은 L1-norm-based rewards를 채택하는데, 이 경우 reward는 prediction error에 대해 constant rate로 scales linearly하게 변합니다. 실제로는, predicted score가 ground truth에 가까워질수록 학습이 점점 더 어려워집니다. 따라서 reward function은 model을 high-precision predictions으로 더 잘 이끌기 위해 이 fine-grained regime에서 더 stronger하고 더 rapidly changing signals을 제공해야 합니다.
이를 해결하기 위해, 우리는 Gaussian function에 기반한 bell-shaped regression reward를 제안합니다. 이는 prediction error가 감소함에 따라 빠르게 증가하고 ground truth에 가까워질수록 점진적으로 덜 민감해져, fine-grained score optimization을 용이하게 합니다:
여기서 는 response 에서 추출된 predicted quality score, 는 의 ground-truth quality score, 는 ground truth로부터의 deviations에 대한 reward의 sensitivity를 제어하며, $\alpha \in (0, 1]$는 reward의 전체 magnitude를 조절하는 scaling factor입니다.
Pairwise Ranking Reward. VQA는 또한 ranking problem으로 공식화될 수 있으며, 여기서 목표는 predicted scores에 기반하여 video pairs 간의 relative quality ordering을 learn하는 것입니다. 이 공식은 일반적으로 predicted ranking과 ground-truth rankings 간의 consistency를 측정하는 fidelity loss나 근사 Spearman’s Rank Correlation Coefficient (SRCC) loss와 같은 ranking-based loss functions을 사용하여 최적화됩니다.
VisualQuality-R1에서 영감을 받아, 우리는 predicted ranking이 ground-truth rank order와 일치하는 video pairs에 더 높은 rewards를 할당하는 pairwise ranking reward를 채택합니다. 구체적으로, video 의 -번째 response 에 대한 predicted score 에 대해, 우리는 이를 다른 video 의 average prediction $\mu(s_j)$와 비교하여 predicted ranking이 와 사이의 ground-truth rank order와 일치하는지 평가합니다. 가 $\mu(s_j)$보다 높게 순위될 가능성을 정량화하기 위해, 우리는 표준 정규 분포의 cumulative distribution function을 사용하여 comparative probability $p_k(v_i, v_j)$를 계산합니다:
여기서 와 는 각각 와 에 대한 개의 predicted scores의 variance를 나타내고, 은 numerical stability를 위한 작은 양의 상수이며, 이후에 나오는 도 동일한 목적을 가집니다.
Pairwise ranking reward는 fidelity loss를 기반으로 계산되며 다음과 같이 정의됩니다:
여기서 $I[\cdot]$는 indicator function입니다.
Temporal Consistency Reward. 우리는 local temporal dynamics를 포착하기 위해 motion feature extractor를 도입했습니다. 그러나 이 module은 sampled frames에 걸쳐 발생할 수 있는 long-range temporal distortions를 처리하는 데 제한적입니다. 이 문제를 해결하기 위해, 우리는 model이 더 넓은 temporal degradations에 sensitive하도록 명시적으로 장려하는 temporal consistency reward를 제안합니다. 구체적으로, video 에 대해, 우리는 frame lagging 및 frame loss와 같은 real-world temporal artifacts를 시뮬레이션하기 위해 frame repetition 및 frame dropping과 같은 다양한 frame-level distortions을 적용하여 temporally perturbed counterpart $v_{i,temp}$를 구성합니다(자세한 내용은 보충 자료 참조). responses 와 $q_{i,temp}$에 대해, 우리는 regression reward $R_{reg}(\cdot)$와 ranking reward $R_{rank}(\cdot)$를 모두 계산합니다. Temporal consistency reward는 가 $v_{i,temp}$보다 더 높은 regression 또는 ranking reward를 산출하는 model behavior를 장려하도록 정의됩니다: $$R_{temp}^{(t)}(q_k^i) = \begin{cases} \delta, & \text{if } \mu(r_i^{(t)}) \geq \mu(r_{i,temp}^{(t)}) \text{ and } \mu(r_i^{(t)}) > \tau \ 0, & \text{otherwise} \end{cases} \quad (8)$$여기서 $t \in {\text{reg, rank}}$는 reward type을 나타내고, $\mu(\cdot)$는 모든 responses에 대한 average reward를 나타내며, 는 fixed bonus, 는 temporal consistency rewards가 model이 충분히 accurate할 때만 부여되도록 하는 confidence threshold입니다. Final temporal consistency reward는 두 sub-rewards의 합입니다:
Final reward는 세 가지 구성 요소의 합으로 계산됩니다:
Method 정리노트 (For AI Researchers)
이 노트는 Method 섹션의 핵심 방법론을 요약하여, 이 연구의 기술적 기여를 빠르게 파악할 수 있도록 돕습니다.
- Model Architecture
- Backbone: Off-the-shelf LMM을 기반으로 함.
- I/O: Video와 Text prompt를 입력받아, <reasoning>과 <score> tag로 구조화된 텍스트(quality-aware response)를 출력.
- 핵심 추가 모듈: Video의 temporal 정보를 처리하기 위해, **frozen motion feature extractor**와 이를 LMM의 language space로 연결하는 **motion projector**를 추가. 이 구조는 LMM을 VQA task에 효과적으로 적용하기 위한 핵심 장치입니다.
- Learning Strategy: GRPO (Group Relative Policy Optimization)
- 개념: 명시적인 value function 없이, 단일 입력()에 대해 개의 response 후보군()을 생성하고, 이들 간의 상대적 비교를 통해 학습.
- 최적화: 생성된 개의 response를 reward 함수로 평가하고, standardized advantage score를 계산하여 더 나은 response를 생성한 policy의 확률을 높이는 방향으로 모델()을 업데이트. KL divergence로 policy가 안정적으로 업데이트되도록 규제합니다.
- 핵심 기여: VQA-specific Rewards 이 논문의 가장 독창적인 부분으로, 총 4개의 reward를 조합하여 fine-grained 학습 신호를 생성합니다. Final reward는 이들의 합()입니다.
- Format Reward (): response가 정해진 <reasoning>...<score>... format을 따랐는지 확인하는 간단한 binary 보상. 출력의 구조를 강제하는 역할을 합니다.
- Bell-shaped Regression Reward ():
- 목적: Ground truth 점수에 근접했을 때 더 강력하고 세밀한 training signal을 제공.
- 방법: **Gaussian (bell-shaped) function**을 사용하여, prediction error가 작아질수록 reward가 비선형적으로 급격히 증가하도록 설계. 이는 high-precision 예측을 유도하는 핵심 reward입니다.
- Pairwise Ranking Reward ():
- 목적: 절대 점수뿐만 아니라 비디오 간의 상대적인 품질 순서를 학습.
- 방법: Batch 내 두 비디오의 ground-truth 순위와 모델이 예측한 점수의 순위가 일치할 경우 fidelity loss 기반의 보상을 부여. 이를 통해 모델의 상대 비교 능력을 향상시킵니다.
- Temporal Consistency Reward ():
- 목적: Frame 반복/드롭과 같은 long-range temporal distortion에 대한 민감도를 높임.
- 방법: 원본 비디오()와 의도적으로 시간적 왜곡을 가한 비디오()를 함께 모델에 입력. 모델이 원본 비디오의 품질을 더 높게 평가했을 경우에만 보너스 점수()를 부여하여, 시간적 안정성을 평가하는 능력을 명시적으로 학습시킵니다.
쉬운 설명 : Method 섹션 요약
이 섹션은 연구진이 만든 AI 모델 'VQAThinker'의 구조와 학습 방식을 설명하는 부분입니다. 🧠
AI의 구조: '글 잘 쓰는 뇌' + '움직임 보는 눈'
연구진은 먼저 글을 잘 이해하고 쓰는 똑똑한 AI(LMM)를 '뇌'로 사용했습니다. 하지만 이 AI는 원래 동영상을 볼 줄 모르기 때문에, 움직임을 포착하는 '눈'(motion feature extractor)을 달아주었습니다. 이 '눈'이 영상의 움직임을 분석해서 '뇌'가 이해할 수 있는 정보로 바꿔 전달해주는 방식입니다. 그 결과 AI는 동영상에 대한 '생각(reasoning)'과 '화질 점수(score)'가 담긴 리포트를 작성할 수 있게 됩니다.
AI 학습법: '경쟁'을 통해 똑똑해지기
AI를 훈련시키는 방법도 독특합니다. 하나의 동영상을 보여주고 "정답은 80점이야"라고 가르치는 대신, AI에게 **"이 영상에 대해 여러 가지 의견을 내봐!"**라고 요청합니다.
AI는 "75점 같아요. 왜냐하면..." 또는 "85점 같아요. 그 이유는..."처럼 여러 개의 답안을 제출합니다. 연구진은 이 답안들 중 어떤 것이 정답에 가깝고, 이유를 더 잘 설명했는지 채점해서 가장 잘한 답안에 큰 점수를 줍니다. 이런 '경쟁'을 통해 AI는 스스로 더 좋은 답을 찾는 법을 터득합니다.
AI의 '점수 시스템': 4가지 특별한 보상 규칙 🏆
AI가 더 똑똑하게 학습하도록 4가지 특별한 '보상(칭찬) 규칙'을 만들었습니다.
- 형식 지키기 보상: "리포트를 '생각'과 '점수'로 나눠서 양식에 맞게 잘 썼니?" (가장 기본적인 규칙)
- 정밀 타격 보상: "정답 점수가 80점일 때, 79점이라고 답하면 70점이라고 답했을 때보다 훨씬 더 큰 칭찬을 해줄게!" (조금이라도 더 정답에 가깝게 만들도록 유도)
- 순위 맞히기 보상: "A 영상과 B 영상 중에 A가 더 화질이 좋다는 걸 맞혔네? 그럼 보너스!" (절대적인 점수뿐만 아니라 상대적인 좋고 나쁨도 배우게 함)
- '옥에 티' 찾기 보상: "정상 영상이랑 일부러 화면을 끊기게 만든 '불량 영상'을 줄게. 정상 영상의 화질이 더 좋다고 정확히 찾아내면 특별 보너스!" (영상에만 있는 미세한 시간적 오류를 귀신같이 찾아내도록 훈련시킴)
이 4가지 보상 규칙을 통해 VQAThinker는 다른 AI보다 훨씬 더 정교하고, 똑똑하게 영상의 품질을 분석할 수 있게 됩니다.
주인장 이해
1. 단순한 점수 예측이 아닌, '생각하는 과정'을 학습시킵니다.
가장 큰 차별점은 모델이 단순히 숫자(점수)만 뱉어내는 것이 아니라, 왜 그런 점수를 주었는지에 대한 '생각의 흐름(reasoning trace)'을 먼저 생성하도록 설계했다는 점입니다.
- <think> 태그 안에 "카메라가 흔들리고 초점이 흐려서 화질이 안 좋다"와 같은 분석을 먼저 출력합니다.
- GRPO라는 reinforcement learning 방식은 이 '생각'과 최종 '점수'가 모두 그럴듯할 때 더 큰 reward를 줍니다.
이것이 중요한 이유는, 비싼 '설명 데이터(instruction data)' 없이도 모델 스스로 판단의 근거를 만들어내는 능력, 즉 '설명 가능성(Explainability)'을 학습하게 되기 때문입니다. 기존 연구들은 점수 예측과 설명 능력 확보를 별개의 문제로 보거나, 막대한 양의 설명 데이터를 필요로 했습니다.
2. Reward 설계가 VQA 문제에 매우 '정교하게' 맞춰져 있습니다.
- Bell-shaped Reward: 말씀하신 '정답에 가까우면 점수를 더 주는' 방식이 단순하지 않습니다. 예측이 정답에 아주 근접했을 때(예: 정답 4.5, 예측 4.4) reward를 폭발적으로 높여서, 모델이 '대충 맞히는' 수준을 넘어 매우 '정밀한(fine-grained)' 점수를 예측하도록 강하게 유도합니다.
- Temporal Consistency Reward: '순위 맞히기' 외에, 비디오 고유의 특성인 '시간적 왜곡'을 직접적으로 다루는 reward를 추가했습니다. 원본 영상과 프레임이 뒤섞인 영상을 비교하여, 시간적 흐름이 깨지면 품질이 나쁘다는 것을 명시적으로 학습시킵니다. 이는 이미지 품질 평가(IQA)에는 없는, VQA만의 핵심 문제를 해결하기 위한 독창적인 장치입니다.
3. 그 결과, '설명 가능성'과 '처음 보는 영상에 대한 강인함(Generalization)'을 동시에 잡았습니다.
위와 같이 '생각하는 훈련'을 하고 '정교한 채점'을 받은 결과, VQAThinker는 학습 데이터와 전혀 다른 종류의 영상(OOD, Out-of-Distribution)에 대해 기존의 모든 모델을 압도하는 성능을 보여주었습니다.
모델이 단순히 패턴만 암기한 것이 아니라, 화질 저하의 근본적인 원리를 '이해'했기 때문에 가능한 결과입니다. 이는 이 논문이 추구한 접근법이 실질적인 효과가 있음을 강력하게 증명하는 부분입니다.
결론적으로,
겉보기에는 기존 기술들의 조합처럼 보일 수 있지만, **'추론 과정을 명시적으로 모델링'**하고 **'VQA 문제에 특화된 정교한 reward'**를 결합하여, 기존 연구들이 풀지 못했던 **'설명 가능한 일반화(Explainable Generalization)'**라는 난제를 해결했다는 점에서 결코 '특별한 것이 없는' 연구가 아니라 매우 중요한 진전이라고 할 수 있습니다.
