AI바라기의 인공지능
VLM : 논문 리뷰 : Unified Reinforcement and Imitation Learning for Vision-Language Models (RIL) 본문
VLM : 논문 리뷰 : Unified Reinforcement and Imitation Learning for Vision-Language Models (RIL)
AI바라기 2025. 12. 15. 12:43용어 설명 (Terminology)
- RIL (Unified Reinforcement and Imitation Learning): 이 논문에서 제안하는 통합 학습 프레임워크. 강화 학습(RL)의 보상 최적화와 모방 학습(IL)의 전문가 스타일 모사를 결합하여 VLM을 학습시킴.
- Dr.GRPO (Deep Reinforcement via Gradient Descent with Reference Policy Optimization): 기존 PPO 등의 복잡한 RL 알고리즘 대신, 참조 정책(Reference Policy)을 활용하여 더 안정적이고 효율적으로 그래디언트를 업데이트하는 RL 알고리즘. 본 논문의 RL 파트 베이스라인.
- GAIL (Generative Adversarial Imitation Learning): 생성적 적대 신경망(GAN)의 아이디어를 모방 학습에 적용한 것. Generator(학생)는 Expert(교사)와 구별되지 않는 행동을 하려 하고, Discriminator는 둘을 구별하려 함.
- LLM-as-a-Judge: 사람이 직접 채점하는 대신, 고성능 LLM에게 정답 여부를 판단하게 하여 그 결과를 Reward로 사용하는 기법.
- Verbalization Effect: 고차원 특징(feature)을 직접 따라 하는 것보다, 모델이 생성한 자연어(text) 자체를 모방하는 것이 지식 증류(distillation)에 더 효과적이라는 개념.
Purpose of the Paper
- Inference Latency 문제 해결: 최근 DeepSeek-R1과 같은 모델이 'Think-Answer' 방식(긴 사고 과정을 거침)으로 성능을 높였으나, 이는 Inference Latency(추론 지연)와 메모리 비용을 크게 증가시킴. 이 논문은 이러한 "Thinking" 과정 없이도 높은 성능을 내는 효율적인 VLM을 만들고자 함.
- 기존 Distillation의 한계 극복: 단순히 Teacher Model의 Logit이나 Feature를 따라 하는 기존 방식은 서로 다른 아키텍처나 Tokenizer를 가진 모델 간에는 적용하기 어려움. 또한, 단순 정답 여부(RL)만으로는 Teacher의 정교한 추론 스타일을 배우기 어려움.
- Small VLM의 고도화: 7B 이하의 작은 모델(Student)이 70B 이상의 거대 모델(Teacher)의 텍스트 생성 스타일과 추론 능력을 동시에 모방하여, 리소스 제약 환경(Edge device 등)에서도 SOTA급 성능을 내도록 하는 것이 목표.
Key Contributions & Novelty
- Unified RIL Framework:
- Contribution: RL(Dr.GRPO)과 IL(GAIL)을 결합한 새로운 학습 알고리즘 제시.
- Novelty: 기존에는 별개로 다루어지던 RL의 정답 도출 능력과 IL의 스타일 모사 능력을 Dual Reward System으로 통합함.
- Trainable LLM-based Discriminator:
- Contribution: Student와 Teacher의 출력을 구별하는 Discriminator를 학습 가능한 LLM(Student와 동일 아키텍처)으로 설계.
- Novelty: 고정된 지표(KL Divergence 등)가 아닌, 학습 가능한 Discriminator가 문맥적 뉘앙스와 스타일 차이를 감지하여 Similarity Reward를 제공함. 이는 서로 다른 Image Embedding이나 Tokenizer를 사용하는 모델 간에도 적용 가능(Model-Agnostic).
- Dual Reward Mechanism:
- Contribution: Similarity Reward (Discriminator가 주는 스타일 점수) + Answer Reward (LLM-as-a-Judge가 주는 사실적 정확성 점수)를 합산하여 최적화.
- Novelty: Discriminator의 출력을 **Binary(0 또는 1)**로 양자화하여 학습 불안정성을 해결하고 명확한 시그널을 제공함.
- Multi-Teacher Distillation:
- Contribution: 단일 Teacher가 아닌, 여러 개의 Large Teacher VLM으로부터 다양한 응답을 생성하여 학습에 활용.
- Novelty: 다양한 관점의 고품질 데이터를 통해 Discriminator를 더 강건하게 만들고, Student가 특정 Teacher에 편향되지 않고 일반화된 성능을 갖도록 유도함.
Experimental Highlights
- SOTA Performance with Small Models:
- RIL로 학습된 Qwen2.5-VL-7B 및 InternVL3-8B 모델이 원본 모델 대비 압도적인 성능 향상을 보임.
- 결과: MathVista, MMMU, AI2D 등 주요 벤치마크에서 GPT-4o, Gemini-1.5-Pro와 같은 Closed-source 대형 모델과 대등하거나 능가하는 성능 달성. (예: Qwen2.5-VL-7B RIL 버전이 MathVista 79.7% 달성 vs GPT-4o 63.8%).
- Ablation Study Results:
- RL only vs RIL: RL 단독(Dr.GRPO) 사용 시보다 Discriminator를 포함한 RIL이 모든 벤치마크에서 우수한 성능 기록.
- Multi-Teacher 효과: 단일 Teacher(Qwen-72B)만 쓸 때보다 Multi-Teacher(Qwen-72B + InternVL-78B)를 쓸 때 성능이 유의미하게 향상됨.
- Binary Reward의 우수성: Discriminator 점수를 연속값(0~1)으로 쓰는 것보다 Binary(0, 1)로 변환했을 때 학습이 더 안정적이고 성능이 높음.
- Efficiency:
- 'Think' 토큰을 생성하지 않으므로, Inference Speed는 원본 Small VLM과 동일하게 유지하면서 성능만 대폭 향상됨.
Limitations and Future Work
- Computational Cost during Training:
- Limitation: 학습 중에 Student, Teacher, Discriminator, LLM-as-a-Judge를 모두 실행해야 하므로 학습 비용(GPU 메모리 및 연산량)이 높음. (GRPO 대비 추가 비용 발생).
- Future Work: 효율적인 학습 파이프라인 최적화 필요.
- Post-training Only:
- Limitation: 현재는 SFT(Supervised Fine-Tuning) 이후 단계인 Alignment 단계에만 적용됨.
- Future Work: Visual Instruction Tuning 초기 단계부터 Discriminator를 도입하여, 초기 학습 효율성을 높이고 아키텍처 제약을 극복하는 연구 제안.
- Ambiguity in Similarity:
- Limitation: Discriminator가 문체(style)만 모방하고 팩트 체크를 놓칠 위험이 있어 LLM-as-a-Judge가 필수적임.
Overall Summary
이 논문은 거대 VLM의 성능을 효율적인 소형 VLM으로 이식하기 위해 강화 학습(RL)과 적대적 모방 학습(IL)을 통합한 RIL 프레임워크를 제안합니다. 학습 가능한 LLM 기반 Discriminator를 통해 Teacher 모델의 텍스트 생성 스타일을 모방(Similarity Reward)하고, 동시에 LLM-as-a-Judge를 통해 정답의 정확성(Answer Reward)을 확보하는 이중 보상 체계를 사용합니다. 이 방법은 추론 속도 저하 없이 7B 규모의 모델이 70B 이상의 Open/Closed-source 모델을 능가하는 성능을 달성함을 입증하였으며, 효율적인 고성능 VLM 개발의 새로운 방향성을 제시합니다.
쉬운 설명 (Easy Explanation)
- 문제: 똑똑한 AI(Teacher)를 따라 작은 AI(Student)를 만들고 싶은데, 단순히 정답만 외우게 시키면(RL) 말투나 논리 전개 과정을 못 배우고, 선생님의 뇌 구조를 그대로 베끼려니(Feature Distillation) 둘의 뇌 구조가 너무 달라서 불가능합니다.
- 핵심 아이디어 (RIL):
- 깐깐한 스타일 코치 (Discriminator): 학생이 낸 답을 보고 "이거 선생님이 쓴 거 맞아? 말투가 어설픈데?"라며 스타일을 검사합니다. (Imitation Learning)
- 팩트 체크 심판 (Judge): 동시에 "답이 틀렸어, 정답은 2야."라고 팩트를 검사합니다. (Reinforcement Learning)
- 여러 명의 선생님 (Multi-Teacher): 한 명의 선생님한테만 배우지 않고, 여러 고수들의 답변을 동시에 참고해서 더 유연하게 배웁니다.
- 결과: 이 과정을 반복하니, 학생 모델은 "생각하는 시간(Thinking process)"을 따로 갖지 않아도(빠름), 선생님처럼 유창하고 정확하게 대답할 수 있게 되었습니다. 심지어 GPT-4o보다 특정 문제에서 더 잘 풀기도 합니다.
주인장 이해
1. 질문 던지기 (Input):
이미지와 질문(예: "이 사진 속 음식 요리법을 알려줘")을 준비합니다.
2. 선생님 답변 모으기 (Teachers):
똑똑한 **여러 명의 선생님 AI(Large VLMs)**들이 이 질문에 대한 모범 답안들을 쫙 써냅니다. (이것들은 '따라 해야 할 스타일 교본' 역할을 합니다.)
3. 학생 답변 시도하기 (Student):
이제 배우려는 **학생 AI(Small VLM)**가 같은 질문을 보고 자기 나름대로 답변을 여러 개 만들어봅니다.
4. 감별사 훈련 (Discriminator Training):
여기서 **'감별사(Discriminator)'**라는 또 다른 AI가 등장합니다. 감별사는 선생님의 답안(2번)과 학생의 답안(3번)을 섞어 놓고, **"누가 쓴 건지 맞추는 훈련"**을 합니다. (감별사는 학생과 선생님을 구별하려고 애씁니다.)
5. 보상 계산 1 - 스타일 점수 (Similarity Reward):
이제 학생의 답변을 채점합니다. 만약 감별사가 학생의 답변을 보고 "어? 이건 선생님이 쓴 것 같은데?"라고 속았다면, 학생은 **높은 점수(1점)**를 받습니다. (선생님 말투를 잘 흉내 냈다는 뜻입니다.)
6. 보상 계산 2 - 정답 점수 (Answer Reward):
동시에 **'채점관(Judge, 또 다른 LLM)'**이 학생의 답변 내용이 사실적으로 맞는지 확인합니다. 내용이 맞으면 **높은 점수(1점)**를 줍니다. (내용이 정확하다는 뜻입니다.)
7. 최종 점수 합산 (Total Reward):
학생은 **[스타일 점수 + 정답 점수]**를 합친 총점을 받습니다. 즉, "말투도 선생님 같고, 내용도 정답인" 답변이 최고점을 받습니다.
8. 학생 업데이트 (Student Update - RL):
학생 AI는 최고점을 받은 답변 방식을 기억해서 자신의 뇌(파라미터)를 업데이트합니다. "아, 이렇게 대답해야 점수를 잘 받는구나" 하고 학습하는 것입니다.