AI바라기의 인공지능
VLM : 논문 리뷰 : MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data 본문
VLM : 논문 리뷰 : MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
AI바라기 2026. 3. 12. 18:46용어 설명
- Zero Data: 인간이 주석을 단 라벨 데이터는 물론, 모델 학습의 시작점이 되는 seed image dataset조차 전혀 사용하지 않는 완전한 무(無) 데이터 환경.
- Self-Evolving: 모델이 외부의 정답지 없이 스스로 학습 데이터를 생성하고, 자체적인 평가를 통해 지속해서 성능을 개선하는 학습 패러다임.
- Proposer / Coder / Solver: 본 논문에서 제안한 1인 3역 아키텍처. Proposer는 시각적 개념과 질문을 기획하고, Coder는 이를 렌더링 가능한 코드(SVG)로 구현하며, Solver는 완성된 이미지를 보고 질문을 해결.
- RLVR (Reinforcement Learning with Verifiable Rewards): 모델의 출력이 맞는지 틀린지 객관적인 규칙으로 검증하여 보상을 부여하는 강화학습 방식.
- GRPO (Group Relative Policy Optimization): 동일한 프롬프트에서 생성된 여러 샘플 간의 상대적인 보상을 비교하여 Policy를 업데이트하는 효율적인 최적화 알고리즘.
- TTRL (Test-Time Reinforcement Learning): 정답이 없는 어려운 문제에 대해, 모델 스스로 여러 번 답을 내어보고 가장 많이 나온 답(Majority Vote)을 임시 정답(Pseudo-Label)으로 삼아 학습하는 기법.
- Goldilocks principle: 모델이 너무 쉽거나 너무 불가능한 문제를 만들지 않도록, '자신의 현재 능력치에 딱 맞는(가장 불확실성이 높은)' 난이도의 문제를 생성했을 때 최대 보상을 주는 원리.
Purpose of the Paper
- 기존 LLM의 self-evolution은 텍스트만으로 가능했지만, VLM은 시각적 입력(image)이 필수적이어서 기존 연구들은 정적인 seed image dataset에 의존해야 하는 근본적인 한계가 존재함.
- 기존 방식은 데이터 수집의 bottleneck을 단순히 '이미지 필터링 및 소싱' 과정으로 옮겼을 뿐, 진정한 의미의 자율적 진화라고 보기 어려움.
- 본 논문은 모델이 직접 visual content를 렌더링하는 코드를 작성하게 만듦으로써, 외부 이미지 데이터가 전혀 필요 없는 완전한 Zero Data 기반의 VLM reasoning self-evolution 프레임워크인 MM-Zero를 제안하고자 함.
Key Contributions
- Tri-role Architecture 제안 (Novelty)
- 기존의 Proposer-Solver 2-role 구조를 탈피하여, Proposer, Coder, Solver라는 세 가지 특화된 역할을 단일 base model에서 파생시키는 3-role 시스템을 최초로 도입함.
- 추상적인 언어(개념)와 시각적 추론(이미지 이해) 사이의 간극을 중간 단계인 executable code 생성으로 연결한 점이 매우 참신함.
- Zero-data Self-evolution 달성 (Novelty)
- 외부 데이터 개입 없이 모델 스스로 무한한 변형이 가능한 합성 시각 데이터를 렌더링하고 학습하는 폐쇄 루프(closed-loop) 시스템을 구축함.
- 정교한 Reward Mechanism 설계
- 단순 정답 유무가 아닌, 코드의 렌더링 성공 여부(Execution feedback), 쉬운 질문을 통한 시각적 유효성 검증(Visual verification), 모델 성장에 맞춘 난이도 조절(Difficulty balancing)을 유기적으로 통합하여 Reward Hacking을 방지함.
Experimental Highlights
- Experimental Setup:
- Base Models: Qwen3-VL-Instruct (4B, 8B), Mimo-VL-7B-SFT
- Benchmarks: MMMU, ChartQA 등 (General), MathVista, MathVerse 등 (Math), HallusionBench 등 (Hallucination)
- 주요 실험 결과:
- 외부 데이터 없이 self-play만으로 모든 multimodal benchmarks에서 일관된 추론 성능 향상을 달성.
- Qwen3-VL-8B 모델의 경우 3번의 iteration 만에 visual math reasoning 평균 점수가 50.7%에서 54.1%로 3.4%p 상승함.
- 학습을 5 iteration까지 연장했을 때 성능이 포화되지 않고 평균 54.5%까지 지속 상승하여 확장 가능성을 입증함.
- 학습이 진행될수록 Coder의 렌더링 성공률과 생성된 이미지의 품질(Solvability)이 확연히 향상되는 것을 확인함.
Limitations and Future Work
- Limitations (한계점):
- 컴퓨팅 자원의 한계로 인해 38B 파라미터 이상의 초대형 VLM에서 scaling 거동을 검증하지 못함. Base model의 초기 능력이 뛰어날수록 self-evolution의 혜택이 커지는 경향을 발견했기에 대형 모델에서의 검증 부재가 아쉬움.
- Future Work (향후 연구 방향):
- 현재의 2D SVG 코드 생성을 넘어, 3D 렌더링 등 더 다양한 tool을 사용하게 하여 3D spatial reasoning 같은 풍부하고 복잡한 훈련 데이터를 생성할 수 있도록 확장.
- Agent 역할을 추가하여 self-evolving dynamics를 더욱 고도화하고, 외부 감독 없이 모델이 도달할 수 있는 성능의 upper bound를 탐구.
Overall Summary
- MM-Zero는 외부 이미지 데이터나 인간의 개입 없이 VLM 스스로 코드를 짜서 이미지를 렌더링하고 문제를 만들어 푸는 최초의 3-role 기반 zero-data self-evolving 프레임워크입니다.
- Proposer, Coder, Solver가 상호 작용하며 정교하게 설계된 보상 체계를 통해 텍스트 지시, 시각적 합성, 멀티모달 추론 능력을 동시에 향상시킵니다.
- 이 연구는 막대한 비용이 드는 vision 데이터 수집의 병목 현상을 타개하고, VLM이 무한한 합성 환경에서 스스로 진화할 수 있는 확장 가능한 경로를 열었다는 점에서 AGI 연구에 중요한 이정표가 됩니다.
쉬운 설명 이 논문은 AI 모델이 문제집(외부 데이터)을 사서 푸는 대신, 스스로 "어떤 그림을 그릴지 상상(Proposer)"하고, "컴퓨터 코드를 짜서 그림을 직접 그리고(Coder)", "그 그림을 보고 자기가 낸 어려운 문제를 푸는(Solver)" 1인 3역의 자습 시스템을 만든 것과 같습니다. 이 과정에서 너무 쉬운 문제만 만들거나 그림이 깨지면 점수(Reward)를 깎는 규칙을 두어 꼼수를 부리지 못하게 막았습니다. 그 결과, 인간이 주는 데이터나 사진이 단 한 장도 없어도 모델이 혼자 놀면서 시각적 추론 능력을 똑똑하게 키울 수 있음을 증명했습니다.
하나의 베이스 모델이 3가지 역할을 번갈아가며 수행합니다.
Proposer (기획자): 이미지 상세 묘사, 쉬운 질문과 정답, 어려운 질문을 텍스트로 기획합니다.
Coder (개발자): Proposer의 묘사를 보고 실제 그림을 그릴 수 있는 파이썬/SVG 코드를 짭니다.
Solver (문제 풀이 및 검증자): Coder가 그린 그림을 보고 질문을 풀어냅니다.
'1 턴(Turn)'의 정의
한 번의 턴에 Proposer는 수십~수백 개의 '기획안 세트'를 한꺼번에 쏟아냅니다. 이것을 **Batch(배치)**라고 부릅니다
Proposer은 즉 배치 갯수 대로 문제를 생성
Coder는 이 수백 개의 기획안을 각각 코드로 변환해 수백 장의 이미지를 렌더링
4개씩 생성하니 배치 x 4 즉 1개 샘플당 4개씩
Solver 역시 수백 장의 이미지에 달린 질문들을 전부 풀음
한 사이클에 각자 한번씩 테스트 대상자가 되는셈.
Proposer이 테스트 대상자가 되었을땐 산출한 결과물에 대한 보상점수를 구해줘야함. 그 점수 계산은 다음과 같음.
coder가 생성한 4개의 답변이 실행가능한지여부에 따른 0점 1점 바로 줌.
0점은 거기서 종료
이번엔 1차 필터링된 이미지와 쉬운질문을 가지고 solver에게 풀게함.
정답률이 점수가 되는데, 1+1 같은 쉬운 문제를 proposer이 내면 보상 해킹이니 괘씸하게 학습하는 것을 방지하기 위해 0.5점을 맥스로 걸어둠.
그리고 어려운 문제를 solver에게 풀게함. 이땐
암튼 정답 없으니 그냥 다수결을 정답삼아 똑같이 보상 점수 계산 0.5 맥스느 같음.
그리고 점수 다시 대충 산정하고, 너무 점수가 낮다 그럼 쉬운문제들이거나 너무 어려운 문제들뿐이니 감점
그리고 특정종류만 생성하면 감정, 텍스트 비슷하면 감정
그럼 기획안 별로 최종 점수가 생기는데 각 기획안 별로 gpro의 보상이 되는셈. 이걸로 백프로파게이션
이걸 20번 반복함.
즉 20 x B가 이번턴에 provider에게 전파시키는 데이터 수 이고, 이후로는 provider는 턴내에서 모든 파라미터 고정.
이제 coder 차레
coder는 특이하게 20 x B가 아니라 4천개를 봐야함.
그 4천개는 provider가 제공함.
coder는 한개의 기획안마다 4개의 code를 작성해서 렌더링 시킴.
4번모두 실패? 버림 4번모두 성공? 버림.
25~75기획안만 학습 데이터로 사용.
그래서 데이터가 많이 필요함.
앞에서 부터 4개씩 생성하면서 25~75% 기획안이 배치개 채워질때까지 도전!
그럼 4 B개의 코드가 있다는 얘기.
오류 없이 렌더링 되면 1점.
이미지, 쉬운질문을 solver에게 주고 5번 풀게해서 아까와 똑같이 점수 줌 맥스 1점
이미지, 어려운 질문 solver에게 주고 5번 풀게해서 아까와 똑같이 다수결로 점수 맥스 0.5점
골디락스 난이도 공식(일치율과 1 마이너스 일치율 중 작은 값)
coder 가 답을 그냥 적으면? 5번다 똑같은 답일테니 일치율 100%라서 0점
coder가 엉망이면? 그냥 0점
coder가 잘~만들고 난이도도 적절하다? 그럼 갈리면 최고점
그렇게 코드별 점수를 종합해서 4 B 개의 전파를 시킴
이제 solver차례
coder에서 짠 4천개를 재사용하겠군. coder는 학습됐으니 잘하겠고,
그럼 4개 만들 필요없이 1개씩만 하면 되고
렌더링 안되면 바로 다음 넘어감.
이런식으로 1개하고 5번 solver가 풀게해서 정답률 50% 넘는지 봐야하는군
어려운 문제도 동일하게 하는데 이건 정답 없으니 다수결을 기준으로 해서 그걸 정답률 계산
27~75
그렇게 64개 고르기
이미지 + 어려운 문제 주고 8번씩 풀게함. 그럼 총 512개 풀이가 나오는데. 각 8개기준 다수결을 정답으로 사용.
각 G가 8인셈이고 64가 배치. 그렇게 역전파.
이걸 20번 반복.
결국 재귀개선
별점 3.5점 / 5점
"VLM도 인간의 데이터 없이 스스로 추론 능력을 키울 수 있다"라는 개념을 잘 보여줬음. 데이터를 전혀 사용하지 않고 VLM을 재귀개선 시킨 아이디어는 매우 좋았음. 하지만 한계가 매우 명확한데 '코딩으로 그릴 수 있는 세상만 볼 줄 아는 가성비 최악의 공부벌레'를 만든다는 비판을 피할 수 없는 논문
"텍스트로 시각을 가르친다"는 발상의 전환과 3가지 자아를 롤플레잉 시킨 시스템 엔지니어링은 예술의 경지
