목록2025/07/22 (3)
AI바라기의 인공지능
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 '동적인 전문가 팀 회의' 와 같습니다.어떤 어려운 영상 문제(question)를 풀어야 할 때, 일단 가장 핵심적인 장면 몇 개(sparse frames)만 보고 소수의 전문가 팀(reasoning paths)에게 각자 답을 내보라고 합니다.만약 모든 전문가의 의견이 만장일치로 모이면(consensus), "이 문제는 이 정보만으로 충분하구나!" 하고 그 답을 최종 결론으로 채택합니다.하지만 전문가들의 의견이 서로 갈린다면, "아, 정보가 부족해서 헷갈리는구나. 더 자세히 봐야겠다"라고 판단하고, 더 많은 장면(denser frames)을 보여주며 전문가를 추가로 투입해 다시 회의를 진행합니다.이렇게 문제의 난이도에 따라 동적으로 리..
쉬운 설명이 논문의 핵심 아이디어는 VideoLLM을 똑똑하게 가르치는 두 가지 새로운 과외 방식과 같습니다.직설적인 피드백 (Reg-GRPO): 기존 방식이 "정답에 가깝게 답하도록 노력해 봐"라고 두루뭉술하게 피드백했다면, 새로운 방식은 "이 답변의 점수는 정확히 85점이야. 이 점수를 그대로 예측해 봐"라고 아주 구체적이고 직접적으로 점수(advantage)를 알려줍니다. 이렇게 하면 모델이 헷갈리지 않고 더 빠르고 안정적으로 학습할 수 있습니다.맞춤형 난이도 조절 (Difficulty-aware Augmentation): 똑똑한 과외 선생님처럼, 모델이 문제를 너무 어려워하면 힌트를 줘서 난이도를 낮춰주고 (Difficulty Decreasing), 문제를 너무 쉬워하면 살짝 꼬아서 난이도를 높여..
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 **"매우 똑똑하지만, 한 번에 오래 집중하지 못하는 학생을 가르치는 방법"**과 유사합니다.학생(solver 모델)이 먼저 어려운 수학 문제를 풀어봅니다 (Initial generation).집중력(thinking budget)이 다해 풀이가 엉성해지면, 학생은 잠시 쉬고 자신이 푼 풀이를 처음부터 다시 검토합니다 (Self-improvement). 이렇게 하면 새로운 집중력으로 문제를 더 깊게 파고들 수 있습니다.그 후, 다른 선생님(verifier 모델)이 학생의 풀이를 보고 정답을 알려주지 않은 채, "이 부분 논리가 이상해"라고 꼼꼼하게 지적만 해줍니다 (Verification).학생은 이 피드백을 바탕으로 자신의 풀이를 스스..