목록2025/06/26 (1)
AI바라기의 인공지능

쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 학생에게 수학 문제를 풀게 하는 똑똑한 선생님과 같습니다.기존 방식 (GRPO): 학생이 최종 답만 맞히면 점수를 주는 선생님과 같습니다. 학생은 중간 풀이 과정이 엉터리이거나 우연히 답을 맞혔을 수 있습니다 (shortcut).제안 방식 (GRPO-CARE): 최종 답이 맞으면 기본 점수를 주고(base reward), 중간 풀이 과정이 논리적이고 합리적이면 추가 점수(consistency bonus)를 주는 선생님과 같습니다. 이 선생님은 완벽한 모범 답안지(process supervision)가 없어도 학생의 풀이가 말이 되는지 아닌지 판단할 수 있습니다. 이런 방식은 학생이 단순히 답을 맞히는 요령이 아니라, 문제를 올바르게 푸..
논문리뷰
2025. 6. 26. 15:22