'2025/06/26 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록2025/06/26 (1)

AI바라기의 인공지능

benchmark : 논문리뷰 : GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 학생에게 수학 문제를 풀게 하는 똑똑한 선생님과 같습니다.기존 방식 (GRPO): 학생이 최종 답만 맞히면 점수를 주는 선생님과 같습니다. 학생은 중간 풀이 과정이 엉터리이거나 우연히 답을 맞혔을 수 있습니다 (shortcut).제안 방식 (GRPO-CARE): 최종 답이 맞으면 기본 점수를 주고(base reward), 중간 풀이 과정이 논리적이고 합리적이면 추가 점수(consistency bonus)를 주는 선생님과 같습니다. 이 선생님은 완벽한 모범 답안지(process supervision)가 없어도 학생의 풀이가 말이 되는지 아닌지 판단할 수 있습니다. 이런 방식은 학생이 단순히 답을 맞히는 요령이 아니라, 문제를 올바르게 푸..

논문리뷰 2025. 6. 26. 15:22

이전 Prev 1 Next 다음

목록2025/06/26 (1)

AI바라기의 인공지능

티스토리툴바