목록2026/06/05 (2)
AI바라기의 인공지능
사실 빅파이는 예전 영동포도맛도 꽤 기가 막히게 뽑아냈던 전적이 있기에, 이번 레몬의 등장에도 내심 묘한 신뢰감이 생겼다. 5,040원이라는 가격표가 원래 알던 녀석보다 조금 묵직하긴 하지만... 늘 그렇듯 친절한 영양정보표가 내 양심을 조용히 찌른다. 100g당 455kcal. 달달한 초코 코팅에 과일잼까지 얹어졌으니 예상은 했지만 막상 숫자로 보니 살짝 숙연해진다. 그래도 제주 레몬과 벌꿀이 들어갔으니, 이건 단순한 군것질이 아니라고 우겨보며 가볍게 시선을 거두었다. 쨍한 빨간색 대신 초록 잎과 어우러진 산뜻한 레몬빛 낱개 포장지가 맛있어보인다.평생 친숙하게 지내던 동네 친구가 갑자기 화사한 여름휴가 룩으로 쫙 빼입고 나타난 걸 본 기분이랄까 '바스락-' 포장지를 뜯고 내용물을..
용어 설명RLVR (Reinforcement Learning with Verifiable Reward): 최종 정답이 맞는지 검증 가능한 보상을 통해 모델을 강화 학습시키는 방법입니다.CoT (Chain-of-Thought): 최종 답을 도출하기 위해 모델이 전개하는 단계별 중간 추론 과정을 의미합니다.Agentic Data Synthesis: LLM 기반의 Agent(이 논문에서는 Reasoner와 Observer)들이 서로 상호작용하며 자율적으로 훈련 데이터를 생성해내는 파이프라인입니다.Contrastive Prompting: 요약된 설명(summary)만으로는 풀 수 없고, 세부적인 상세 설명(detailed caption)이 있어야만 풀 수 있는 고난이도 질문을 생성하기 위해 두 텍스트를 대조하여..
