목록전체 글 (327)
AI바라기의 인공지능
쉬운 설명 (Simple Explanation)이 논문의 핵심 아이디어는 Language Model을 **"틀리면 0점, 안 써도 0점, 맞추면 1점을 주는 시험을 보는 학생"**에 비유할 수 있습니다. 이 학생은 잘 모르는 문제가 나왔을 때, 답안지를 비워두기보다는 아는 것을 총동원해 그럴듯한 답이라도 쓰는(추측하는) 것이 기대 점수를 높이는 최선의 전략입니다. 이처럼 현재의 AI benchmark 대부분이 모델에게 불확실성을 표현할 기회를 주지 않고 오직 정답 여부로만 평가하기 때문에, 모델들이 'Hallucination'이라는 '추측 행위'를 하도록 훈련되고 있다는 것입니다. 따라서 시험 채점 방식을 "확실할 때만 답하고, 모를 땐 '모른다'고 답해도 불이익을 주지 않도록" 바꾸는 것이 근본적인 해..
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어를 쉽게 비유하자면 다음과 같습니다."지금까지 AI 모델(MRM)들이 비디오를 얼마나 잘 이해하는지 평가하는 시험은 몇 문제 안 되는 쪽지시험 수준에 불과했습니다. 이 논문은 비디오 이해 능력을 제대로 평가하기 위해 '종합 대학수학능력시험(수능)'과 같은 VideoRewardBench라는 새로운 시험지를 만든 것입니다. 이 '수능'은 'perception(국어/영어)', 'knowledge(사회/과학탐구)', 'reasoning(수학)', 'safety(윤리)'와 같은 다양한 과목을 포함하고 있으며 문제도 훨씬 어렵습니다. 이 새로운 시험으로 AI들을 테스트해 보니, 전교 1등(SOTA 모델)조차 60점대 초반의 점수를 받는다는 충격적인 ..
학습 노트: A Survey on Latent Reasoning쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 **"생각을 굳이 말로 다 표현할 필요가 없다"**는 것입니다.기존의 **Explicit Reasoning (CoT)**는 똑똑한 사람이 수학 문제를 풀 때 모든 계산 과정을 종이에 일일이 적는 것과 같습니다. 다른 사람이 이해하기는 쉽지만, 쓰는 데 시간이 걸리고 표현 방식(언어)에 제약을 받습니다.이 논문이 조망하는 Latent Reasoning은 천재 수학자가 복잡한 문제를 머릿속에서 이미지나 개념을 이리저리 조합하며 '순식간에' 푸는 것과 같습니다. 머릿속 생각의 '언어'는 우리가 쓰는 말보다 훨씬 풍부하고(high-bandwidth) 빠릅니다.이 논문은 AI가 이렇..
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 우리가 그림을 보고 설명하는 과정과 비슷합니다.처음에는 그림을 대충 훑어보고 "고양이가 의자 위에 있다"고 초안(initial caption)을 작성합니다. 그런 다음, 내가 쓴 초안을 다시 읽어보면서 그림을 더 자세히 들여다봅니다. "아, 그냥 고양이가 아니라 검은 고양이네. 그리고 그냥 의자가 아니라 나무 의자구나"라며 세부 사항을 발견하고 "검은 고양이가 나무 의자 위에 앉아 있다"고 문장을 수정(refinement)하는 것과 같습니다.이 논문은 AI 모델이 바로 이 "두 번째 자세히 보기" 과정을 자동으로 수행하게 만든 것입니다. 특히, 모델이 '수정하는 방법'을 잘 배우도록, 일부러 작은 오류가 포함된 예제 문제(pseudo-..
쉬운 설명 (Easy Explanation)이 논문이 지적하는 SAH 문제는 다음과 같이 비유할 수 있습니다.어떤 탐정이 살인사건 현장에서 "피해자의 손에 있던 칼", "거실에 깨진 유리 조각", "열려있는 창문"이라는 세 가지 단서를 모두 정확하게 발견했다고 가정해봅시다 (frame-level semantics는 정확). 하지만 탐정이 이 단서들을 잘못 조합하여 "범인이 창문으로 들어와 칼로 피해자를 위협하다가, 몸싸움 끝에 유리 조각이 깨졌다"고 결론 내립니다 (SAH 발생). 실제로는 "피해자가 유리 조각으로 손을 베어 칼을 놓쳤고, 이후 범인이 열린 창문으로 도망쳤다"가 진실일 수 있습니다.이처럼, 개별적인 사실(단서)은 모두 맞지만, 그 사실들의 시간적 순서나 인과관계를 잘못 엮어 완전히 틀린 ..
쉬운 설명 (Simple Explanation)이 논문의 핵심 아이디어는 **"똑똑한 학생의 오픈북 시험 공부법"**과 같습니다.기존 모델들은 어려운 문제를 풀 때마다 참고서(과거 비디오 및 대화 기록) 전체를 처음부터 끝까지 읽었습니다. 이는 시간이 오래 걸리고, 정작 중요한 내용이 어디 있는지 헷갈리게 만듭니다.반면, 이 논문이 제안하는 CogReasoner는 똑똑한 학생처럼, 현재 문제와 가장 관련 있는 페이지만 정확히 찾아(Historic Dialogue Retrieval) 밑줄 친 부분(Visual Stream Compression)만 빠르게 훑어보고 정답을 찾습니다. 이 방식 덕분에 훨씬 더 빠르고 정확하게 문제를 해결할 수 있습니다. CogStream: 학습 노트용어 설명 (Termino..
쉬운 설명 (Core Idea Explained)이 논문의 핵심 아이디어를 에세이 채점에 비유할 수 있습니다.기존 방식 (GRPO): 에세이의 각 단어(token)마다 개별적으로 점수를 매기는 것과 같습니다. 특정 단어가 약간 부적절하다고 해서 그 단어에 큰 감점을 주면, 에세이 전체의 훌륭한 논리나 흐름을 놓치고 오히려 글을 망치도록 유도할 수 있습니다. 이런 피드백은 매우 혼란스럽고 불안정합니다.새로운 방식 (GSPO): 에세이 전체(sequence)를 다 읽고 하나의 총점을 매기는 것과 같습니다. 개별 단어의 사소한 흠결보다는 문단 전체의 논리, 설득력 등 전체적인 완성도를 보고 평가합니다. 이 방식은 작가에게 훨씬 더 일관되고 안정적인 피드백을 주어 다음 에세이를 더 효과적으로 개선하도록 돕습니다..
쉬운 설명이 논문의 핵심 아이디어는 똑똑한 AI에게 영상에 대해 질문하고 답을 얻을 때, AI가 "대충 감으로 찍는 것"이 아니라 **"명탐정처럼 논리적으로 증거를 찾아 설명하게 만드는 것"**과 같다.기존 방식: 탐정이 범죄 현장(질문)을 보고 "직감적으로 범인은 이 사람이야!"라고 말하는 것과 같다. 왜 그런 결론을 내렸는지 알 수 없다.이 논문의 방식: 탐정에게 "A가 범인인 이유는 B라는 동기가 있고 C라는 행동을 했기 때문이다"라는 큰 주장을 증명하게 시킨다.탐정은 이 주장을 **"A는 B라는 동기가 있었다"**와 **"A는 C라는 행동을 했다"**는 두 개의 작은 주장으로 나눈다. (→ Entailment Tree 생성)그리고 각 작은 주장에 대한 결정적인 증거를 CCTV 영상(Video)에서..
더보기용어 설명 (Terminology)MLLMs (Multimodal Large Language Models): Text뿐만 아니라 Image, Video 등 여러 양식(modality)의 데이터를 이해하고 처리할 수 있는 대규모 언어 모델.Cascade RL (Cascade Reinforcement Learning): 본 논문에서 제안한 2단계 Reinforcement Learning(강화학습) 프레임워크. 안정적인 수렴을 위한 offline RL 단계와 세밀한 조정을 위한 online RL 단계로 구성됨.ViR (Visual Resolution Router): 시각적 토큰(visual token)의 semantic content(의미론적 내용)에 따라 동적으로 해상도를 조절하여, 성능 저하 없이 추..
쉬운 설명 (Simple Explanation)이 논문의 핵심 아이디어는 Video-LLM에게 **"스스로 공부할 수 있는 해설이 아주 상세한 문제집을 만드는 법"**을 가르쳐주는 것과 같습니다.먼저, 복잡한 video를 보고 **등장인물, 사물, 행동, 시간 순서 등을 정리한 '마인드맵' 또는 '사건 관계도'(이것이 STSG)**를 그리게 합니다.그 다음, 이 관계도를 보면서 "A가 B를 한 뒤에 C는 어디에 있었어?" 와 같은 복잡한 질문과 "영상 초반에 A는 B를 했고, 그 직후 C는 D 장소에 있었기 때문에 정답은 D야" 라는 **친절한 풀이 과정(CoT Rationale)**까지 스스로 만들어 냅니다.마지막으로, 자기가 만든 이 '고품질 해설 문제집'으로 직접 공부하면서(self-training..