목록분류 전체보기 (236)
AI바라기의 인공지능
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 비디오 품질 평가 전문가를 AI로 만드는 것과 같습니다. 전문가가 비디오를 보고 "음, 화면이 좀 흔들리고, 색감도 약간 바랜 것 같네. 그래서 7점이야."라고 말하는 것처럼, VQAThinker 모델도 먼저 태그 안에 "camera movement is quite shaky and unsteady... " 와 같이 품질 문제를 분석하는 '생각'을 텍스트로 출력합니다. 그리고 그 분석을 바탕으로 최종 점수를 태그에 내놓습니다.Reinforcement learning은 이 과정을 훈련시키는 '코치' 역할을 합니다. 코치는 모델의 '생각'이 얼마나 논리적인지, 그리고 최종 점수가 실제 점수와 얼마나 가까운지를 보고 **'칭찬(rewar..
쉬운 설명 (Simple Explanation)이 논문의 핵심 아이디어는 우리가 긴 영화를 볼 때 모든 장면을 똑같은 비중으로 기억하지 않는 것과 비슷합니다. 우리는 전체적인 흐름을 훑어보다가, 중요한 사건이 발생하는 '결정적인 scene' 들에 집중해서 내용을 파악합니다.SLFG는 MLLM에게 바로 이 방식을 가르쳐줍니다. 먼저 비디오를 짧은 클립(Frame Group)으로 나눈 뒤, LLM을 이용해 각 클립의 내용을 요약합니다. 그 다음, 질문의 내용과 가장 관련이 깊어 보이는 '핵심 scene' 들을 똑똑하게 찾아냅니다. 마지막으로, 이 핵심 scene들과 그 주변 프레임들만 MLLM에게 집중적으로 보여주어 "이 부분을 자세히 보고 답을 찾아봐" 라고 지시하는 것과 같습니다. 이렇게 하면 불필요한 ..
쉬운 설명 (Easy Explanation)VideoForest의 핵심 아이디어는 여러 CCTV 영상을 분석하는 탐정의 '마인드맵' 과 유사합니다.기존 방식이 각각의 CCTV 영상을 따로따로 보며 단서를 찾는 것과 같다면, VideoForest는 특정 용의자(a person-anchor)를 마인드맵의 중심에 놓고, 그 사람이 나타난 모든 영상(cross-video)의 시간과 장소, 행동을 나뭇가지처럼(hierarchical tree) 연결하여 전체 동선을 한눈에 파악하는 방식입니다. 이를 통해 탐정(multi-agent system)은 "용의자가 어제와 오늘, A건물과 B건물을 모두 방문했는가?" 와 같은 복잡한 질문에 훨씬 쉽고 정확하게 답할 수 있습니다. 용어 설명 (Terminology)Cross-..
쉬운 설명이 논문의 핵심 아이디어를 아주 긴 책을 읽고 질문에 답하는 상황에 비유할 수 있습니다.Full Attention: 질문이 나올 때마다 매번 책 전체를 한 단어도 빼놓지 않고 다시 읽는 방식입니다. 정확하지만 엄청나게 느립니다.기존의 Sparse Attention: 책을 짧게 만들려고 무작위로 페이지를 찢어내는 서투른 조수와 같습니다. 빠르긴 하지만 중요한 내용을 놓치기 쉽고 과정이 지저분합니다.NSA (이 논문의 제안): 똑똑하고 효율적인 연구 조수와 같습니다.먼저 책의 **'챕터별 요약본'(Token Compression)**을 읽어 전체 흐름을 파악합니다.그 다음, 질문과 요약본을 바탕으로 가장 관련성이 높은 '핵심 단락들만 골라'(Blockwise Selection) 정독합니다.동시에 방..
쉬운 설명이 논문의 핵심 아이디어는 비디오 속 행동을 분석하는 AI를 학습시키는 과정을 초보자를 전문가로 키우는 체계적인 훈련에 비유할 수 있습니다.기존 방식: 초보자에게 다짜고짜 "피겨 스케이팅 연기를 해봐"라고 시키고 '성공/실패'로만 평가하는 것과 같습니다. 초보자는 무엇을 어떻게 개선해야 할지 알기 어렵습니다.ReasonAct 방식:먼저 글(text)로 "균형 잡는 법", "점프의 원리" 등 **기초 이론(Foundational Reasoning)**을 가르칩니다.그다음, 실제 연기 영상(video)을 보며 "지금 선수가 '준비 동작'에 들어갔고, '도약'을 하고 있어"라고 **사고의 과정(Chain-of-Thought)**을 배우게 합니다.마지막으로, 코치(RL)가 연기의 각 세부 동작(Sub-..

쉬운 설명이 논문의 핵심 아이디어는, 우리가 긴 책을 읽고 문제를 풀 때 기억에만 의존하지 않고 헷갈리는 부분이 있으면 다시 해당 페이지를 펼쳐서 확인하는 것과 같습니다. 기존 모델들이 비디오를 한번 보고 기억에 의존해 추론했다면(hallucination 발생 위험), VITAL 모델은 "잠깐, 이 부분이 확실하지 않네"라고 생각하면 '비디오 클립 다시 보기'라는 도구(tool)를 사용해 해당 장면을 직접 다시 확인하고, 그 증거를 바탕으로 다음 생각을 이어 나갑니다. 이러한 '검증하며 생각하기' 방식 덕분에 훨씬 더 정확하고 신뢰성 있는 비디오 분석이 가능해집니다.용어 설명 (Glossary)MLLMs (Multimodal Large Language Models): 텍스트뿐만 아니라 이미지, 비디오 등..
쉬운 설명이 논문의 핵심 아이디어는 **"아는 것이 많은 전문가(LLM)가 현장을 똑바로 보도록 훈련시키는 과정"**과 같습니다.이 전문가는 책으로 배운 지식(LLM의 사전 지식)이 너무 많아서, 가끔 현장(비디오)을 대충 보고 "원래 절차는 이렇지"라며 자기가 아는 대로 지어낼 때가 있습니다 (예: 영상에 없는 토크 렌치를 봤다고 주장).이 논문은 이 전문가에게 Fusion Core라는 특수 안경을 씌워줍니다. 이 안경은 현장의 복잡한 시각 정보(VFM의 feature) 중에서 가장 중요한 핵심만 뽑아 전문가의 눈앞에 명확하게 보여주는 역할을 합니다. 또한, 2단계 훈련을 통해 1단계에서는 안경 쓰는 법(시각 정보를 언어로 변환)을 배우게 하고, 2단계에서는 실제 사건 현장(추론/예측 데이터)에서 문제..
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 '동적인 전문가 팀 회의' 와 같습니다.어떤 어려운 영상 문제(question)를 풀어야 할 때, 일단 가장 핵심적인 장면 몇 개(sparse frames)만 보고 소수의 전문가 팀(reasoning paths)에게 각자 답을 내보라고 합니다.만약 모든 전문가의 의견이 만장일치로 모이면(consensus), "이 문제는 이 정보만으로 충분하구나!" 하고 그 답을 최종 결론으로 채택합니다.하지만 전문가들의 의견이 서로 갈린다면, "아, 정보가 부족해서 헷갈리는구나. 더 자세히 봐야겠다"라고 판단하고, 더 많은 장면(denser frames)을 보여주며 전문가를 추가로 투입해 다시 회의를 진행합니다.이렇게 문제의 난이도에 따라 동적으로 리..
쉬운 설명이 논문의 핵심 아이디어는 VideoLLM을 똑똑하게 가르치는 두 가지 새로운 과외 방식과 같습니다.직설적인 피드백 (Reg-GRPO): 기존 방식이 "정답에 가깝게 답하도록 노력해 봐"라고 두루뭉술하게 피드백했다면, 새로운 방식은 "이 답변의 점수는 정확히 85점이야. 이 점수를 그대로 예측해 봐"라고 아주 구체적이고 직접적으로 점수(advantage)를 알려줍니다. 이렇게 하면 모델이 헷갈리지 않고 더 빠르고 안정적으로 학습할 수 있습니다.맞춤형 난이도 조절 (Difficulty-aware Augmentation): 똑똑한 과외 선생님처럼, 모델이 문제를 너무 어려워하면 힌트를 줘서 난이도를 낮춰주고 (Difficulty Decreasing), 문제를 너무 쉬워하면 살짝 꼬아서 난이도를 높여..
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 **"매우 똑똑하지만, 한 번에 오래 집중하지 못하는 학생을 가르치는 방법"**과 유사합니다.학생(solver 모델)이 먼저 어려운 수학 문제를 풀어봅니다 (Initial generation).집중력(thinking budget)이 다해 풀이가 엉성해지면, 학생은 잠시 쉬고 자신이 푼 풀이를 처음부터 다시 검토합니다 (Self-improvement). 이렇게 하면 새로운 집중력으로 문제를 더 깊게 파고들 수 있습니다.그 후, 다른 선생님(verifier 모델)이 학생의 풀이를 보고 정답을 알려주지 않은 채, "이 부분 논리가 이상해"라고 꼼꼼하게 지적만 해줍니다 (Verification).학생은 이 피드백을 바탕으로 자신의 풀이를 스스..