목록2025/08 (6)
AI바라기의 인공지능
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 비디오 품질 평가 전문가를 AI로 만드는 것과 같습니다. 전문가가 비디오를 보고 "음, 화면이 좀 흔들리고, 색감도 약간 바랜 것 같네. 그래서 7점이야."라고 말하는 것처럼, VQAThinker 모델도 먼저 태그 안에 "camera movement is quite shaky and unsteady... " 와 같이 품질 문제를 분석하는 '생각'을 텍스트로 출력합니다. 그리고 그 분석을 바탕으로 최종 점수를 태그에 내놓습니다.Reinforcement learning은 이 과정을 훈련시키는 '코치' 역할을 합니다. 코치는 모델의 '생각'이 얼마나 논리적인지, 그리고 최종 점수가 실제 점수와 얼마나 가까운지를 보고 **'칭찬(rewar..
쉬운 설명 (Simple Explanation)이 논문의 핵심 아이디어는 우리가 긴 영화를 볼 때 모든 장면을 똑같은 비중으로 기억하지 않는 것과 비슷합니다. 우리는 전체적인 흐름을 훑어보다가, 중요한 사건이 발생하는 '결정적인 scene' 들에 집중해서 내용을 파악합니다.SLFG는 MLLM에게 바로 이 방식을 가르쳐줍니다. 먼저 비디오를 짧은 클립(Frame Group)으로 나눈 뒤, LLM을 이용해 각 클립의 내용을 요약합니다. 그 다음, 질문의 내용과 가장 관련이 깊어 보이는 '핵심 scene' 들을 똑똑하게 찾아냅니다. 마지막으로, 이 핵심 scene들과 그 주변 프레임들만 MLLM에게 집중적으로 보여주어 "이 부분을 자세히 보고 답을 찾아봐" 라고 지시하는 것과 같습니다. 이렇게 하면 불필요한 ..
쉬운 설명 (Easy Explanation)VideoForest의 핵심 아이디어는 여러 CCTV 영상을 분석하는 탐정의 '마인드맵' 과 유사합니다.기존 방식이 각각의 CCTV 영상을 따로따로 보며 단서를 찾는 것과 같다면, VideoForest는 특정 용의자(a person-anchor)를 마인드맵의 중심에 놓고, 그 사람이 나타난 모든 영상(cross-video)의 시간과 장소, 행동을 나뭇가지처럼(hierarchical tree) 연결하여 전체 동선을 한눈에 파악하는 방식입니다. 이를 통해 탐정(multi-agent system)은 "용의자가 어제와 오늘, A건물과 B건물을 모두 방문했는가?" 와 같은 복잡한 질문에 훨씬 쉽고 정확하게 답할 수 있습니다. 용어 설명 (Terminology)Cross-..
쉬운 설명이 논문의 핵심 아이디어를 아주 긴 책을 읽고 질문에 답하는 상황에 비유할 수 있습니다.Full Attention: 질문이 나올 때마다 매번 책 전체를 한 단어도 빼놓지 않고 다시 읽는 방식입니다. 정확하지만 엄청나게 느립니다.기존의 Sparse Attention: 책을 짧게 만들려고 무작위로 페이지를 찢어내는 서투른 조수와 같습니다. 빠르긴 하지만 중요한 내용을 놓치기 쉽고 과정이 지저분합니다.NSA (이 논문의 제안): 똑똑하고 효율적인 연구 조수와 같습니다.먼저 책의 **'챕터별 요약본'(Token Compression)**을 읽어 전체 흐름을 파악합니다.그 다음, 질문과 요약본을 바탕으로 가장 관련성이 높은 '핵심 단락들만 골라'(Blockwise Selection) 정독합니다.동시에 방..
쉬운 설명이 논문의 핵심 아이디어는 비디오 속 행동을 분석하는 AI를 학습시키는 과정을 초보자를 전문가로 키우는 체계적인 훈련에 비유할 수 있습니다.기존 방식: 초보자에게 다짜고짜 "피겨 스케이팅 연기를 해봐"라고 시키고 '성공/실패'로만 평가하는 것과 같습니다. 초보자는 무엇을 어떻게 개선해야 할지 알기 어렵습니다.ReasonAct 방식:먼저 글(text)로 "균형 잡는 법", "점프의 원리" 등 **기초 이론(Foundational Reasoning)**을 가르칩니다.그다음, 실제 연기 영상(video)을 보며 "지금 선수가 '준비 동작'에 들어갔고, '도약'을 하고 있어"라고 **사고의 과정(Chain-of-Thought)**을 배우게 합니다.마지막으로, 코치(RL)가 연기의 각 세부 동작(Sub-..

쉬운 설명이 논문의 핵심 아이디어는, 우리가 긴 책을 읽고 문제를 풀 때 기억에만 의존하지 않고 헷갈리는 부분이 있으면 다시 해당 페이지를 펼쳐서 확인하는 것과 같습니다. 기존 모델들이 비디오를 한번 보고 기억에 의존해 추론했다면(hallucination 발생 위험), VITAL 모델은 "잠깐, 이 부분이 확실하지 않네"라고 생각하면 '비디오 클립 다시 보기'라는 도구(tool)를 사용해 해당 장면을 직접 다시 확인하고, 그 증거를 바탕으로 다음 생각을 이어 나갑니다. 이러한 '검증하며 생각하기' 방식 덕분에 훨씬 더 정확하고 신뢰성 있는 비디오 분석이 가능해집니다.용어 설명 (Glossary)MLLMs (Multimodal Large Language Models): 텍스트뿐만 아니라 이미지, 비디오 등..