목록2026/02/12 (3)
AI바라기의 인공지능
용어 설명 (Glossary)Video Reasoning: 단순히 비디오의 내용을 인식하는 것을 넘어, 인과 관계, 시간적 순서, 물리적 상호작용 등을 논리적으로 추론하여 질문에 답하는 능력.Inference-time Optimization: 모델을 사전에 학습(Training)시키는 것이 아니라, 실시간 추론(Inference) 단계에서 모델의 내부 상태나 출력을 조정하여 성능을 최적화하는 기법.Entropy (in LMMs): 모델이 다음 토큰을 생성할 때 갖는 불확실성의 정도. 이 논문에서는 모델의 '사고 과정(thinking process)'을 나타내는 핵심 신호(Signal)로 사용됨.Macro/Micro-exploration & Exploitation:Macro: 전체 생성 과정에서의 큰 흐름..
용어 설명 (Glossary)Vision-Language Models (VLMs): 이미지나 비디오와 같은 시각 정보와 텍스트 정보를 함께 처리하여 이해하고 생성하는 AI 모델.Hallucination (환각): 모델이 시각적 입력(Video/Image)과 일치하지 않는 사실이나, 존재하지 않는 객체/행동을 텍스트로 생성하는 현상.Negative-control tests: 실험군과 대조되는 개념으로, 이 논문에서는 물리 법칙이나 상식이 통하지 않는 비디오(예: 깨진 수박이 다시 붙음)를 보여주었을 때 모델이 이를 제대로 인지하는지 테스트하는 방식.Language Priors: 모델이 학습 과정에서 익힌 텍스트 기반의 사전 지식. (예: "총을 쏘면 수박이 깨진다"는 지식 때문에, 영상에서 수박이 안 깨져..
Terminologies (용어 설명)Vision-Language Models (VLMs): 이미지와 텍스트를 모두 이해하고 처리할 수 있는 AI 모델 (예: LLaVA, Gemma3).Parametric Knowledge (Internal Knowledge): 모델이 pre-training 과정에서 학습하여 가중치(weights)에 저장하고 있는 내부 지식. 소위 '상식'이나 '사실'에 해당함Counterfactual Visual Context: 모델의 내부 상식과 모순되는 시각적 정보. (예: 밤에 뜨는 달 대신, 낮에 뜨는 태양을 보고 늑대가 울부짖는 이미지) .Logit Lens: Transformer의 중간 레이어(hidden states) 값을 마치 최종 출력인 것처럼 vocabulary 공간..
