목록2025/10/10 (2)
AI바라기의 인공지능
용어 설명 (Glossary)VLM (Video-Language Model): Textual query를 기반으로 video를 이해하고 reasoning 할 수 있는 multi-modal AI 모델.Visual Prompting: 모델의 architecture나 parameter를 변경하는 대신, 입력 이미지/비디오 자체를 수정하여 (예: 프레임에 박스 추가, 색상 변경) 모델의 attention이나 행동을 유도하는 기법.Video Panels (본 논문의 핵심 아이디어): 여러 video frame을 하나의 이미지 안에 comic book의 panel처럼 병합하여 구성한 새로운 형태의 visual input.Context Window: 모델이 한 번에 처리할 수 있는 입력 token (여기서는 fram..
용어 설명 (Terminology)VLM (Vision-Language Model): 이미지/비디오와 텍스트를 동시에 이해하고 처리하는 multimodal model.Spatial Reasoning: 시각적 장면 내에서 객체들의 위치, 방향, 관계 등 공간적 정보를 이해하고 추론하는 능력.Perception-Reasoning Gap: VLM이 시각적 요소를 인식(Perception)하는 능력과, 그 관계를 논리적으로 추론(Reasoning)하는 능력 사이에 존재하는 성능 격차. 이 논문이 해결하려는 핵심 문제입니다.Progressive Training: 기초적인 능력부터 순차적으로 학습시켜 점진적으로 복잡한 능력을 구축하는 훈련 방식. (Perception → Understanding → Reasonin..