'2025/10/10 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2025/10/10 (2)

AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Video Panels for Long Video Understanding

용어 설명 (Glossary)VLM (Video-Language Model): Textual query를 기반으로 video를 이해하고 reasoning 할 수 있는 multi-modal AI 모델.Visual Prompting: 모델의 architecture나 parameter를 변경하는 대신, 입력 이미지/비디오 자체를 수정하여 (예: 프레임에 박스 추가, 색상 변경) 모델의 attention이나 행동을 유도하는 기법.Video Panels (본 논문의 핵심 아이디어): 여러 video frame을 하나의 이미지 안에 comic book의 panel처럼 병합하여 구성한 새로운 형태의 visual input.Context Window: 모델이 한 번에 처리할 수 있는 입력 token (여기서는 fram..

논문리뷰 2025. 10. 10. 13:21

VLM : 빠른 논문 리뷰 : SPATIALLADDER: PROGRESSIVE TRAINING FOR SPATIAL REASONING IN VISION-LANGUAGE MODELS

용어 설명 (Terminology)VLM (Vision-Language Model): 이미지/비디오와 텍스트를 동시에 이해하고 처리하는 multimodal model.Spatial Reasoning: 시각적 장면 내에서 객체들의 위치, 방향, 관계 등 공간적 정보를 이해하고 추론하는 능력.Perception-Reasoning Gap: VLM이 시각적 요소를 인식(Perception)하는 능력과, 그 관계를 논리적으로 추론(Reasoning)하는 능력 사이에 존재하는 성능 격차. 이 논문이 해결하려는 핵심 문제입니다.Progressive Training: 기초적인 능력부터 순차적으로 학습시켜 점진적으로 복잡한 능력을 구축하는 훈련 방식. (Perception → Understanding → Reasonin..

논문리뷰 2025. 10. 10. 12:19

이전 Prev 1 Next 다음

목록2025/10/10 (2)

AI바라기의 인공지능

티스토리툴바