목록2026/01/07 (3)
AI바라기의 인공지능
용어 설명 (Terminology)Visual Token Pruning: 멀티모달 모델(MLLM)의 연산 속도를 높이기 위해, 입력 이미지 토큰 중 중요하지 않은 것을 제거하고 핵심 토큰만 남기는 기술입니다.Prompt Alignment (PA): 사용자의 질문(프롬프트)과 직접적으로 관련된 이미지 토큰을 찾아내는 목표입니다. (예: "사진 속 글자가 뭐야?" 질문 시 글자 부분 토큰 선택)Visual Preservation (VP): 이미지 전체의 시각적 정보를 최대한 잃지 않도록 대표 토큰을 남기는 목표입니다. (이미지 전체 맥락 유지)Hausdorff Distance (하우스도르프 거리): 두 집합 사이의 거리를 측정하는 기하학적 지표입니다. 이 논문에서는 원본 토큰 집합과 가지치기된 토큰 집합 사..
용어 설명 (Terminology)Infographic Chart (인포그래픽 차트): 막대나 선 같은 기본 차트 요소에 픽토그램(pictogram), 아이콘, 장식적 이미지 등을 결합하여 시각적 몰입감을 높이고 메타포(metaphor)를 전달하는 차트.Plain Chart (플레인 차트): 인포그래픽 차트와 동일한 데이터를 담고 있지만, 장식적 요소를 제거하고 표준화된 형태(예: 기본 막대그래프)로 렌더링 된 차트.Visual-element-based Question: 차트 내의 특정 아이콘이나 장식 요소가 어떤 데이터를 의미하는지, 혹은 어떤 메타포를 전달하는지 묻는 질문 유형.Metaphor-related Question: 인포그래픽 내의 시각적 요소가 상징하는 추상적 개념(예: 상승하는 풍선 = ..
Key Terminology (용어 설명)Video OCR (Optical Character Recognition): 정지 이미지가 아닌, 동영상 내에서 텍스트를 인식하고 추출하는 기술. 모션 블러(motion blur), 조명 변화, 프레임 간의 연속성 등 비디오 특유의 방해 요소로 인해 이미지 OCR보다 난이도가 훨씬 높음.Multimodal LLMs (MLLMs): 텍스트뿐만 아니라 이미지, 비디오 등 다양한 모달리티(modality)를 입력으로 받아 처리하고 추론할 수 있는 대규모 언어 모델. (예: GPT-4o, Gemini, Qwen2-VL)Language Prior Bias (언어적 사전 편향): 모델이 시각적 정보(눈에 보이는 텍스트)보다 학습된 언어적 지식(통계적 확률)을 우선시하는 현상..
