목록2026/02/11 (3)
AI바라기의 인공지능
Terminology (용어 설명)Temporal Grounding: 긴 비디오 내에서 특정 쿼리(질문이나 지시사항)에 해당하는 구간(시작 시간과 종료 시간)을 찾아내는 기술.Instructional Diagrams: 텍스트 설명 대신 사용되는 시각적인 단계별 지시 그림 (예: IKEA 조립 설명서의 그림). 이 논문에서는 Text query가 아닌 Image query를 다룸.Unconstrained Videos: 통제된 실험실 환경이 아닌, YouTube 등에서 수집한 자연스러운 비디오. 촬영자가 설명서를 엄격히 따르지 않거나, 순서가 뒤바뀌거나, 중간 단계가 생략될 수 있어 분석이 어려움.Composite Queries: 이 논문의 핵심 개념. Diagram features(내용 정보)와 Learn..
Terminology (용어 설명)이 논문의 핵심 개념을 이해하기 위해 필요한 전문 용어 정리입니다.Video-Text Matching (Cross-modal retrieval): 비디오와 텍스트(캡션) 사이의 연관성을 파악하여, 텍스트로 비디오를 검색하거나 비디오로 텍스트를 검색하는 기술.Region-level semantic concepts: 비디오의 전체적인 배경(Scene)이 아니라, 비디오 내에 존재하는 특정 물체(Object)나 사람, 그리고 그들의 행동과 같은 구체적인 의미 단위.Spatiotemporal space: 비디오의 공간적(Spatial) 정보(프레임 내 물체의 위치)와 시간적(Temporal) 정보(프레임 간의 흐름)를 아우르는 개념.Bottom-up attention: 이미지나..
용어 설명 (Glossary)Optimal Denoiser: 이론적으로 완벽하게 noise를 제거하는 함수. 하지만 실제로는 training set을 암기(memorization)해버려 새로운 이미지를 생성하지 못하는 "텔레포트" 현상을 보임.Inductive Bias: 모델이 학습하지 않은 데이터에 대해 예측할 때 사용하는 가정(assumption). 예: CNN은 이미지의 픽셀 간 지역적 상관관계(Locality)가 있다고 가정함.Locality: Denoising 과정에서 특정 픽셀의 값을 결정할 때, 입력 이미지의 해당 픽셀 주변(이웃) 정보만 주로 활용하는 성질.Sensitivity Field (Jacobian): 입력 이미지의 변화가 출력 이미지에 미치는 영향을 나타내는 map. 모델이 어디를..
