목록분류 전체보기 (365)
AI바라기의 인공지능
이 논문은 AI 연구자로서 특히 Video-Language Models(VLM) 및 모델의 신뢰성(trustworthiness)에 관심이 많으시다면 매우 흥미롭게 읽으실 수 있는 연구입니다. 요청하신 기준과 형식에 맞추어 핵심만 압축한 학습 노트를 정리해 드립니다.📖 용어 설명 (Terminology)이 논문을 이해하기 위한 핵심 전문 용어입니다.Sycophancy: 모델이 시각적 증거(visual evidence)와 모순되더라도 사용자의 입력(user input)이나 편향에 동조하여 아부하는 성향을 의미합니다. (이 논문의 핵심 타겟 현상)Video-LLMs: 동적인 시각 정보(video)와 언어적 추론(language reasoning)을 결합하여 비디오를 이해하는 대형 언어 모델입니다.VISE(V..
용어 설명LMM(Large Multimodal Model): 언어와 시각 정보를 동시에 통합하여 이해하고 추론하는 대형 다중모달 모델입니다.RAG(Retrieval-Augmented Generation): 외부의 최신 소스에서 정보를 검색하여 모델의 생성 결과물을 강화하는 기법입니다.Knowledge Conflict: 모델 내부에 사전 학습된 파라미터 지식(parametric knowledge)과 외부에서 주입된 문맥(context) 정보가 서로 모순되는 현상입니다.Intra-memory conflict: 모델 내부의 파라미터 지식들 사이에서 발생하는 충돌입니다.Context-memory conflict: 외부 문맥 정보(검색 문서 등)가 모델 내부의 기존 지식과 충돌하는 상황입니다.Inter-conte..
용어 설명Vision-Knowledge Conflict: 시각적 입력 정보가 모델이 대규모 데이터로 학습하는 과정에서 내재화한 상식(parametric knowledge)과 모순될 때 발생하는 충돌 현상.Parametric Knowledge: 텍스트 데이터 pre-training 과정에서 모델의 가중치(weights) 네트워크 내부에 고정되어 저장된 보편적 상식이나 사실적 지식.NPMI (Normalized Pointwise Mutual Information): 두 개념이 동시에 등장할 확률을 정규화하여 측정한 지표. 본 논문에서는 상식적으로 함께 등장할 확률이 극히 희박한(counter-commonsense) 조합을 자동 추출하기 위해 사용됨.Memorization Ratio (MR): 모델이 시각적 ..
한국 현대미술에서 사진이 ‘기록 도구’에서 출발해, 다른 장르(회화·조각·설치·행위 등)와 섞이며 ‘새로운 조형 언어’가 되어가는 과정이 기대! 제일 처음 보인 작품이에요. 사실 잘 어려워서 무슨 그림인지 모르겠습니다. 기이하면서 단정하네요. 집에 나무 뿌리가 있다니. 괴물 같습니다. “사진이 ‘현실을 보여준다’는 믿음 자체를, 낯선 합성/배치로 뒤집는 작품.” 정도로 해석 할 수 있겠네요 현실의 돌들도 다른 돌로 눌려 고정된 것을 표현한 것 같아요 “사진은 기억인데, 돌은 그 기억을 움직이지 못하게 만든다.” 좀 특이해서 찍어봤어요. 환치라는 것 같아요.“환치 = 대상을 제자리에서 뽑아 다른 곳에 꽂는 순간, 의미가 바뀌는 것.” 그래서 무슨 의미일까요? 스님들이 치는 목탁을 이..
용어 설명Visual ungrounded hallucinations: MLLMs가 시각적 증거(visual evidence)를 제대로 인지하지 않고, 텍스트 데이터에서 학습된 언어적 편향(language priors)이나 상식에만 의존하여 그럴듯하지만 시각적으로는 완전히 틀린 답변을 생성하는 현상.Counterfactual video: 객체가 갑자기 사라지거나, 물이 위로 솟구치는 등 일반적인 물리 법칙이나 상식(common sense)에 위배되는 현상을 의도적으로 합성해 넣은 조작된 비디오.Automation Paradox: 모델의 시각적 인지 능력을 개선하려면 counterfactual 데이터가 필요한데, 모델 자체가 이미 hallucination에 빠져 있어 미세한 시각적 이상을 감지하지 못하므로,..
용어 설명 (Terminology)Hierarchical Neural Options: 단순한 행동(action) 단위가 아니라, 여러 하위 스킬(sub-options)을 조합해 복잡한 상위 목표를 수행할 수 있도록 구성된 신경망 기반의 계층적 정책(policy) 구조임.Abstract World Model: 복잡한 환경의 모든 세부 픽셀을 예측하는 대신, 상태(state)와 시간(time)을 핵심 요소 위주로 추상화하여 특정 스킬을 사용했을 때 미래가 어떻게 변할지 큰 그림으로 예측하는 세계 모델임.AgentOWL (Option and World model Learning Agent): 본 논문에서 제안하는 핵심 시스템으로, abstract world model을 통한 계획(planning)과 hiera..
오늘은 이중섭 전시관에 다녀왔어요.처음엔 그냥 “이중섭 그림 몇 점 보고 오자” 정도였는데, 전시를 따라 걷다 보니 마음이 점점 조용해지고, 마지막엔 오히려 내가 뭘 쓰고 싶어지는 전시였어요. 1. Write the Love — 쓰다, 사랑을 (엽서화)전시 초반은 놀랄 만큼 밝았어요.이중섭이 젊은 시절 연인(훗날 아내)에게 보낸 작은 엽서 그림들. 크기도 9×14cm 정도로 정말 손바닥만 한데, 그 안에 움직임이 꽉 차 있더라고요. 작은 화면이지만 에너지가 커요. 상세하게 묘사한 소는 아닌데, 다리의 힘, 꼬리의 휙- 하는 선. 이런게 있어서 움직임이 바로 전달돼요.아이를 아주 작게 그린 덕에, 소가 더 커보이고, 장면이 기억의 한 컷 처럼 남아요. 2. Write the Sorrow — ..
PoE-World: Compositional World Modeling with Products of Programmatic Experts 논문 학습 노트Terminology (용어 설명)World Model: Agent가 환경(environment)이 어떻게 작동하는지(행동에 따라 상태가 어떻게 변하는지)를 학습한 내부 모델. 이를 통해 실제 환경에서 시행착오를 겪지 않고 시뮬레이션을 통해 계획(planning)을 세울 수 있음.Product of Experts (PoE): 여러 개의 단순한 확률 모델(experts)들을 곱하여 하나의 복잡한 고차원 확률 분포를 모델링하는 기법. 각 expert는 자신이 아는 특정 규칙에 대해서만 의견을 제시하고, 이를 종합하여 최종 예측을 수행함.Programmati..
Term Explanations (용어 설명)Score Stability: 이 논문에서 제안하는 핵심 개념입니다. 학습 데이터셋에서 데이터 포인트 하나가 변경되었을 때, 알고리즘이 학습한 Score Function이 얼마나 민감하게 변화하는지를 측정하는 지표입니다. 값이 작을수록 알고리즘이 안정적(stable)이며 일반화(generalization) 성능이 좋음을 의미합니다.Implicit Regularisation: 모델의 목적 함수(objective function)에 명시적인 규제항(예: L2 regularization)을 추가하지 않았음에도, 알고리즘의 절차적 특성(예: 조기 종료, 큰 보폭의 학습 등)으로 인해 자연스럽게 과적합이 방지되는 현상입니다.Denoising Score Matching:..
용어 설명 (Terminology)Diffusion Models: 데이터에 노이즈를 서서히 주입했다가 다시 제거하는 과정을 학습하여 데이터를 생성하는 모델.Probability Flow ODE: Diffusion 과정을 결정론적(deterministic)인 미분 방정식으로 표현한 것. 랜덤성이 없으며, 노이즈와 데이터 사이의 궤적을 정의함.Score Function: 데이터 분포의 로그 밀도 함수의 기울기(gradient of log-density). 노이즈가 있는 데이터가 원래 데이터 쪽으로 가기 위해 어느 방향으로 이동해야 하는지를 나타냄.NFE (Number of Function Evaluations): 이미지를 한 장 생성할 때 Neural Network를 몇 번 실행(inference)했는지 나..
