목록전체 글 (327)
AI바라기의 인공지능
쉬운 설명이 논문의 핵심 아이디어는 복잡한 그림을 그릴 때, 먼저 "무엇을 그릴지" 큰 주제를 정하고 세부 묘사에 들어가는 것과 같습니다.기존 Diffusion Model은 마치 백지(noise)에서 곧바로 아주 복잡한 유화(데이터)를 한 번에 그리려는 화가와 같습니다. 과정이 매우 복잡하고 어렵습니다.DisCo-Diff는 화가에게 먼저 "이번엔 허스키를 그릴 거야" 혹은 "이번엔 불독을 그릴 거야" 와 같이 **큰 주제(discrete latent)**를 정해주고 시작하게 합니다. 어떤 종류의 개를 그릴지 주제가 정해지면, 그 개의 구체적인 털 질감, 자세, 표정 등 세부 묘사(continuous generation)에만 집중하면 되므로 그림을 그리는 과정(Generative ODE)이 훨씬 단순하고 ..
쉬운 설명이 논문의 핵심 아이디어를 비유하자면, 유능한 내비게이터와 숙련된 운전자의 협력과 같습니다.내비게이터 (High-level Planner): 방대한 지도 데이터와 실시간 교통 정보를 가진 diffusion model. 최종 목적지("마트에 가자")를 듣고 현재 위치를 파악한 뒤, "일단 다음 사거리에서 우회전하세요"처럼 당장 수행해야 할 **단기적이고 명확한 시각적 목표(subgoal 이미지)**를 제시합니다.운전자 (Low-level Policy): 운전 자체에 매우 능숙하지만, 전체 경로를 알 필요는 없습니다. 내비게이터가 제시한 '다음 사거리'라는 가까운 목표 지점까지 정확하게 운전하는 데만 집중합니다.이렇게 복잡한 장거리 운전을 '단기 목표 제시'와 '단기 목표 수행'의 반복으로 나누면,..
쉬운 설명 (Easy Explanation)LXMERT의 핵심 아이디어를 "전문가 팀플레이"에 비유할 수 있습니다.언어 전문가 (Language Encoder): 문장을 읽고 그 의미를 깊이 분석합니다.미술 비평가 (Object-Relationship Encoder): 그림을 보고 어떤 사물들이 있고, 그 사물들이 서로 어떻게 배치되어 있는지(예: '개가 바구니 안에 있다') 관계를 파악합니다.총괄 매니저 (Cross-Modality Encoder): 두 전문가의 보고를 받은 뒤, "언어 전문가는 '당근'이라고 했는데, 비평가님, 그림에 당근이 보이나요? 누가 그걸 먹고 있죠?" 와 같이 서로의 정보를 계속 교차 확인하며 최종 결론을 내립니다.이렇게 각 분야의 전문가가 자기 역할을 충실히 한 뒤, 총괄 ..
쉬운 설명 (Simple Explanation)이 논문의 핵심 아이디어인 **Conditional Masking**은 학생에게 그림과 단어의 관계를 가르치는 방식에 비유할 수 있습니다.기존 방식 (Joint Masking): 학생에게 강아지 그림과 '강아지'라는 단어를 동시에 가리고 "이게 뭘까?"라고 묻는 것과 같습니다. 학생은 양쪽 정보가 모두 없어 추측하기 매우 어렵습니다.UNITER 방식 (Conditional Masking): 학생에게 "한 남자가 그의 [ ]와 함께 있다" 라는 문장 전체를 보여주면서 강아지 그림만 가립니다. 학생은 문장의 맥락을 이용해 가려진 부분이 '강아지'일 것이라고 쉽게 추론할 수 있습니다. 반대로, 강아지 그림을 보여주면서 문장에서 '강아지'라는 단어만 가려도 마찬가지..
이젠 아무도 관심을 가지지 않는 라이브 벤치에서 Sota 성능 달성입니다. Artificial Analysis Intelligence Index 상으로도 Sota성능입니다.
GPQA가 대학원급 과학 질문인데, 싱글 샷으로도 86점인게 진짜 대단하긴 하네요.. Artificial Analysis Intelligence Index 기준으로 sota인 모습을 볼 수 있습니다.
쉬운 설명 (Easy Explanation)이 논문의 핵심 아이디어는 "긴 미제 사건을 해결하는 유능한 탐정"에 비유할 수 있습니다.기존 모델들은 사건 현장의 모든 증거(비디오의 모든 프레임)를 한 번에 보고 혼란에 빠지는 초보 탐정과 같습니다. 반면, VideoChat-A1은 베테랑 탐정처럼 행동합니다.Shot Selection: 먼저 용의선상에 오른 여러 장소 중 가장 관련 있는 곳(relevant shots)을 지목합니다.Shot Partition: 그 장소에 도착해서도 전체를 어슬렁거리는 대신, 결정적 단서가 있을 법한 구역(subshots)을 나누어 집중적으로 수색합니다.Shot Reflection: 수색 결과를 바탕으로 "이 단서만으로는 부족하다. 다른 장소를 더 수색해야겠다"고 판단(low ..
VR VIDEOREASONBENCH: MLLM의 Vision-Centric Complex Video Reasoning 능력 평가용어 설명 (Glossary)VIDEOREASONBENCH: 본 논문에서 제안하는 vision-centric complex video reasoning 능력을 평가하기 위한 새로운 benchmark.Vision-centric complex video reasoning: 단순한 객체 인식이나 활동 인식을 넘어, 영상 내 시각적 단서에 깊이 의존하여 여러 단계의 추론을 거쳐야 하는 복잡한 video 이해 작업.Latent state: Video 내에서 직접적으로 항상 관찰되지는 않지만, 일련의 operation을 통해 변화하는 숨겨진 상태 (예: 가려진 타일의 배열, 컵 속 동전 유..
Generative Frame Sampler for Long Video Understanding 학습 노트Terminology (용어 설명)VideoLLMs (Video Large Language Models): Video 입력을 이해하고 이에 대한 language 기반 응답을 생성할 수 있는 대규모 multimodal models.GenS (Generative Frame Sampler): 본 논문에서 제안하는, VideoLLM을 활용하여 user question에 관련된 video frame들을 식별하는 plug-and-play 방식의 generative frame sampler.GenS-Video-150K: GenS 학습을 위해 구축된 대규모 video instruction dataset. Dense..
DeepSeek-R1-0528이 Release 되었습니다. 주요 벤치 성능은 다음과 같습니다. 자체 벤치 결과로는 o3와 gemini2.5 pro와 비교해도 손색없네요. Livebench 기준으로도 Sota 모델들에 비해 크게 밀리는 모습은 없네요. 리즈닝 능력이 많이 올라간게 핵심인 것 같습니다. 다음은 Artificial Analysis Intelligence Index 기준인데, 7개의 주요벤치 평균점수를 냅니다. 개인적으로 실체감과 직결되는 벤치라고 생각되는 건 아니지만 7개 모두 주의깊게 봐야할 벤치라고 판단하고 있습니다. 이 결과에서도 GeminiPro와 동급의 점수를 기록했네요.
