목록2026/01/06 (2)
AI바라기의 인공지능
TerminologyVision-Essential (VE): 이미지가 없으면 문제를 절대 풀 수 없는 유형. 문제 해결에 필요한 핵심 정보(수치, 위상 구조 등)가 오직 이미지에만 포함된 경우입니다.Vision-Optional (VO): 이미지가 보조적인 역할만 하는 유형. 텍스트만으로도 모든 정보를 얻을 수 있어 이미지가 없어도 풀 수 있는 문제입니다.Vision Only (VO - Experimental Setting): 텍스트 입력을 아예 주지 않고, 질문 텍스트까지 이미지 픽셀로 렌더링하여 하나의 이미지 파일로만 모델에 입력하는 실험 설정입니다.LLM-as-a-Judge: 모델이 생성한 답변의 정답 여부를 판별하기 위해 또 다른 고성능 LLM(여기서는 DeepSeek-V3 등)을 채점자로 활용하는..
용어 설명 (Glossary)CoT (Chain-of-Thought): 복잡한 문제를 해결하기 위해 단계별로 추론하는 과정입니다. 이 논문에서는 이를 텍스트 생성뿐만 아니라 이미지 생성 과정에도 적용했습니다.Semantic-level CoT: 이미지를 실제로 생성하기 전에, 모델이 텍스트로 이미지의 전체적인 구조, 객체의 위치, 속성 등을 미리 계획하고 추론하는 고차원적인 사고 과정입니다.Token-level CoT: 이미지를 패치(patch) 단위로 순차적으로 생성하는 과정 자체를 일종의 추론 사슬로 보는 개념입니다. 이전 패치들과의 시각적 일관성을 유지하며 픽셀 수준의 디테일을 결정하는 저차원적인 처리 과정입니다.BiCoT-GRPO: 이 논문에서 제안한 Reinforcement Learning(RL)..
