'2026/01/06 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2026/01/06 (2)

AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : SEEPHYS: Does Seeing Help Thinking? –Benchmarking Vision-Based Physics Reasoning

TerminologyVision-Essential (VE): 이미지가 없으면 문제를 절대 풀 수 없는 유형. 문제 해결에 필요한 핵심 정보(수치, 위상 구조 등)가 오직 이미지에만 포함된 경우입니다.Vision-Optional (VO): 이미지가 보조적인 역할만 하는 유형. 텍스트만으로도 모든 정보를 얻을 수 있어 이미지가 없어도 풀 수 있는 문제입니다.Vision Only (VO - Experimental Setting): 텍스트 입력을 아예 주지 않고, 질문 텍스트까지 이미지 픽셀로 렌더링하여 하나의 이미지 파일로만 모델에 입력하는 실험 설정입니다.LLM-as-a-Judge: 모델이 생성한 답변의 정답 여부를 판별하기 위해 또 다른 고성능 LLM(여기서는 DeepSeek-V3 등)을 채점자로 활용하는..

논문리뷰 2026. 1. 6. 17:14

VLM : 빠른 논문 리뷰 : T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

용어 설명 (Glossary)CoT (Chain-of-Thought): 복잡한 문제를 해결하기 위해 단계별로 추론하는 과정입니다. 이 논문에서는 이를 텍스트 생성뿐만 아니라 이미지 생성 과정에도 적용했습니다.Semantic-level CoT: 이미지를 실제로 생성하기 전에, 모델이 텍스트로 이미지의 전체적인 구조, 객체의 위치, 속성 등을 미리 계획하고 추론하는 고차원적인 사고 과정입니다.Token-level CoT: 이미지를 패치(patch) 단위로 순차적으로 생성하는 과정 자체를 일종의 추론 사슬로 보는 개념입니다. 이전 패치들과의 시각적 일관성을 유지하며 픽셀 수준의 디테일을 결정하는 저차원적인 처리 과정입니다.BiCoT-GRPO: 이 논문에서 제안한 Reinforcement Learning(RL)..

논문리뷰 2026. 1. 6. 17:02

이전 Prev 1 Next 다음

목록2026/01/06 (2)

AI바라기의 인공지능

티스토리툴바