목록2026/04/02 (1)
AI바라기의 인공지능
VLM : 논문 리뷰 : Mario: Multimodal Graph Reasoning with Large Language Models
용어 설명MMG (Multimodal Graph): 노드들이 text와 image 같은 여러 modality 속성을 가지며, edge를 통해 구조적으로 연결된 그래프 데이터.GVLM (Graph-conditioned Vision-Language Model): 단순한 image-text pair 단위의 정렬을 넘어, 그래프 상의 이웃 노드 정보(topology)를 주입하여 cross-modal alignment를 수행하는 Mario 모델의 1단계 핵심 구조.MAPR (Modality-Adaptive Prompt Router): 2단계에서 작동하는 경량화된 라우터. 각 노드와 주변 이웃의 특징을 분석하여, LLM에게 전달할 가장 적합한 modality 조합(text-only, image-only, text+..
논문리뷰
2026. 4. 2. 18:45
