목록전체 글 (191)
AI바라기의 인공지능

VLM-R1 학습 노트용어 설명 (Terminology)VLM-R1: 이 논문에서 제안하는, R1-style reinforcement learning (RL)을 Vision-Language Models (VLMs)에 적용하기 위한 통합 framework.R1-style RL: DeepSeek R1에서 제안된 RL 접근 방식. 별도의 reward model 없이, deterministic ground-truth가 있는 task에 대해 rule-based reward를 사용하여 LLM의 reasoning 능력을 향상시키는 방식.GRPO (Group Relative Policy Optimization): VLM-R1에서 사용하는 특정 RL algorithm. 별도의 critic model 없이, 생성된 여러 ..

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs 학습 노트용어 설명 (Glossary)DyMU (Dynamic Merging and Virtual Unmerging): 본 논문에서 제안하는 training-free VLM 효율화 프레임워크. DToMe와 VTU 두 가지 핵심 요소로 구성됨.DToMe (Dynamic Token Merging): 이미지 복잡도(complexity)에 기반하여 visual token 수를 동적으로 줄이는 방법. 유사한 token들을 병합(merge)함. ToMe [3]을 확장하여 고정된 개수가 아닌, threshold 기반으로 동적 병합 수행.VTU (Virtual Token Unmerging): 줄어든 toke..

LLM은 어떻게 사람 말을 더 잘 알아들을까? RLHF와 PPO 깊이 파헤치기최근 ChatGPT와 같은 대형 언어 모델(LLM)은 놀라운 성능을 보여주며 우리 삶에 깊숙이 들어오고 있습니다. 하지만 LLM이 단순히 방대한 텍스트 데이터를 학습하는 것만으로는 우리가 정말로 원하는 '유용하고', '정직하며', '무해한' 답변을 항상 생성하지는 못합니다. 이를 '정렬(Alignment) 문제'라고 부르며, LLM을 인간의 가치와 의도에 맞게 조정하는 핵심 기술이 바로 **RLHF(Reinforcement Learning from Human Feedback)**입니다.이번 글에서는 RLHF가 왜 필요하며, 어떤 과정을 거치는지, 특히 핵심적인 역할을 하는 PPO(Proximal Policy Optimizatio..
Proximal Policy Optimization Algorithms 학습 노트용어 설명Policy Gradient (PG) Methods: Policy의 성능을 나타내는 objective function의 gradient를 추정하여 policy parameter를 업데이트하는 강화학습 방법론.Surrogate Objective: 실제 policy 성능 대신 최적화하는 대리 목적 함수. Policy 업데이트 시 너무 큰 변화가 일어나지 않도록 제어하는 역할을 함.Trust Region Policy Optimization (TRPO): Policy 업데이트 크기에 제약 (trust region constraint)을 두어 학습 안정성을 높이는 policy gradient 방법. 2차 최적화 (second..
InternVL3 학습 노트용어 설명MLLM (Multimodal Large Language Model): 텍스트뿐만 아니라 이미지, 비디오 등 다양한 modality 정보를 이해하고 생성할 수 있는 대규모 언어 모델.Native Multimodal Pre-training: 텍스트 데이터와 multimodal 데이터를 분리하지 않고, 초기 pre-training 단계부터 통합하여 함께 학습시키는 방식. 이 논문의 핵심 방법론.Post-hoc Training: 이미 pre-training된 text-only LLM을 기반으로, 별도의 단계를 통해 multimodal 능력을 추가(retrofit)하는 학습 방식. InternVL3가 극복하고자 하는 기존 방식.V2PE (Variable Visual Posit..
TTRL: Test-Time Reinforcement Learning 학습 노트용어 설명 (Terminology)TTRL (Test-Time Reinforcement Learning): 이 논문에서 제안하는 핵심 방법론. Ground-truth label 없이 test data만을 사용하여 test-time에 Reinforcement Learning(RL)으로 Large Language Model(LLM)을 training하는 프레임워크.TTS (Test-Time Scaling): Inference 시 계산 resource를 늘려 LLM 성능을 향상시키는 기법들의 총칭. 예: Self-consistency, Best-of-N.TTT (Test-Time Training): Inference 시 들어오는 t..
rStar 논문 학습 노트용어 설명SLM (Small Language Model): GPT-4 같은 거대 언어 모델(LLM)보다 파라미터 수가 적은 언어 모델. (e.g., LLaMA2-7B, Mistral-7B)rStar (Self-play muTuAl Reasoning): 본 논문에서 제안하는, fine-tuning이나 우수한 teacher model 없이 SLM의 추론 능력을 향상시키는 self-play 기반 상호 추론 프레임워크.Self-play: 게임 AI 등에서 주로 사용되는 방식으로, 모델이 스스로와 상호작용하며 학습하거나 성능을 개선하는 방법. 여기서는 generation과 discrimination 단계로 구현됨.Mutual Reasoning / Mutual Consistency: 두 개..
MCTS-RAG 학습 노트용어 설명 (Glossary)MCTS (Monte Carlo Tree Search): 의사 결정 문제에서 최적의 선택을 찾기 위해 무작위 샘플링을 사용하여 탐색 트리를 구축하는 휴리스틱 검색 알고리즘. 이 논문에서는 reasoning 경로 탐색에 사용.RAG (Retrieval-Augmented Generation): 외부 knowledge source에서 관련 정보를 검색하여 language model의 생성 결과물을 향상시키는 방법.rStar: 추가적인 fine-tuning 없이 language model의 reasoning 능력을 향상시키기 위해 제안된 self-consistency framework. MCTS-RAG의 기반이 됨.UCT (Upper Confidence Bo..
Draw with Thought: 과학 다이어그램 생성을 위한 Multimodal 추론 연구 요약용어 설명 (Terminology)Draw with Thought (DwT): 본 논문에서 제안하는, MLLM을 가이드하여 다이어그램을 재구성하는 training-free framework.MLLM (Multimodal Large Language Model): 이미지와 텍스트를 함께 처리할 수 있는 large language model.mxGraph XML: Draw.io (diagrams.net) 등에서 사용되는 다이어그램의 구조적 정보를 담는 XML 기반 format. 편집과 재사용이 용이.Coarse-to-Fine Planning: DwT의 첫 번째 단계. 다이어그램의 전체 구조를 인식하고 (Percep..
MMC: Iterative Refinement of VLM Reasoning via MCTS-based Multimodal Critique - 학습 노트용어 설명 (Terminology)VLM (Visual Language Model): 이미지와 텍스트를 함께 이해하고 처리하는 AI 모델.Reasoning Path: VLM이 문제 해결을 위해 생성하는 단계별 추론 과정.Hallucination: VLM이 실제 이미지나 텍스트 내용과 관계없이 내부 지식에 기반하여 잘못된 정보를 생성하는 현상.Actor-Critic Framework: Actor 모델은 행동(reasoning path 생성)을 수행하고, Critic 모델은 그 행동을 평가하고 피드백을 제공하는 구조.MCTS (Monte Carlo Tree ..