목록전체 글 (320)
AI바라기의 인공지능
Overall Summary본 논문은 LM agents의 reasoning 및 planning 능력 향상을 위해 inference-time tree search 알고리즘을 제안하고, realistic web environments에서 best-first search가 효과적임을 최초로 입증했습니다. Model-based value function을 통해 복잡한 web tasks에서 search guidance를 제공하고, VisualWebArena benchmark에서 SOTA 성능을 달성했습니다. Search의 scalability를 실험적으로 보이고, 향후 연구 방향을 제시하여, capable agent building에 기여할 것으로 기대됩니다.쉬운 설명웹 에이전트가 복잡한 웹 환경에서 길을 찾는 ..
MM-IQ 논문 학습 노트Purpose of the Paper:기존 multimodal 모델 벤치마크들은 OCR, object localization 등 task-specific 능력 평가에 집중, multimodal 시스템의 본질적인 인지 능력 (core cognitive dimensions), 추상화 및 추론 능력을 체계적으로 평가하는 벤치마크 부족인간의 인지 능력 평가 방법론인 IQ 테스트처럼, 언어적 배경지식, 특정 도메인 지식으로부터 분리하여 순수하게 추상적 추론 능력만 측정하는 벤치마크 필요MM-IQ 라는 새로운 comprehensive evaluation framework 제시: 언어적/도메인 지식 bias 제거, 다양한 추론 패러다임 포괄, multimodal 모델의 핵심 인지 능력 평가 ..
Reward-Guided Speculative Decoding for Efficient LLM Reasoning 학습 노트Purpose of the Paper:기존 Speculative Decoding (SD) 방법론의 한계점 지적:Strict unbiasedness 요구로 인해 draft model 과 target model 간 토큰 불일치 시 불필요한 계산 발생 및 효율성 저하. 특히 multi-step reasoning task 에서 draft model 이 target model 과 divergence 가 커질 때 문제 심화.High-quality 토큰 (reward function 이 선호하는 토큰)이라도 target model probability 가 낮으면 reject 되어 computati..
Preference Leakage: A Contamination Problem in LLM-as-a-judge 학습 노트Purpose of the Paper:기존 LLM 연구 패러다임의 새로운 문제점인 Preference Leakage 문제 제기LLM-as-a-judge 와 LLM-based data synthesis 의 결합으로 인한 contamination 문제점 심층 분석기존 LLM-as-a-judge 연구에서 간과되었던 data generator 와 judge LLM 간의 relatedness 가 평가에 미치는 영향 규명Key Contributions:Preference Leakage 개념 최초 정의 및 문제점 공식화Data generator LLM 과 judge LLM 간의 relatedness..
더보기s1: Simple test-time scaling 논문 정리 노트Purpose of the Paper:기존의 Large Language Model (LM) 성능 향상은 주로 train-time compute 확장에 의존해왔습니다. 하지만 최근 OpenAI의 o1 모델은 test-time compute를 추가하여 성능을 향상시키는 test-time scaling이라는 새로운 패러다임을 제시했습니다. 문제는 OpenAI가 o1 모델의 구체적인 방법론을 공개하지 않아, 재현 연구에 어려움이 있었다는 점입니다.본 논문은 test-time scaling을 달성하는 가장 단순한 접근 방식을 탐색하고, 동시에 강력한 추론 성능을 확보하는 것을 목표로 합니다. 특히, 복잡한 Reinforcement Learni..
AlphaZero-Like Tree-Search 논문 정리 노트Purpose of the Paper (논문의 목적)기존 연구인 Tree-of-Thought (ToT) 와 Reasoning via Planning (RAP) 은 Large Language Models (LLMs) 의 reasoning 능력을 향상시키기 위해 tree-search 알고리즘을 활용했지만, 다음과 같은 근본적인 한계를 가졌습니다.얕은 search depth: 최대 depth 가 10 또는 7 로 제한되어, long-horizon planning 이 필요한 복잡한 문제에 적용하기 어려웠습니다. AlphaZero 가 chess 나 Go 에서 깊은 search depth 를 보여준 것에 비해 미흡했습니다.Prompt 기반 value f..
논문 정리 노트: DIVING INTO SELF-EVOLVING TRAINING FOR MULTIMODAL REASONINGPurpose of the Paper (논문의 목적):기존 연구들은 multimodal reasoning (다중 모드 추론) 능력을 향상시키기 위한 self-evolving training (자체 진화 학습)에 대한 포괄적인 이해가 부족했습니다. 특히, multimodal 영역에서 self-evolving training의 효과를 체계적으로 분석하고 최적화하는 연구가 미흡했습니다. 이 논문은 multimodal reasoning에서 self-evolving training의 핵심 요소들을 심층적으로 분석하고, 실험적 검증을 통해 효과적인 학습 전략과 디자인 선택을 제시하는 것을 목표..
Direct Preference Optimization (DPO): 정리 노트Purpose of the Paper:기존의 대규모 언어 모델(Large Language Models, LMs) fine-tuning 방법인 Reinforcement Learning from Human Feedback (RLHF)는 복잡하고 불안정하며, 계산 비용이 많이 드는 문제점이 있습니다. RLHF는 reward model을 먼저 학습하고, 이를 기반으로 강화 학습을 통해 LM을 fine-tuning하는 2단계 과정을 거치는데, 이 과정에서 reward model 학습의 불안정성, LM sampling의 높은 비용, hyperparameter tuning의 어려움 등이 발생합니다.본 논문에서는 RLHF의 복잡성을 제거하고 ..
Purpose of the Paper:기존 연구들은 Large Language Models (LLMs)의 Chain-of-Thought (CoT) reasoning 능력을 향상시키는 데 집중했지만, Multimodal LLMs (MLLMs)에서의 CoT reasoning은 데이터 부족과 복잡성으로 인해 간과되어 왔습니다. 특히, Open-source MLLMs는 Visual cues를 효과적으로 통합하지 못해 CoT reasoning 성능이 미흡하며, GPT-4o와 같은 모델에 비해 현저히 떨어집니다.본 논문은 이러한 문제점을 해결하고자, Multimodal CoT 데이터에 대한 manual annotation 없이 MLLMs 스스로 reasoning 능력을 self-improve 할 수 있는 새로운 s..
RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems? 논문 정리 노트Purpose of the Paper (논문의 목적)Long-CoT 데이터 스케일링의 잠재력 탐구: 기존 연구들은 주로 Long-CoT 데이터의 양적, 질적 스케일링 효과에 대한 심층적인 분석이 부족했음. 본 논문은 Long-CoT 데이터를 대규모로 확장했을 때, 특히 복잡한 추론 능력이 필요한 시스템에 미치는 영향을 체계적으로 분석하고자 함.Slow-Reasoning 시스템 발전을 위한 핵심 요소 규명: 단순히 데이터 양을 늘리는 것을 넘어, Long-CoT 학습에 있어 모델 크기, 특화 (specialization), 효과적인 학습 전략 등 중요한 구성 요..
