AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : LensWalk: Agentic Video Understanding by Planning How You See in Videos 본문

논문리뷰

VLM : 빠른 논문 리뷰 : LensWalk: Agentic Video Understanding by Planning How You See in Videos

AI바라기 2026. 5. 6. 13:10

용어 설명

  • LensWalk: 이 논문에서 제안하는 능동적 비디오 관찰 agent framework. 고정된 비디오 입력 대신, 필요한 순간에 필요한 구간만 선택적으로 확인합니다.
  • Reasoner (LLM): 질문과 누적된 증거를 바탕으로 다음에 비디오의 어느 구간을, 어떤 밀도로 관찰할지 계획(plan)하는 주체입니다.
  • Observer (VLM): Reasoner의 계획에 따라 실제 비디오 프레임에서 시각적 증거를 추출하는 역할을 합니다.
  • Scan Search: 비디오의 넓은 구간을 듬성듬성(sparse) 나누어 병렬로 탐색하여 핵심 단서의 위치를 빠르게 찾는 tool입니다.
  • Segment Focus: 특정 짧은 구간을 촘촘하게(dense) 샘플링하여 미세한 디테일이나 움직임을 집중적으로 분석하는 tool입니다.
  • Stitched Verify: 멀리 떨어져 있는 여러 비디오 구간의 프레임들을 하나의 batch로 이어 붙여(stitch), 인과 관계나 상태 변화를 한 번에 비교 검증하는 tool입니다.
  • Timestamp Anchors: 다중 턴(multi-turn) 과정에서 단서의 시간적 위치를 잃지 않도록, Observer의 시각적 context 내부에 텍스트 형태로 주입하는 정확한 타임스탬프 힌트입니다.
  • Subject Memory Table: 매 턴마다 발견된 주요 entity(등장인물, 객체 등)의 상태와 특징을 업데이트하여 저장하는 경량화된 글로벌 메모리입니다.
  • Test-Time Scaling (TTS): 모델 학습이 아닌, 추론(inference) 단계에서 추가적인 연산을 할당하여 성능을 끌어올리는 방법론입니다.

Purpose of the Paper

  • 기존 연구의 한계: 기존 video understanding이나 agentic 모델들은 비디오를 한 번에 샘플링하여 고정된 context로 변환하거나, 사전에 추출된 무거운 캡션/인덱스 데이터베이스에만 의존함 (Reasoning과 Perception의 단절).
  • 새로운 문제 정의: 인간의 인지 과정처럼, 한정된 자원 내에서 가설의 변화에 맞춰 "비디오의 어디를, 얼마나 자세히 볼 것인가"를 능동적으로 스케줄링해야 함.
  • 차별점: 사전에 비디오를 모두 전처리(pre-processing)하는 수동적 검색(passive retrieval)을 버리고, LLM이 raw video에서 직접 관찰 범위를 파라미터화하여 제어하는 능동적 시각 인지(active visual cognition) 방식을 제안함.

Key Contributions

  • Reason-Plan-Observe Loop 구축: VLM 기반의 관찰 과정을 단순한 전처리가 아닌, agent의 추론 상태에 따라 매 턴 진화하는 step-by-step 탐색 루프로 전환함.
  • Multi-Granularity Observation Tool Suite 제공: Scan Search, Segment Focus, Stitched Verify라는 상호 보완적인 툴킷을 통해 broad scan과 foveal focus(중심와 집중)를 자유자재로 오가는 예산 맞춤형 샘플링(budget-aware sampling)을 구현함 (Novelty: 기존의 고정된 프레임 추출 휴리스틱을 대체).
  • Long-Horizon Coherence를 위한 경량 메모리 도입: Timestamp Anchors와 Subject Memory Table을 결합하여, 무거운 텍스트 요약본 없이도 agent가 일관되게 entity를 추적하고 모호한 구간을 재관찰할 수 있는 증거 기반(evidence grounding) 메커니즘을 완성함.
  • Plug-and-Play Test-Time Scaling: 별도의 모델 fine-tuning 없이 강력한 LLM/VLM 조합에 바로 얹어 쓸 수 있으며, inference 단계에서 연산량을 유동적으로 확장할 수 있는 새로운 TTS 패러다임을 제시함.

Experimental Highlights

  • 실험 설정: LVBench, LongVideoBench, Video-MME, MMVU, Video-MMMU 등의 고난도 long-video 및 reasoning benchmarks 사용. Baselines로 강력한 상용/오픈소스 single-forward VLMs (o3, GPT-4.1, Qwen2.5-VL 등)와 기존 Video Agents (DVD, MR. Video 등)를 비교함.
  • 가장 중요한 결과 (SOTA 달성): o3 모델에 LensWalk를 적용했을 때, single-forward 방식 대비 LVBench에서 +11.5%, Video-MME(long)에서 +6.7%의 압도적인 정확도 향상을 기록하며 state-of-the-art를 달성함.
  • 비용 효율성 (Token Efficiency): 비디오 전체에 대한 오프라인 전처리(offline pre-processing)를 생략함으로써, 수백만 토큰을 소모하는 기존 retrieval-based agents(예: DVD) 대비 압도적으로 적은 total token cost를 달성함. 또한 매 턴 필요한 프레임만 보기 때문에 peak per-turn context tokens가 매우 낮아 메모리 병목을 해소함.
  • 창발적 행동 (Emergent Behaviors) 관측: 실험 과정에서 모델이 인간처럼 Progressive Zoom-in(크게 훑고 좁혀보기), Integrative Verify(여러 단서 엮어서 검증), Strategic Reflection(막히면 전략 수정) 등의 고차원적인 tool-call 패턴을 스스로 학습하고 활용함을 입증함.

Limitations and Future Work

  • 명확한 한계점 (Failure Modes):
    • Premature Conclusion: 초기 관찰에서 강력한 단서를 발견하면 오만함(overconfidence)에 빠져 교차 검증 없이 너무 일찍 추론을 종료함.
    • Evidence Dilution: 관련 없는 구간을 계속 탐색하다 보면 노이즈가 쌓여, 초반에 찾은 결정적 증거가 희석되고 hallucination이 발생함.
    • Static Repetition: 추론이 막혔을 때 전략을 바꾸지 못하고, 동일한 구간에 똑같은 매개변수로 반복해서 tool을 호출하는 무한 루프에 빠짐.
  • 향후 연구 방향 (Future Work):
    • 강력한 Internal Critic 도입: 가설을 성급히 결론짓기 전에 엄격하게 반증(falsify)하고 검증하는 내부 평가 메커니즘 구축 필요.
    • 능동적 메모리 관리 (Active Context Pruning): 정보 수집뿐만 아니라, reasoning의 명확성을 유지하기 위해 불필요해진 context를 과감히 삭제하는 기능 개발.
    • Meta-Cognition 강화: Agent가 자신의 현재 전략이 정체되었음을 스스로 인지(detect stagnation)하고 강제로 탐색 전략을 전환(strategic shifts)하도록 개선.
  • 의의: 이러한 한계를 극복하면 agent는 단순한 planner를 넘어, 토큰 효율성과 추론 깊이의 완벽한 균형을 스스로 맞추는 완전 자율적(fully autonomous) self-correcting 시스템으로 진화할 수 있음.

Overall Summary

이 논문은 비디오 이해(video understanding)를 수동적인 프레임 인식 작업에서 벗어나, agent가 스스로 비디오의 어디를 어떻게 볼지 결정하는 LensWalk라는 능동적 reason-plan-observe 프레임워크로 혁신했습니다. 거시적 탐색(Scan Search), 미시적 집중(Segment Focus), 다중 컷 검증(Stitched Verify)을 유기적으로 결합하여, 값비싼 비디오 사전 전처리 없이도 극단적으로 높은 token efficiency와 state-of-the-art reasoning 성능을 동시에 달성했습니다. 이는 향후 multimodal models의 발전 방향이 단순히 더 큰 모델 크기나 더 긴 context window에 의존하는 것이 아니라, "사고의 흐름에 따라 시각적 관찰을 유동적으로 통제하는 인지 능력(active visual cognition)"에 있음을 시사하는 매우 중요한 연구입니다.


쉬운 설명

기존의 비디오 AI 방식이 사건의 실마리를 찾기 위해 **'CCTV 전체 영상을 처음부터 끝까지 16배속으로 한 번만 보고 머릿속으로만 끙끙대며 추리'**하는 것이었다면, LensWalk는 노련한 형사처럼 '우선 사건 발생 예상 시간대를 대충 훑어보고(Scan Search), 용의자가 나타난 10초 구간을 확대해서 프레임 단위로 자세히 본 뒤(Segment Focus), 범행 전과 후의 장면을 화면에 나란히 띄워놓고 비교(Stitched Verify)하며' 유연하게 단서를 추적해 나가는 능동적인 수사 기법을 AI에게 가르친 것과 같습니다.

 

 

 

더보기




처음엔 비디오도 안줌, 비디오 메타데이터 일부만 넣고 바로 답변들어감

띵킹 하다가 필요한 액션을 사용하는데

넓게 훑기 , 자세히보기, 멀리 떨어진 클립 붙여서 보기

3개 정도가 있고, 그 외엔 답변 정도 

그러면서 반복횟수 지나거나 필요할때 답변 하기


멀티턴 방식

트레이닝 프리



3점 / 5점

 

다른 논문들과는 다르게 이어서 보기라는 특수한 스킬이 있지만 뭐 그렇게 특별해보이진 않음. 3점정도