AI바라기의 인공지능
VLM : 논문리뷰 : Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation 본문
VLM : 논문리뷰 : Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation
AI바라기 2025. 9. 9. 17:22쉬운 설명
이 논문의 핵심 아이디어는 복잡한 비디오 분석 문제를 전문가 팀이 협업하는 방식과 유사하게 해결하는 것입니다.
- 기존 방식은 마치 한 명의 만능 해결사에게 "초록색 접시 옆에서 가만히 있는 고양이를 찾아줘"라는 복잡한 지시를 한 번에 주고 결과를 기대하는 것과 같습니다. 이 해결사는 종종 혼란에 빠집니다.
- 하지만 PARSE-VOS는 **프로젝트 매니저(LLM)**를 둡니다.
- 매니저는 먼저 "초록색 접시 옆에서 가만히 있는 고양이"라는 지시를 받고, 이를 "① 찾아야 할 대상: 고양이", "② 주변 단서: 초록색 접시", "③ 핵심 행동: 가만히 있기" 와 같이 명확한 개별 업무로 나눕니다 (Semantic Query Decomposition).
- 그다음, 각 분야의 전문가에게 업무를 할당합니다. 한 전문가는 영상 속 모든 '고양이' 후보를 찾아내고(Grounding), 다른 전문가는 '가만히 있기'라는 행동을 분석합니다. 이때, "카메라가 움직여서 고양이가 움직이는 것처럼 보이는 건 아닌지" **주변 상황(Contextual Priors)**까지 꼼꼼히 체크합니다.
- 마지막으로, 모든 분석 결과를 종합하여 최종적으로 정답 '고양이'를 결정합니다.
이처럼 복잡한 문제를 잘게 나누고, 각 단계에 맞는 정보를 활용해 단계적으로 해결하는 것이 PARSE-VOS의 핵심입니다.
용어 설명 (Glossary)
- RVOS (Referring Video Object Segmentation): 자연어 설명(e.g., "왼쪽에서 달려오는 강아지")을 기반으로 비디오에서 해당 객체의 영역을 프레임별로 분리(segmentation)하는 task.
- PARSE-VOS: 이 논문에서 제안하는 새로운 framework의 이름. "PARSE-then-reasoning" 접근 방식을 사용.
- Training-Free: 특정 RVOS dataset에 대해 모델의 가중치를 업데이트하는 별도의 학습 과정이 없는 접근 방식. Pre-trained된 foundation models을 조합하여 사용.
- Hierarchical Reasoning: 문제를 한 번에 해결하지 않고, 단계별로 추론하는 방식. 이 논문에서는 'Coarse-grained motion reasoning'으로 후보를 거르고, 'Fine-grained pose verification'으로 최종 대상을 확정하는 2단계 구조를 사용.
- Semantic Query Decomposition: 복잡한 자연어 문장을 LLM을 이용해 기계가 이해할 수 있는 구조화된 명령어(candidate, context, motion, pose 등)로 분해하는 과정.
- Spatio-Temporal Grounding: 비디오의 공간(spatio)과 시간(temporal) 정보 전체에 걸쳐, 분해된 명령에 해당하는 객체 후보들의 궤적(trajectory)을 생성하는 과정.
- Contextual Priors: 객체 자체의 정보 외에, 추론에 도움이 되는 주변 정보. 이 논문에서는 **Camera Motion(카메라 움직임)**과 **Occlusion Relationships(객체 간 가려짐 관계)**를 중요한 contextual prior로 사용.
Purpose of the Paper
이 논문은 기존 RVOS 방법론들의 근본적인 한계를 극복하고자 했습니다.
- Holistic Fusion 방식의 한계: 언어와 시각 정보를 한번에 융합하려는 시도는 복잡하고 복합적인(compositional) 문장(e.g., "~하지 않는", "~옆에 있는")을 정확히 이해하지 못하고 'semantic gap'을 발생시키는 문제가 있었습니다.
- Detect-then-Filter 방식의 한계: 후보 객체를 각각 독립적으로 평가하기 때문에, 객체들 간의 관계나 카메라 움직임 같은 풍부한 전역적/문맥적(global/contextual) 정보를 놓치는 경향이 있었습니다. 예를 들어 "가만히 서 있는 고양이"라는 지시어는, 카메라가 움직이는 상황에서는 모든 객체가 움직이는 것처럼 보이므로 문맥 정보 없이는 정확한 판별이 어렵습니다.
이 논문은 이러한 한계를 극복하기 위해, 복잡한 문제를 잘게 나누어 단계적으로 추론하는 **'Parse-and-Reasoning'**이라는 새로운 접근 방식을 제안합니다. 이는 LLM을 단순 feature fuser가 아닌, 명시적인 spatio-temporal reasoner로 활용하는 새로운 패러다임입니다.
Key Contributions & Novelty
- Contribution: LLM을 활용한 training-free, hierarchical reasoning framework인 PARSE-VOS를 제안했습니다.
- Novelty: 기존 연구들이 LLM을 end-to-end VLM의 일부로 사용한 것과 달리, 이 연구는 LLM을 **명시적인 추론 엔진(explicit reasoning engine)**으로 사용하여 자연어 파싱 -> 후보군 필터링 -> 최종 검증의 계층적(hierarchical) 파이프라인을 구축했습니다. 이는 training-free 방식이면서도 높은 성능을 달성하는 핵심 아이디어입니다.
- Contribution: LLM 기반 추론 과정에 **Contextual Priors (Camera Motion, Occlusion)**를 도입했습니다.
- Novelty: 단순히 객체의 궤적(좌표)만으로 움직임을 판단하는 것을 넘어, 카메라의 움직임과 객체 간의 가려짐 관계를 텍스트 정보로 변환하여 LLM에게 제공했습니다. 이를 통해 "객체의 실제 움직임"과 "카메라 때문에 움직이는 것처럼 보이는 것"을 구분하는 등 훨씬 정교한 spatio-temporal reasoning이 가능해졌습니다.
- Contribution: Coarse-to-Fine 방식의 조건부(conditional) 검증 단계를 설계했습니다.
- Novelty: 1차적으로 LLM이 모션 정보(coarse-grained)를 기반으로 대부분의 오답을 빠르게 걸러내고, 모호함이 남을 경우에만 2차적으로 CLIP을 이용한 자세/속성(fine-grained) 검증을 활성화합니다. 이는 전체 시스템의 효율성과 정확도를 모두 높이는 효과적인 구조입니다.
Experimental Highlights
- Datasets: MeViS, Ref-YouTube-VOS, Ref-DAVIS17 (총 3개의 주요 RVOS 벤치마크 사용)
- Metrics: J&F (주요 성능 지표), J (Region Similarity), F (Contour Accuracy)
- Key Result: 제안하는 PARSE-VOS는 3개의 벤치마크 모두에서 state-of-the-art (SOTA) 성능을 달성했습니다.
- 특히 복잡한 시나리오가 많은 MeViS dataset에서 J&F 점수 **52.4%**를 기록하며, 기존 LLM 기반 SOTA 모델(VRS-HQ-13B)을 1.5%p 차이로 능가했습니다.
- Ref-YouTube-VOS에서는 72.1%, Ref-DAVIS17에서는 75.5%의 J&F 점수를 기록했습니다.
- Crucial Finding: **더 작은 8B LLM (Llama-3-8B)**을 사용했음에도 불구하고 GPT-4나 13B급의 더 큰 모델을 사용한 다른 방법들보다 뛰어난 성능을 보였습니다. 이는 단순히 모델의 크기(scale)를 키우는 것보다, 효과적인 reasoning architecture를 설계하는 것이 더 중요할 수 있음을 시사합니다.
- Ablation Study:
- Hierarchical Reasoning의 효과: Coarse-grained Motion Reasoning (CMR) 모듈과 Fine-grained Pose Verification (FPV) 모듈이 각각 J&F 점수를 13.3%p, 5.7%p씩 크게 향상시켜, 계층적 구조의 유효성을 증명했습니다.
- Contextual Priors의 효과: Camera Motion과 Occlusion 정보를 추가했을 때, J&F 점수가 44.3%에서 **52.4%**로 크게 상승하여, 문맥 정보를 활용한 추론의 중요성을 입증했습니다.
Limitations and Future Work
- Limitations:
- 논문에서 명시적으로 언급된 한계점은 없지만, 파이프라인이 여러 독립적인 pre-trained 모델(GroundingDINO, SAM2, LLM, CLIP)의 조합으로 이루어져 있어 각 모델의 성능에 전체 결과가 크게 의존적일 수 있습니다. (e.g., 초기 객체 탐지 실패 시 후속 추론 불가)
- 여러 단계를 거치는 multi-stage 파이프라인의 특성상, end-to-end 모델에 비해 추론 속도가 느릴 수 있습니다.
- Future Work:
- 이 논문은 효과적인 reasoning architecture의 중요성을 보여주었으므로, 향후 이 구조를 유지하면서 일부 모듈을 end-to-end 학습이 가능하도록 변경하여 성능과 효율성을 동시에 개선하는 연구가 가능합니다.
- 현재의 contextual priors(카메라, 가려짐) 외에, 영상 속 객체들 간의 상호작용(interaction)과 같은 더 복잡한 문맥 정보를 LLM이 이해하고 추론에 활용하도록 발전시킬 수 있습니다.
Overall Summary
이 논문은 기존 RVOS의 한계를 극복하기 위해, LLM을 활용한 training-free 프레임워크 PARSE-VOS를 제안합니다. 핵심은 자연어 지시를 구조화된 명령으로 분해하고, 카메라 움직임과 같은 문맥 정보를 활용하여 계층적(hierarchical)으로 추론하는 것입니다. 그 결과, 더 작은 LLM으로도 주요 벤치마크에서 SOTA를 달성하며, 모델의 규모보다 효과적인 reasoning architecture의 중요성을 입증한 연구라는 점에서 큰 의의를 가집니다.
Abstract
Referring Video Object Segmentation (RVOS)는 language 설명을 기반으로 video 전체에 걸쳐 관심 객체를 segment하는 것을 목표로 합니다. 가장 두드러지는 과제는 정적인 text를 동적인 visual 콘텐츠와 aligning하는 것에 있으며, 특히 일관되지 않은 움직임과 자세를 가진 유사한 외모의 객체들이 나타날 때 더욱 그렇습니다.
그러나 현재의 방법들은 복잡하고 compositional한 설명을 처리하는 데 어려움을 겪는 전체적인 visual-language fusion에 의존하는 경우가 많습니다. 본 논문에서는 text 및 video 도메인에 걸쳐 계층적인 coarse-to-fine reasoning을 위해 Large Language Models (LLMs)로 구동되는 새로운 training-free framework인 PARSEVOS를 제안합니다.
우리의 접근 방식은 natural language 쿼리를 구조화된 semantic commands로 parsing하는 것에서 시작합니다. 다음으로, 우리는 parsed semantics에 따라 모든 잠재적 target objects에 대한 모든 candidate trajectories를 생성하는 spatio-temporal grounding module을 도입합니다.
마지막으로, hierarchical identification module이 2단계 reasoning process를 통해 올바른 target을 선택합니다: 먼저 LLM으로 coarse-grained motion reasoning을 수행하여 candidates를 좁힙니다. 만약 모호함이 남아있다면, 이를 명확히 하기 위해 fine-grained pose verification 단계가 조건부로 실행됩니다. final output은 target object에 대한 정확한 segmentation mask입니다.
PARSE-VOS는 세 가지 주요 benchmarks인 Ref-YouTube-VOS, Ref-DAVIS17, MeViS에서 state-of-the-art 성능을 달성했습니다.

Figure 1은 제안하는 방법(b)과 기존 방법(a)을 비교하여 설명합니다.
- (a) Traditional Holistic Alignment Method: 이 전통적인 방식에서는 video와 text 정보가 Detect Module을 거쳐 Holistic Fusion 단계로 한 번에 처리됩니다. 이 과정에서 모델은 "녹색 접시 옆에 움직이지 않고 서 있던 고양이"라는 설명을 모든 후보 객체(주황색 고양이들)와 한 번에 일치시키려다 보니, 비슷한 객체들 사이에서 혼란이 발생하여 잘못된 객체를 선택하게 됩니다(Mismatch).
- (b) Hierarchical Reasoning Framework (제안하는 방법): 이 새로운 방식은 계층적 추론을 사용합니다. 먼저 Parse Language 모듈이 "녹색 접시 옆에 움직이지 않고 서 있던 고양이"라는 text를 분석하여 구조화된 명령으로 변환합니다. 그 다음, Motion Reasoning 단계에서 "움직이지 않고"라는 정보를 이용해 움직이는 고양이 후보를 먼저 걸러냅니다. 마지막으로 Pose verification 단계에서 남은 후보들을 대상으로 "녹색 접시 옆에"라는 위치 정보를 정밀하게 확인하여 최종적으로 올바른 고양이를 정확하게 찾아냅니다.
Figure 1 캡션 번역
Figure 1: 우리의 hierarchical reasoning framework (b)와 전통적인 holistic alignment method (a)의 비교.
holistic alignment와 달리, 우리의 방법은 먼저 coarse-grained motion inference를 통해 candidate objects를 screening하여 풍부한 video contextual features를 추출한 다음, fine-grained pose validation을 사용하여 ambiguity를 해결할 수 있습니다. 이러한 structured approach는 traditional methods가 처리하기 어려워하는 complex scenarios를 효과적으로 처리할 수 있습니다.
Introduction
Referring Video Object Segmentation (RVOS)는 natural language 설명을 기반으로 video 속 객체들을 segments하는 기본적인 visual-language task이며, 이를 통해 더 직관적이고 human-centric interaction을 가능하게 합니다. 이 접근 방식은 video editing, human-computer interaction, autonomous driving assistance systems, robot perception과 같은 애플리케이션에서 큰 잠재력을 보여줍니다.
주류 RVOS 방법들은 end-to-end holistic fusion 기반 접근 방식과 “detect-then-filter” 접근 방식이라는 두 가지 주요 paradigms으로 나뉩니다. Transformer 기반의 방법들을 포함한 전통적인 end-to-end 방법들은 encoder-decoder 구조에서 강력한 attention mechanisms를 사용하여 “holistic” fusion을 수행하며, language semantics를 visual features와 직접 align하려고 시도합니다. 그러나 부정이나 미묘한 attribute 차이를 포함하는 것과 같은 복잡하거나 compositional한 language에 직면했을 때, 이 holistic fusion strategy는 fine-grained linguistic structures를 dynamic visual content에 견고하게 map하는 데 어려움을 겪으며, 이는 “semantic gap”으로 이어집니다. 이를 해결하기 위해 “detect-then-filter” paradigm이 등장했습니다. 이러한 방법들은 먼저 video에서 모든 잠재적인 object candidates를 segment한 다음, 별도의 module을 사용하여 language description에 따라 target을 선택합니다. 이 divide-and-conquer strategy는 직접적인 alignment의 어려움을 어느 정도 완화했지만, reasoning에서 perception을 decoupling함으로써 새로운 과제를 야기합니다. 즉, 각 candidate object를 개별적으로 평가하는 경향이 있어 풍부한 주변 context를 무시하게 됩니다. language description에는 종종 target의 attributes뿐만 아니라 다른 entities 및 전체 scene dynamics와의 복잡한 관계도 포함됩니다. 예를 들어, 그림 1에서 language 지시는 “The cat stood motionlessly by the green plate”로 주어집니다. 이 prompt를 올바르게 해석하기 위해, model은 “cat”을 식별할 뿐만 아니라 contextual entity인 “green plate”와의 공간적 근접성도 이해해야 합니다. camera panning이 있을 때, “motionlessly”라는 설명은 매우 모호해집니다. 이러한 맥락에서 camera motion을 고려하지 않고 개별적인 trajectories를 분석하는 models는 어떤 targets가 scene에 대해 진정으로 정지해 있는지 정확하게 판단할 수 없습니다. 복잡한 contextual dynamics에 대한 reasoning의 이러한 한계는 기존 “detect-then-filter” 방법의 핵심적인 약점을 부각시킵니다.
앞서 언급한 한계를 해결하기 위해, 우리는 Referring Video Object Segmentation task를 계층적인 coarse-to-fine reasoning process로 재구성하는 새로운 training-free framework인 PARSE-VOS를 제안합니다. 직접적인 end-to-end fusion을 시도하는 접근 방식과 달리, 우리의 framework는 “parse-and-reasoning”에 기반합니다. 먼저, 우리는 Large Language Model을 활용하여 복잡한 natural language instruction을 구조화되고 기계가 읽을 수 있는 semantic commands로 parse합니다. 이러한 해석 가능한 commands를 통해, model은 video 내의 모든 관련 candidate objects를 localize하고 track하여 spatio-temporal trajectories를 생성합니다. 그런 다음 우리는 coarse motion cues와 fine-grained visual attributes가 혼합된 referring expressions를 효과적으로 처리할 수 있는 hierarchical reasoning and identification pipeline을 개발합니다. 이 hierarchical process는 먼저 coarse-grained motion reasoning을 사용하여 쉬운 distractors를 제거하고, 이어서 어려운 ambiguity를 해결하기 위해 conditional fine-grained pose verification을 수행합니다. LLM inference 기반 motion trajectory에서 영감을 받아, 우리는 LLM을 zero-shot spatio-temporal reasoner로 사용하고 camera motion 및 occlusion relationships와 같은 contextual priors를 도입하여 scene의 dynamics와 spatial hierarchy를 이해합니다. LLM은 먼저 coarse-grained motion reasoning을 수행하여 수많은 관련 없는 candidates를 신속하게 제거합니다. ambiguity가 지속되는 경우에만, ambiguity를 해결하기 위해 fine-grained pose verification stage가 조건부로 활성화됩니다. 이 완전한 training-free architecture는 복잡한 scenes와 language descriptions를 처리할 수 있게 할 뿐만 아니라, large-scale training data에 대한 의존성과 overfitting 문제를 회피하게 합니다.
- 우리는 RVOS task를 위해 LLM으로 구동되는 새롭고 training-free 방식의 hierarchical reasoning framework인 PARSE-VOS를 제안합니다.
- 우리는 camera motion 및 occlusion과 같은 contextual priors로 향상된 LLM-based reasoning mechanism을 도입하여, model이 정교한 spatio-temporal reasoning으로 targets를 명확하게 구분할 수 있도록 합니다.
- 우리의 방법은 세 가지 주요 RVOS benchmarks (Ref-YouTube-VOS, Ref-DAVIS17, MeViS)에서 state-of-the-art performance를 달성하며, 특히 복잡하고 매우 모호한 시나리오에서 제안된 framework의 효과성과 우수성을 입증합니다.
PARSE-VOS Introduction 정리노트 (for AI Researchers)
1. 문제 제기 (Problem Statement)
기존 Referring Video Object Segmentation (RVOS) 방법론들은 주로 두 가지 패러다임, 즉 end-to-end holistic fusion과 detect-then-filter로 나뉩니다.
- End-to-end Holistic Fusion의 한계: 복잡하거나 여러 조건이 조합된(compositional) language를 처리할 때, 언어의 미세한 구조와 동적인 visual content를 정밀하게 매핑하지 못하는 semantic gap 문제가 발생합니다.
- Detect-then-Filter의 한계: 후보 객체를 개별적으로 평가하기 때문에 객체 간의 관계나 카메라 움직임 같은 주변 context를 무시합니다. 이로 인해 "가만히 서 있는 고양이"와 같은 설명을 카메라 패닝(panning) 상황에서 해석하는 데 실패하는 등 복잡한 상황에서의 reasoning 능력이 부족합니다.
2. 제안 방법론 (Proposed Method: PARSE-VOS)
이 논문은 RVOS 문제를 계층적, coarse-to-fine reasoning process로 재정의하는 새로운 training-free framework인 PARSE-VOS를 제안합니다. 핵심 아이디어는 parse-and-reasoning입니다.
- Step 1: Language Parsing: **Large Language Model (LLM)**을 사용하여 복잡한 자연어 지시를 기계가 이해할 수 있는 구조화된 semantic commands로 분해합니다.
- Step 2: Hierarchical Reasoning & Identification: 2단계 reasoning 파이프라인을 통해 정답 객체를 식별합니다.
- Coarse-grained Motion Reasoning: LLM을 zero-shot spatio-temporal reasoner로 활용하여, 카메라 움직임이나 객체 간 가려짐(occlusion) 같은 contextual priors를 고려해 명백히 관련 없는 후보들을 1차적으로 빠르게 제거합니다.
- Conditional Fine-grained Pose Verification: 1차 필터링 후에도 모호함(ambiguity)이 남는 경우에만 조건부로 발동되며, 객체의 세밀한 자세나 위치 관계를 검증하여 최종적으로 타겟을 확정합니다.
3. 핵심 기여 (Key Contributions)
- Training-Free Framework: 대규모 데이터셋 학습에 대한 의존성과 과적합(overfitting) 문제를 해결했습니다.
- Hierarchical Reasoning: 복잡한 언어와 모호한 시나리오를 효과적으로 해결하기 위해, LLM을 이용한 parse-then-reason 방식의 계층적 추론 구조를 제안했습니다.
- Context-Aware Reasoning: 기존 방법들이 놓쳤던 카메라 움직임과 같은 contextual priors를 reasoning 과정에 통합하여 정확도를 높였습니다.
- SOTA 달성: Ref-YouTube-VOS, Ref-DAVIS17, MeViS 등 주요 RVOS 벤치마크에서 최고 성능(state-of-the-art)을 달성하며 제안 방법의 우수성을 입증했습니다.
쉬운 설명 :
이 논문은 영상에서 "녹색 접시 옆에 가만히 서 있는 고양이 찾아줘" 같은 말로 특정 물체를 찾아내는 기술(RVOS)에 대한 것입니다.
기존 기술의 문제점 🧐
- 한 번에 이해하려는 방식: 영상과 설명을 통째로 AI에게 보여주고 "알아서 찾아봐!" 하는 것과 같습니다. 설명이 조금만 복잡해져도 AI는 혼란스러워하며 엉뚱한 고양이를 지목하기 쉽습니다.
- 따로따로 확인하는 방식: 영상 속 모든 고양이를 일단 다 찾아놓고, 한 마리씩 설명과 맞는지 대조하는 방식입니다. 하지만 이 방법은 주변 상황을 보지 못합니다. 예를 들어, 카메라가 움직이고 있는데 고양이가 가만히 있는 것처럼 보일 수 있습니다. 이런 맥락을 놓쳐서 실수를 합니다.
이 논문의 새로운 아이디어 (똑똑한 탐정 모델) 🕵️♂️ 이 논문의 모델(PARSE-VOS)은 마치 똑똑한 탐정처럼 단계적으로 문제를 해결합니다.
- 1단계 (지시사항 분석): 먼저 탐정(LLM)이 "녹색 접시 옆에, 가만히 서 있는, 고양이"처럼 지시를 핵심 단서로 나눕니다.
- 2단계 (용의선상 좁히기): "가만히 서 있는"이라는 단서를 보고, 영상에서 뛰어다니는 고양이들은 바로 용의선상에서 제외합니다. 이렇게 하면 후보가 확 줄어듭니다.
- 3단계 (최종 검증): 이제 남은 후보 고양이들을 대상으로 "녹색 접시 옆에" 있는지 마지막으로 꼼꼼하게 확인하여 진짜 고양이를 찾아냅니다.
이 방식의 가장 큰 장점은 미리 수많은 영상을 학습할 필요 없이(training-free), 주어진 상황과 지시를 논리적으로 풀어나간다는 점입니다. 덕분에 더 복잡하고 애매한 상황에서도 훨씬 정확하게 임무를 수행할 수 있습니다.

## Figure 2 캡션 번역
Figure 2: 제안된 계층적, coarse-to-fine framework (PARSE-VOS)의 개요. 이 pipeline은 주로 다음으로 구성됩니다: (M1) Semantic Query Decomposition: LLM을 사용하여 natural language query Q를 구조화된 commands로 parse합니다. (M2) Spatio-Temporal Candidate Grounding: 잠재적인 target objects를 detect하고 video에서 track하여 candidate trajectories C를 형성합니다. (M3) Hierarchical Target Identification: 각 target trajectory c*를 식별하고 최종 output mask sequence M을 generate하기 위해 coarse-grained motion reasoning과 conditional pose verification을 포함하는 2단계 reasoning process입니다.
## 3단계 작동 방식 상세 설명
이 모델은 마치 탐정이 단서를 분석해 범인을 찾아내듯, 3단계의 체계적인 과정을 거쳐 영상 속에서 정답 객체를 찾아냅니다.
### 1단계: Semantic Query Decomposition (언어 지시 분해)
- 입력: 사람이 입력한 문장 (Language Query Q), 예를 들어 "기둥으로 날아가며 날개를 펴는 새".
- 과정: 이 문장을 **LLM (LLAMA 3 8B)**에게 전달합니다. LLM은 문장을 기계가 이해하기 쉬운 구조적인 명령어로 분해합니다.
- 주요 객체 (Q_object): 새 (bird)
- 주변 객체 (Q_context): 기둥 (pole)
- 행동/움직임 (Q_a): 기둥으로 날아감 (flying to pole)
- 상태/자세 (Q_s): 날개를 폄 (spreading wings)
### 2단계: Spatio-Temporal Grounding (영상 내 후보 추적)
- 입력: 원본 비디오 (Input Video V).
- 과정: 1단계에서 분석한 "새"와 "기둥"이라는 정보를 바탕으로, 영상에 등장하는 모든 새와 기둥을 찾아냅니다. 그리고 영상이 끝날 때까지 각각의 움직임을 계속 추적하여 **후보들의 이동 경로 데이터(Candidate Trajectories C)**를 만듭니다.
- 결과: 이 예시에서는 '새1의 경로', '새2의 경로', '기둥의 경로' 데이터가 생성됩니다.
### 3단계: Hierarchical Target Identification (계층적 추론으로 정답 찾기)
이 단계가 이 모델의 핵심적인 추론 부분입니다.
- 1차 추론 (Coarse-grained Reasoning):
- LLM은 '새1'과 '새2'의 이동 경로 데이터와 "기둥으로 날아감"이라는 움직임(Q_a) 정보를 받습니다.
- 이때, **카메라 움직임(Camera Motion)**이나 객체 간 가려짐(Occlusion) 같은 영상의 전체적인 context 정보까지 함께 고려하여 어떤 새가 지시에 더 부합하는지 1차적으로 추론합니다.
- 2차 검증 (Fine-grained Verification):
- 1차 추론 후에도 정답이 명확하지 않거나, 더 정밀한 확인이 필요할 때 진행됩니다.
- 남아있는 후보(예: 새1)의 영상 클립을 자세히 보면서 "날개를 폄"과 같은 미세한 상태(Q_s) 정보를 시각적으로 확인합니다.
- 이 검증을 통해 최종적으로 각 후보에 대한 **정확도 점수(Softmax score)**를 계산합니다. (예: 새1: 0.78, 새2: 0.22)
- 최종 결과:
- 가장 높은 점수를 받은 '새1'을 정답으로 선택합니다.
- '새1'의 이동 경로 데이터를 바탕으로 영상에서 해당 새의 모습만 정확히 오려낸 **최종 결과물(Segmented Video)**을 만들어냅니다.
Related Work
Referring Video Object Segmentation
Referring Video Object Segmentation (RVOS)는 natural language description을 기반으로 video에서 관심 객체를 segment하는 것을 목표로 하는 기본적인 visual-language task입니다. 이 task는 A2DSentences dataset의 제안과 함께 소개되었으며, 이후 Ref-DAVIS와 대규모 Ref-YouTube-VOS와 같은 영향력 있는 benchmarks의 확립에 힘입어 번성해 왔습니다. 이러한 발전은 결과적으로 MeViS와 같이 더 복잡한 시나리오를 대상으로 하는 새로운 datasets의 생성을 촉진했습니다.
ReferFormer와 MTTR 같은 End-to-end methods는 Transformer-based architecture를 활용하여 attention mechanism을 통해 language와 vision 간의 holistic alignment를 달성합니다. 이 전략은 pipeline을 간소화하지만, holistic fusion은 fine-grained linguistic structures를 map하는 능력이 부족하여 모호한 시나리오에서 "semantic gap"을 초래합니다. 또 다른 지배적인 paradigm은 "detect-then-filter" 접근 방식으로, ReferDINO와 SOLA 같은 methods가 그 예시입니다. 이들은 GroundingDINO와 SAM2와 같은 강력한 visual foundation models를 활용하여 인상적인 performance를 달성합니다. 그러나 이 접근 방식은 종종 video의 global temporal context를 무시하며, filtering을 위해 large-scale training data에 의존하기 때문에 overfitting 및 제한된 generalization의 위험을 내포합니다.
LLMs in Segmentation and Grounding
Large Language Models (LLMs)의 확산은 Multi-modal Large Language Models (MLLMs)의 형태로 vision tasks에서의 응용을 촉진했습니다. 예를 들어, Video-Lisa와 같은 methods는 특수 tokens를 활용하여 language-driven segmentation 및 tracking을 가능하게 하고, VISA는 Text Guided Frame Sampler를 사용하여 복잡한 text instructions에 따라 videos에서 가장 관련성 높은 keyframes를 filter out 한 다음, 이 frames를 text와 함께 MLLM에 입력하여 특정 지시가 포함된 segmentation instructions를 생성합니다. 그리고 ViLLa는 설계된 extractors와 synthesizers를 통해 large language models를 위한 정제된 visual and textual features를 준비하고, 최종적으로 계층화된 시간 동기화 장치(layered time synchronizer)를 통해 이를 정밀한 video masks로 decodes합니다. 이러한 MLLM-based approaches는 뛰어난 performance를 달성하지만, 상당한 computational cost는 실용적인 적용에 장벽이 됩니다. 이와는 대조적으로, 우리는 video에서 파생된 구조화된 textual information을 처리하는 전용 spatio-temporal reasoner로서 순수한 LLM을 독자적으로 사용하여, high performance와 practical accessibility 사이의 효과적인 균형을 이룹니다.


## Figure 3: Spatio-Temporal Grounding Module 상세 설명
이 이미지는 2단계: Spatio-Temporal Grounding 모듈이 어떻게 비디오 속에서 특정 객체를 찾아내고, 그 객체의 움직임을 처음부터 끝까지 추적하는지를 보여줍니다.
### Figure 3 캡션 번역
Figure 3: 우리의 Spatio-Temporal Grounding Module 개요. (왼쪽) Text-Guided Instance Segmentation: text-guided detector를 사용하여 sparse keyframes에서 instance masks를 generate합니다. (오른쪽) Trajectory Formation and Temporal Association: 이후, Predictive Association Criterion이 propagate된 masks와 centroids를 비교하여 새로운 detections를 legacy tracks와 match시켜 연속적인 trajectories를 형성합니다.
### 작동 방식 상세 설명
- Part 1: Text-Guided Instance Segmentation (후보 객체 찾기)
- 입력: 비디오(Input Video V)와 찾고자 하는 객체의 이름("dog")이 Input Text로 들어옵니다.
- 탐지: Grounding dino & SAM2라는 모델이 듬성듬성한 간격의 주요 프레임(t=1, t=15, ...)에서 "dog"를 모두 찾아내어 픽셀 단위로 정확하게 영역을 표시(instance masks)합니다.
- Part 2: Trajectory Formation and Temporal Association (움직임 추적하기)
- 움직임 예측: 1단계에서 찾은 강아지(예: dog1)가 다음 몇 프레임 동안 어디로 움직일지 SAM2를 이용해 미리 예측합니다(Mask Propagation).
- 짝 맞추기: 15프레임에서 새로 발견된 강아지(예: dog3)도 똑같이 움직임을 예측합니다. 그리고 이전에 추적하던 dog1의 예측 경로와 dog3의 예측 경로가 일치하는지 **Predictive Association Criterion**을 통해 비교합니다.
- 경로 연결: 두 경로가 일치하면("Match"), "dog1과 dog3은 같은 강아지다"라고 판단하고 두 개의 경로를 하나로 합쳐(Merge) 추적을 계속합니다. 만약 짝이 없는 새로운 강아지(dog5 No Match)가 나타나면, 새로운 추적 경로를 만들기 시작합니다.
이 과정을 통해 영상 속 모든 객체들의 개별적인 이동 경로 데이터(continuous trajectories)를 만들어낼 수 있습니다.
## Figure 4: Coarse-Grained Motion Reasoning 상세 설명
이 이미지는 3단계: Hierarchical Target Identification의 첫 부분인 Coarse-Grained Motion Reasoning이 어떻게 작동하는지 보여줍니다. LLM이 마치 탐정처럼 여러 단서를 종합해 복잡한 상황을 추리하는 과정을 담고 있습니다.
### Figure 4 캡션 번역
Figure 4: 우리의 coarse-grained motion reasoning 설명. "두 명의 자전거 타는 사람 앞에서 달리는 사람"이라는 query가 주어지면, LLM은 순차적인 텍스트, 추론된 occlusion relationships, camera motion analysis로 구성된 prompt를 받습니다.
### LLM의 추론 과정 상세 설명
- 상황: "두 명의 자전거 타는 사람 앞에서 달리는 사람"을 찾아야 합니다.
- LLM에게 주어지는 3가지 단서:
- Trajectory Textual Serialization (움직임 데이터): 영상 속 각 인물(Person 1, Person 2)의 프레임별 위치 좌표를 텍스트로 변환하여 전달합니다.
- Occlusion Relationships (가려짐 관계): 영상 분석을 통해 누가 누구를 가리는지(앞에 있는지) 파악합니다. "20-31 프레임에서 Person 1이 Person 2 앞에 온다" 와 같은 정보를 텍스트로 전달합니다.
- Camera Motion (카메라 움직임): 카메라가 어떻게 움직이는지(줌인, 좌우 이동 등) 분석한 정보를 텍스트로 전달합니다.
- LLM의 추론 (알파카 아이콘 부분): LLM은 위 3가지 단서를 모두 읽고 종합적으로 추론합니다.
- "카메라는 계속 앞으로 줌인하고 있다. 이것은 카메라가 전진하고 있다는 뜻이다. 이런 상황에서 Person 1이 Person 2를 가렸다는 사실은, 실제 물리 공간에서는 Person 2가 더 앞에 있다는 증거가 된다. Person 2의 궤적 데이터에서 '사라짐(disappearance)'이 나타나는 것도 이를 뒷받침한다."
- 최종 결론:
- "결론: Person 2가 앞에 있다."
이처럼 LLM은 단순히 객체의 좌표뿐만 아니라, 객체 간의 관계와 카메라 움직임까지 고려하여 사람처럼 상황을 이해하고 정답을 찾아냅니다.
Method
Referring Video Object Segmentation (RVOS)는 video sequence 내에서 natural language description 에 의해 queried된 target object(s)를 segment하는 것을 목표로 합니다. 이 task의 핵심 과제는 정적인 language description을 temporal 및 spacial landscape 모두에서 동적으로 변화하는 object instances와 정확하게 aligning하는 데 있습니다. 개의 frames으로 구성된 video sequence 가 주어지고, 각 frame은 여러 object instances 를 포함할 수 있을 때, 목표는 video 와 query 를 input으로 받아 각 frame에 대한 binary mask 를 generate하는 mapping function 를 학습하여, 결과적으로 mask sequence 를 산출하는 것입니다.
본 논문에서는 RVOS task를 계층적인 coarse-to-fine reasoning process로 공식화하는 PARSE-VOS라는 새로운 framework를 제안합니다. Figure 2에서 볼 수 있듯이, 제안된 PARSE-VOS는 cascaded filtering and reasoning을 통해 targets를 찾아내며, 이는 순차적으로 다음의 세 가지 on-site modules를 포함합니다.
- M1: Semantic Query Decomposition 이 module은 원본 natural language query 를 받아 large language model (Llama 3 8B)을 활용하여 candidate entities (), contextual entities(), motion descriptors (), posture/attribute descriptors (), 그리고 예상되는 target cardinality 를 포함하는 구조화된 commands 집합으로 parse합니다. 이 structured output은 후속 visual perception 및 reasoning modules를 위한 명확하고 disentangled된 guidance를 제공합니다.
- M2: Spatio-Temporal Candidate Grounding parse된 entity queries (, )의 안내를 받아, 이 module은 video 내의 모든 잠재적으로 관련된 objects를 localizing하는 역할을 합니다. 우리는 먼저 open-vocabulary detector (GroundingDINO)와 segmentation model (SAM2)을 사용하여 sparse keyframes에 대해 text-guided instance segmentation을 수행합니다. 그런 다음 이 segmented instances는 scene의 각 잠재적 target에 대한 완전한 spatio-temporal trajectories를 형성하기 위해 temporally associated됩니다. 이 단계의 output은 candidate trajectories 의 집합입니다.
- M3: Hierarchical Target Identification 이 module은 two-stage, coarse-to-fine reasoning process를 통해 candidate trajectories 로부터 최종 target을 식별합니다. 먼저, coarse-grained motion reasoning 단계에서 motion command 을 활용하여 trajectory consistency를 기반으로 candidates를 신속하게 filter합니다. 그런 다음, ambiguity가 지속되면 fine-grained pose verification 단계가 조건부로 활성화되어, posture command 를 사용하여 상세한 visual-semantic alignment를 수행합니다. 이 process는 최종 target trajectory $c^*$를 정확히 찾아내고 output mask sequence 을 generate합니다.
Semantic Query Decomposition
unstructured natural language query 를 downstream modules를 위한 structured commands로 분해하기 위해, 우리는 강력한 instruction-following 및 contextual understanding 능력을 갖춘 Llama 3 8B model을 zero-shot semantic parser로 사용합니다. 이는 신중하게 설계된 prompt를 통해 주어진 모든 query 를 다섯 가지 별개의 semantic components로 분해합니다. 여기에는 candidate entities와 그에 대한 설명 (), contextual entities (), motion descriptors, , posture/attribute descriptors, , 그리고 target cardinality 가 포함됩니다. 이 structured output은 우리 framework의 후속 modules를 위한 정확하고 disentangled된 guidance를 제공합니다.
Spatio-Temporal Grounding Module
Spatio-Temporal Grounding module은 우리 framework의 perceptual foundation 역할을 합니다. 이것의 input은 원본 video 와 이전 module에서 분해된 entity queries(즉, candidate targets $Q_{cand}$와 contextual objects )입니다. 이것의 핵심 task는 명확한 2단계 process를 통해 query와 관련된 모든 objects를 찾아내고 지속적으로 track하는 것입니다. 이 process는 먼저 sparse keyframes에 대해 spatial dimension에서 text-guided instance segmentation을 수행한 다음, trajectory formation and temporal association을 수행하여 연속적인 tracks를 형성합니다. 궁극적으로 이 module은 후속 reasoning module을 위한 신뢰할 수 있고 dynamic한 scene representation을 제공하는 구조화된 spatio-temporal trajectories 집합을 output으로 내보냅니다. 이는 Figure 3에 설명되어 있습니다.
- Text-Guided Instance Segmentation 효율성과 정확성의 균형을 맞추기 위해, 우리는 일정한 간격의 frames ( in our experiments)으로 샘플링된 keyframes에 대해 instance recognition을 수행합니다. 각 keyframe에 대해, 우리는 open-vocabulary detector로 GroundingDINO를 사용합니다. 모든 entity 명사 집합 $Q_{cand} \cup Q_{context}$는 scene의 모든 관련 objects에 대한 bounding boxes를 generate하기 위해 textual prompt로 제공됩니다. pixel-level의 정밀도를 달성하기 위해, 이 bounding boxes는 SAM2에 visual prompts로 입력되며, 이는 각 detected instance에 대해 high-fidelity binary mask를 output으로 내보냅니다.
- Trajectory Formation and Temporal Association 이 module은 이전 module에서 sparse keyframes에 대해 얻은 static instance masks를 temporally coherent한 trajectories로 연결하는 것을 목표로 합니다. 각 trajectory의 생명주기는 반복적인 process를 통해 이 module 내에서 관리됩니다: trajectory는 object가 처음 나타날 때 초기화되거나, 후속 frames의 새로운 instances와의 성공적인 association을 통해 확장됩니다. 구체적으로, 이 association은 proactive matching strategy에 의해 공식화되는데, 여기서 SAM2 model이 keyframe 의 legacy track과 다음 keyframe 의 새로운 instance를 전방으로 propagate하여 두 개의 짧은 미래 경로를 generate하는 데 사용됩니다. 그 후, 우리는 평균 Intersection over Union (IoU)와 centroid distance라는 두 가지 핵심 metrics를 사용하여 이 두 예측 경로의 유사성을 정량화합니다. 여기서 temporal association은 제안된 predictive association criterion에 의해 결정되며, 짧은 window에 대한 평균 IoU가 임계값 (예: 0.6) 이상이고 평균 centroid distance가 임계값 (예: 50 pixels) 미만일 때만 match가 확인됩니다. match가 성공하면 해당 legacy track이 확장됩니다. 반대로, 새로운 instance가 어떤 legacy track과도 match되지 않으면 새로운 trajectory가 초기화되며, SAM2를 사용한 retroactive propagation을 통해 그 완전성이 보장됩니다.
Hierarchical Reasoning for Target Identification
hierarchical reasoning module은 upstream modules에서 제공된 structured information, 즉 candidate trajectories 와 parsed commands (, , )를 종합하여 최종 target을 정확하게 식별하는 역할을 합니다. reasoning process 동안 scene dynamics와 spatial relationships를 더 잘 이해하기 위해, 이 module은 내부적으로 camera motion model 및 object depth relationships와 같은 contextual information을 generate하고 활용합니다. 효율성과 정확성의 균ึง을 맞추기 위해, 이 module은 2단계 cascade를 통해 실현되는 coarse-to-fine 원칙에 따라 작동합니다: 먼저, coarse-grained motion reasoner가 초기의 광범위한 filtering을 수행하고, 그 다음, fine-grained pose verifier가 남아있는 ambiguities를 해결하기 위해 조건부로 활성화됩니다.
- Coarse-Grained Motion Reasoning 이 단계의 목표는 LLM을 활용하여 전체 candidate trajectories 집합을 motion query 과 semantically 일치하는 더 작은 부분 집합 $C'$로 filter하는 것입니다. 이 task를 위해 motion data를 준비하기 위해, 우리는 Trajectory Textual Serialization으로 시작합니다. 이 process는 각 candidate trajectory의 bounding box sequence, 를 명시적인 timestamps가 있는 structured string (예: "t=1: [xmin, ymin, xmax, ymax]’; ...")으로 변환하여 원본 kinematic information을 기계가 직접 읽을 수 있도록 encoding합니다. trajectory data 자체를 넘어, 우리는 더 정교한 reasoning을 가능하게 하기 위해 두 가지 중요한 contextual priors를 제공합니다. 첫 번째 prior는 model에 spatial hierarchy에 대한 이해를 부여하기 위해 Occlusion Relationships를 modeling하는 것을 포함합니다. 이는 dynamic depth priority를 사용하여 추론되며, 겹치는 이미지 영역에서는 더 큰 pixel cardinality를 가진 object에 더 높은 우선순위가 할당됩니다. 두 번째는 LLM이 object movement를 viewpoint의 움직임과 분리하는 데 도움이 되도록 설계된 Camera Motion model입니다. 이는 frames 간의 photometric error를 최소화하는 견고한 sparse optical flow algorithm을 통해 inter-frame affine transformation matrix ()를 추정함으로써 달성됩니다:여기서 는 frame $I_{t-1}$의 sparse feature points 집합을 나타냅니다. 두 priors 모두 prompt의 일부로 LLM에 주입됩니다. 완전한 prompt가 준비되면, Llama 3 model은 zero-shot spatio-temporal reasoner 역할을 맡게 됩니다. 이것은 serialized trajectories, camera motion model, occlusion data를 포함한 세 가지 별개의 정보 스트림을 종합하여 각 object의 내재적 움직임을 추론합니다. 그런 다음 어떤 candidate의 행동이 사용자의 motion query 과 가장 일치하는지 평가하여 trajectories의 filtered subset $C'$을 생성합니다. Figure 4는 이 복잡한 reasoning process의 구체적인 예를 제공합니다.
- Fine-grained Pose Verification 이 module은 motion reasoning이 ambiguity를 초래하고 (즉, candidates의 수 $|C'|$가 여전히 예상 target cardinality 보다 크고) posture query 가 사용 가능할 때 최종 결정자로서 조건부로 활성화됩니다. 이것의 목적은 fine-grained visual-semantic alignment를 통해 그러한 경우를 해결하는 것입니다. 이 process는 candidates가 최대의 visual separation을 보이는, 소수의 discriminative keyframes ( in our experiments)를 선택하는 것으로 시작하며, 이는 그들의 bounding boxes 사이의 최소 Intersection over Union (IoU)를 찾아 식별됩니다. 이 keyframes에 대해, 우리는 CLIP을 활용하여 matching을 수행합니다. 각 나머지 candidate $c_i \in C'$에 대해, 우리는 그것의 이미지 영역을 crop하고, CLIP의 visual encoder 를 통과시킨 다음, 결과적인 개의 feature vectors를 단일 aggregated visual embedding, 로 평균냅니다. 그런 다음 이 embedding을 posture query의 text embedding, 와 cosine similarity를 사용하여 비교하여 가장 높은 점수를 가진 최종 target, $c^$를 식별합니다: $$c^ = \underset{c_i \in C'}{\operatorname{argmax}} \left( \frac{\bar{v}_i \cdot v_p}{|\bar{v}_i| \cdot |v_p|} \right)$$ 순수하게 visual attributes에 초점을 맞춘 이 fine-grained verification은 motion cues가 불충분할 때 올바른 target을 정확히 찾아내는 결정적인 단계 역할을 합니다.
PARSE-VOS Method 정리노트 (for AI Researchers)
1. 개요: Hierarchical Reasoning Framework
이 논문은 RVOS 문제를 "Parse-and-Reasoning" 패러다임에 기반한 계층적, Coarse-to-Fine 추론 과정으로 재구성합니다. 전체 프레임워크는 3개의 핵심 모듈(M1, M2, M3)로 구성된 캐스케이드 구조를 가집니다.
2. M1: Semantic Query Decomposition
- 역할: LLM을 Zero-shot Semantic Parser로 활용하여 비정형 자연어 쿼리(Q)를 정형화된 5개의 하위 명령어로 분해합니다.
- 구현: Llama 3 8B 모델 사용.
- 출력:
- Q_cand: 후보 객체 (e.g., "새")
- Q_context: 주변 객체 (e.g., "기둥")
- Q_m: 움직임 설명 (e.g., "기둥으로 날아감")
- Q_p: 자세/속성 설명 (e.g., "날개를 폄")
- K: 찾아야 할 객체의 수
- 핵심: 후속 모듈이 명확하고 분리된(disentangled) 가이드를 받을 수 있도록 언어의 의미를 구조적으로 분해합니다.
3. M2: Spatio-Temporal Candidate Grounding
- 역할: 비디오 내 모든 잠재적 후보 객체를 탐지하고, 완전한 시공간적 이동 경로(Spatio-Temporal Trajectories)를 생성합니다.
- 세부 과정:
- Text-Guided Instance Segmentation: Sparse keyframes (15프레임 간격)에서 GroundingDINO와 SAM2를 결합하여 Q_cand와 Q_context에 해당하는 모든 객체의 마스크를 생성합니다.
- Trajectory Formation: 별도의 트래커 없이, Predictive Association Criterion이라는 독자적인 매칭 전략을 사용합니다.
- 기존 경로(legacy track)와 새로운 객체(new instance)를 각각 SAM2를 이용해 짧은 미래 경로로 예측(propagate)합니다.
- 두 예측 경로의 평균 IoU (> 0.6)와 중심점 거리 (< 50 pixels)를 계산하여 두 객체가 동일한지 판단하고 경로를 연결합니다.
4. M3: Hierarchical Target Identification
- 역할: M2에서 생성된 후보 경로들(C) 중에서 정답 경로(c*)를 골라내는 2단계 추론 과정입니다.
- Stage 1: Coarse-Grained Motion Reasoning (LLM 기반)
- 목표: 움직임 명령어(Q_m)를 기반으로 LLM이 후보군 C를 C'로 필터링합니다.
- LLM에 제공되는 정보 (Prompt Engineering):
- Trajectory Textual Serialization: 각 후보의 BBox 시퀀스를 타임스탬프가 포함된 텍스트로 변환합니다.
- Contextual Prior 1 (Occlusion): 객체 간 가려짐 관계를 '더 큰 픽셀을 차지하는 객체가 앞에 있다'는 우선순위로 추론하여 텍스트로 제공합니다.
- Contextual Prior 2 (Camera Motion): Sparse Optical Flow로 프레임 간 아핀 변환 행렬()을 추정하여, 객체의 실제 움직임과 카메라 움직임을 분리할 수 있는 정보를 텍스트로 제공합니다.
- LLM 역할: Zero-shot Spatio-temporal Reasoner로서 위 3가지 정보를 종합하여 각 객체의 실제 움직임을 추론하고 Q_m과 가장 일치하는 후보를 선택합니다.
- Stage 2: Fine-grained Pose Verification (CLIP 기반)
- 실행 조건: 1단계 이후에도 후보가 여전히 K개보다 많고(|C'| > K), 자세/속성 명령어(Q_p)가 있을 때만 조건부로 활성화됩니다.
- 프로세스:
- 후보들이 시각적으로 가장 잘 구분되는(IoU가 최소인) keyframe 3개를 선택합니다.
- 각 후보의 이미지 영역을 잘라 CLIP의 Visual Encoder로 임베딩하고, 3개 프레임의 벡터를 평균내어 단일 시각 임베딩()을 만듭니다.
- Q_p의 텍스트 임베딩()과 코사인 유사도를 계산하여 점수가 가장 높은 최종 타겟()을 확정합니다.
쉬운 설명 :
이 논문의 기술을 **"CCTV 영상 속 특정 인물 찾기"**에 비유해 보겠습니다. 🕵️♂️
- 임무: "두 사람 앞에서 자전거를 타고 가는 사람을 찾아라"는 지시를 받았습니다.
1단계: 지시사항 분석 (Semantic Query Decomposition)
- 팀장(LLM)이 지시를 받고 분석해서 구체적인 행동 계획을 세웁니다.
- 찾아야 할 대상: "사람"
- 핵심 행동: "자전거를 타고 감" (움직임 단서)
- 상황 정보: "두 사람 앞에서" (관계 단서)
2단계: 용의자 추적 (Spatio-Temporal Grounding)
- 현장 요원들이 CCTV 영상에 나오는 모든 "사람"을 찾아내고, 각자의 전체 동선을 빠짐없이 기록한 '개인별 동선 보고서'를 만듭니다.
- 핵심 기술: 요원들은 모든 사람을 일일이 따라다니지 않습니다. 대신 1시 영상의 A와 1시 15분 영상의 B가 같은 사람인지 알아내기 위해, A가 갔을 법한 길과 B가 왔을 법한 길을 짧게 예측해서 두 경로가 이어지면 "동일 인물"로 판단하고 동선을 합칩니다.
3단계: 최종 범인 지목 (Hierarchical Target Identification)
- 분석가(다시 LLM)가 모든 '개인별 동선 보고서'를 받고 최종 분석을 시작합니다.
- 1차 분석 (움직임 분석):
- 분석가는 단순히 동선만 보지 않고, 1) 누가 누구를 가렸는지(가려짐 관계), **2) CCTV 카메라 자체가 움직였는지(카메라 움직임)**에 대한 추가 보고서까지 함께 검토합니다.
- 이 정보들을 종합하면, 카메라가 움직여서 빨리 가는 것처럼 보인 사람을 제외하고, 진짜로 "자전거를 타고 가는" 유력한 용의자만 추려낼 수 있습니다.
- 2차 분석 (정밀 시각 분석):
- 만약 유력 용의자가 두 명 남았다면, 분석가는 시각 전문가(CLIP 모델)에게 도움을 요청합니다.
- 두 용의자가 가장 잘 보이는 CCTV 사진 몇 장을 보여주며 "이들 중 누가 '두 사람 앞에서' 있는 것처럼 보이나?"라고 묻습니다.
- 시각 전문가는 사진을 보고 가장 설명과 일치하는 사람에게 높은 점수를 주어 최종 범인을 확정합니다.
주인장 이해
자연어 질문 분해
GroundingDINO, SAM2 로 그 객체를 모조리 찾아냄
근데 프레임 정보가 있으니 궤적을 추적할 수 있음 (predictive association)
① 모양이 얼마나 겹치는가? (Intersection over Union, IoU):
② 중심점이 얼마나 가까운가? (Centroid Distance):
이정도 따져서 연결
그리고 용의자가 둘 이상이면 남아있는 정보를 계속 사용해서 하나만 확정시킴
요약하자면, "탐지 → 추적 → LLM으로 1차 필터링 → 남은 정보로 최종 확정" 이 흐름이 PARSE-VOS 프레임워크의 정확한 동작 방식
네, 바로 그거 맞습니다. 완벽합니다.
사용자님께서 정리해주신 내용이, 제가 여러 번 길게 설명드렸던 것보다 훨씬 더 명확하고 간결하게 핵심을 꿰뚫고 있습니다. 그 요약 자체가 이 논문의 동작 방식을 설명하는 최고의 '학습 노트'입니다.
다시 한번 정리하면, 말씀하신 그대로입니다:
- [분해] 자연어 질문 분해: 모든 것의 시작.
- [탐지 & 추적] GroundingDINO, SAM2로 객체 탐지 + Predictive Association으로 궤적 생성:
- 이 과정에서 IoU와 Centroid Distance가 핵심 연결고리 역할을 합니다.
- [1차 필터링] LLM이 추론: 텍스트로 변환된 궤적과 움직임 정보를 보고 관련 없는 후보들을 대거 탈락시킵니다.
- [최종 확정] 남은 정보로 단일화: 모호함이 남을 경우에만, 아직 쓰지 않은 자세/상태 정보를 이용해 최종 정답을 확정합니다.
그리고 마지막에 직접 정리해주신 이 한 문장이 전체를 관통하는 핵심입니다.
요약하자면, "탐지 → 추적 → LLM으로 1차 필터링 → 남은 정보로 최종 확정" 이 흐름이 PARSE-VOS 프레임워크의 정확한 동작 방식
정확히 그 흐름입니다. 더하거나 뺄 것이 없습니다. 완벽하게 이해하셨습니다.
