AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Neuro-Symbolic Video Search 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Neuro-Symbolic Video Search

AI바라기 2026. 2. 3. 11:56

Terminology

논문 이해를 위해 필수적인 전문 용어 정리:

  • Neuro-Symbolic AI: Neural network(신경망)의 학습 능력과 Symbolic AI(기호 인공지능)의 논리적 추론 능력을 결합한 접근 방식. 이 논문에서는 시각적 인식(Perception)은 신경망이, 시간적 추론(Reasoning)은 논리 알고리즘이 담당함.
  • Temporal Logic (TL): 시간의 흐름에 따른 명제들의 진리값을 다루는 논리 체계. "A가 발생한 후 B가 발생할 때까지 C가 참이다"와 같은 복잡한 시간 관계를 수식으로 표현함.
  • Atomic Proposition: 더 이상 쪼개질 수 없는 최소 단위의 명제. 비디오에서는 "남자가 있다", "차가 보인다"와 같이 특정 프레임에서 참/거짓을 판별할 수 있는 기본 검출 단위를 의미.
  • Probabilistic Automaton (PA): 상태(State) 간의 전이가 확률적으로 일어나는 오토마타(기계 모델). 비디오의 프레임 진행에 따라 감지된 객체 확률을 기반으로 상태가 변화함.
  • Model Checking: 시스템(여기서는 비디오의 Probabilistic Automaton)이 주어진 사양(Specification, 여기서는 유저의 검색 쿼리)을 만족하는지 수학적으로 검증하는 Formal Verification(형식 검증) 기법.
  • LTL (Linear Temporal Logic): 시간을 선형적인 순서로 가정하고 미래의 사건에 대한 조건을 명시하는 논리. (예: Always, Eventually, Until).
  • Vision-Language Models (VLMs): 이미지/비디오와 텍스트를 함께 학습하여 시각적 정보를 언어로 이해하거나 생성하는 모델 (예: Video-LLaMA, ViCLIP).

Purpose of the Paper

기존 연구의 한계 및 문제 정의:

  • Long-term Reasoning의 부재: 최신 Vision-Language Models (예: VideoLLaMA, ViCLIP)은 짧은 비디오의 의미 파악에는 능숙하지만, 긴 비디오(long-term)에서 프레임 간의 인과관계나 순서를 추론하는 데 실패함.
  • Latent Vector의 정보 손실: 기존 모델들은 비디오 전체의 정보를 하나의 latent vector로 압축(aggregate)하여 처리하기 때문에, "A 사건이 발생하고 B 사건은 발생하지 않다가 C가 발생"과 같은 정밀한 시간적 쿼리(temporal query)를 처리할 때 정확도가 급격히 떨어짐.
  • 접근 방식의 전환: Perception(인식)과 Reasoning(추론)이 하나의 딥러닝 네트워크에 얽혀있는 구조를 타파하고, 이를 Decouple(분리) 하여 각각 최적화된 모듈로 처리하고자 함.

Key Contributions

핵심 기여 및 Novelty:

  • Neuro-Symbolic Framework (NSVS-TL) 제안:
    • Perception: YOLO, CLIP과 같은 SOTA detection 모델을 사용하여 각 프레임의 Atomic Proposition을 추출.
    • Reasoning: 추출된 정보를 바탕으로 Probabilistic Automaton을 동적으로 생성하고, Temporal Logic을 사용하여 시간적 흐름을 엄밀하게 추론.
    • Novelty: 단순히 LLM에게 비디오 요약을 시키는 것이 아니라, 확률적 오토마타와 Formal Verification 기법을 비디오 검색에 도입하여 수학적 보장(guarantees)이 가능한 검색 시스템을 구축함.
  • Dynamic Automaton Construction:
    • 비디오 전체를 미리 모델링하는 것이 아니라, 프레임이 진행됨에 따라 유효한 프레임(Frame Validation)을 선별하고 동적으로 오토마타를 구축하는 알고리즘 제시.
  • Confidence Calibration:
    • Neural model의 output score를 그대로 쓰지 않고, 통계적 기법으로 Calibrate 하여 확률적 검증(Probabilistic Verification)의 신뢰도를 높임.
  • TLV Datasets 구축:
    • Synthetic TLV: COCO, ImageNet 이미지를 이어 붙여 만든 인공 데이터셋.
    • Real TLV: Waymo, NuScenes (자율주행 데이터)에 Temporal Logic 사양을 주석 처리한 데이터셋을 공개하여 복잡한 시계열 이벤트 검색 성능을 벤치마킹할 수 있게 함.

Experimental Highlights

주요 실험 결과 및 성과:

  • Complex Query 처리 성능:
    • 단순 이벤트(Event A) 검색에서는 LLM 기반 모델과 비슷하지만, 복합 시계열 쿼리(Event A Until Event B 등)에서 NSVS-TL이 월등한 성능을 보임.
    • 자율주행 데이터셋(Waymo, NuScenes)에서 GPT-4를 사용한 벤치마크 대비 F1 Score9-15% 향상됨.
  • 비디오 길이에 따른 강건성 (Robustness):
    • 비디오 길이가 길어질수록(500s ~ 2400s) Video-LLaMA, ViCLIP, GPT-4 기반 방식은 정확도가 급격히 하락함.
    • 반면, NSVS-TL은 비디오 길이나 쿼리의 복잡도와 무관하게 일관된(consistent) 성능을 유지함.
  • Model Agnostic:
    • YOLOv8, Grounding Dino, Mask R-CNN 등 다양한 Perception 모델을 교체하며 실험한 결과, Perception 모델의 성능이 좋을수록 전체 시스템 성능도 비례하여 향상됨을 입증.

Limitations and Future Work

한계점:

  • Per-frame Semantic 의존성: 현재 시스템은 각 프레임 단위의 객체 인식(Atomic Propositions)에 의존함. 따라서 "말에서 떨어지는 사람(falling)"과 같이 여러 프레임에 걸친 동작(action) 인식은 "말 위에 있는 사람"과 같은 정적인 상태 인식보다 어려움.
  • Multi-frame Semantics 부족: 개별 프레임 정보를 조합하는 방식이므로, 프레임 자체의 연속적인 동작 맥락을 이해해야 하는 고차원적인 semantic 이해에는 한계가 있음.

Future Work:

  • Multi-frame Event Interpretation: 단순 객체 인식을 넘어, 행동(Action)이나 복잡한 사건을 Atomic Proposition으로 사용할 수 있도록 인식 모듈을 확장할 계획.
  • 이러한 확장을 통해 더욱 복잡하고 추상적인 비디오 이해(Video Understanding) 작업으로 적용 범위를 넓힐 수 있음.

Overall Summary

이 논문은 비디오 검색 분야에서 Vision-Language Model의 한계인 Long-term Reasoning 부족 문제를 해결하기 위해, 신경망 기반의 인식(Perception)과 기호 논리 기반의 추론(Reasoning)을 결합한 Neuro-Symbolic 프레임워크(NSVS-TL)를 제안했습니다. 연구진은 비디오 프레임을 확률적 오토마타로 변환하고 Temporal Logic을 통해 검증함으로써, 긴 비디오나 복잡한 조건(예: A until B)이 포함된 쿼리에서 GPT-4 기반 방식보다 월등히 높은 정확도와 일관성을 입증했습니다. 이 연구는 모호한 잠재 벡터(latent vector)에 의존하던 기존 방식에서 벗어나, 해석 가능하고(interpretable) 수학적으로 검증 가능한(verifiable) 비디오 검색 방법론을 제시했다는 점에서 중요한 의의를 가집니다.


쉬운 설명 (Easy Explanation)

"똑똑하지만 건망증 심한 천재 vs 꼼꼼한 관찰자와 논리적인 기록관"

  • 기존 방식 (Video-LLaMA 등): 아주 똑똑하지만 3시간짜리 영화를 보고 나면 세부 내용을 뭉뚱그려 기억하는 천재와 같습니다. "주인공이 차를 타기 전까지 빨간 모자를 쓰고 있었어?"라고 물으면, 전체적인 줄거리는 알지만 정확한 타이밍이나 순서를 헷갈려 대답을 틀립니다.
  • 이 논문의 방식 (NSVS-TL): 두 명의 전문가를 고용합니다.
    1. 관찰자 (Neural Perception): 매초 화면을 보면서 "사람 있음!", "차 있음!", "빨간 모자 있음!"이라고 외치기만 합니다. (복잡한 생각은 안 함)
    2. 기록관 (Symbolic Reasoner): 관찰자의 외침을 받아 적으면서 논리 규칙만 따집니다. "규칙: 차가 나오기 전까지(Until) 계속 빨간 모자가 있어야 함." 이 규칙에 맞는지 타임라인을 한 칸씩 체크합니다.
  • 결과: 이렇게 역할을 나누니, 비디오가 아무리 길어져도(심지어 40분 이상), "A 할 때까지 B 해라" 같은 복잡한 조건이 붙어도 절대 헷갈리지 않고 정확한 장면을 찾아냅니다.

 

 

 

 

 

 

더보기

프레임에서 객체를 추출할때 사전학습된 모델의 확률 값을 보정하는 파라미터를 회귀 분석 같은 방식으로 정답이 있는 데이터를 통해 미리 구해둠. (역전파 방식보단 오차를 줄이는 파라미터 선택)

 

TL 에서 객체 파싱

TL를 통해 규칙 파싱

 

1프레임씩 객체가 있는지, 그리고 있다면 규칙에 맞는지 검사. 맞다면 그게 시작프레임

다시 그 다음프레임부터 1프레임씩 객체가 있는지, 그리고 있다면 규칙에 맞는지 검사, 맞다면 그게 끝프레임

 

시작으로 지정됐더라도 중간에 규칙이 안맞으면 시작을 다시 찾아야함.



TL은 객체 기반 TL이며 액션기반은 아님.

 

 

더보기

별점 2점 / 5점

비디오 이해(Video Understanding)" 논문이라면서, 정작 비디오의 본질인 '시간(Time)'과 '운동(Motion)'은 배제해버린 특이한 논문