AI바라기의 인공지능

빠른 논문 리뷰 : Visual Jenga: Discovering Object Dependencies via Counterfactual Inpainting 본문

논문리뷰

빠른 논문 리뷰 : Visual Jenga: Discovering Object Dependencies via Counterfactual Inpainting

AI바라기 2025. 12. 15. 14:30

용어 설명 (Terminology)

  • Visual Jenga: 이 논문에서 제안한 새로운 Scene Understanding Task. 젠가 게임처럼 이미지 내의 구조적 안정성(Stability)을 해치지 않으면서 물체를 하나씩 순차적으로 제거(Deconstruction)하는 과제.
  • Counterfactual Inpainting: "만약 이 물체가 없었다면 그 자리에 무엇이 있었을까?"라는 가정을 시각적으로 구현하는 기술. 물체를 마스킹하고 Generative Model로 채워 넣는 과정을 의미함.
  • Structural Dependency: 물체 간의 물리적 지지 관계 (e.g., 컵은 테이블 위에 놓여 있다). 단순히 픽셀 상의 인접성이 아니라, 중력과 물리적 지지 구조에 기반한 의존성.
  • Diversity Score: 물체를 제거하고 Inpainting 했을 때 생성된 결과물들의 다양성을 측정한 점수. 이 논문의 핵심 Metric으로, 점수가 높을수록 해당 물체는 주변 문맥(Context)에 덜 의존적이므로 먼저 제거 가능하다는 것을 의미함.
  • Asymmetry of Relationship: 물체 A와 B 사이의 관계가 비대칭적이라는 점 (A는 B에 의존하지만, B는 A에 의존하지 않음)을 이용해 제거 순서를 결정하는 원리.

Purpose of the Paper

  • Beyond Object Recognition: 기존 Computer Vision 모델들이 객체 탐지(Object Detection)나 세그멘테이션(Semantic Segmentation)에는 뛰어나지만, 물체들이 서로 어떻게 **물리적으로 의존(Depend on)**하고 **상호작용(Interact)**하는지에 대한 진정한 이해는 부족하다는 한계를 지적함.
  • Assessment of Grounded Understanding: 장면을 정적인 물체들의 집합이 아닌, 물리적 규칙이 작용하는 공간으로 이해하는지 평가하기 위해, **"안정성을 유지하며 물체를 제거하는 순서"**를 맞추는 새로운 문제를 정의함.
  • Data-Driven Physics: 명시적인 물리 엔진이나 3D 복원 없이, 대규모 Generative Inpainting Model이 학습한 통계적 공기(Co-occurrence) 정보만으로도 물리적 의존성을 추론할 수 있음을 입증하고자 함.

Key Contributions

  • Proposal of Visual Jenga Task: 이미지 한 장만 주어진 상태에서, 장면의 물리적/기하학적 일관성(Coherence)을 유지하며 모든 물체를 배경만 남을 때까지 순차적으로 제거하는 새로운 벤치마크 태스크 제안.
  • Training-Free Counterfactual Approach:
    • 별도의 학습 없이(Training-free), Pre-trained Large Inpainting Model (e.g., Stable Diffusion)을 활용해 물체 간 의존성을 파악하는 프레임워크 제안.
    • 핵심 원리: 물체 가 물체 
      BB
       위에 있을 때, 
      AA
      를 지우면 그 자리는 다양한 사물로 대체 가능(High Diversity)하지만, 
      BB
      를 지우면 
      AA
      를 지탱하기 위해 다시 
      BB
      와 유사한 받침대가 생성되어야 함(Low Diversity). 이 Asymmetry를 이용해 제거 순서를 결정.
    • A
  • Diversity-Based Ranking Algorithm:
    • 각 물체 영역을 Inpainting 하여 생성된 개의 샘플과 원본 이미지 간의 CLIP/DINO Similarity를 측정.
    • N
    • 생성된 결과가 원본과 다르고 다양할수록(High Diversity Score), 해당 물체는 다른 물체를 지지하지 않는 독립적인 물체로 판단하여 먼저 제거.
  • Pipeline Integration: Molmo(Object Detection)  SAM 2(Segmentation) 
    →→
     Counterfactual Inpainting(Reasoning) 
    →→
     Adobe Firefly(High-quality Removal)로 이어지는 자동화된 파이프라인 구축.

Experimental Highlights

  • Datasets & Setup:
    • NYU-v2: 실내 깊이 데이터셋 중 Support Relation 라벨이 있는 668쌍의 물체 관계를 추출하여 평가.
    • HardParse: NYU-v2보다 복잡한 의존성(쌓여있는 물체, 기울어진 물체 등)을 가진 40개의 고난도 이미지를 직접 수집하여 평가.
  • Baselines:
    • Heuristics: Bottom-to-Top, Small-to-Large, Front-to-Back, Depth-based (카메라와 가까운 순).
    • VLM/LVM: ChatGPT-4o + DALL-E/InstructPix2Pix (텍스트 기반 추론 후 이미지 생성).
  • Results:
    • Pair-wise Ordering Accuracy: NYU-v2에서 91.32%, HardParse에서 **65%**의 정확도를 달성하며 모든 Heuristics와 VLM Baseline을 압도함 (Chance level = 50%).
    • 특히 단순한 크기나 위치 기반 규칙이 통하지 않는 복잡한 상황(e.g., 큰 소파 위에 작은 쿠션, 혹은 그 반대)에서도 Generative Model의 내부 지식을 통해 정확한 순서를 예측함.
    • Full Scene Decomposition: 아침 식탁, 사무실 책상 등 복잡한 장면에서 사람의 개입 없이 물리적으로 타당한 순서로 모든 물체를 제거하는 데 성공함 (Human Eval 71.43% Success).

Limitations and Future Work

  • Computational Cost: 각 물체마다 여러 번의 Inpainting을 수행해야 하므로 추론 속도가 느림(Slow inference).
  • Dependency on Upstream Models: Molmo의 텍스트 기반 위치 추정이나 SAM의 Segmentation 품질에 전체 성능이 크게 좌우됨. 투명한 물체나 복잡하게 겹친 물체(Occlusion)에서 Segmentation 실패 시 오류 발생.
  • Lack of Explicit Physics: 통계적 패턴(Co-occurrence)에 의존하기 때문에, Generative Model이 학습하지 못한 희귀한 물리적 상황에서는 추론이 실패할 수 있음.
  • Future Work:
    • End-to-End Training: 개별 파이프라인 대신, Scene Parsing과 Counterfactual Reasoning을 통합하는 End-to-End 모델 연구.
    • Video Generative Models: 이미지 모델 대신 비디오 생성 모델을 World Simulator로 활용하여, 물체 제거 시의 동역학(Dynamics)까지 예측하는 방향으로 확장 가능성 제시.

Overall Summary

이 논문은 이미지 속 물체들의 물리적 지지 관계를 파악하기 위해 **"Visual Jenga"**라는 순차적 물체 제거 태스크를 제안하고, 이를 해결하기 위해 Counterfactual Inpainting을 활용한 새로운 방법론을 제시했습니다. 연구진은 Large Generative Model이 학습한 데이터 분포 내에 이미 물리적 구조에 대한 암묵적 지식이 포함되어 있음을 발견하고, 이를 Inpainting 결과의 다양성(Diversity) 차이를 통해 정량화하여 별도의 학습 없이도 높은 정확도로 물체 제거 순서를 결정할 수 있음을 입증했습니다. 이 연구는 컴퓨터 비전 모델이 단순한 인식을 넘어 인과적(Causal)이고 물리적인 장면 이해로 나아갈 수 있는 가능성을 열었다는 점에서 중요한 의의를 가집니다.


쉬운 설명 (Easy Explanation)

이 논문의 핵심 아이디어는 **"지우고 다시 그렸을 때, 딴딴하게 고정된 녀석이 중요한 녀석이다"**라는 원리와 비슷합니다.

예를 들어, 식탁 위에 있는 컵을 생각해 봅시다.

  1. 컵을 지우고 그 자리를 AI에게 그려보라고 하면, AI는 그냥 빈 식탁을 그리거나, 꽃병을 그리거나, 접시를 그릴 수도 있습니다. (결과가 아주 다양함  컵은 식탁에 의존적일 뿐, 식탁을 지지하진 않음 
    →→
     먼저 지워도 됨)
  2. 반대로 식탁을 지우고 그 자리를 그려보라고 하면, AI는 공중에 떠 있는 컵이 어색하니까 억지로라도 컵을 받칠 무언가(다른 테이블, 박스 등)를 그려 넣으려고 애를 씁니다. (결과가 뻔하고 다양하지 않음  식탁은 컵을 지지하고 있음 
    →→
     나중에 지워야 함)

이처럼 **"지웠을 때 그 자리에 아무거나 와도 되는 물체"**부터 차례대로 제거하면, 젠가 게임처럼 와르르 무너지지 않고 깔끔하게 청소할 수 있다는 것이 이 논문의 발견입니다.

 

 

 

 

주인장 이해

더보기

이미지에서 특정 객체를 지우고 다시 그렸을때 그 객체가 동일하게 나오면 그것은 필요한 객체, 하지만 죄다 다른 객체가 나온다면 그건 필요 없는 객체. 즉 쌓인 순서에 그 시점엔 큰 관련이 없다고 봐야함. 즉 그게 그 시점에 가장 먼저 없애도 구조가 무너지지 않는 객체

:
High Diversity인 객체부터 순서대로 지워서 이미지에 있는 물체의 쌓인 순서를 얻은 데이터셋 논문임