AI바라기의 인공지능

VLM : 논문리뷰 : 3VL: Using Trees to Improve Vision-Language Models’ Interpretability 본문

논문리뷰

VLM : 논문리뷰 : 3VL: Using Trees to Improve Vision-Language Models’ Interpretability

AI바라기 2025. 2. 7. 11:45

Overall Summary (전반적인 요약)

본 논문은 compositional reasoning과 interpretability를 크게 향상시키는 novel tree-augmented vision-language model인 3VL을 제시함. Hierarchical language structures를 model architecture와 training에 통합함으로써, 3VL은 CLC benchmarks에서 state-of-the-art performance를 달성하고 model decisions에 대한 설득력 있는 시각화를 제공함. 이 연구는 더 투명하고 신뢰할 수 있는 VLMs 개발을 위한 중요한 진전이며, bias 완화 및 interpretability 추가 향상을 위한 future work의 가능성을 열어줌.

쉬운 설명

이 논문은 이미지와 텍스트를 함께 이해하는 AI 모델(VLM)의 성능을 향상시키기 위한 새로운 방법을 제시합니다. 기존 VLM은 이미지와 텍스트를 잘 연결하지만, 복잡한 문장 구조 (예: 객체의 속성, 상태, 관계)를 이해하는 데 어려움을 겪고, 왜 그런 결정을 내렸는지 설명하기 어렵다는 문제가 있었습니다. 이 논문은 텍스트를 트리 구조(tree structure)로 분해하여(마치 문장을 쪼개서 분석하는 것처럼), 모델이 이미지의 어떤 부분이 텍스트의 어떤 부분과 관련이 있는지 더 잘 이해하도록 돕습니다. 마치 이미지를 더 자세히 보고 중요한 부분에 집중하도록 가르치는 것과 같습니다. 또한, "Anchor"와 "DiRe"라는 새로운 방법을 통해 모델이 왜 특정 결정을 내렸는지 (성공 또는 실패) 시각적으로 보여줌으로써, 모델의 판단 과정을 더 쉽게 이해하고 분석할 수 있게 합니다.

 

 

 

3VL: Using Trees to Improve Vision-Language Models' Interpretability 학습 노트 (한국어 기반)

Purpose of the Paper (논문의 목적)

  • Existing Limitations (기존 연구의 한계): 기존 Vision-Language Models (VLMs)은 image-text alignment에서 좋은 성능을 보이지만, Compositional Language Concepts (CLC) (예: 객체의 속성, 상태, 관계 인식) 이해 능력이 부족하고, interpretability (해석 가능성)가 떨어진다는 한계가 있음.
  • Novel Approach (새로운 접근 방식): 본 논문은 자연어의 계층적 구조(hierarchical structure)를 활용하여 이러한 한계를 극복하는 새로운 접근 방식을 제안함. Image-text pair의 텍스트를 계층적 트리 구조로 확장하고, 이 구조를 모델이 학습하는 visual representation에 통합하는 것이 핵심 아이디어임. 이를 통해 compositional reasoning (구성적 추론) 능력과 interpretability를 모두 향상시킴.
  • Focus (초점): Explainability by design (설계에 의한 설명 가능성)을 달성하는 데 중점을 두어, interpretability를 model architecture (모델 구조) 및 training (학습) 과정에 통합함.

Key Contributions (주요 기여)

  • Tree-augmented Vision-Language (3VL) Model: Language analysis tools을 사용하여 image-text captions을 hierarchical tree structures로 확장하는 novel architecture 및 training technique을 도입함.
    • Novelty (참신성): 계층적 트리를 기반으로 하는 multi-level, fine-grained text augmentation 전략을 사용하며, 이는 이전의 negative augmentation 방법보다 훨씬 풍부함.
  • Tree-based Training: 생성된 caption trees를 training에 활용하며, tree-level loss와 contrastive loss를 결합한 combined loss function을 사용함.
    • Novelty: 계층적 텍스트 구조를 visual representation에 통합하여, visual features 학습을 유도하고 compositional reasoning 능력을 향상시킴.
  • Anchor Inference Method: Positive text와 negative text에서 파생된 통합 "Anchor" text를 사용하여 이미지의 어떤 부분이 그 차이점과 관련이 있는지에 집중하는 novel inference technique.
    • Novelty: Nuisance factors를 filtering하고 distinguishing features를 강조하여 inference 중 모델의 집중도를 향상시킴.
  • Differential Relevance (DiRe) Interpretability Tool: Positive text와 negative text에 대한 모델의 반응을 비교하여 relevancy maps를 생성하는 novel tool.
    • Novelty: 모델의 성공 또는 실패 이유에 대한 설득력 있는 시각화를 제공하여, underlying failure modes를 밝혀냄.

Experimental Highlights (실험 결과)

  • Datasets: VL-Checklist, Winoground, VSR, VALSE, COLA, COCO, FLICKR 사용.
  • Metrics: Top-1 Accuracy, IOU, ZS-Tasks 사용.
  • Baselines: OpenAI CLIP ViT-B/32, NegCLIP, RB+LLM Negs와 비교.
  • State-of-the-Art Performance: 3VL은 Compositional Language Concepts benchmarks (VL-Checklist)에서 state-of-the-art 성능을 달성하여, 기존 VLM 기반 방법들을 능가함.
    • 특히, relational and object categories에서 상당한 성능 향상을 보임.
  • Interpretability Improvements (해석 가능성 향상):
    • Token Removal: Anchor와 DiRe가 relevancy에 따라 tokens을 제거했을 때 성능 저하가 더 완만하게 나타나, 더 나은 interpretability를 나타냄을 보여줌.
    • User Study: 사용자가 3VL의 relevancy maps (특히 DiRe)가 vanilla CLIP보다 human interpretation과 더 밀접하게 관련되어 있다고 판단함을 확인함.
  • Failure Case Analysis: VLM failure를 이해하는데 성공적인 활용을 보여줌.

Limitations and Future Work (한계점 및 향후 연구 방향)

  • Bias Amplification (편향 증폭): 3VL이 전반적인 성능을 향상시키지만, 때때로 특정 단어에 대한 bias를 증가시킬 수 있음.
    • Future Work: Tree structure 내에서 bias를 완화하는 방법을 탐색 (예: training data에 덜 나타나는 text에 더 큰 penalty를 부여).
  • Automated Negatives Generation: 자동화된 네거티브 생성 방법이 때때로 문법적 오류를 생성 할 수 있음.
    • Future Work: 다른 네거티브 생성 방법을 찾아볼 예정.
  • Further Exploration of Relevancy Map Benefit (Relevancy Map의 이점에 대한 추가 탐구): User study는 제안된 relevancy maps가 시각적으로 더 매력적임을 시사하지만, 모델의 결정을 더 잘 설명하는지 확인하기 위한 추가적인 조사가 필요함.
    • Future Work: Relevancy maps와 model decision-making 간의 관계에 대한 더 엄격한 분석 수행.

 

 

 

 

Abstract

Vision-Language models (VLMs)은 image와 text representations을 정렬하는 데 효과적인 것으로 입증되었으며, 많은 downstream tasks로 전이될 때 우수한 zero-shot 결과를 생성합니다. 그러나 이러한 representations는 객체의 속성, 상태, 그리고 서로 다른 객체 간의 관계를 인식하는 것과 같은 Compositional Language Concepts (CLC)를 이해하는 데 있어 몇 가지 주요 단점으로 어려움을 겪고 있습니다. 게다가, VLMs은 일반적으로 interpretability가 좋지 않아, compositional-understanding 실패를 디버그하고 완화하는 것을 어렵게 만듭니다.

본 연구에서는 제안된 Anchor inference 방법 및 Differential Relevance (DiRe) interpretability tool과 함께 Tree-augmented Vision-Language (3VL) model의 architecture와 training technique을 소개합니다. 3VL은 임의의 image-text 쌍의 텍스트를 language analysis tools을 사용하여 계층적 트리 구조로 확장함으로써, 이 구조를 model에 의해 학습된 visual representation으로 유도하여 interpretability와 compositional reasoning을 향상시킵니다.

또한, 텍스트 통합을 위한 간단한 기술인 Anchor를 사용하여 어떻게 nuisance factors를 필터링하는 동시에 기본적인 VL-Checklist benchmark 등에서 CLC 이해 성능을 높일 수 있는지 보여줍니다.

우리는 또한 VLM relevancy maps 간의 차등 비교를 수행하는 DiRe를 통해 model의 성공 또는 실패 이유에 대한 설득력 있는 시각화를 생성할 수 있음을 보여줍니다.

 

 

 

I. INTRODUCTION

더보기

최근 몇 년 동안, Vision-Language models (VLMs)은 image captioning, visual question answering, 그리고 image retrieval과 같은 작업에 대한 강력한 도구로 부상했습니다. 이러한 models은 visual 및 textual features를 정렬하고 그들로부터 의미 있는 정보를 추출하는 능력 덕분에 놀라운 성공을 거두었습니다.

하지만, 이러한 models은 객체의 속성, 상태, 그리고 서로 다른 객체 간의 관계를 인식하는 것과 같은 Compositional Language Concepts (CLC)를 이해하는 데 있어 몇 가지 제한 사항이 있습니다. VLMs은 zero-shot transfer learning에서 놀라운 성능을 보여주었지만, 그 결과는 interpretable 하지 않으며 일반적으로 compositional reasoning에 어려움을 겪습니다. Compositional reasoning에서는 정확한 응답을 제공하기 위해 문장 내의 서로 다른 개념 간의 관계를 이해해야 합니다.

VLMs의 compositionality를 개선하기 위한 이전 연구들은 대부분 text 공간에서 data points를 augmenting 하는 데 초점을 맞췄습니다. 이 접근 방식은 일부 성능 향상을 가져왔지만, 추가적인 interpretability를 제공하지는 않습니다. Attribution methods부터 visualization techniques에 이르기까지 neural networks를 interpreting 하기 위한 여러 가지 접근 방식이 제안되었습니다.

그러나 대부분은 이미 trained 된 network를 설명하도록 설계되었으며, interpretability는 종종 local 및 task-specific context로 제한됩니다. 따라서 더 나은 접근 방식은 설계에 의한 설명 가능성, 즉 interpretability가 model architecture 및 training process에 내장되는 것이라고 제안되었습니다. 그렇게 함으로써, model에 대한 더 일반적이고 체계적인 interpretation 및 analysis가 가능해집니다.

이를 통해 개발 프로세스 초기에 failure modes와 biases를 더 쉽게 식별할 수 있습니다. 또한, 이러한 접근 방식은 사용자가 model의 동작을 이해하고 분석하는 데 도움이 되는 visualizations를 제공하여 model을 더 투명하고 신뢰할 수 있게 만듭니다. 본 논문에서는 VLMs에 대한 이러한 설명 가능성을 촉진하기 위한 한 걸음을 내딛습니다.

우리는 natural language hierarchical structures를 활용하여 compositional understanding 및 interpretability에 대한 VLMs의 한계를 해결하기 위한 새로운 접근 방식을 제안합니다. 우리의 접근 방식은 language analysis tools을 사용하여 image-text 쌍의 텍스트를 계층적 트리 구조로 확장하고 이 구조를 model이 학습한 visual representation에 유도하는 idea를 기반으로 합니다.

구체적으로, 우리는 Tree-augmented Vision-Language (3VL) model architecture 및 training technique을 제안합니다. 이는 coarse-grained에서 fine-grained까지 여러 수준의 incremental text augmentation을 사용하여 text 공간을 풍부하게 탐색할 수 있게 합니다. 트리의 각 레벨은 텍스트 구조의 점진적인 정제를 나타내며 image-text 관계의 점점 더 자세한 측면을 포착합니다. 우리는 이 hierarchical structure를 사용하여 model의 compositional reasoning 능력을 향상시키는 방식으로 visual features의 학습을 유도합니다.

Tree-based structured method를 보완하기 위해 Anchor 및 Differential Relevance (DiRe)라는 두 가지 새로운 inference 및 interpretability techniques을 소개합니다. 이러한 접근 방식은 positive 및 negative texts를 기반으로 HilaCAM을 사용하여 image relevancy maps를 추출합니다. Positive text가 있는 이미지의 relevancy maps를 negative text가 있는 동일한 이미지의 relevancy maps와 비교함으로써, 이러한 전략은 VLMs의 추가적인 약점을 식별하고 입력에서 noise와 irrelevant information을 필터링할 수 있습니다.

이는 Compositional Language Concepts tasks에서 VLMs의 성능 향상으로 이어집니다. 또한, 우리가 제안하는 techniques은 사용된 models의 근본적인 failure modes에 대한 insights를 제공합니다.

우리는 널리 사용되는 Compositional Language Concepts benchmarks에서 우리의 접근 방식을 평가하고, 이 tasks에서 기존 VLM-based methods보다 뛰어난 state-of-the-art 성능을 달성함을 입증합니다. 또한, 우리의 접근 방식이 효과적일 뿐만 아니라 interpretable하여 model 성공 또는 실패의 원인에 대한 설득력 있는 visualizations를 생성하고 성능 향상을 위해 image signal을 효과적으로 필터링할 수 있음을 보여줍니다.

본 논문에서 설명 가능하다는 것은 우리의 model이 이미지에서 더 중요한 부분을 더 잘 강조한다는 것을 의미하며, 여기서 중요성은 인간의 판단과 상관관계가 있습니다. 따라서 우리의 model이 이 정의에 따라 더 설명 가능하다는 것을 평가하기 위해, 우리는 이미지에 남아있는 patches의 중요성을 확인하는 token removal과 인간에게 중요한 것과 model에게 중요한 것 사이의 상관관계를 확인하는 user study를 사용합니다.

본 논문은 다음과 같이 구성됩니다. Section I에서는 이 연구와 관련된 주제와 이 작업의 주요 목표를 간략하게 설명합니다. Section II에서는 관련 주제에 대한 필요한 배경과 기존 문헌을 검토합니다. Section III에서는 우리의 새로운 tree-based training technique과 inference method를 제시합니다. 이 접근 방식은 VLMs의 interpretability를 향상시킵니다. Section IV에서는 추가적인 interpretability tools을 제공합니다. Section V에서는 제안된 methods의 효과를 테스트하기 위한 실험을 수행합니다. 마지막으로, Section VI에서는 우리의 기여를 요약하고 가능한 future work에 대한 몇 가지 idea를 제안합니다.

 

 

I. INTRODUCTION 정리 노트 (AI 연구자 대상)

문제 제기:

  • 기존 Vision-Language models (VLMs)은 image captioning, VQA 등에서 뛰어난 성과를 보였지만, Compositional Language Concepts (CLC) 이해에 한계를 보임.
    • 객체의 속성, 상태, 객체 간 관계 파악 등에서 어려움을 겪음.
    • Zero-shot 성능은 좋지만, interpretability가 부족하고 compositional reasoning에 취약.
  • 기존 연구들은 주로 텍스트 데이터 증강(augmentation)에 초점을 맞추었으나, interpretability 개선은 미미.
  • Interpretability를 위한 다양한 접근법(attribution methods, visualization 등)이 존재하지만, 대부분 이미 학습된 모델에 대한 사후 분석에 그치며, local, task-specific context에 제한됨.

해결 방안 (본 논문의 핵심):

  • "Explainability by design": Model architecture와 training process 자체에 interpretability를 내재화.
    • Tree-augmented Vision-Language (3VL) model 제안:
      • Language analysis tools을 이용, image-text pair의 텍스트를 계층적 트리 구조로 확장.
      • 이 구조를 visual representation 학습에 반영하여 compositional reasoning 능력 향상.
      • Coarse-to-fine 방식의 점진적 text augmentation을 통해 text space 탐색.
    • Anchor inference: Text unification을 통해 nuisance factors를 제거하고 CLC 이해 성능 향상.
    • Differential Relevance (DiRe): VLM relevancy maps 간 차등 비교를 통해 모델의 성공/실패 원인에 대한 시각화 제공.

주요 특징:

  • Interpretability를 post-hoc 분석이 아닌, model design의 핵심 요소로 고려.
  • Natural language의 hierarchical structure를 활용하여 VLM의 compositional understanding 및 interpretability 개선.
  • 새로운 inference 및 interpretability techniques (Anchor, DiRe) 제안.
  • State-of-the-art 성능 달성 및 설득력 있는 시각화 제공.
    • Explainability: 이미지에서 중요한 부분을 강조(인간의 판단과 연관). Token removal, user study로 검증.

쉬운 설명:

기존의 이미지-텍스트를 이해하는 AI 모델(VLMs)은 "고양이가 테이블 위에 있다" 같은 문장은 잘 이해하지만, "빨간 모자를 쓴 고양이가 파란 테이블 위에 있다"처럼 좀 더 복잡한 문장은 이해하기 어려워했습니다. 그리고 왜 그렇게 판단했는지 설명하기도 어려웠죠.

이 논문에서는 이러한 문제를 해결하기 위해, 문장을 나무(tree)처럼 분석해서 더 자세하고 체계적으로 이해하는 새로운 AI 모델(3VL)을 만들었습니다. 마치 사람이 문장을 분석하듯이, 모델도 문장의 구조를 파악해서 이미지와 연결 짓도록 학습시키는 거죠.

또한, "Anchor"와 "DiRe"라는 새로운 기술을 사용해서 모델이 이미지의 어떤 부분을 중요하게 보고 판단했는지, 왜 틀렸는지 등을 쉽게 알 수 있게 했습니다. 즉, 모델의 판단 과정을 더 투명하게 만들어서 사람이 이해하고 신뢰할 수 있도록 한 것입니다.

 

Fig. 1. Caption tree 생성 과정: (i) 문장을 parse하여 noun phrases와 part of speech 획득 (ii) 계층적으로 caption 재구성 (iii) 각 sub-caption에 대한 negatives 생성 (iv) 최종 트리 구성.

 

 

 

 

 

 

Fig. 2. 3VL training에 사용되는 tree loss와 contrastive loss. Tree loss의 경우, 먼저 caption tree를 생성한 다음 모든 tree levels에서 cross entropy loss를 합산합니다. Contrastive loss의 경우, batch 내의 모든 image-text pairs에 대한 평균 cross-entropy loss를 계산합니다.

 

 

 

II. BACKGROUND

더보기

이 섹션에서는 먼저 deep neural networks의 interpretability에 대한 기존 methods를 검토한 다음, deep learning을 위한 trees의 사용법과 우리의 접근 방식이 이전 연구와 어떻게 다른지 논의합니다. 마지막으로, VLMs에서 compositional understanding을 위한 기존 노력을 설명합니다.

A. Interpretability of deep neural networks

Neural networks의 결정을 설명하기 위해 많은 접근 방식이 개발되었습니다. 대부분의 연구는 이미 trained 된 network의 결정을 해석합니다. Gradient Saliency, GradCAM, 및 Integrated Gradients는 convolutional neural network gradients를 사용하여 network output에 영향을 미치는 입력의 significant pixels를 찾습니다. LIME 및 SHAP는 먼저 입력을 superpixels로 segment 하여 출력을 설명하는 regions을 찾습니다. [24]의 연구에서는 large language models (LLMs)를 사용하여 VLMs를 interpret합니다. Wavelets 및 shearlets는 region 선택을 더욱 개선하는 데 사용되었습니다.

Transformers에 대한 유사한 interpretability tools을 제공하기 위해 Chefer et al.은 transformers의 self-attention layers에 대한 gradient integration과 함께 layer-wise Relevance Propagation 개념을 사용할 것을 제안했습니다. HilaCAM은 transformer architectures를 더 쉽게 시각화하기 위한 보다 일반적인 방법을 제안했습니다. 이 방법은 self-attention 또는 bi-modal attention을 통해 input modalities 간의 각 interaction에 대한 relevancy map을 생성합니다. 각 relevancy map은 attention layers를 통한 forward pass에서 파생되며 gradients를 사용하여 각 맵의 attention heads에 걸쳐 평균화됩니다.

또 다른 연구 방향은 'explainability by design'에 초점을 맞추고 있으며, 이미 trained 된 neural networks에 대한 기존 솔루션의 몇 가지 결함을 지적합니다. 예를 들어, 일부 saliency methods는 model parameters 및 training data와 무관하므로 models의 failures를 설명할 수 없습니다. 대신, interpretable features를 model의 structure에 통합하는 것이 제안됩니다.

한 가지 접근 방식은 입력에 적용되는 일련의 linear transformations를 생성합니다. 또 다른 전략은 network가 locally linear 한 결정을 내리도록 권장합니다. 이 linearity는 결정을 더 interpretable하게 만듭니다. 또 다른 method는 일련의 queries를 생성하고 이를 기반으로 결정을 내립니다. Variational model은 queries 사용을 최적화하는 데 사용됩니다. 대안적인 접근 방식은 data에서 interpretable semantic concepts를 학습한 다음 이를 기반으로 결정을 내리는 것입니다. 유사한 technique은 network가 결정을 내릴 뿐만 아니라 'why' concept도 출력하도록 가르칩니다. StarNet은 star model을 network learning에 통합하여 query image의 locations와 network의 결정 간의 relationship을 얻습니다. Back projection은 decision evidence heatmaps를 생성하여 model의 결정을 효과적으로 설명합니다. 우리의 연구는 HilaCAM을 사용한 model decisions의 설득력 있는 visualizations와 fine-grained captions tree를 사용한 explainability by design을 모두 통합한다는 점에서 위와 다릅니다.

B. Tree usage for deep learning

Trees는 neural networks와 함께 다양한 constellations에서 사용되었습니다. Trees는 semantic representations를 개선하기 위해 LSTMs에 통합되었습니다. Tree LSTMs는 visual grounding을 개선하기 위해 dependency parsing trees (DPTs)와 결합되었습니다. Decision trees는 neural networks의 representation learning functionality와 결합되었습니다. Trees는 VLMs와 함께 unsupervised manner로 grammar induction을 개선하는 데 사용되었습니다.

Network의 explainability를 개선하기 위해 random forest가 network data에 대해 trained 되었습니다. Random forest의 결정은 neural network가 axis-aligned decisions를 생성하도록 정규화하는 데 사용되었습니다. Random forests는 pre-trained neural networks와 함께 사용하여 후자의 adversarial attacks에 대한 robustness를 개선하는 데 사용되었습니다. Interpretability를 개선하기 위해 trees를 사용하는 또 다른 전략은 NBDT로, neural network final layer를 decision tree로 대체하여 neural network mistakes를 더 잘 이해하는 데 도움이 됩니다. VLMs의 hierarchical representations가 분석되고 이를 개선하기 위한 방법이 제안되었습니다.

우리의 연구는 explainability by design을 달성하고 여러 수준의 incremental text augmentations를 생성하기 위해 tree를 사용합니다. Tree는 문장을 structured manner로 분해하여 직관적으로 network가 input structures를 더 잘 이해하고 따라서 더 interpretable하고 분해하기 쉽게 만듭니다. 게다가, 우리의 structuring은 negative augmentation method로 representations 및 grounding을 개선합니다. 이 방법은 negative augmentation에 대한 이전 연구보다 훨씬 풍부합니다. 또한 우리의 tree structure는 Section V-F에서 보여주듯이 VLM의 failures를 검사하는 데 도움이 됩니다.

C. Compositionality in Vision-Language Models

효과적인 VLMs를 개발하는 데 있어 주요 과제 중 하나는 기본 visual 및 linguistic elements에 대한 compositional understanding을 달성하는 것입니다.

CLIP 및 ALIGN과 같은 일부 VLMs는 contrastive image-text alignment를 사용하여 웹에서 수집된 대규모 text-image pairs dataset에 대해 pre-training 함으로써 zero-shot downstream tasks에서 큰 진전을 보였습니다. LXMERT, UNITER, 및 OSCAR와 같은 다른 접근 방식은 off-the-shelf object detectors를 활용하여 region features를 추출합니다.

최근 연구에서는 ImageNet 및 MS-COCO와 같은 benchmarks에서 image-text retrieval을 개선하기 위해 fine-grained contrastive learning 및 nearest neighbors의 additional positives에 대한 techniques을 탐구합니다. 이러한 models에는 FILIP, CyClip, DeCLIP, 및 PyramidCLIP이 포함됩니다.

일부 최근 연구에서는 model의 vision 및 language concepts 이해 능력을 향상시키기 위해 image-text matching 및 masked/autoregressive language modeling과 같은 self-supervised learning objectives를 제안합니다. 이러한 연구에는 VILT, ALIGN, Vision-TALK, ViCHA 및 BLIP가 포함됩니다. 예를 들어, BLIP는 language modeling head에서 synthetic captions를 생성하고 image-text matching score를 기반으로 noisy captions를 필터링합니다.

이러한 발전에도 불구하고, VL-Checklist, Winoground Challenge, VSR, VALSE 및 COLA와 같은 최근 연구에 따르면 VLMs는 여전히 fine-grained language details 및 CLC를 이해하는 데 어려움을 겪고 있습니다. VL-Checklist에는 이미지 세트와 각 이미지에 대한 positive 및 negative captions 쌍이 있습니다. Model은 image-text retrieval에 대해 테스트됩니다. 이 benchmark는 VLMs의 objects, attributes, 및 relations에 대한 compositional understanding을 평가하는 것을 목표로 합니다. 각 negative caption은 positive sentence에서 Objects, Relations, 또는 Attributes에 대한 한 단어를 대체합니다. Objects는 size 및 location invariance에 대해 테스트되고, Attributes category는 color, material, size, action, 및 state의 5가지 다른 attributes 인식을 확인하며, Relations category는 objects 간의 action relation 및 spatial relation의 두 가지 relations 인식을 확인합니다. 또 다른 연구에서는 transformers가 compositionality에 대한 근본적인 어려움을 겪고 있음을 보여주었습니다. 따라서 복잡하고 실제적인 시나리오에 대한 더 강력한 compositionality와 robustness를 갖춘 VLMs를 개발하기 위해서는 여전히 많은 노력이 필요합니다.

풍부한 visual scenes의 semantics를 완전히 이해하려면 individual entities를 감지하고, their interactions 및 attributes에 대해 reasoning 하고, 궁극적으로 scene 내의 visual concepts를 이해하는 능력이 필요합니다. Structured representations는 이 과정에서 중요한 역할을 해왔으며 vision 및 language, scene graphs, relational reasoning, human-object interactions, action recognition, 심지어 graphs로부터의 image 및 video generation과 같은 광범위한 computer vision applications에 적용되었습니다. 일부 연구에서는 VQA를 해결하기 위해 natural language의 compositional nature를 활용합니다. 그러나 이러한 연구의 대부분은 종종 location information 및 structural details의 annotation을 포함하는 detailed, manually curated supervision에 의존합니다. 이는 training을 위한 limited-size 또는 synthetic data sources를 초래하여 model의 효과를 제한할 수 있습니다. [1]의 저자는 값비싼 manual curation을 사용하지 않고 웹에서 수집된 사용 가능한 대규모 noisy Vision-Language data sources만 사용하여 대규모 VLMs에게 CLC를 가르치는 방법을 제안했습니다. 이 접근 방식은 VLMs의 Compositional Language Concepts 이해의 scalability와 effectiveness를 개선하는 것을 목표로 합니다.

아마도 우리의 augmentation method와 가장 유사한 것은 [1]의 연구일 것입니다. 이 연구에서는 가능한 모든 candidates 중에서 한 단어를 무작위로 대체하여 예제당 하나의 negative caption을 생성합니다. [1]에서 저자는 각 VL-Checklist category에 대해 미리 닫힌 단어 집합을 준비합니다. 교체 가능한 candidates는 categories의 단어 집합 중 하나와 일치하는 모든 단어입니다. Negative word는 positive word 자체를 제외한 해당 단어 집합에서 무작위로 선택됩니다. 우리가 제안하는 접근 방식은 VLM training을 위해 hierarchical trees 형태로 caption 당 여러 augmentations를 생성하고 각 negative sample 생성을 위해 WordNet과 LLM을 사용한다는 점에서 위와 다릅니다. VLMs의 compositional reasoning에 대한 이전 연구와 달리, 우리의 접근 방식은 compositional reasoning과 interpretability를 모두 개선하는 것을 목표로 합니다.

II. BACKGROUND 정리 노트 (AI 연구자 대상)

A. Interpretability of deep neural networks

  • 기존 Interpretability 연구의 문제점:
    • 대부분 이미 학습된 모델에 대한 사후 분석 (Gradient Saliency, GradCAM, LIME, SHAP 등).
    • Saliency methods는 모델 파라미터, 학습 데이터와 무관할 수 있어 모델의 실패 원인 설명 불가 (e.g., [13]).
  • 본 연구의 차별점:
    • "Explainability by design": 모델 구조에 interpretable features를 통합.
    • HilaCAM을 이용한 모델 결정 시각화 + Fine-grained captions tree를 이용한 "explainability by design".

B. Tree usage for deep learning

  • 기존 Tree 활용 연구:
    • LSTMs에 tree 구조 통합 (semantic representation 향상).
    • Decision trees와 neural networks 결합.
    • VLMs의 grammar induction 개선 (unsupervised 방식).
    • Random forests를 활용한 neural network 정규화 (axis-aligned decisions), adversarial attacks에 대한 robustness 향상.
    • NBDT: Neural network의 final layer를 decision tree로 대체 (interpretability 향상).
  • 본 연구의 차별점:
    • Tree 구조를 "explainability by design"과 incremental text augmentations에 활용.
      • 문장을 구조적으로 분해하여 입력 구조 이해도 향상 (interpretability, 분해 용이성).
      • Negative augmentation method를 통해 representations 및 grounding 개선 (기존 연구보다 풍부한 negative samples 생성).
      • Tree structure를 활용하여 VLM failures 검사 (Section V-F).

C. Compositionality in Vision-Language Models

  • 기존 Compositionality 연구:
    • CLIP, ALIGN: Contrastive image-text alignment를 통한 large-scale pre-training (zero-shot 성능 우수).
    • LXMERT, UNITER, OSCAR: Off-the-shelf object detectors 활용 (region features 추출).
    • FILIP, CyClip, DeCLIP, PyramidCLIP: Fine-grained contrastive learning, nearest neighbors 활용 (image-text retrieval 성능 향상).
    • VILT, ALIGN, Vision-TALK, ViCHA, BLIP: Self-supervised learning objectives (image-text matching, masked/autoregressive language modeling) 활용.
  • 기존 연구의 한계:
    • VL-Checklist, Winoground Challenge 등에서 fine-grained language details, CLC 이해에 어려움.
    • Transformers의 compositionality에 대한 근본적인 어려움 존재.
    • 대부분 manually curated supervision에 의존 (limited-size, synthetic data).
  • 본 연구의 차별점:
    • Noisy Vision-Language data sources만 사용, manual curation 없이 CLC 학습 (scalability, effectiveness).
    • Hierarchical trees 형태의 caption 당 여러 augmentations 생성, WordNet 및 LLM 활용 (negative sample 생성).
    • Compositional reasoning과 interpretability를 동시에 개선하는 것을 목표.

쉬운 설명:

이 섹션에서는 기존 AI 모델들이 왜 이미지와 텍스트를 잘 이해하지 못했는지, 그리고 이 문제를 해결하기 위해 어떤 연구들이 있었는지를 설명합니다.

  • A: 기존 모델들은 "고양이가 어디를 보고 판단했는지"를 설명하는 데는 능숙했지만, "왜 틀렸는지"를 설명하는 데는 약했습니다. 이 논문에서는 모델을 처음부터 "설명 가능하게" 만들어서 이 문제를 해결하려고 합니다.
  • B: 이전에도 AI 모델에 "나무(tree)" 구조를 활용한 연구들이 있었지만, 이 논문에서는 이 나무 구조를 이용해서 모델이 문장을 더 잘게 쪼개서 이해하고, 더 다양한 방식으로 학습할 수 있도록 합니다.
  • C: 이미지와 텍스트를 연결하는 AI 모델(VLMs)들이 복잡한 문장을 이해하는 데 어려움을 겪는다는 것은 알려져 있었습니다. 이전 연구들은 주로 사람이 직접 정답을 알려주는 방식으로 이 문제를 해결하려 했지만, 이 논문에서는 인터넷에서 찾은 데이터만으로도 모델이 스스로 복잡한 문장을 이해하도록 학습시키는 방법을 제시합니다.

 

 

 

 

 

 

III. THE TREE-AUGMENTED VISION-LANGUAGE (3VL) MODEL

더보기

이 섹션에서는 우리의 새로운 tree-based model architecture 및 training technique인 3VL과 새로운 Anchor inference 방법 및 Differential Relevance (DiRe) interpretability tool에 대해 설명합니다. 먼저, 우리의 tree augmentation technique을 제시합니다. 그런 다음, tree-based training method의 세부 사항에 대해 논의합니다. Section IV에서는 Token Removal inference 및 interpretability tools를 제시합니다.

A. Caption tree generation

Tree augmentation method는 아래와 같습니다. 그림 1은 이 과정을 보여줍니다.

  1. 각 image caption pair에 대해 먼저 [94]를 사용하여 caption을 parse하여 모든 noun phrases와 part of speech tags를 얻습니다.
  2. 그런 다음, 다음과 같은 방법으로 tree의 각 level에 대한 positive sub-caption을 얻기 위해 coarse-grained에서 fine-grained까지 full caption을 계층적으로 재구성합니다: (예시 caption: "several people standing in a green field together while flying kites")
    • 2.1 Tree의 첫 번째 level은 첫 번째 noun phrase를 positive text로 포함합니다 (예: "several people").
    • 2.2 Tree의 두 번째 level은 첫 번째와 두 번째 noun phrases를 'and'와 같은 연결 단어로 연결한 텍스트를 포함합니다 (예: "several people and a green field").
    • 2.3 Tree의 세 번째 level은 원래 caption의 시작부터 두 번째 noun phrase의 끝까지의 텍스트를 포함합니다 (예: "several people standing in a green field").
      • 2.3.1 원래 caption에 더 많은 noun phrases가 있는 경우, 유사한 방식으로 tree의 다음 level은 이전 noun phrases를 현재 noun phrase와 'and'와 같은 단어로 연결한 텍스트와, 원래 caption의 시작부터 현재 noun phrase의 끝까지의 텍스트를 포함합니다.
    • 2.4 마지막으로, tree의 마지막 level은 원래 caption의 전체 텍스트를 포함합니다 (예: "several people standing in a green field together while flying kites").
  3. 다음으로, 각 tree level에서 positive text의 각 Noun, Adjective, Adposition, 및 Verb에 대해 하나의 negative caption을 생성합니다 (각 negative는 원래 caption에서 한 단어만 대체합니다). 이전 tree levels에 나타난 단어는 다시 대체하지 않습니다. 따라서 이전 level의 정보는 변경 없이 전달됩니다. 각 negative word는 다음과 같이 생성됩니다:
    • 3.1 FLAN-T5 LLM [95]을 사용하여 positive word의 반의어(Antonym)를 찾습니다 (예: "find an opposite for the word: <>").
    • 3.2 반의어가 발견되지 않으면, NLTK's [96] WordNet [97] module을 사용하여 positive word의 co-hyponym1을 생성합니다.
    • 3.3 Co-hyponym이 발견되지 않으면, T5 LLM [98]을 사용하여 masked positive word를 채울 단어를 생성합니다 (token '<extra id 0>'가 prompt에서 positive word를 대체합니다).

위의 예시 caption에 대해 다음과 같은 negative captions를 생성합니다:

  • 첫 번째 level에서는 positive text "several people"에 대해 negative texts "one people" 및 "several animals"를 생성합니다.
  • 두 번째 level에서는 positive text "several people and a green field"에 대해 negative texts "several people and a blue field" 및 "several people and a green forest"를 생성합니다.
  • 세 번째 level에서는 positive text "several people standing in a green field"에 대해 negative texts "several people sitting in a green field" 및 "several people standing out a green field"를 생성합니다.
  • 네 번째 level에서는 positive text "several people standing in a green field together while flying kites"에 대해 negative texts "several people standing in a green field together while soaring kites" 및 "several people standing in a green field together while flying sales"를 생성합니다.

우리의 automated negatives generation method는 때때로 문법적 오류를 생성할 수 있습니다.

B. Tree-based training

CLIP contrastive loss. N개의 image-caption pairs batch가 주어지면, CLIP의 image 및 text encoders를 사용하여 image 및 text representations, Ir 및 Tr을 추출합니다. 그런 다음, batch의 각 image j와 caption k에 대한 pairwise cosine similarity scores S<sub>j,k</sub>를 계산합니다. Similarity matrix로부터, 행에 대한 softmax를 사용한 cross entropy loss (L<sub>img</sub>)와 열에 대한 softmax를 사용한 cross entropy loss (L<sub>txt</sub>)를 계산합니다. 최종 CLIP contrastive loss는 이 두 손실의 평균입니다:

L<sub>contrast</sub> = (L<sub>img</sub> + L<sub>txt</sub>) / 2. (1)

Tree-based loss. 각 image-caption pair에 대해 먼저 caption tree를 만듭니다. 그런 다음, tree의 각 level에 대해 image와 해당 level의 모든 captions 간의 cosine similarity scores를 계산하고 Cross Entropy Loss를 계산합니다. 최종 tree loss, L<sub>tree</sub>는 모든 tree levels에 대한 손실의 합입니다 (Fig. 2).

CLIP의 zero-shot capabilities를 최대한 보존하기 위해 원래 MS-COCO dataset [55]에 대한 L<sub>contrast</sub>도 포함합니다 (추가 negatives 없이). 우리의 최종 손실 함수는 다음과 같습니다:

L<sub>total</sub> = α * L<sub>tree</sub> + (1 - α) * L<sub>contrast</sub>, (2)

여기서 0 < α < 1은 hyperparameter입니다. 우리는 α = 0.5가 가장 잘 작동한다는 것을 발견했습니다.

Zero-shot forgetting을 더욱 줄이기 위해, [1]의 연구에 따라 LoRA [99]도 사용하고 LoRA adapters만 training하고 base CLIP model parameters는 frozen 상태로 유지합니다.

1: Co-hyponyms는 WordNet tree에서 동일한 hypernym을 공유하는 단어입니다 (예: "apple"과 "banana"는 "fruit"이라는 hypernym을 공유하므로 co-hyponyms입니다. "car"와 "motorcycle", "blue"와 "yellow"도 마찬가지입니다.).

Training Details. MS-COCO [55]의 training set에서 rank=1 LoRA adapters를 사용하여 OpenAI CLIP [49] ViT-B/32 [100]를 12 epochs 동안 finetune합니다. AdamW optimizer를 사용하고 learning rate는 3e-6, weight decay는 0.1, batch size는 64로 설정하여 단일 GeForce RTX 2080 Ti NVIDIA GPU에서 training합니다. Hyperparameter sweep을 수행하고 MS-COCO validation set을 기반으로 최종 parameters와 epochs 수를 선택했습니다.

III. THE TREE-AUGMENTED VISION-LANGUAGE (3VL) MODEL 정리 노트 (AI 연구자 대상)

핵심 아이디어: Caption Tree Generation & Tree-Based Training

  • Caption Tree Generation (Section A):
    • Image caption을 coarse-to-fine 방식으로 계층적인 tree 구조로 변환.
      • 각 레벨: Noun phrase 단위로 문장 확장 (e.g., "several people" -> "several people and a green field" -> ...).
      • 각 레벨에서, 각 단어(Noun, Adjective, Adposition, Verb)에 대해 negative captions 생성:
        • FLAN-T5 LLM으로 반의어(Antonym) 생성.
        • 반의어가 없으면 NLTK WordNet으로 co-hyponym 생성.
        • 둘 다 없으면 T5 LLM으로 masked word 채우기.
    • 핵심 차별점: 기존의 단순한 단어 대체 방식보다 체계적이고 다양한 negative samples 생성 (interpretability 및 compositional reasoning 향상).
  • Tree-Based Training (Section B):
    • Tree Loss:
      • Caption tree의 각 레벨에서, image와 모든 (positive & negative) captions 간의 cosine similarity 계산.
      • Cross Entropy Loss 계산 후, 모든 레벨의 loss를 합산.
    • Contrastive Loss (CLIP Loss):
      • Original image-caption pairs에 대한 standard CLIP loss 계산 (zero-shot capability 보존).
    • Final Loss:
      • L_total = α * L_tree + (1 - α) * L_contrast (α = 0.5 사용).
    • LoRA (Low-Rank Adaptation):
      • CLIP model parameters는 frozen, LoRA adapters만 training (zero-shot forgetting 방지).

주요 특징 및 장점:

  • Interpretability: Caption tree 구조를 통해 모델이 문장의 어떤 부분에 집중하는지, 어떤 관계를 파악하는지 시각적으로 확인 가능.
  • Compositional Reasoning: Tree 구조를 통해 문장의 구성 요소를 단계별로 학습, 복잡한 문장 이해 능력 향상.
  • Data Augmentation: Caption tree를 통해 다양한 negative samples를 생성하여 모델의 robustness 향상.
  • Zero-Shot Preservation: Contrastive loss와 LoRA를 사용하여 기존 CLIP의 zero-shot 성능 유지.

쉬운 설명:

이 섹션에서는 이 논문의 핵심 모델인 "3VL"을 만드는 방법을 설명합니다. 3VL은 "Caption Tree"라는 특별한 방식으로 이미지를 이해합니다.

  1. Caption Tree 만들기:
    • 이미지에 대한 설명을 "나무(tree)"처럼 만듭니다.
    • 처음에는 간단한 문장("몇몇 사람들")으로 시작해서, 점점 더 자세한 문장("몇몇 사람들과 초록색 들판" -> "몇몇 사람들이 초록색 들판에 서 있다" -> ...)으로 확장합니다.
    • 각 단계에서, 원래 문장의 단어를 바꿔서 틀린 문장("몇몇 동물들", "몇몇 사람들과 파란 들판" 등)도 만듭니다.
  2. Tree로 학습하기:
    • 이미지와 Caption Tree의 각 문장(맞는 문장, 틀린 문장 모두)이 얼마나 비슷한지 계산합니다.
    • 모델이 맞는 문장은 "비슷하다", 틀린 문장은 "다르다"라고 정확하게 판단하도록 학습시킵니다.
    • 기존 모델(CLIP)의 능력을 잃지 않도록, 원래 방식의 학습도 함께 진행합니다.

이렇게 하면 모델이 문장의 구조를 더 잘 이해하고, 이미지와 텍스트의 관계를 더 정확하게 파악할 수 있게 됩니다. 또한, 모델이 어떤 부분을 보고 판단했는지, 왜 틀렸는지 등을 사람이 더 쉽게 알 수 있습니다.

 

 

 

 

IV. RELEVANCY MAPS BASED TOKEN REMOVAL AND INTERPRETABILITY

더보기

A. Token Removal

Token Removal은 주어진 relevancy map에 따라 가장 덜 중요한 image tokens를 제거합니다. 우리는 HilaCAM에 의해 생성되고 이미지의 각 patch에 대한 significance score를 보유하는 7x7 relevancy map을 사용합니다. 따라서 이미지는 7x7 크기의 동일한 크기의 patches로 나뉘며, 각 patch는 image token입니다. 제거된 tokens가 있는 이미지는 image encoder에 대한 입력으로 사용됩니다. 우리는 이 접근 방식을 HilaCAM with Token Removal이라고 부릅니다.

각 image-text pair에 대해 생성된 relevancy maps와 Token Removal을 사용하여 model을 이미지의 더 중요한 부분으로 유도합니다. Positive text와 짝을 이루는 이미지의 relevancy maps와 negative text와 짝을 이루는 동일한 이미지의 relevancy maps를 동시에 고려함으로써, 우리는 models의 결정을 더 잘 이해할 수 있습니다. 3VL negatives tree generation과 결합하면 근본적인 failure modes에 대한 귀중한 insights를 얻을 수 있습니다. 자세한 내용은 Section V-F를 참조하십시오.

B. HilaCAM Anchor

HilaCAM [22]은 주어진 image-text pair에 대한 relevancy heatmap을 생성합니다. 단일 이미지에 대해 두 가지 텍스트 가능성(예: 하나는 positive, 하나는 negative)이 있는 경우, 주어진 이미지와 짝을 이루는 각 텍스트에 대해 하나의 relevancy heatmap을 생성할 수 있습니다. 공식적으로, Image I, positive text P, 및 negative text N이 주어지면 HilaCAM을 두 번 적용하여 그림 4와 같이 두 개의 서로 다른 relevancy heatmaps를 얻습니다.

이는 다음과 같은 두 개의 heatmaps를 제공합니다:

  • positive heatmap = HilaCAM(I, P) (3)
  • negative heatmap = HilaCAM(I, N) (4)

표기법 남용으로 인해, 우리는 이제부터 텍스트당 다른 relevancy map을 계산하는 이 자연스러운 방법을 HilaCAM이라고 부릅니다. 이러한 각 relevancy map은 이후에 설명되는 'Token Removal'이라는 프로세스에 사용될 수 있습니다.

이 두 개의 heatmaps를 사용하는 대신, 단일 이미지와 두 개의 텍스트(예: 하나는 positive, 하나는 negative)가 있는 경우 HilaCAM을 사용하는 또 다른 방법을 제안합니다. "Anchor"라고 하는 이 접근 방식에서는 두 입력 텍스트에서 새로운 단일 텍스트를 형성하고 이 새로운 텍스트를 사용하여 단일 relevancy map을 생성합니다. Negative text가 positive text의 몇 단어를 대체하여 형성된 경우, 서로 다른 텍스트 부분에 초점을 맞춰 새로운 단일 텍스트를 형성할 수 있습니다. 우리는 이 새로운 텍스트를 "Anchor" 텍스트라고 부릅니다.

공식적으로, Image I, positive text P, 및 negative text N(P의 몇 단어를 대체하여 생성됨)이 주어지면. P와 N에 Anchor를 적용하여 새로운 "Anchor" 텍스트 Anc를 얻습니다. 그런 다음 Anc에 HilaCAM을 적용하여 단일 Anchor relevancy heatmap을 얻습니다. 그림 3은 Anchor와 함께 HilaCAM을 사용하는 것을 보여줍니다. 다음 일련의 공식은 anchor heatmap을 얻는 방법을 설명합니다:

  • DP = P \ N (P에는 있지만 N에는 없는 단어)
  • DN = N \ P (N에는 있지만 P에는 없는 단어)
  • AP = DP를 포함하는 P의 최소 noun 또는 verb phrase
  • AN = DN을 포함하는 N의 최소 noun 또는 verb phrase
  • Anc = Anchor (P, N) = AP + ' or ' + AN
  • anchor heatmap = HilaCAM(I, Anc)

예를 들어, "people playing with airborne frisbee"와 "people playing with sitting frisbee"라는 두 텍스트가 주어지면 "airborne frisbee or sitting frisbee"라는 새 텍스트를 생성할 수 있습니다. 우리는 이 새 텍스트를 "Anchor" 텍스트라고 부릅니다.

이 Anchor 텍스트를 사용하여 relevancy map을 생성하고 Token Removal에 사용할 수 있습니다. Token Removal과 함께 Anchor는 positive 및 negative texts 모두 이미지의 동일한 부분에 초점을 맞추도록 합니다. 이미지의 이러한 부분은 positive 및 negative texts 모두에 가장 중요한 features를 포함해야 합니다. Network가 positive 및 negative texts 간의 공통 정보에 집중하도록 지시합니다.

Anchor는 두 텍스트가 한 단어만 다른 경우에 특히 유용합니다. Caption tree generation method와 VL-CheckList [64] dataset의 경우가 이에 해당합니다. Section V에서 보여주듯이, 이는 더 나은 interpretability로 이어지고 model이 이미지의 관련 부분에 더 집중하게 하므로 약간의 성능 향상으로 이어집니다.

C. Differential Relevance (DiRe)

두 개의 입력 텍스트가 있을 때 단일 relevancy map을 얻는 또 다른 방법은 텍스트당 하나의 relevancy map을 생성한 다음 positive relevancy map에서 negative relevancy map을 빼서 새로운 relevancy map을 생성하는 것입니다. 이 방법은 어떤 caption이 positive이고 어떤 caption이 negative인지에 대한 지식을 사용하기 때문에 "공정"하지 않지만, interpretability를 위해 Token Removal과 결합하여 이 방법을 활용할 수 있습니다.

그 이유는 DiRe가 image tokens에 importance scores를 제공하고 VLM의 실제 결정에 '직접적으로 개입'하지 않기 때문입니다. 따라서 DiRe에 따라 높은 relevancy를 갖는 tokens가 VLM의 더 나은 accuracy와 상관관계가 있음을 발견하면, 입력 이미지의 어떤 tokens(위치에 해당)이 VLM의 결정에 영향을 미치는지 더 잘 이해하고 따라서 향상된 interpretability를 얻을 수 있습니다. 그림 5에서는 DiRe에 따라 높은 relevancy를 갖는 tokens가 실제로 VLM의 더 나은 accuracy와 상관관계가 있음을 보여줍니다 (자세한 내용은 Section V-D 참조).

 

 

IV. RELEVANCY MAPS BASED TOKEN REMOVAL AND INTERPRETABILITY 정리 노트 (AI 연구자 대상)

핵심: HilaCAM Relevancy Map 활용, Model Interpretability 향상 기법

  • A. Token Removal:
    • HilaCAM으로 생성된 relevancy map (7x7) 기반, 중요도가 낮은 image tokens (patches) 제거.
    • Relevancy map의 significance score에 따라 image tokens 제거 후, 남은 tokens으로 image encoder 입력 구성.
    • 목표: 모델이 이미지의 더 중요한 부분에 집중하도록 유도.
  • B. HilaCAM Anchor:
    • 문제: Image는 하나, positive/negative text는 두 개인 경우, 기존 HilaCAM은 각각 relevancy map 생성.
    • Anchor 제안: 두 text (positive & negative)로부터 "Anchor" text 생성, 단일 relevancy map 생성.
      • Anchor(P, N) = (P에서 N에 없는 최소 구) + "or" + (N에서 P에 없는 최소 구)
      • 예: "people playing with airborne frisbee", "people playing with sitting frisbee" -> "airborne frisbee or sitting frisbee"
    • 목표: Positive/negative texts 간의 공통된 중요 정보에 모델이 집중하도록 유도, interpretability 및 성능 향상. (VL-Checklist와 같이 한 단어 차이 나는 경우에 특히 유용)
  • C. Differential Relevance (DiRe):
    • Positive relevancy map - Negative relevancy map = DiRe relevancy map.
    • Not "fair" (positive/negative label 정보 사용), but interpretability에 유용:
      • DiRe는 image tokens에 importance scores 제공, VLM 결정에 직접 개입 X.
      • DiRe의 high relevancy tokens가 VLM의 높은 accuracy와 상관관계 -> 어떤 tokens (image locations)이 VLM 결정에 영향을 주는지 파악 가능.

주요 특징 및 장점:

  • Relevancy map을 활용, 모델의 attention을 제어하고 interpretability를 높이는 다양한 기법 제시.
  • Token Removal: 불필요한 정보 제거, 모델의 핵심 focus 유도.
  • Anchor: Positive/negative texts를 통합, 공통 중요 정보에 집중.
  • DiRe: Positive/negative 간 차이 강조, 결정에 영향을 주는 image regions 파악.
  • 이 논문에서 제안된 방법론(3VL)과 함께, failure mode 분석에 활용 (Section V-F).

쉬운 설명:

이 섹션에서는 모델이 이미지의 어떤 부분을 보고 판단하는지 (interpretability) 더 잘 이해하기 위한 방법들을 설명합니다.

  1. Token Removal:
    • HilaCAM이라는 도구를 사용해서 이미지의 각 부분(token)이 얼마나 중요한지 나타내는 "지도(relevancy map)"를 만듭니다.
    • 이 지도에서 중요하지 않은 부분들을 지우고, 남은 부분들만 모델에게 보여줍니다. (모델이 중요한 부분에만 집중하도록!)
  2. HilaCAM Anchor:
    • 이미지는 하나인데, 긍정적인 설명과 부정적인 설명이 있을 때, 각각 지도를 만들면 서로 다른 곳을 볼 수 있습니다.
    • "Anchor"라는 새로운 설명을 만들어서 (두 설명을 합쳐서), 하나의 지도만 생성합니다. (모델이 긍정/부정 설명 모두에서 중요한 부분을 보도록!)
  3. Differential Relevance (DiRe):
    • 긍정적인 설명에 대한 지도에서 부정적인 설명에 대한 지도를 빼서, 새로운 지도를 만듭니다.
    • 이 지도는 어떤 부분이 긍정/부정 판단에 결정적인 영향을 줬는지 알려줍니다. (모델이 왜 그렇게 판단했는지 이해하는 데 도움!)

이러한 방법들을 사용하면 모델이 이미지의 어떤 부분을 중요하게 생각하는지, 왜 그렇게 판단했는지 등을 더 잘 알 수 있어서 모델을 개선하고, 더 신뢰할 수 있게 만들 수 있습니다.

 

 

 

 

1. 텍스트를 계층적으로 나타냄.

2. 전체 이미지와 각 노드별로 유사도를 구함. (노드는 같은 level에 있는 노드끼리)

3. 2에서 positive를 더 유사하게끔 학습

4. 또한 기존 clip이 깨지지 않게 clip도 함께 학습.

5. 그리고 실제 활용에서는 positive로 나온.(유사도가 높게 나온.) 노드의 text를 가지고 Relevancy Map 생성

6. 그리고 negative Relevancy Map을 거기서 뺀다.

7. 혹은 Anchor text를 만들어서 Relevancy Map을 만들고 뺀다.

8. 6혹은7의 결과를 가지고 인퍼런스를 진행.