AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models 본문

논문리뷰

VLM : 빠른 논문 리뷰 : On Epistemic Uncertainty of Visual Tokens for Object Hallucinations in Large Vision-Language Models

AI바라기 2025. 12. 15. 19:57

용어 설명 (Key Terms)

  • Object Hallucination: LVLM이 입력 이미지에 존재하지 않는 객체를 텍스트로 생성하는 현상.
  • Epistemic Uncertainty: 데이터가 부족하거나 모델이 학습하지 못한 영역에서 발생하는 모델 내부의 불확실성. 이 논문에서는 Visual Encoder의 특정 토큰들이 갖는 불확실성을 의미함.
  • Visual Encoder (VE): 이미지를 처리하여 feature vector로 변환하는 모듈 (예: CLIP-ViT).
  • Adversarial Perturbation (PGD attack): 입력 이미지에 인간의 눈에는 보이지 않는 미세한 노이즈를 추가하여 모델의 오작동을 유도하는 기법. 이 논문에서는 이를 역이용하여 불확실한 토큰을 탐지함.
  • MC (Monte Carlo) Dropout: Inference 시 Dropout을 활성화하고 여러 번 forward pass를 수행하여 모델의 불확실성을 추정하는 기법. 정확하지만 연산 비용이 높음.
  • Representation Deviation: 원본 이미지의 feature와 공격(perturbation)받은 이미지의 feature 간의 차이(norm distance).

Purpose of the Paper

  • 기존 연구의 한계: 기존의 Object Hallucination 완화 기법들은 주로 Large Language Model (LLM) 의 Decoding strategy를 수정하거나(예: VCD, OPERA), LLM 내부의 Attention을 조절하는 데 집중함. 이는 계산 비용이 높은 LLM을 여러 번 inference 해야 하거나, 시각 정보 처리의 근본적인 문제(Vision Encoder)를 간과한다는 한계가 있음.
  • 새로운 접근: 저자들은 Hallucination의 원인이 Vision Encoder (VE) 내의 "Uncertain Visual Tokens" 에 있다고 가설을 세움. 불확실한 시각 정보가 LLM으로 전달될 때 환각이 발생하므로, LLM이 아닌 VE 단계에서 불확실한 토큰을 식별하고 제거하여 환각을 근본적으로 차단하고자 함.

Key Contributions

  • Theoretical Link between Attack & Uncertainty:
    • Adversarial Perturbation 하에서의 Visual Token Representation Deviation이 해당 토큰의 Epistemic Uncertainty의 Upper Bound임을 이론적으로 증명함 (Theorem 3.2).
    • 즉, MC Dropout처럼 수천 번의 연산을 하지 않고도, PGD Attack을 통해 효율적으로 불확실한 토큰을 식별할 수 있음을 보임.
  • Novel Methodology (Training-free):
    • Uncertainty Identification: 입력 이미지에 PGD 기반의 Adversarial Perturbation을 가한 뒤, VE의 Early Layer에서 원본과 공격받은 feature 간의 편차가 큰 토큰을 "Uncertain"으로 정의하고 Binary Mask () 를 생성함.
    • M
    • Selective Masking: 생성된 마스크 을 사용하여 VE의 Intermediate Layer (Self-attention process)에서 불확실한 토큰이 다른 토큰에 영향을 주지 못하도록 차단(Masking)함.
    • M
  • Efficiency: MC Dropout 대비 약 5배 빠른 속도로 불확실성을 추정하면서도 유사한 Uncertainty Map을 얻어냄.

Novelty

  • Paradigm Shift: Hallucination 완화를 위해 LLM을 건드리는 기존 트렌드와 달리, Vision Encoder 내부의 불확실성을 직접 제어하는 방식을 제안함.
  • Constructive Use of Adversarial Attack: Adversarial Attack을 모델을 공격하는 용도가 아니라, 모델의 취약한(불확실한) 부분을 진단하고 수정하는 도구(Proxy for Uncertainty)로 활용함.
  • Layer-Specific Strategy: 불확실성 탐지 Early Layer (작은 변화가 민감하게 반응)에서, 완화(Masking)  Intermediate Layer (의미론적 정보가 형성되는 단계)에서 수행하는 것이 최적임을 실험적으로 밝혀냄.

Experimental Highlights

  • Experimental Setup:
    • Models: LLaVA-1.5 (7B/13B), Shikra-7B, MiniGPT-4.
    • Datasets (Benchmarks): CHAIR (Sentence/Image level), POPE (Random/Popular/Adversarial), AMBER.
  • Key Results:
    • Performance: LLaVA-1.5-7B 기준 CHAIR (문장 레벨 환각) 점수를 47.4 
      →→
       29.2로 대폭 감소시킴. (낮을수록 좋음)
    • s
    • Compatibility: 기존 방법론인 OPERA, VCD, PAI, Devils 등과 결합했을 때, 모든 경우에서 추가적인 성능 향상을 기록함 (Synergistic effect).
    • Statistically Significant: Visual Token의 Uncertainty와 Object Hallucination 발생 빈도 간에 강한 양의 상관관계 () 가 있음을 통계적으로 입증함.
    • ρ≈0.8
  • Ablation Study:
    • 마스크 생성은 Layer 110 (Early)에서, 마스킹 적용은 Layer 1317 (Intermediate)에서 할 때 가장 성능이 좋음. (Late layer는 이미 feature가 너무 섞여서 효과 적음).

Limitations and Future Work

  • Inference Latency: MC Dropout보다는 빠르지만, PGD Attack 자체가 Backpropagation을 포함하므로 일반적인 Greedy Decoding보다는 Inference 시간이 증가함 (약 2.4배).
    • Future Work: Adversarial Attack 없이 불확실성을 추정하는 더 빠른 방법론 연구 필요.
  • Architecture Dependency: Q-Former 구조를 사용하는 모델(MiniGPT-4)에서는 Vision Encoder의 출력이 Query에 의해 추상화되므로, VE 내부 마스킹 효과가 상대적으로 떨어짐.
  • Visual Information Loss: Hard Masking(완전 차단) 방식은 불확실하지만 유용한 시각 정보까지 제거할 위험이 있어, 일부 Perception Task에서 미세한 성능 저하가 발생할 수 있음.
    • Future Work: Soft Masking이나, 텍스트 정보와 결합하여 선별적으로 마스킹하는 방법 고려 가능.

Overall Summary

이 논문은 LVLM의 Object Hallucination이 Vision Encoder(VE)의 불확실한 시각 토큰에서 기인한다는 점을 착안하여, Adversarial Perturbation을 통해 이를 효율적으로 탐지하고 제거하는 기법을 제안합니다. 저자들은 VE의 Early Layer에서 공격에 민감하게 반응하는 토큰이 높은 Epistemic Uncertainty를 가짐을 이론 및 실험적으로 증명하고, 이를 Intermediate Layer의 Self-attention 단계에서 마스킹함으로써 별도의 학습 없이(Training-free) 환각을 획기적으로 줄였습니다. 이 연구는 LLM 중심의 기존 완화 기법들과 달리 Visual Encoder의 신뢰성에 주목하여 새로운 해결책을 제시했으며, 기존 방법들과의 호환성도 뛰어나 LVLM의 실용성을 높이는 데 중요한 기여를 했습니다.


쉬운 설명 (Easy Explanation)

"사진을 흔들어보면, 가짜가 보인다"

LVLM이 없는 물건을 있다고 헛소리(Hallucination)를 하는 이유는, Vision Encoder가 이미지를 볼 때 '이게 뭐지?' 하고 헷갈리는 부분(불확실한 토큰)이 있는데도, 억지로 설명하려고 하기 때문입니다.

이 논문의 핵심 아이디어는 다음과 같습니다:

  1. 흔들어 보기 (Adversarial Attack): 이미지에 아주 살짝 노이즈를 섞어서 '흔들어' 봅니다.
  2. 불확실한 부분 찾기: 이때, 확실한 부분(예: 선명한 고양이)은 흔들어도 그대로지만, 모델이 헷갈려하는 부분(불확실한 토큰)은 값(feature)이 크게 변합니다.
  3. 가려버리기 (Masking): 이렇게 값이 심하게 흔들리는 부분은 "믿을 수 없는 정보"라고 판단하고, Vision Encoder가 아예 못 보게 스티커(Mask)를 붙여버립니다.

결과적으로 모델은 확실하고 선명한 정보에만 집중하게 되어, 헛소리를 하지 않고 정확한 답변을 내놓게 됩니다. 기존에는 "말하는 방법(LLM)"을 고치려 했다면, 이 논문은 "보는 눈(Vision Encoder)"의 나쁜 버릇을 고친 셈입니다.