AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models 본문

논문리뷰

VLM : 빠른 논문 리뷰 : When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models

AI바라기 2026. 2. 12. 13:24

Terminologies (용어 설명)

  • Vision-Language Models (VLMs): 이미지와 텍스트를 모두 이해하고 처리할 수 있는 AI 모델 (예: LLaVA, Gemma3).
  • Parametric Knowledge (Internal Knowledge): 모델이 pre-training 과정에서 학습하여 가중치(weights)에 저장하고 있는 내부 지식. 소위 '상식'이나 '사실'에 해당함
  • Counterfactual Visual Context: 모델의 내부 상식과 모순되는 시각적 정보. (예: 밤에 뜨는 달 대신, 낮에 뜨는 태양을 보고 늑대가 울부짖는 이미지) .
  • Logit Lens: Transformer의 중간 레이어(hidden states) 값을 마치 최종 출력인 것처럼 vocabulary 공간으로 투영하여, 모델이 해당 시점에서 어떤 단어를 예측하려고 하는지 분석하는 기법.
  • Mechanistic Interpretability: 모델의 출력이 어떻게 생성되는지 내부 매커니즘(뉴런, 레이어, attention heads 등)을 통해 설명하려는 연구 분야.

Purpose of the Paper

이 논문은 Vision-Language Models (VLMs) 이 내부의 Parametric Knowledge 와, 이와 상충되는 Visual Context 사이에서 충돌이 발생할 때 이를 어떻게 해결하는지 규명하고자 했습니다.

 
  • 기존 연구의 한계: 기존 연구들은 단순히 모델이 hallucination을 일으키는지 행동(behavior)만 관찰하거나, 색상/크기 변경 같은 단순한 object attribute 충돌만 다루었습니다. 내부적으로 어떤 메커니즘이 작동하는지는 미지의 영역이었습니다.
     
  • 새로운 접근: 이 논문은 복잡하고 의미론적인(semantic) 충돌을 유발하는 데이터셋을 구축하고, 모델 내부의 특정 Attention Heads 가 시각 정보와 내부 지식 간의 경쟁을 중재한다는 것을 기계적으로(mechanistically) 밝혀냈습니다.

Key Contributions

이 논문의 핵심 기여와 Novelty는 다음과 같습니다.

  • WHOOPS-AHA! Dataset 구축:
    • 기존의 WHOOPS! 데이터셋을 기반으로, 시각적으로 기이한(anomalous) 장면과 이에 대한 상식적인 텍스트 질문을 결합하여 의도적으로 Knowledge Conflict 를 유발하는 새로운 데이터셋을 만들었습니다.
    • 단순한 속성 변경이 아니라, '상식(factual)'과 '시각적 반사실(counterfactual)'이 명확히 대립하는 상황을 설계했습니다.
  • Conflict Resolution Mechanism 규명:
    • Functional Separation: MLP layers 는 주로 내부의 factual knowledge를 촉진하고, Attention blocks 은 counterfactual visual information을 촉진한다는 기능적 분리를 발견했습니다.
    • Localized Heads: 전체 모델이 아니라, 후반부 레이어의 소수의 Attention Heads 가 이 갈등을 조절하는 '스위치' 역할을 한다는 것을 밝혀냈습니다.
  • Causal Intervention (Steering):
    • 발견한 특정 Attention Heads의 가중치를 조절(Intervention)함으로써, 모델이 시각 정보를 무시하고 상식을 말하게 하거나, 반대로 상식을 무시하고 시각 정보만 따르게 제어할 수 있음을 입증했습니다.
  • Superior Visual Attribution:
    • Counterfactual predictions를 유발하는 이미지 영역을 찾을 때, 기존의 Gradient-based methods 보다 이 논문에서 식별한 Attention Heads 의 정보를 이용하는 것이 훨씬 정확하다는 것을 보여주었습니다.

Experimental Highlights

 
  • Target Models: LLaVA-NeXT-7b, Gemma3-12b.
  • Mechanism Localization (Logit Lens Analysis):
    • 분석 결과, MLP Block 은 모델의 깊은 층(upper layers)으로 갈수록 Factual Knowledge (예: 늑대는 달을 보고 운다)를 강하게 지지하는 경향을 보였습니다.
    • 반면, Attention BlockVisual Context (예: 이미지 속의 태양)를 지지하며, 상충되는 정보를 주입하는 역할을 했습니다.
    • 특히, 약 20개의 특정 Attention Heads 가 factual vs counterfactual 결정에 지대한 영향을 미침을 확인했습니다.
  • Attention Patterns:
    • Counterfactual Heads (시각 정보 지지 헤드)는 이미지 토큰에 평균 61% 의 Attention을 집중한 반면, Factual Heads (상식 지지 헤드)는 29% 에 불과했습니다. 이는 시각적 정보가 특정 헤드를 통해 직접적으로 주입됨을 시사합니다.
  • Intervention Results (Steering):
     
    • LLaVA-NeXT 실험에서, 특정 헤드에 개입(Intervention)하여 factual knowledge 쪽으로 유도했을 때, factual accuracy가 기본 22% 에서 74% 까지 급증했습니다.
  • Ablation Study (Image Patch Removal):
    • Counterfactual Heads 가 주목한 이미지 패치(pixel regions)를 지워버리자, 모델은 빠르게 상식적인 답변(factual token)으로 회귀했습니다.
    • 상위 10~30% 의 패치만 지워도 factual accuracy가 80% 수준으로 회복되었습니다. 이는 Gradient 기반 방법보다 훨씬 효율적으로 '원인 제공 이미지 영역'을 찾아낸 결과입니다.

Limitations and Future Work

  • Logit Lens의 근사성 (Approximation):
     
    • Limit: Logit Lens는 중간 레이어의 값을 강제로 vocabulary 공간에 투영하므로, 실제 모델의 최종 출력과는 다소 왜곡이 있을 수 있는 근사적 진단 도구입니다.
    • Importance: 완벽한 디코딩이 아니므로 해석에 주의가 필요합니다.
  • 단일 토큰 생성의 한계 (Single-token Focus):
     
    • Limit: 실험의 편의를 위해 복잡한 문장 생성이 아닌, Factual/Counterfactual을 대표하는 '단일 토큰' 예측 확률만을 비교했습니다.
       
    • Future Work: 전체 문장 생성이나 긴 시퀀스에서의 동작을 분석하여 연구를 확장할 필요가 있습니다.
  • Synthetic Data 의존성:
    • Limit: WHOOPS-AHA! 데이터셋은 분석을 위해 인위적으로 합성/큐레이팅된 데이터입니다.
       
    • Future Work: 보다 자연스러운(Naturalistic) 실제 데이터셋에서도 동일한 메커니즘이 작동하는지 검증이 필요합니다.

Overall Summary

이 논문은 VLM 이 "이미지로 보이는 것"과 "이미 알고 있는 상식"이 충돌할 때, 이를 해결하는 내부 기제를 Mechanistic Interpretability 관점에서 분석한 연구입니다. 저자들은 이 충돌이 모델 전체에 퍼져 있는 것이 아니라, 후반부 레이어의 소수 Attention HeadsMLP 간의 줄다리기로 결정된다는 것을 밝혀냈습니다. 특히 이 특정 헤드들을 조작(Steering)함으로써 모델이 '눈에 보이는 대로' 말할지 '상식대로' 말할지를 제어할 수 있음을 입증하여, 향후 Multimodal Hallucination 을 제어하고 설명 가능한 AI를 만드는 데 중요한 기초를 제공했습니다.

 

쉬운 설명

사람이 "보라색 바나나" 사진을 봤을 때, 뇌 속의 상식("바나나는 노랗다")과 눈으로 본 정보("이건 보라색이다")가 충돌합니다. 이 논문은 AI(VLM) 안에서 이 싸움을 중재하는 '심판' 역할을 하는 특정 뉴런들(Attention Heads) 을 찾아냈습니다.

  • 상식 파: MLP 레이어들은 "원래 바나나는 노란색이야"라고 우깁니다.
  • 현실 파: 특정 Attention Head들은 "아니야, 지금 내 눈(이미지)에는 보라색으로 보여"라고 우깁니다.

연구진은 이 '현실 파' 심판들의 목소리를 줄이면 AI가 사진을 무시하고 "노란색"이라고 답하고, 목소리를 키우면 "보라색"이라고 답하도록 조종할 수 있음을 증명했습니다. 즉, AI가 헛소리를 하거나 고집을 피울 때, 어디를 고쳐야 말을 잘 들을지 그 정확한 위치를 찾아낸 것입니다.

 

 

 

 

더보기

 

  • 준비물 (Preparation): 사전 학습된 VLM (LLaVA-NeXT, Gemma3)과 '지식 충돌'을 유도하도록 설계된 WHOOPS-AHA! 데이터셋 (기이한 이미지 + 텍스트).
  • +1

  •  
  • 인풋 (Input): 상식과 어긋나는 'Counterfactual 이미지'(예: 낮에 뜬 태양)와 상식적인 답변을 유도하는 '텍스트 프롬프트'(예: 늑대가 울부짖는 대상은 [빈칸]).

  • +1
  • 순전파 (Forward Pass): 이미지와 텍스트를 모델에 통과시켜, 각 레이어의 Attention Head와 MLP가 정보를 처리하며 다음 토큰 확률(Logit)을 계산.

  • +1
  • 분석 (Logit Lens Analysis): 최종 출력 전, 중간 레이어에서 '상식 단어($t_{fact}$)'와 '시각 단어($t_{cofa}$)' 중 어느 쪽 점수가 높은지 실시간으로 추적하여 '범인(Head)'을 색출.

  • +1
  • 개입 (Intervention): 발견된 특정 Attention Head의 가중치(Attention Weight)에 특정 값($\lambda$)을 곱해, 시각 정보의 영향력을 강제로 키우거나 줄임 (일시적 조작).

  •  
  • 아웃풋 (Output): 조작된 가중치에 따라 모델이 '상식적인 단어(Moon)'를 선택하거나, '시각적인 단어(Sun)'로 답변을 바꿈.
  •  
  • Gradient (Attribution): 학습용 Loss는 없지만, '이미지의 어느 부분이 원인인지' 찾기 위해 타겟 토큰의 Logit 값을 입력 이미지까지 역전파(Backprop)하여 중요 픽셀을 계산함.

 

 

 

 

 

0.5점 / 5점

 

 

대조군(Control) 부재: 정상 이미지나 거짓 텍스트에 대한 교차 검증 없이, "반사실 헤드"라는 거창한 이름을 붙인 기만적 실험 설계.

 

순환 논리(Circular Reasoning): 답을 맞힌 헤드를 골라놓고, "그 헤드를 보니 답이 보이더라"며 도구의 우수성을 주장한 논리적 오류.

 

당연한 사실의 포장: 트랜스포머가 후반부 레이어에서 정보를 통합(Late Fusion)한다는 교과서적인 내용을 마치 새로운 메커니즘인 양 부풀린 점.

 

 

0.5점은 데이터셋을 구축한 '성실함'에 대한 최소한의 예우일 뿐, 이 논문이 주장하는 '메커니즘 규명'은 과학적 검증을 통과하지 못함.