AI바라기의 인공지능

VLM : 빠른 논문 리뷰 : Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models 본문

논문리뷰

VLM : 빠른 논문 리뷰 : Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models

AI바라기 2026. 2. 22. 19:47

용어 설명

  • LMM(Large Multimodal Model): 언어와 시각 정보를 동시에 통합하여 이해하고 추론하는 대형 다중모달 모델입니다.
  • RAG(Retrieval-Augmented Generation): 외부의 최신 소스에서 정보를 검색하여 모델의 생성 결과물을 강화하는 기법입니다.
  • Knowledge Conflict: 모델 내부에 사전 학습된 파라미터 지식(parametric knowledge)과 외부에서 주입된 문맥(context) 정보가 서로 모순되는 현상입니다.
  • Intra-memory conflict: 모델 내부의 파라미터 지식들 사이에서 발생하는 충돌입니다.
  • Context-memory conflict: 외부 문맥 정보(검색 문서 등)가 모델 내부의 기존 지식과 충돌하는 상황입니다.
  • Inter-context conflict: 외부에서 제공된 여러 문맥 소스들 자체에서 서로 모순이 발생하는 상황입니다.
  • OAR(Original Answer Ratio): 지식 충돌 상황에서도 외부 증거를 무시하고 내부 지식을 따르는 비율입니다.
  • CAR(Counter Answer Ratio): 내부 지식을 버리고 외부의 충돌하는 문맥 증거를 수용하여 답변하는 비율입니다.
  • IAR(Irrelevant Answer Ratio): 내부 지식이나 외부 증거와 전혀 무관한 엉뚱한 답을 생성하는 비율입니다.

Purpose of the Paper

  • 기존 LMMRAG 프레임워크 환경에서 외부 정보와 내부 지식이 충돌할 때 신뢰할 수 없는 출력을 생성하는 문제를 해결하고자 합니다.
  • 기존 벤치마크들이 모델 내부 지식 간의 충돌(Intra-memory conflict)에만 편중되어 있어, 실제 추론 시 발생하는 Context-memoryInter-context 충돌 시나리오를 반영하지 못하는 한계를 극복하려 했습니다.
  • 단순히 '무엇을 연구했다'는 것을 넘어, 실용적인 사실 기반(factual knowledge) 정보의 부재와 모델의 충돌 감지(conflict detection) 능력을 체계적으로 평가하기 위해 연구되었습니다.

Key Contributions

  • MMKC-Bench 제안: Context-memoryInter-context 시나리오 모두에서 사실적 지식 충돌을 종합적으로 평가할 수 있는 최초의 벤치마크를 도입했습니다.
  • 세분화된 다중모달 충돌 유형 정의: 지식 충돌을 Entity Recognition Conflict(객체 인식), Entity Knowledge Conflict(사실 속성), Visual Semantic Conflict(시각적 의미) 세 가지로 분류하여 체계화했습니다.
  • 고품질 검증 데이터셋 구축: LLM을 활용한 counterfactual editing과 엄격한 human verification을 결합하여, 23개 범주에 걸쳐 1,573개의 지식 인스턴스와 3,381개의 이미지를 포함하는 신뢰도 높은 데이터를 구축했습니다.

Experimental Highlights

  • 실험 설정: Qwen2.5-VL, InternVL3, GPT-4o mini 등 9개의 최신 LMM을 대상으로 행동 분석 및 충돌 감지 평가를 수행했습니다.
  • 내부 지식에 대한 높은 고집성: 텍스트 기반 LLM과 달리, LMM은 외부 증거(CAR)보다 자신의 내부 지식(OAR)에 훨씬 강하게 의존함을 확인했습니다. 외부 증거를 늘려도 수용률의 개선은 매우 제한적이었습니다.
  • 유형별 민감도 차이: 모델은 단순 시각 객체 식별보다 인지적 추론이 필요한 Entity Knowledge 작업에서 외부 지식 충돌에 더 민감하게 반응하여 상대적으로 낮은 OAR을 보였습니다.
  • 모델 규모와 내부 지식 고착화: 파라미터 규모가 클수록 훈련 데이터의 방대한 영향으로 인해 내부 지식을 고수하려는 경향(OAR)이 더 뚜렷하게 상승하는 경향을 보였습니다.
  • 충돌 감지 능력 확인: 거시적 및 미시적 환경 모두에서 지식 충돌 발생 여부를 평균 75%에서 79% 수준의 정확도로 감지해냈습니다.

Limitations and Future Work

  • 합성 데이터의 한계: LLM 편집을 통해 생성된 counterfactual 데이터를 사용했기 때문에, 실제 세계(real-world) 데이터의 자연스러운 분포와는 차이가 존재합니다.
  • 연구의 잠재력: 향후 실제 세계의 자연스러운 다중모달 지식 충돌 데이터를 수집하여 벤치마크를 확장해야 하며, 이를 통해 LMM이 외부 정보를 더 유연하게 수용할 수 있는 아키텍처 혁신이 필요함을 시사합니다.

Overall Summary

이 논문은 LMM이 외부 정보를 활용할 때 발생하는 지식 충돌 문제를 평가하기 위한 MMKC-Bench를 제안하며, 다중모달 환경에서의 독특한 충돌 특성을 규명했습니다. 실험 결과, LMM은 외부 증거보다 내부 파라미터 지식을 고수하려는 경향이 매우 강하며, 특히 모델 규모가 커질수록 이러한 '고집'이 심화된다는 점을 입증했습니다. 이는 향후 다중모달 RAG 시스템이 최신 정보를 신뢰성 있게 통합하기 위해 해결해야 할 구조적 과제를 명확히 제시했다는 점에서 큰 의의가 있습니다.


쉬운 설명

이 논문은 AI에게 "원래 알던 지식"과 "새로 보여준 자료"가 다를 때 누구를 더 믿는지 시험해본 연구예요. 결과는? 똑똑한 다중모달 AI(LMM)일수록 눈앞의 새 자료보다는 자기 머릿속의 옛날 지식을 훨씬 더 강력하게 고집한다는 사실을 알아냈죠.

혹시 이 논문에서 다룬 모델들 중 특정 아키텍처(Qwen2.5-VL 등)의 구체적인 구현 방식이나 다른 실험 수치가 더 궁금하신가요? 말씀해 주시면 바로 찾아봐 드릴게요!

 

 

 

 

더보기

 

  • 입력 텍스트를 아무리 그럴싸하게 거짓으로 조작해서 주입해도,
  • 다중모달 AI는 자기 눈앞에 있는 원본 이미지(시각 정보)와 자신의 머릿속 사전 지식(파라미터 메모리)을 훨씬 더 강하게 믿어버린다.