AI바라기의 인공지능

VLM : 논문 리뷰 : SELF-CORRECTING DECODING WITH GENERATIVEFEEDBACK FOR MITIGATING HALLUCINATIONS INLARGE VISION-LANGUAGE MODELS 본문

논문리뷰

VLM : 논문 리뷰 : SELF-CORRECTING DECODING WITH GENERATIVEFEEDBACK FOR MITIGATING HALLUCINATIONS INLARGE VISION-LANGUAGE MODELS

AI바라기 2025. 2. 13. 15:19

Overall Summary

본 논문은 LVLMs에서 hallucinations을 완화하기 위해 text-to-image generative feedback을 활용하는 새로운 training-free 알고리즘인 DeGF를 소개. DeGF는 auxiliary visual reference를 생성하고 decoding 중에 self-correction에 사용하여 response accuracy를 recursively 향상시킴. 이 접근 방식은 다양한 benchmarks에서 state-of-the-art methods보다 일관된 개선을 보여주며, LVLM 신뢰성 향상을 위한 generative feedback의 잠재력을 보여줌. 이 연구는 더 신뢰할 수 있고 정확한 multi-modal AI systems 개발을 향한 중요한 진전.

쉬운 설명:

이 논문은 사람이 글을 쓰고 그림을 그리면서, 혹시 글 내용이 그림과 맞지 않는 부분이 있는지 스스로 검토하고 수정하는 것과 유사. LVLM이 생성한 초기 텍스트 응답을 기반으로, 별도의 image generation model (Stable Diffusion)을 이용해 이미지를 생성. 이 이미지는 "참고 그림" 역할을 하며, 원래 이미지와 "참고 그림"을 비교하여 LVLM이 생성한 텍스트에 오류(hallucination)가 있는지 확인. 오류가 있다면 다음 토큰(단어)을 생성할 때 수정하는 방식으로 더 정확한 응답을 만듬.

 

 

Self-Correcting Decoding with Generative Feedback (DeGF) 논문 학습 노트 (한국어 기반)

Purpose of the Paper

  • 문제점: Large Vision-Language Models (LVLMs)는 종종 hallucinations (시각적 입력과 일치하지 않는 텍스트 생성)을 일으키는 경향이 있음.
  • 목표: 추가적인 training 없이, text-to-image generative models을 활용하여 LVLMs의 hallucinations을 완화하는 것.
  • 새로운 접근 방식: Text-to-image generation을 image-conditioned response generation의 역과정으로 사용하여, decoding 과정에서 LVLM 출력을 수정하는 self-feedback을 제공.
  • 동기: 기존 LVLM의 hallucination 문제는 language priors에 대한 과도한 의존, 또는 visual deficiencies에서 발생. Contrastive decoding-based methods는 language bias에는 효과적이지만 visual deficiencies로 인한 hallucination에는 취약.

Key Contributions

  • Self-Correction을 위한 Generative Feedback: LVLMs에서 hallucinations을 완화하기 위해 text-to-image generative feedback을 response 및 token 레벨 모두에서 self-correcting 메커니즘으로 활용한 최초의 연구.
  • DeGF (Decoding with Generative Feedback): 새로운 training-free decoding 알고리즘.
    • Text-to-image model (예: Stable Diffusion)을 사용하여 초기 LVLM response로부터 auxiliary visual reference (image)를 생성.
    • 이 이미지를 self-feedback으로 사용하여 complementary 또는 contrastive decoding을 통해 초기 response를 검증하고 수정.
    • Complementary decoding: 두 predictions가 aligned and both images agree, enhance original prediction.
    • Contrastive decoding: significant discrepancy, indicating original prediction is likely hallucinatory.
  • Novelty: Decoding 중에 text-to-image models로부터의 feedback을 recursively 통합하여 LVLM response accuracy를 향상시키며, model modification은 불필요.

Experimental Highlights

  • Benchmarks: POPE, CHAIR, MME-Hallucination, MMBench, MMVP, LLaVA-Bench 등 6개 benchmarks에서 평가.
  • Models: LLaVA-1.5, InstructBLIP, Qwen-VL에서 테스트.
  • Metrics: Accuracy, precision, recall, F1 score, CHAIR scores, MME scores, GPT-4V-aided evaluation (accuracy and detailedness).
  • Baselines: Regular decoding, VCD, M3ID, RITUAL, Woodpecker, HALC, DoLa, OPERA와 비교.
  • 주요 결과:
    • 다양한 유형의 hallucinations을 완화하는 데 있어 6개 benchmarks 모두에서 일관되게 state-of-the-art methods보다 우수한 성능을 보임.
    • POPE에서 accuracy, precision, F1 score의 상당한 향상.
    • Open-ended captioning에서 CHAIR scores 감소 및 recall/length 향상.
    • 향상된 general multi-modal understanding capabilities (MMBench에서 우수한 성능).
    • GPT-4V-aided evaluation 결과, responses의 accuracy and detailedness 향상.

Limitations and Future Work

  • Computational Cost: Pre-trained text-to-image models에 의존하여 computational complexity가 추가되고 response generation 속도가 느려질 수 있음.
    • Future Work: 보다 효율적인 diffusion-based models 및 strategies (initial response length 제한, inference steps 감소) 탐색.
  • Generalizability: 주로 특정 LVLMs 및 benchmarks에서 평가됨.
    • Future Work: 더 넓은 범위의 LVLMs (예: MiniGPT-4, mPLUG-Owl2) 및 benchmarks (예: R-Bench, ROPE)로 평가 확장.
  • Direct Integration: 현재는 decoding 중에 generative feedback을 사용.
    • Future Work: Generative feedback을 instruction tuning phase에 직접 통합하는 방안 연구.

 

 

 

 

ABSTRACT

최근 Large Vision-Language Models (LVLMs)는 멀티모달 task에서 놀라운 성능을 보여주었지만, 주어진 visual input과 일치하지 않는 환각적인 텍스트 응답을 생성하는 경향이 있어 실제 시나리오에서의 실용적인 적용을 제한합니다. 이 연구에서 우리는 text-to-image 생성 프로세스가 LVLMs에서 image-conditioned response 생성의 역과정이라는 관찰에서 영감을 받아, text-to-image generative models을 활용하여 LVLMs의 hallucination을 완화하는 가능성을 탐구합니다. 우리는 generative models이 response 및 token 수준 모두에서 hallucination을 완화하기 위한 귀중한 self-feedback을 제공할 수 있음을 발견했습니다. 이러한 통찰력을 바탕으로, 우리는 Generative Feedback을 사용한 self-correcting Decoding (DeGF)를 소개합니다. DeGF는 text-to-image generative models의 feedback을 decoding 프로세스에 통합하여 LVLMs의 hallucination을 효과적으로 완화하는 새로운 training-free 알고리즘입니다. 구체적으로, DeGF는 LVLMs에 의해 생성된 초기 response로부터 이미지를 생성하며, 이는 보조 visual reference 역할을 하고 self-feedback을 제공하여 상호 보완적이거나 대조적인 decoding을 통해 초기 response를 확인하고 수정합니다. 광범위한 실험 결과는 6개의 benchmark에서 state-of-the-art methods를 지속적으로 능가하며 다양한 유형의 hallucination을 완화하는 데 있어 우리 접근 방식의 효과를 입증합니다.

 

 

 

1 INTRODUCTION

더보기

Large Vision-Language Models (LVLMs)는 powerful Large Language Models (LLMs)의 capabilities를 확장하여 visual inputs을 통합함으로써 image captioning 및 visual question answering과 같은 다양한 multi-modal tasks에서 놀라운 성능을 보여주었습니다. 이러한 models은 visual 및 textual modalities를 모두 해석하는 능력에도 불구하고, LVLMs가 visual input과 일치하지 않는 잘못된 응답을 생성하는 hallucination으로 인해 어려움을 겪는 경우가 많습니다. 이러한 잘못된 정보의 가능성은 심각한 우려를 야기하여 models의 신뢰성을 제한하고 실제 시나리오에서의 광범위한 배포를 제한합니다.

최근 연구에 따르면 LVLMs에서 hallucination의 주요 원인은 biased training sets로 인한 language priors에 대한 과도한 의존이며, 이는 response generation에서 visual content를 무시할 수 있습니다. 이에 대응하여, 추가적인 training을 직접 도입하여 이러한 hallucination을 감지하고 완화하기 위한 다양한 전략이 개발되었으며, 이는 과도한 의존성을 줄이는 데 유망한 결과를 보여주었습니다. 그러나 추가 data와 비용이 많이 드는 training 프로세스의 필요성은 downstream tasks에서의 배포를 방해합니다. 더 최근에는 decoding process에 개입하여 LVLMs의 hallucination 문제를 해결하기 위한 새로운 방법 paradigm이 등장했습니다. 이 중에서, 최근 training-free contrastive decoding-based methods는 original visual input에서 파생된 token predictions을 no/distorted visual input, disturbed instructions, 또는 premature layers와 같은 bias-inducing counterparts와 대조함으로써 원치 않는 hallucination을 완화하는 데 효과적임을 입증했습니다.

이러한 contrastive decoding-based methods는 language priors에서 발생하는 hallucination을 효과적으로 완화하지만, 우리는 hallucination이 LVLMs의 visual deficiencies에서 비롯되는 등 language bias를 넘어서 발생할 수도 있음을 인지합니다. 예를 들어, counting hallucinations에서 language는 count 정보를 암시하지 않습니다. 대신, miscounts는 주로 LVLMs의 visual recognition errors에서 발생합니다. 복잡한 장면에는 모호한 위치에 유사한 objects가 많이 포함되어 있어 LVLMs를 혼란스럽게 하여 잘못된 visual understanding과 결과적으로 hallucinated answers를 초래할 수 있기 때문입니다. 따라서, 우리는 현재의 contrastive decoding-based methods가 다양한 유형의 hallucinations에 대해 효과적으로 일반화하는 데 어려움을 겪을 수 있다고 주장합니다.

본 연구에서는 강력한 text-to-image generative models (예: Stable Diffusion)을 활용하여 LVLMs의 다양한 유형의 hallucinations을 완화할 수 있는 가능성을 탐구합니다. 우리의 연구는 단순하지만 직관적인 가설을 기반으로 합니다. LVLM에 visual input과 textual prompt가 주어지면, original image를 조건으로 생성된 response가 정확하고 non-hallucinatory하다면, text-to-image generative model은 이 과정을 역전시켜 해당 response로부터 유사한 이미지를 생성할 수 있어야 합니다. 또는 original image와 response에서 생성된 이미지 사이에 불일치가 있는 경우, 이 차이는 귀중한 self-feedback으로 작용하여 decoding process를 안내하여 초기 response의 잠재적 hallucinations을 수정할 수 있습니다. 이 가설을 검증하기 위해 우리는 실증적 연구를 수행하여(섹션 3.2) generative models이 response 및 token 수준 모두에서 hallucinations을 완화하기 위한 귀중한 self-feedback을 제공할 수 있음을 보여줍니다.

이러한 통찰력을 바탕으로, 우리는 self-correcting Decoding with Generative Feedback (DeGF)를 소개합니다. DeGF는 text-to-image generative models의 feedback을 효과적으로 통합하여 LVLM responses의 정확도를 재귀적으로 향상시키는 새로운 training-free decoding algorithm입니다. 구체적으로, 각 instance에 대해 초기 response를 기반으로 새 이미지를 생성하며, 이는 초기 output의 정확성을 평가하고 확인하기 위한 auxiliary visual reference 역할을 합니다. 우리는 original 및 이 reference의 predictions을 auxiliary visual reference를 기반으로 강화하거나 대조하는 self-correcting decoding을 제안하며, 두 predictions 간의 divergence 정도에 따라 초기 LVLM response를 확인하거나 수정합니다. 이러한 추가 visual reference 및 generative feedback을 통합함으로써 LVLMs는 향상된 visual insights를 얻고 초기 response를 확인하여 text outputs에서 정확한 visual details를 보장할 수 있습니다. 그림 1에서 우리는 generative feedback을 우리 approach에 통합하면 object existence, visual appearance, counting 등을 포함한 다양한 유형의 hallucinations을 줄일 수 있음을 보여줍니다. 우리가 아는 한, 우리는 text-to-image generative feedback을 LVLMs의 hallucinations을 완화하기 위한 self-correcting mechanism으로 사용하는 것을 탐구하는 최초의 연구입니다.

DeGF의 효과는 LLaVA-1.5, InstructBLIP 및 Qwen-VL에서 POPE, CHAIR, MME-Hallucination, MMBench, MMVP 및 LLaVA-Bench의 6개 benchmarks에 대해 평가됩니다. 광범위한 실험 결과는 LVLMs에서 다양한 유형의 hallucinations을 완화하는 데 있어 DeGF의 효과를 입증합니다. LLaVA-Bench에 대한 qualitative case studies 및 GPT-4V-aided evaluation은 우리의 approach가 LVLM responses의 정확성과 상세함을 모두 향상시킨다는 것을 보여줍니다.

이 논문의 기여는 다음과 같이 요약됩니다.

  • 우리는 LVLMs에서 hallucinations을 완화하는 데 있어 text-to-image generative models의 잠재력을 조사하고 text-to-image generative models이 response 및 token 수준 모두에서 hallucinations을 완화하기 위한 귀중한 self-feedback을 제공할 수 있음을 보여줍니다.
  • 우리는 self-correcting Decoding with Generative Feedback (DeGF)를 제안합니다. DeGF는 complementary/contrastive decoding과 함께 text-to-image generative models의 feedback을 통합하여 responses의 정확도를 재귀적으로 향상시키는 LVLMs를 위한 새로운 training-free decoding algorithm입니다.
  • 6개의 benchmarks에 대한 광범위한 실험 평가는 우리의 DeGF가 LVLMs에서 hallucinations을 효과적으로 완화하는 데 있어 state-of-the-art approaches를 지속적으로 능가함을 보여줍니다.

 

 

Figure 1

Generative models은 초기 response에서 다양한 유형의 hallucinations을 visualize하고 수정하는 데 도움을 줄 수 있습니다. 첫 번째 query에서, 우리는 LLaVA-Bench의 두 가지 예시에 대한 captions을 생성하기 위해 "Describe this image in detail"이라는 prompt와 함께 LLaVA-1.5를 제공합니다. 초기 response를 기반으로 Stable Diffusion XL을 활용하여 새로운 image v'을 생성합니다. 이는 hallucinations을 효과적으로 강조하고 귀중한 self-feedback을 제공합니다. 두 번째 query에서, 우리의 approach는 original image v와 generated image v'을 모두 decoding process에 통합하여 feedback을 사용하여 다양한 유형의 hallucinations을 성공적으로 수정합니다.

 

 

 

 

INTRODUCTION 정리 노트 (AI 연구자 대상)

문제 제기:

  • LVLMs는 multimodal task에서 뛰어난 성능을 보이지만, visual input과 불일치하는 hallucination response를 생성하는 경향이 있음. 이는 real-world application에 큰 걸림돌이 됨.
  • 기존 연구들은 hallucination의 원인을 language prior에 대한 과도한 의존으로 보고, 추가적인 training을 통해 이를 해결하려 했음. 하지만 이는 data 및 cost 측면에서 비효율적임.
  • 최근 contrastive decoding-based methods가 등장했지만, visual deficiency 등 language bias 외의 다른 원인으로 발생하는 hallucination에는 효과적이지 않을 수 있음. (특히 counting hallucination처럼 visual recognition error가 주 원인인 경우)

본 논문의 핵심 아이디어:

  • Text-to-image generative models (e.g., Stable Diffusion)을 활용하여 LVLMs의 hallucination을 완화.
    • 핵심 가설: LVLM의 image-conditioned response generation은 text-to-image generation의 역과정. 따라서, 정확한 response라면 text-to-image model이 original image와 유사한 이미지를 생성할 수 있어야 함.
    • Original image와 response로부터 생성된 image 간의 불일치는 self-feedback으로 작용하여 decoding process를 교정.
  • DeGF (Decoding with Generative Feedback) 알고리즘 제안:
    • Training-free decoding algorithm.
    • LVLM의 initial response를 기반으로 text-to-image model을 사용하여 새로운 이미지를 생성 (auxiliary visual reference).
    • Original prediction과 auxiliary visual reference를 비교하여 complementary/contrastive decoding을 수행, initial response를 refine.
    • Hallucination 유형 (object existence, visual appearance, counting 등)에 관계없이 효과적.

기존 연구와의 차별성:

  • Text-to-image generative feedback을 self-correcting mechanism으로 활용한 최초의 연구.
  • Language bias 뿐만 아니라 visual deficiency 등 다양한 원인의 hallucination에 대응 가능.
  • Training-free approach로, downstream task에 쉽게 적용 가능.

실험 결과:

  • 6개 benchmark (POPE, CHAIR, MME-Hallucination, MMBench, MMVP, LLaVA-Bench)에서 state-of-the-art methods를 능가하는 성능 입증.
  • Qualitative case studies 및 GPT-4V-aided evaluation을 통해 response의 정확성과 detail 향상 확인.

쉬운 설명 :

이 논문은 쉽게 말해, "그림을 보고 설명하는 AI" (LVLM)가 엉뚱한 소리 (hallucination)를 하는 문제를 해결하려고 합니다. 기존에는 AI가 엉뚱한 소리를 하는 이유가 "글(text)"에 너무 의존하기 때문이라고 생각해서 "글"을 고치는 방식으로 문제를 해결하려고 했습니다.

하지만 이 논문에서는 "그림을 만드는 AI" (text-to-image generative model)를 활용해서 "그림을 보고 설명하는 AI"가 스스로 엉뚱한 소리를 하는지 깨닫고 고치도록 만듭니다.

어떻게?

  1. "그림을 보고 설명하는 AI"에게 그림을 보여주고 설명을 하라고 합니다 (initial response).
  2. "그림을 만드는 AI"에게 1번에서 나온 설명을 바탕으로 그림을 그리라고 합니다.
  3. 원래 그림과 "그림을 만드는 AI"가 그린 그림을 비교합니다.
  4. 만약 두 그림이 많이 다르면, "그림을 보고 설명하는 AI"가 엉뚱한 소리를 했을 가능성이 높겠죠?
  5. 이 차이를 이용해서 "그림을 보고 설명하는 AI"가 설명을 고치도록 (decoding) 유도합니다.

이렇게 하면 AI가 스스로 실수를 깨닫고 더 정확한 설명을 할 수 있게 되는 거죠! 게다가 이 방법은 AI를 추가로 학습시킬 필요가 없어서 (training-free) 효율적입니다.

 
 

 

2 RELATED WORK

더보기

Hallucination in LVLMs

Autoregressive LLMs의 발전과 함께, 연구자들은 이러한 강력한 models을 visual input을 처리하도록 확장하여 LVLMs 개발로 이어졌습니다. 이러한 models은 일반적으로 modality alignment module을 train하여 visual tokens을 LLM의 textual embedding space에 project하며, visual question answering 및 image captioning과 같은 다양한 multi-modal tasks에서 인상적인 성능을 보여줍니다. 그러나 LVLMs는 visual content와 생성된 textual response 사이에 모순이 발생하는 hallucinations에 취약합니다.

LVLMs의 hallucinations을 완화하기 위해 초기 연구에서는 reinforcement learning from human feedback (RLHF), auxiliary supervision 적용, negative 또는 noisy data 통합, correction을 위한 post-hoc revisors training 등 다양한 접근 방식을 도입했습니다. 유망한 결과에도 불구하고 이러한 methods는 추가 data 및 비용이 많이 드는 training process에 의존하기 때문에 실용성이 부족한 경우가 많습니다. 이를 해결하기 위해 다른 연구에서는 기존 LVLMs에 원활하게 통합될 수 있는 training-free methods에 중점을 둡니다. 이러한 methods에는 contrastive decoding 및 auxiliary information을 사용한 guided decoding이 포함됩니다. 이 연구에서 우리는 text-to-image generative feedback을 통합하여 LVLM response의 정확도를 재귀적으로 향상시키는 새로운 training-free approach를 제시합니다. 우리가 아는 한, 우리는 text-to-image generative models의 feedback을 효과적으로 활용하여 LVLMs의 hallucinations을 완화하는 최초의 연구입니다.

Text-to-Image Synthesis

Text-to-image synthesis는 textual descriptions에서 realistic images를 생성하는 것을 목표로 합니다. 최근 몇 년 동안 deep generative models의 출현으로 이 분야에서 상당한 발전이 이루어졌습니다. 이러한 발전에는 Generative Adversarial Networks (GAN), autoregressive models 및 diffusion models가 포함됩니다. 이 중 diffusion-based methods는 synthesis process에 대한 fine-grained control을 통해 high-quality, detailed images를 생성하는 능력으로 인해 특히 두드러졌습니다. LAION과 같은 large-scale text-image datasets에 대해 pre-trained된 diffusion-based methods는 강력한 vision-language alignment를 입증하여 classification 및 semantic segmentation과 같은 downstream tasks에 유용합니다.

더 최근에는 text-to-image generative models을 통합하여 LVLMs의 fine-grained image recognition을 향상시키기 위해 Stable Diffusion XL을 사용하여 유사한 images 쌍을 생성하는 Img-Diff dataset을 도입했습니다. 그들의 결과는 이 추가 data로 LVLMs를 fine-tuning하면 여러 VQA tasks에서 성능이 향상됨을 보여줍니다. 이와 대조적으로, 본 연구에서는 pre-trained diffusion model을 직접 활용하여 decoding process에서 LVLMs의 생성된 responses를 refine하기 위한 귀중한 self-feedback을 제공하여 underlying LVLMs를 수정하지 않고도 model response의 정확성과 consistency를 동적으로 향상시킵니다.

 

2. RELATED WORK 정리 노트 (AI 연구자 대상)

Hallucination in LVLMs:

  • LVLMs는 hallucination 문제가 고질적임.
  • 기존 해결 방법:
    • RLHF, auxiliary supervision, negative/noisy data 활용, post-hoc revisor training 등: 추가 data/training 필요 → 비효율적.
    • Contrastive decoding, guided decoding: training-free 방식이지만, 본 논문과는 다른 접근 방식.
  • 본 논문의 차별점:
    • Text-to-image generative model의 feedback을 활용하는 최초의 연구.
    • Training-free 방식으로 LVLM response의 정확도를 재귀적으로 향상.

Text-to-Image Synthesis:

  • Deep generative models (GANs, autoregressive models, diffusion models) 발전으로 text-to-image synthesis 분야 크게 발전.
  • Diffusion models: high-quality, detailed image 생성 능력, fine-grained control 가능.
    • Large-scale text-image datasets (LAION)에 pre-trained 되어 strong vision-language alignment 보임.
  • 최근 연구 동향:
    • text-to-image model을 활용해 LVLM의 fine-grained image recognition 능력 향상 (Img-Diff dataset, Stable Diffusion XL 활용).
  • 본 논문과의 차이점:
  • (Jiao et al., 2024) 연구는 LVLM fine-tuning에 text-to-image model 활용.
  • 본 연구는 pre-trained diffusion model을 decoding process에서 self-feedback 제공에 활용 (LVLM 수정 X).

쉬운 설명:

Hallucination in LVLMs:

  • "그림 보고 설명하는 AI" (LVLM)는 엉뚱한 소리(hallucination)를 자주 하는 문제가 있어요.
  • 기존에는 이 문제를 해결하려고 AI를 더 가르치거나(training), 다른 정보를 주는 방법을 썼는데, 이건 좀 귀찮고 번거로웠죠.
  • 이 논문에서는 "그림 그리는 AI"를 이용해서 "그림 보고 설명하는 AI"가 스스로 틀린 부분을 찾고 고치게 만드는 방법을 씁니다. 이게 핵심!

Text-to-Image Synthesis:

  • "글 보고 그림 그리는 AI" (text-to-image synthesis) 기술이 엄청 발전했어요. 특히 diffusion models라는 게 짱!
  • 이 "그림 그리는 AI"들은 엄청난 양의 글과 그림 데이터를 미리 학습해서, 글과 그림 사이의 관계를 잘 이해하고 있어요.
  • 다른 연구에서는 이 "그림 그리는 AI"를 이용해서 "그림 보고 설명하는 AI"를 더 똑똑하게 만들려고 했어요.
  • 하지만 이 논문에서는 좀 다르게, "그림 그리는 AI"가 "그림 보고 설명하는 AI"의 답변을 듣고, 그걸 바탕으로 그림을 그려서, 원래 그림이랑 비교해보고 틀린 부분을 알려주는 역할을 하게 합니다. ("그림 보고 설명하는 AI" 자체는 그대로 두고!)

 

3 METHOD

 

 

3 METHOD

더보기

이 연구에서 우리는 Figure 2에서 볼 수 있듯이, text-to-image generative feedback을 사용하여 LVLM response의 정확도를 재귀적으로 향상시키는 새로운 training-free algorithm인 DeGF를 제시합니다.

3.1 PRELIMINARY: DECODING OF LVLMs

우리는 θ로 parameterize된 LVLM을 고려합니다. 이 LVLM은 input image v와 textual query x를 처리하여 autoregressively fluent sequence of textual responses y를 생성하는 것을 목표로 합니다. visual input v는 먼저 vision encoder에 의해 처리된 다음 vision-language alignment module (예: Q-Former 또는 linear projection)을 사용하여 textual input space 내의 visual tokens으로 projected됩니다. 이러한 visual tokens은 textual query tokens과 함께 language encoder에 입력되어 conditioned autoregressive generation을 수행합니다. 우리는 autoregressive generation process를 다음과 같이 나타냅니다.

yt ∼ pθ(yt|v, x, y<t) ∝ exp fθ(yt|v, x, y<t), (1)

여기서 yt는 time step t에서의 token을 나타내고, y<t ≜ [y0, . . . , yt−1]는 time step t 이전에 생성된 tokens의 sequence를 나타내며, fθ는 textual tokens V의 vocabulary에 대해 LVLM에 의해 생성된 logit distribution (unnormalized log-probabilities)입니다. 각 step t ∈ [0, . . . , T]에서 response token yt는 probability distribution pθ(yt|v, x, y<t)에서 sampled되며, 이 generative process는 response sequence y ≜ [y0, . . . , yT]가 완료될 때까지 반복적으로 계속됩니다.

3.2 VISUAL REFERENCE GENERATION

우리 method에서는 diffusion models의 generative feedback을 통합하여 decoding process를 guide합니다. 구체적으로, visual input v와 textual query x가 주어지면 먼저 LVLMs에게 initial response τ를 생성하도록 prompt합니다. 이 response는 visual input에 대한 관련 descriptions을 포함하며 잠재적인 hallucinations을 포함할 수 있습니다. 그 후, pre-trained diffusion model G를 활용하여 initial response를 기반으로 새로운 image v'을 생성합니다.

v' = G(τ, xT), where xT ∼ N(0, I). (2)

여기서 xT는 standard Gaussian distribution에서 sample된 것으로, diffusion model에 대한 initial noisy input 역할을 합니다. 이 pure noise image xT에서 시작하여 diffusion model G는 T steps의 denoising process를 반복적으로 적용하여 xT, xT-1, ..., x0을 얻습니다. 여기서 final output x0은 final generated image v'에 해당합니다. 이 diffusion process를 통해 generative model은 initial response를 visualize하여 잠재적인 hallucinations을 완화하고 보다 정확하고 consistent한 output을 생성하는 데 도움이 되는 visual reference를 제공합니다.

Text-to-Image Generative Models의 Hallucination 반영 효과. 우리는 Figure 3에서 볼 수 있듯이 실증적 연구를 통해 generative models이 hallucinations을 반영하는 효과를 검증합니다.

  1. text-to-image generative models이 response 및 token 수준 모두에서 hallucinations을 완화하기 위한 귀중한 self-feedback을 제공할 수 있음을 보여주는 실험 결과를 제공합니다. 우리는 다음 두 가지 실험을 수행합니다. (1) LLaVA1.5가 제공한 initial caption을 기반으로 diffusion model을 사용하여 image v'을 생성하고 OpenCLIP ViTH/14 backbone을 사용하여 original image v와 generated image v' 사이의 CLIP image similarities를 계산합니다. 이전 연구에 따라, 우리는 생성된 captions에서 object hallucination을 evaluate하기 위해 MS-COCO에 대한 rule-based metric인 CHAIR benchmark를 사용합니다. 우리는 전체 initial response에서 object hallucination rates를 evaluate하는 각 CLIP similarity bin 내의 average per-instance metric CHAIRI를 보고합니다. Figure 3 (Left)에서 볼 수 있듯이 hallucination rates와 CLIP similarities 사이에 명확한 negative correlation이 관찰됩니다 (correlation coefficient ρ = -0.63). 이는 original image와 generated image 간의 similarity가 낮을수록 response level에서 hallucinations rates가 더 높다는 것을 나타냅니다. (2) 마찬가지로, POPE benchmark의 각 instance에 대해 LLaVA1.5가 제공한 initial response를 기반으로 image v'을 생성합니다. Figure 3 (Right)에서는 hallucinatory 및 non-hallucinatory tokens에 대한 두 images, 즉 pθ(yt|v, x, y<t) 및 pθ(yt|v', x, y<t)에 대한 predicted probabilities 간의 Jensen-Shannon (JS) divergence의 density plot을 제시합니다. 결과는 JS divergence의 density가 long-tail distribution을 따르며, hallucinatory tokens이 significantly longer tails와 higher JS divergence를 나타냄을 보여줍니다. 이는 original image와 generated image에서 파생된 probabilities 간의 JS divergence가 token level의 hallucinations에 잘 해당함을 보여줍니다. 이러한 observations는 generative models이 hallucinations을 반영하는 효과에 대한 insights를 제공하고 decoding process 중에 generative feedback을 통합하도록 motivate합니다.

3.3 SELF-CORRECTING DECODING WITH GENERATIVE FEEDBACK

이 섹션에서는 decoding process 중에 generative feedback을 효과적으로 활용하여 잠재적인 hallucinations을 완화하는 데 중점을 둡니다. 구체적으로, 우리는 두 개의 predicted probability distributions 간에 측정된 divergence를 기반으로 각 generated token에 대한 logits를 선택적으로 강화하거나 대조하여 initial response를 확인하거나 수정하기 위해 generative feedback을 활용하는 self-correcting decoding approach를 제안합니다.

구체적으로, 특정 token yt를 predict하기 위해 LVLMs를 활용하여 original image v 또는 synthesized visual reference v'을 조건으로 하는 두 개의 output distributions를 생성합니다.

pθ(yt|v, x, y<t) = Softmax[fθ(yt|v, x, y<t))], pθ(yt|v', x, y<t) = Softmax[fθ(yt|v', x, y<t))]. (3)

각 timestep t에서 Jensen-Shannon (JS) divergence를 기반으로 다음 distance metric을 정의하고 계산하여 두 next-token probability distributions 간의 discrepancy를 quantify합니다.

dt(v, v') = DJS(pθ(yt|v, x, y<t) || pθ(yt|v', x, y<t))), where DJS(P || Q) = (1/2)DKL(P || M) + (1/2)DKL(Q || M), and M = (1/2)(P + Q). (4)

여기서 DKL은 Kullback-Leibler (KL) divergence를 나타냅니다. dt(v, v') ∈ [0, 1]은 symmetric metric이며, model이 각 subsequent token을 predict할 때 두 distributions가 얼마나 closely align되는지에 대한 fine-grained measure를 제공합니다.

우리는 token-level generative feedback을 기반으로 두 가지 시나리오를 고려합니다. (1) 두 predictions가 aligned되고 두 images가 특정 token prediction에 동의하는 경우 original prediction이 정확하다고 확인하고 generated image의 auxiliary prediction을 original prediction과 결합하여 enhancement할 수 있습니다 (complementary decoding). (2) 반대로, predictions 사이에 significant discrepancy가 있는 경우, 이는 original prediction이 hallucinatory일 가능성이 높다는 것을 나타내며, generated visual input을 contrasting reference로 사용하여 initial next-token prediction을 refine함으로써 original response를 revise합니다 (contrastive decoding). 이를 구현하기 위해 distance threshold γ를 도입하고 다음과 같이 두 가지 해당 decoding approaches를 개발합니다.

yt ∼ pθ(yt) = ( Softmax[fθ(yt|v, x, y<t) + α1 * fθ(yt|v', x, y<t))], if dt(v, v') < γ; Softmax[(1 + α2) * fθ(yt|v, x, y<t) - α2 * fθ(yt|v', x, y<t))], if dt(v, v') ≥ γ, ) (5)

여기서 α1 및 α2는 final prediction에서 generated visual reference의 influence를 control하는 hyperparameters입니다. α1 = 0 또는 α2 = 0으로 설정하면 이 process는 regular decoding으로 degrade됩니다. final generated token yt는 probabilities pθ(yt)를 갖는 multinomial distribution에서 sampled됩니다.

 

3. METHOD 정리 노트 (AI 연구자 대상)

핵심 알고리즘: DeGF (Decoding with Generative Feedback)

  • Training-free, LVLM response accuracy를 재귀적으로 향상.
  • Text-to-image generative feedback 활용 (Figure 2).

3.1 Preliminary: Decoding of LVLMs

  • LVLM은 visual input (v) + textual query (x) → textual response (y) 생성 (autoregressive).
  • Standard decoding process 설명 (Equation 1).

3.2 Visual Reference Generation

  • 핵심: LVLM의 initial response (τ)를 기반으로 text-to-image model (diffusion model G)을 사용하여 새로운 image (v') 생성 (Equation 2).
    • v'은 auxiliary visual reference 역할.
    • Hallucination 완화 및 output consistency 향상.
  • Generative model의 hallucination 반영 효과 검증 (Figure 3):
    • Response-level: Original image와 generated image 간 CLIP similarity와 hallucination rate 간 negative correlation 확인 (ρ = -0.63).
    • Token-level: Hallucinatory/non-hallucinatory token에 대한 predicted probabilities (original vs. generated image) 간 JS divergence 차이 확인. Hallucinatory token에서 더 큰 divergence.

3.3 Self-Correcting Decoding with Generative Feedback

  • 핵심: Generative feedback을 활용하여 decoding process에서 각 token 생성 시 initial response를 confirm 또는 revise.
  • Original image (v)와 generated image (v') 각각에 대한 output distributions 생성 (Equation 3).
  • 두 distributions 간 discrepancy 측정: Jensen-Shannon (JS) divergence 기반 distance metric (dt(v, v')) (Equation 4).
  • Distance threshold (γ) 기반 두 가지 decoding approach:
    • dt(v, v') < γ (aligned): Complementary decoding. Original prediction + auxiliary prediction (enhancement) (Equation 5, top).
    • dt(v, v') ≥ γ (discrepancy): Contrastive decoding. Original prediction - auxiliary prediction (refinement) (Equation 5, bottom).
  • Hyperparameters (α1, α2): Generated visual reference의 influence 조절.

쉬운 설명:

DeGF 알고리즘:

  • "그림 보고 설명하는 AI" (LVLM)가 엉뚱한 소리를 덜 하게 만드는 마법!
  • "그림 그리는 AI" (text-to-image model)를 조수로 활용.

과정:

  1. 준비: LVLM에게 그림과 질문을 주고, 답변(initial response)을 받아요.
  2. 조수 투입: "그림 그리는 AI"에게 LVLM의 답변을 주고, 그림을 그리게 해요 (visual reference).
  3. 검토:
    • 원래 그림과 "그림 그리는 AI"가 그린 그림을 비교해서, 답변이 얼마나 정확한지 점수(JS divergence)를 매겨요.
    • 점수가 낮으면 (두 그림이 비슷하면) LVLM이 잘 하고 있다고 판단하고, 원래 답변을 좀 더 강화(complementary decoding)해줘요.
    • 점수가 높으면 (두 그림이 다르면) LVLM이 엉뚱한 소리를 하고 있다고 판단하고, 원래 답변에서 "그림 그리는 AI"가 그린 그림 정보를 빼서(contrastive decoding) 답변을 수정해요.
  4. 반복: 이 과정을 답변이 끝날 때까지 반복해서, 점점 더 정확한 답변을 만들어냅니다!

핵심:

  • "그림 그리는 AI"가 "그림 보고 설명하는 AI"의 답변을 그림으로 바꿔서, 틀린 부분을 쉽게 찾고 고칠 수 있게 도와줘요.
  • AI를 추가로 학습시킬 필요 없이 (training-free), 바로 적용할 수 있어요.

 

 

 

 

 

 

 

 

 

 

원본이미지에 대한 캡션 생성
캡션으로 디퓨전을 가지고 이미지 생성.
두 이미지를 비교 후 클립 유사도를 비교 해서 할루시네이션 탐지.
할루시네이션이 있다면 두개의 이미지 모두 독립적인 디코딩 진행하면서 매 토큰마다 js 다이버 전스를 계산, 그 결과를 바탕으로 로짓을 빼거나 더해서 최종 토큰 생성에 사용.