AI바라기의 인공지능

VLM : 논문리뷰 : Why Language Models Hallucinate 본문

논문리뷰

VLM : 논문리뷰 : Why Language Models Hallucinate

AI바라기 2025. 9. 9. 16:15

쉬운 설명 (Simple Explanation)

이 논문의 핵심 아이디어는 Language Model을 **"틀리면 0점, 안 써도 0점, 맞추면 1점을 주는 시험을 보는 학생"**에 비유할 수 있습니다. 이 학생은 잘 모르는 문제가 나왔을 때, 답안지를 비워두기보다는 아는 것을 총동원해 그럴듯한 답이라도 쓰는(추측하는) 것이 기대 점수를 높이는 최선의 전략입니다. 이처럼 현재의 AI benchmark 대부분이 모델에게 불확실성을 표현할 기회를 주지 않고 오직 정답 여부로만 평가하기 때문에, 모델들이 'Hallucination'이라는 '추측 행위'를 하도록 훈련되고 있다는 것입니다. 따라서 시험 채점 방식을 "확실할 때만 답하고, 모를 땐 '모른다'고 답해도 불이익을 주지 않도록" 바꾸는 것이 근본적인 해결책이라는 주장입니다.

 

용어 설명 (Terminology)

  • Hallucination: 그럴듯하지만 사실이 아닌, 부정확한 진술. 이 논문에서는 인간의 환각 경험과 다르며, 모델이 불확실할 때 추측하는 행위로 정의합니다.
  • IIV (Is-It-Valid): "이 출력이 유효한가?"를 묻는 이진 분류(binary classification) 문제. 논문은 언어 모델의 생성(generation) 오류 문제를 이 IIV 분류 오류 문제로 환원(reduction)하여 분석합니다.
  • Singleton Rate (sr): 전체 training data에서 IDK(I don't know) 응답을 제외하고, 특정 prompt가 단 한 번만 등장하는 비율. 이는 학습 데이터에 드물게 나타나는 사실에 대해 모델이 얼마나 hallucination을 일으킬지 예측하는 핵심 지표로 사용됩니다.
  • δ (Delta): 모델의 예측 확률 분포와 실제 데이터 분포 간의 차이를 나타내는 (mis)calibration 척도. 이 논문에서는 pre-training 단계에서 cross-entropy 손실 최소화로 인해 δ값이 자연스럽게 작아진다고 주장합니다.

Purpose of the Paper

이 논문은 Language Model의 Hallucination을 미스터리하거나 불가피한 현상이 아닌, 현재의 training 및 evaluation 패러다임이 만들어내는 통계적으로 예측 가능한 결과임을 주장합니다. 기존 연구가 Hallucination을 탐지하거나 완화하는 데 집중한 반면, 이 논문은 Hallucination이 발생하는 근본적인 원인이 **"불확실성을 인정하는 것보다 추측을 하도록 보상하는 평가 방식"**에 있다고 진단하고, 문제 해결을 위해 개별 모델이 아닌 평가 환경(evaluation ecosystem) 자체의 수정을 제안합니다.

Key Contributions & Novelty

  • Hallucination의 통계적 근원 규명 (Mathematical Reduction)
    • Contribution: Language Model의 생성 오류율(generative error rate)이 IIV라는 더 간단한 이진 분류(binary classification) 문제의 오류율(misclassification rate)에 의해 하한(lower-bounded)됨을 수학적으로 증명했습니다. (generative error rate ≥ 2 · IIV misclassification rate)
    • Novelty: Hallucination을 복잡한 생성 문제에서 단순한 분류 문제로 환원하여, 왜 pre-training 과정에서 필연적으로 오류가 발생하는지를 이론적으로 설명하고 정량화했습니다.
  • 임의의 사실(Arbitrary-fact)에 대한 Hallucination과 Singleton Rate의 관계 증명
    • Contribution: 생일과 같은 특정 패턴이 없는 사실에 대한 Hallucination 발생률이 training data에서 해당 사실이 얼마나 드물게 등장하는지 나타내는 Singleton Rate (sr)와 직접적으로 연관됨을 보였습니다. (error rate는 sr에 의해 하한이 결정됨)
    • Novelty: Alan Turing의 "missing-mass" 추정 기법을 응용하여, 모델이 드문 사실에 대해 왜 Hallucination을 일으키는지 데이터 기반의 직관적인 설명을 제공했습니다.
  • Hallucination 지속성의 사회-기술적(Socio-technical) 원인 분석
    • Contribution: 대부분의 주요 benchmark들이 정답에만 점수를 부여하고, "모르겠다(IDK)"와 같은 불확실성 표현에는 0점 또는 감점을 주는 'test-taking' 모드로 설계되어 있음을 지적했습니다. 이로 인해 모델들이 불확실할 때 정직하게 응답하기보다, 추측(hallucination)하도록 최적화된다고 주장했습니다.
    • Novelty: 문제의 원인을 모델 아키텍처나 알고리즘이 아닌, AI 커뮤니티의 평가 문화와 관행으로 돌려 새로운 관점을 제시했습니다.
  • 기존 평가 방식의 수정을 통한 해결책 제안
    • Contribution: 새로운 Hallucination 전용 benchmark를 추가하는 대신, MMLU, SWE-bench와 같은 기존의 영향력 있는 benchmark 평가 방식에 **명시적인 신뢰도 목표(explicit confidence targets)**를 포함시킬 것을 제안했습니다. (예: "정답일 확률이 t% 이상일 때만 답변하시오.")
    • Novelty: 파편적인 해결책이 아닌, 생태계의 핵심적인 부분인 주류 benchmark를 직접 수정하여 인센티브 구조 자체를 바꾸려는 실용적이고 근본적인 접근법을 제시했습니다.

Experimental Highlights

  • 주요 Benchmark 분석 (Table 2): GPQA, MMLU-Pro, SWE-bench, MATH 등 11개의 영향력 있는 benchmark를 분석한 결과, WildBench를 제외한 거의 모든 benchmark가 불확실성 표현(IDK)에 대해 점수를 주지 않는 Binary grading 방식을 사용함을 실증적으로 보였습니다. 이는 논문의 핵심 주장인 "평가 방식이 Hallucination을 조장한다"는 가설을 뒷받침하는 강력한 증거입니다.
  • Pre-trained Model의 Calibration (Figure 2): GPT-4의 사례를 통해 pre-training 직후의 base model은 보정(well-calibrated)이 잘 되어 있는 반면, post-training을 거친 모델은 보정 수준이 낮아짐을 보여줍니다. 논문의 이론에 따르면, 잘 보정된 모델일수록 통계적 압력에 의해 오류(hallucination)를 피할 수 없으므로, 이는 Hallucination이 pre-training의 자연스러운 결과임을 시사합니다.
  • 이론적 결과 (Theorems 1 & 2): 모델의 생성 오류율이 IIV 분류 오류율과 Singleton Rate에 의해 어떻게 하한이 결정되는지를 보여주는 이론적 증명이 이 논문의 핵심 실험 결과 중 하나입니다.

Limitations and Future Work

  • Limitations:
    • Open-ended generations: 논문의 분석은 주로 단일 사실을 묻는 질문(single factual question)에 초점이 맞춰져 있어, 여러 개의 거짓 정보가 포함될 수 있는 긴 길이의 창의적인 글쓰기(biography 등) 상황에는 직접 적용하기 어렵습니다.
    • A false trichotomy: '정답/오답/IDK'라는 세 가지 범주 역시 현실의 복잡한 불확실성을 표현하기에는 지나치게 단순화된 틀이라는 한계가 있습니다.
    • Latent context: 사용자가 의도했지만 prompt에 명시되지 않은 숨겨진 문맥(hidden context)으로 인한 오류는 고려하지 못했습니다.
  • Future Work:
    • 단순한 IDK를 넘어, 헤징(hedging), 세부 정보 생략, 질문하기 등 더 **정교하고 미묘한 불확실성 표현(nuanced expressions of uncertainty)**을 모델이 학습하고 평가할 수 있도록 연구를 확장해야 합니다.
    • 제안된 explicit confidence targets를 실제 주류 benchmark에 통합하고, 이를 통해 모델들의 행동이 어떻게 변화하는지(behavioral calibration) 실증적으로 검증하는 연구가 필요합니다.
    • 언어의 실용적인 측면(pragmatic competence)을 모델링하여, 상황에 맞는 가장 유용한 방식으로 불확실성을 전달하는 방법에 대한 연구가 요구됩니다.

Overall Summary

이 논문은 Language Model의 Hallucination 문제에 대한 진단을 '모델의 기술적 결함'에서 '잘못된 인센티브를 제공하는 평가 생태계의 구조적 문제'로 전환시킨 획기적인 연구입니다. Hallucination이 통계적으로 불가피하게 발생하는 원리를 이론적으로 증명하고, 그 현상이 post-training 이후에도 지속되는 이유를 주요 benchmark들의 평가 방식에서 찾았습니다. 이를 통해 문제 해결을 위해 새로운 모델 개발보다 기존 평가 패러다임을 수정하는 것이 더 근본적인 해결책임을 주장하며, AI 분야에 중요한 사회-기술적 관점을 제시합니다.

 

 

 

 

Abstract

어려운 시험 문제에 직면한 학생들처럼, large language models은 불확실할 때 때때로 추측을 하며, 불확실성을 인정하는 대신 그럴듯하지만 부정확한 진술을 만들어냅니다. 이러한 "hallucinations"은 state-of-the-art 시스템에서도 지속되며 신뢰를 약화시킵니다. 우리는 language models이 hallucinate하는 이유가 training 및 evaluation 절차가 불확실성을 인정하는 것보다 추측하는 것에 보상하기 때문이라고 주장하며, 현대 training 파이프라인에서 hallucinations의 통계적 원인을 분석합니다.

Hallucinations은 신비로운 것일 필요가 없습니다. 이는 단순히 이진 분류의 오류에서 비롯됩니다. 만약 부정확한 진술이 사실과 구별될 수 없다면, pretrained language models의 hallucinations은 자연스러운 통계적 압력을 통해 발생할 것입니다. 이어서 우리는 대부분의 evaluations이 채점되는 방식 때문에 hallucinations이 지속된다고 주장합니다. language models은 시험을 잘 보도록 최적화되어 있으며, 불확실할 때 추측하는 것이 시험 성적을 향상시킵니다.

불확실한 응답에 불이익을 주는 이러한 "유행"은 사회-기술적 완화 조치를 통해서만 해결될 수 있습니다. 즉, 추가적인 hallucination evaluations을 도입하기보다는, 잘못 정렬되어 있지만 순위표를 지배하는 기존 벤치마크의 점수 체계를 수정하는 것입니다. 이러한 변화는 이 분야를 더 신뢰할 수 있는 AI systems으로 이끌 수 있습니다.

 

 

 

1 Introduction

더보기

Language models은 과도하게 자신감 있고 그럴듯한 거짓을 생성하는 것으로 알려져 있으며, 이는 그 유용성을 감소시킵니다. 이 error mode는 "hallucination"으로 알려져 있지만, 인간의 지각 경험과는 근본적으로 다릅니다. 상당한 진전에도 불구하고, hallucinations은 계속해서 이 분야를 괴롭히고 있으며, 최신 models에서도 여전히 존재합니다. 다음 prompt를 고려해 보십시오:

Adam Tauman Kalai의 생일은 무엇인가요? 안다면, DD-MM 형식으로만 답해주세요.

세 번의 개별적인 시도에서, state-of-the-art open-source language model은 알고 있을 경우에만 응답을 요청했음에도 불구하고 "03-07", "15-06", "01-01"이라는 세 개의 부정확한 날짜를 output했습니다. 실제 생일은 가을입니다. 표 1은 더 정교한 hallucinations의 예를 제공합니다.

Hallucinations은 language models이 생성하는 errors의 중요한 특별 사례이며, 우리는 이를 computational learning theory를 사용하여 더 일반적으로 분석합니다. 우리는 일반적인 errors 집합 , 그럴듯한 문자열의 임의의 부분 집합 를 고려하며, 여기서 다른 그럴듯한 문자열 는 valid라고 합니다. 그런 다음 우리는 이러한 errors의 통계적 특성을 분석하고, 그 결과를 관심 있는 error 유형, 즉 hallucinations이라고 불리는 그럴듯한 거짓에 적용합니다. 우리의 형식주의는 language model이 응답해야 하는 prompt의 개념도 포함합니다.

language의 분포는 초기에 training 예제들의 corpus로부터 학습되며, 이는 필연적으로 errors와 절반의 진실을 포함합니다. 그러나 우리는 training data가 error가 없더라도 language model training 중에 최적화되는 목표가 errors를 생성하게 될 것임을 보여줍니다. error의 여러 측면을 포함하는 현실적인 training data를 사용하면 더 높은 error rates를 예상할 수 있습니다. 따라서 우리의 errors에 대한 하한은 전통적인 computational learning theory에서와 같이 더 현실적인 설정에 적용됩니다.

우리의 error analysis는 일반적이지만 hallucination에 대한 구체적인 함의를 가집니다. 이는 reasoning 및 search-and-retrieval language models을 포함하여 광범위하게 적용되며, 이 분석은 다음 단어 예측이나 Transformer-based neural networks의 속성에 의존하지 않습니다. 이는 오직 현대 training paradigm의 두 단계, 즉 아래에 설명된 pretraining과 post-training만을 고려합니다. hallucinations의 경우, taxonomies는 종종 다음과 같이 사용자의 prompt와 모순되는 intrinsic hallucinations을 추가로 구별합니다:

DEEPSEEK에 D가 몇 개 있나요? 안다면, 설명 없이 숫자만 말해주세요.

DeepSeek-V3는 열 번의 독립적인 시도에서 "2" 또는 "3"을 반환했습니다. Meta AI와 Claude 3.7 Sonnet도 "6"이나 "7"과 같은 큰 숫자를 포함하여 유사하게 수행했습니다. 우리의 theory는 training data나 외부 현실과 모순되는 extrinsic hallucinations에 대해서도 조명합니다.

1.1 Errors caused by pretraining

pretraining 동안, base model은 대규모 텍스트 corpus에서 language의 분포를 학습합니다. 우리는 error 없는 training data를 사용하더라도 pretraining 중에 최소화되는 통계적 목표가 language model이 errors를 생성하도록 이끌 것임을 보여줍니다. 일부 models은 "모르겠습니다"(IDK)를 항상 output하거나 error 없는 corpus를 단순히 암기하고 재생산하는 것과 같이 errors를 만들지 않기 때문에 이것을 증명하는 것은 간단하지 않습니다. 우리의 분석은 pretraining 후에 어떤 유형의 errors가 예상되어야 하는지를 설명합니다.

이를 위해 우리는 binary classification과의 연결점을 찾습니다. "이것은 valid language model output인가?"라는 형태의 질문을 고려해 보십시오. valid outputs를 생성하는 것은 이러한 예/아니오 질문에 답하는 것보다 어떤 의미에서는 더 어렵습니다. 왜냐하면 generation은 각 candidate 응답에 대해 "이것이 valid한가"라고 암묵적으로 답해야 하기 때문입니다. 공식적으로, 우리는 그림 1에 설명된 바와 같이, 각각 valid(+) 또는 error(−)로 레이블이 지정된 다수의 응답으로 구성된 training set을 가진 Is-It-Valid(IIV) binary classification problem을 고려합니다. 이 supervised learning problem의 경우, train 및 test data는 모두 valid(+)로 레이블이 지정된 valid 예제(우리가 그것이 valid하다고 가정하므로 pretraining data)와 E에서 무작위로 추출된 errors(−)로 레이블이 지정된 것의 50/50 혼합물입니다. 그런 다음 우리는 어떤 language model이든 IIV classifier로 사용될 수 있는 방법을 보여줍니다. 이는 결국 generative errors(예: hallucinations)와 IIV misclassification rate 사이의 수학적 관계를 설정할 수 있게 해줍니다:

Language models은 철자 오류와 같은 많은 유형의 errors를 피하며, 모든 errors가 hallucinations은 아닙니다. IIV misclassification에서 generation으로의 reduction은 generative errors의 통계적 특성을 조명합니다. 이 분석은 pretraining이 어떻게 errors에 직접적으로 기여하는지를 보여줍니다. 더욱이, binary classification에서 errors에 기여하는 동일한 통계적 요인들이 language model errors를 유발한다는 것을 보여줍니다. 수십 년의 연구는 misclassification errors의 다면적인 특성을 밝혀냈습니다. 그림 1(오른쪽)은 이러한 요인들을 시각적으로 보여줍니다: 상단, 정확하게 분류된 분리 가능한 데이터; 중간, 원형 영역에 대한 선형 분리기의 부적절한 model; 하단, 간결한 패턴이 없음. 섹션 3.3은 data에 패턴이 없을 때의 epistemic uncertainty를 포함한 여러 요인들을 분석합니다.

이 reduction은 다양한 유형의 facts를 다루었던 이전 연구들을 연결합니다. 예를 들어, Kalai와 Vempala는 이전의 생일 hallucination 예제처럼 data에 학습 가능한 패턴이 없는 임의의 facts의 특별한 경우를 고려했습니다. 우리는 IIV reduction이 이 경우를 어떻게 다루고, pretraining 후 hallucination rate가 적어도 한 번 나타나는 training facts의 비율 이상이어야 한다는 그들의 경계를 어떻게 복원하는지 보여줍니다. 예를 들어, 생일 facts의 20%가 pretraining data에 정확히 한 번 나타난다면, base models은 생일 facts의 최소 20%에 대해 hallucinate할 것으로 예상됩니다. 실제로, 우리의 분석은 hallucination의 필수 구성 요소인 prompts와 IDK responses를 포함하도록 그들의 결과를 강화합니다.

1.2 Why hallucinations survive post-training

두 번째 단계인 post-training은 base model을 개선하며, 종종 hallucinations을 줄이는 것을 목표로 합니다. pretraining의 분석이 errors를 더 일반적으로 다루었던 반면, post-training에 대한 우리의 분석은 왜 정보를 생략하거나 IDK와 같은 불확실성을 표현하는 대신 과도하게 자신감 있는 hallucinations이 생성되는지에 초점을 맞춥니다. 우리는 post-training 후에도 hallucinations이 지속되는 것에 대한 사회-기술적 설명을 제공하고, 이 분야가 어떻게 그것들을 억제할 수 있는지 논의합니다. 비유하자면, 인간도 때때로 그럴듯하게 들리는 정보를 조작하는 다음과 같은 맥락을 고려해 볼 수 있습니다. 불확실할 때 학생들은 객관식 시험에서 추측할 수 있으며, 심지어 서술형 시험에서는 거의 확신이 없는 그럴듯한 답을 제출하며 허세를 부릴 수도 있습니다.

Language models은 유사한 테스트로 evaluated됩니다. 두 상황 모두에서, 불확실할 때 추측하는 것은 정답에 1점, 공백이나 IDK에 0점을 부여하는 binary 0-1 체계 하에서 expected score를 최대화합니다. 허세는 종종 날짜에 대한 질문에 "가을의 어느 날"보다는 "9월 30일"과 같이 과도하게 자신감 있고 구체적입니다. 많은 language-model benchmarks는 accuracy나 pass-rate와 같은 binary metrics를 사용하여 표준화된 인간 시험을 모방합니다. 이러한 benchmarks에 대해 models을 optimizing하는 것은 따라서 hallucinations을 조장할 수 있습니다. 인간은 학교 밖, 즉 힘든 세상 경험을 통해 불확실성을 표현하는 것의 가치를 배웁니다. 반면에, language models은 주로 불확실성에 불이익을 주는 시험을 사용하여 evaluated됩니다. 따라서 그들은 항상 "시험 응시" mode에 있습니다. 간단히 말해, 대부분의 evaluations은 aligned되어 있지 않습니다.

binary grading이 hallucination을 측정하지 못한다는 것을 깨달은 것은 우리가 처음이 아닙니다. 그러나 hallucination evaluation에 대한 이전 연구는 일반적으로 찾기 힘든 "완벽한 hallucination eval"을 추구해 왔습니다. 섹션 4에서 우리는 이것이 불충분하다고 주장합니다. 우리는 기존의 primary evaluations이 압도적으로 불확실성에 불이익을 준다는 것을 관찰하며, 따라서 근본적인 문제는 aligned되지 않은 evaluations이 너무 많다는 것입니다. Model A가 불확실성을 정확하게 신호하고 절대 hallucinate하지 않는 aligned model이라고 가정해 봅시다. Model B는 불확실성을 나타내지 않고 불확실할 때 항상 "guesses"를 하는 것을 제외하고는 Model A와 유사하다고 합시다. Model B는 대부분의 현재 benchmarks의 기초가 되는 0-1 scoring 하에서 A를 능가할 것입니다. 이것은 불확실성과 기권에 불이익을 주는 "유행"을 만들어내며, 우리는 소수의 hallucination evaluations만으로는 충분하지 않다고 주장합니다. 불확실할 때 기권에 대한 불이익을 중단하기 위해 수많은 primary evaluations이 조정되어야 합니다.

Contributions

우리는 pretraining 기원부터 post-training 지속성까지 hallucinations의 주요 통계적 동인을 식별합니다. supervised learning과 unsupervised learning 사이의 새로운 연결은 training data에 IDK가 포함된 경우에도 그 기원을 명확히 합니다. 문제에 대한 광범위한 연구에도 불구하고 hallucinations이 지속되는 것은 hallucination과 같은 guessing이 대부분의 primary evaluations에 의해 보상받는다는 인식에 의해 설명됩니다. 우리는 효과적인 mitigation의 길을 열어주는 기존 evaluations에 대한 통계적으로 엄격한 수정을 논의합니다.

 

 

 

 

 

 

 

더보기

Figure 1: Is-It-Valid Classification

이 이미지는 Is-It-Valid (IIV) 라는 개념을 설명합니다. AI model이 생성한 결과물이 '타당한지(valid)' 아니면 '오류인지(error)'를 학습하고 식별하는 과정을 보여줍니다.

  • 왼쪽 (예시): Valid examples(+)와 Error examples(-)를 세 가지 유형으로 나누어 보여줍니다.
    • Spelling (철자): 철자가 올바른 문장과 틀린 문장을 구분하는 예시입니다.
    • Counting (계산): 단어 안의 특정 알파벳 개수를 세는 것처럼 간단한 reasoning이 필요한 예시입니다.
    • Birthdays (생일): 특정 패턴이 없는 임의의 사실(생일 정보)에 대한 예시입니다. "모르겠다"는 응답도 valid한 예시로 포함됩니다.
  • 오른쪽 (시각화): 각 유형의 데이터를 classifier(분류기)가 어떻게 구분하는지를 시각적으로 보여줍니다.
    • Spelling (good model): 철자 오류는 패턴이 명확하여 classifier가 올바른 데이터(+)와 오류 데이터(-)를 쉽게 구분할 수 있습니다. 이는 good model로 표현됩니다.
    • Counting (poor model): 계산과 관련된 문제는 좀 더 복잡하여 단순한 model로는 완벽하게 구분하기 어렵습니다. 이는 poor model로 표현됩니다.
    • Birthdays (no pattern): 생일과 같은 임의의 사실은 데이터에 특정 패턴이 없어 classifier가 올바른 정보와 오류를 구분하는 경계선을 찾기가 매우 어렵습니다. 이는 no pattern으로 표현됩니다.

결론적으로 이 그림은 AI model이 철자처럼 명확한 규칙이 있는 문제는 쉽게 학습하지만, 패턴이 없거나 복잡한 사실에 대해서는 오류를 생성하기 쉬운 이유를 통계적 classification 관점에서 설명합니다.


Table 1: Language Model Hallucination 예시

이 표는 세 개의 유명한 language models이 "Adam Kalai의 박사 학위 논문 제목이 무엇이었나요?"라는 동일한 질문에 어떻게 응답했는지를 보여주는 실제 hallucination 사례입니다.

  • ChatGPT (GPT-4o): "Boosting, Online Algorithms, and Other Topics in Machine Learning"이라는 제목을 제시하며 2002년 CMU에서 마쳤다고 응답했습니다.
  • DeepSeek: "Algebraic Methods in Interactive Machine Learning"이라는 다른 제목을 제시하며 2005년 하버드 대학교라고 응답했습니다.
  • Llama: 또 다른 제목인 "Efficient Algorithms for Learning and Playing Games"를 제시하며 2007년 MIT라고 응답했습니다.

표 아래의 설명에 따르면, 세 model 모두 정확한 논문 제목이나 연도를 생성하지 못했습니다. 이는 최신 language models조차 어떻게 그럴듯하지만 완전히 틀린 정보를 자신 있게 생성하는지(즉, hallucination을 일으키는지)를 명확하게 보여주는 예시입니다.

 

 

 

 

🧑‍🔬 AI 연구자를 위한 정리 노트 (1 Introduction)

이 논문은 language model의 hallucination 문제를 통계적 원인사회-기술적 (socio-technical) 관점에서 분석합니다.

  • 핵심 주장: Hallucination은 신비한 현상이 아니라, pretraining 단계에서 발생하는 통계적 error이며, post-training 단계에서 현재의 evaluation 방식 때문에 지속되는 문제입니다.
  • Hallucination의 기원 (Pretraining 단계):
    • Hallucination의 근원을 binary classification 문제와 연결하여 설명합니다. "Is-It-Valid" (IIV)라는 가상의 classification 작업을 제안하며, generative model의 error rate가 이 IIV 문제의 misclassification rate와 직접적으로 관련 있음을 보입니다.
    • 이는 training data가 완벽하더라도, pretraining 과정의 통계적 압력 자체가 model이 error를 생성하도록 유도한다는 것을 의미합니다. 즉, hallucination은 model 학습 과정에서 발생하는 자연스러운 통계적 결과물입니다.
    • 이 분석은 Transformer와 같은 특정 architecture에 의존하지 않는 일반적인 접근 방식입니다.
  • Hallucination의 지속 (Post-training 단계):
    • Hallucination이 해결되지 않는 이유를 현재 AI evaluation 환경의 구조적 문제로 진단합니다.
    • 대부분의 주요 benchmark는 정답이면 1점, 오답이나 "모르겠다(IDK)"와 같은 불확실성 표현은 0점을 부여하는 binary 0-1 scoring 방식을 사용합니다.
    • 이러한 평가 방식은 model이 불확실할 때 정직하게 답변하기보다, 점수를 최대화하기 위해 그럴듯한 답변을 추측(즉, hallucinate)하도록 인센티브를 제공합니다. Model이 마치 점수를 잘 받으려는 "시험 응시자"처럼 행동하게 된다는 것입니다.
  • 제안하는 해결책:
    • 단순히 새로운 hallucination evaluation을 추가하는 것은 근본적인 해결책이 아니라고 주장합니다.
    • 대신, 현재 leaderboard를 지배하고 있는 기존의 주요 evaluations의 점수 체계를 수정하여, 불확실성을 표현하는 답변에 불이익을 주지 않도록 바꿔야 한다고 제안합니다.

쉬운 설명

이 논문의 첫 부분은 AI가 왜 그럴듯한 거짓말, 즉 **hallucination**을 하는지에 대해 두 가지 핵심 이유를 제시합니다.

  1. AI가 처음 배울 때부터 실수는 예정되어 있다 📚 AI를 거대한 도서관에서 모든 책을 읽고 배우는 학생이라고 상상해 보세요. 책의 내용이 모두 사실이라도, 학생이 모든 것을 완벽하게 외울 수는 없습니다. 특히 아주 드물게 나오는 정보(예: 특정인의 생일)에 대해서는 희미한 기억에 의존해 추측할 수밖에 없습니다. 논문은 AI의 hallucination이 이와 같이 학습 과정에서 발생하는 자연스러운 '통계적 실수'에서 시작된다고 설명합니다.
  2. 현재의 AI 시험 방식이 거짓말을 부추긴다 📝 이 학생이 시험을 보는데, 정답은 1점을 받고 오답이나 "모르겠습니다"라고 쓴 답은 모두 0점을 받는다고 해봅시다. 이 학생의 목표가 오직 '최고 점수'라면, 모르는 문제가 나왔을 때 정직하게 "모르겠다"고 쓰는 것보다 뭐라도 추측해서 쓰는 것이 더 유리합니다. 운이 좋으면 점수를 딸 수 있으니까요.
  3. 논문은 현재 대부분의 AI 성능 평(evaluation) 방식이 바로 이 시험과 같다고 지적합니다. AI는 불확실성을 인정하는 것보다 그럴듯한 답을 지어내는 것(hallucination)이 점수를 더 잘 받는 방법이라고 학습하게 됩니다. 그래서 이 문제를 해결하려면, "모르겠다"고 정직하게 답했을 때 불이익을 주지 않도록 시험(AI 성능 평가)의 채점 규칙 자체를 바꿔야 한다고 주장합니다.

 

2 Related work

더보기

우리가 아는 한, 이 연구에서 제시된 supervised learning(binary classification)에서 unsupervised learning(density estimation 또는 self-supervised learning)으로의 reduction은 새로운 것입니다. 그러나 learning problems 간의 일반적인 reduction 방법은 한 문제가 다른 문제만큼 어렵다는 것을 증명하기 위한 잘 정립된 기술입니다.

여러 설문 조사와 연구에서 language models의 hallucination에 대한 근본적인 원인을 탐구해 왔습니다. 그 요인으로는 model overconfidence, decoding randomness, snowballing effects, long-tailed training samples, misleading alignment training, spurious correlations, exposure bias, reversal curse, 그리고 context hijacking 등이 언급됩니다. 유사한 오류의 원천들은 더 넓은 machine learning 및 통계적 환경에서 오랫동안 연구되어 왔습니다.

가장 밀접하게 관련된 theoretical work는 Kalai와 Vempala의 연구이며, 우리는 그것이 우리 reduction의 특별한 경우임을 보여줍니다. 그들은 Good-Turing의 missing mass estimates를 hallucinations과 연결했으며, 이는 Theorem 3에 영감을 주었습니다. 그러나 해당 연구는 uncertainty expressions (예: IDK), supervised learning과의 연결, post-training modifications을 다루지 않았으며, 그들의 model에는 prompts가 포함되지 않았습니다. Hanneke 등은 hallucinations을 최소화하는 language model을 불가지론적으로 train하기 위해 validity oracle(예: 인간)에 질의하는 interactive learning algorithm을 분석합니다. 그들의 방법은 통계적으로 효율적이어서 합리적인 양의 데이터가 필요하지만, computationally efficient하지는 않습니다. 다른 최근의 theoretical studies는 consistency(유효하지 않은 outputs를 피하는 것)와 breadth(다양하고 언어적으로 풍부한 콘텐츠를 생성하는 것) 사이의 내재된 절충 관계를 공식화합니다. 이러한 연구들은 광범위한 languages 클래스에 대해, training data를 넘어 일반화하는 모든 model은 유효하지 않은 outputs를 hallucinate하거나, mode collapse를 겪어 유효한 응답의 전체 범위를 생성하지 못하게 됨을 보여줍니다.

Reinforcement learning from human feedback (RLHF), reinforcement learning from AI feedback (RLAIF), direct preference optimization (DPO)과 같은 여러 post-training techniques는 음모론과 일반적인 오해를 포함하여 hallucinations을 줄이는 것으로 나타났습니다. Gekhman 등은 새로운 정보에 대한 간단한 fine-tuning이 처음에는 hallucination rates를 감소시킬 수 있지만, 나중에는 다시 증가한다는 것을 보여주었습니다. 더 나아가, natural language queries와 internal model activations 모두 factual accuracy 및 model uncertainty에 대한 predictive signals을 encode하는 것으로 입증되었습니다. 우리의 서론에서 논의된 바와 같이, 의미적으로 관련된 질의에 대한 model’s answers의 불일치 또한 hallucinations을 탐지하거나 완화하는 데 활용될 수 있습니다.

수많은 다른 방법들이 mitigating hallucinations에 효과적인 것으로 입증되었습니다. 예를 들어, Ji 등과 Tian 등의 설문 조사를 참조할 수 있습니다. evaluation 측면에서는 최근 몇 가지 포괄적인 benchmarks와 leaderboards가 도입되었습니다. 그러나 그것들의 채택 장벽에 대해 조사한 연구는 비교적 적습니다. 예를 들어, 2025 AI Index 보고서는 hallucination benchmarks가 "AI community 내에서 주목받는 데 어려움을 겪고 있다"고 언급합니다.

binary expressions of certainty를 넘어, gradations of uncertainty를 전달하기 위해 더 미묘한 linguistic constructions이 제안되었습니다. 또한, 의미가 문맥에 의해 어떻게 형성되는지를 연구하는 pragmatics 분야는 language models이 정보를 전달하는 방식을 이해하고 개선하는 데 있어 관련성이 점점 더 커지고 있습니다.

 

🧑‍🔬 AI 연구자를 위한 정리 노트 (2 Related work)

이 섹션은 본 논문의 핵심 아이디어가 기존 연구들과 어떻게 차별화되는지를 명확히 하는 데 중점을 둡니다.

  • 핵심적인 독창성 (Novelty):
    • 본 논문의 가장 새로운 기여는 unsupervised learning (e.g., language model pretraining)에서 발생하는 error를 설명하기 위해 supervised learning (binary classification)으로부터의 **reduction**을 사용한 것입니다. 이는 hallucination의 통계적 기원을 분석하는 새로운 이론적 프레임워크를 제시합니다.
  • 기존 이론적 연구와의 관계:
    • Kalai & Vempala (2024): 가장 직접적으로 관련된 연구이지만, 본 논문은 이를 일반화하고 확장합니다. Kalai & Vempala의 연구는 prompts, IDK와 같은 불확실성 표현, post-training 단계를 다루지 않았으나, 본 논문의 reduction 프레임워크는 이 모든 요소를 포괄합니다.
    • Consistency vs. Breadth Trade-off: 다른 이론 연구들이 model이 유효한 출력만 생성하려는 consistency와 다양성을 추구하는 breadth 사이의 절충 관계에 집중하는 반면, 본 논문은 error 생성의 근본적인 통계적 원인 자체에 초점을 맞춥니다.
  • 기존 완화 기술 및 평가와의 차별점:
    • Post-training Techniques (e.g., RLHF, DPO): 이러한 기법들이 hallucination을 '줄이는' 실용적인 방법임을 인정하지만, 본 논문은 hallucination이 '왜 발생하고 지속되는지'라는 더 근본적인 원인(특히 evaluation 인센티브)을 분석합니다.
    • Evaluation Benchmarks: 기존 hallucination 전용 benchmarks가 존재하지만, 실제 AI community에서 널리 채택되지 않고 있다는 점을 지적합니다. 이는 서론에서 제기한 "소수의 전용 benchmark로는 부족하며, 주류 benchmark의 채점 방식을 바꿔야 한다"는 주장을 뒷받침하는 근거가 됩니다.

쉬운 설명

"Related work" 섹션은 논문 저자가 "이 분야에서 다른 사람들은 이런 연구들을 해왔고, 우리 연구는 이런 점에서 새롭고 다릅니다"라고 설명하는 부분입니다.

이 섹션의 내용을 쉽게 비유하자면 다음과 같습니다.

AI의 hallucination(거짓말) 문제를 "자동차가 고장 나는 문제"에 비유해 보겠습니다.

  • 다른 사람들의 연구:
    • "많은 전문가들이 '엔진 오일 부족', '타이어 펑크', '연료 불순물' 등 자동차 고장의 다양한 원인 목록을 만들었습니다." (이는 hallucination의 여러 원인을 나열한 기존 연구들을 의미합니다.)
    • "어떤 학자는 '엔진' 문제에 대해서만 깊게 파고드는 훌륭한 이론을 제시했지만, 타이어나 다른 부분의 고장은 설명하지 못했습니다." (이는 이 논문이 확장한 Kalai & Vempala의 특정 이론 연구를 의미합니다.)
    • "RLHF나 DPO처럼 고장 난 부분을 수리하는 새로운 정비 기술들이 많이 개발되었습니다." (이는 hallucination을 줄이는 기존 기술들을 의미합니다.)
  • 이 논문이 다른 점:
    • "우리는 새로운 정비 기술을 제안하는 것이 아닙니다. 대신, 우리는 '애초에 왜 모든 자동차는 고장 날 수밖에 없는가?'라는 근본적인 물리 법칙(reduction이라는 아이디어)을 처음으로 제시합니다."
    • "또한, 우리는 더 중요한 문제를 발견했습니다. 바로 현재의 '운전면허 시험 채점 방식'이 운전자들이 차를 험하게 몰도록(즉, hallucination을 하도록) 부추기고 있다는 사실입니다. 그래서 우리는 정비 기술보다 이 시험 규칙을 바꾸는 게 더 시급하다고 주장하는 것입니다."

 

 

3 Pretraining Errors

더보기

Pretraining은 training distribution 에서 추출된 텍스트의 distribution을 근사하는 base language model $\hat{p}$를 생성합니다. 이것은 unsupervised learning에서 고전적인 "density estimation" 문제이며, 여기서 density는 단순히 데이터에 대한 확률 분포입니다. language models의 경우, 이 distribution은 텍스트에 대한 것이거나, 포함된 경우 multimodal inputs에 대한 것입니다.

base models이 오류를 범한다는 것을 증명하는 데 있어 핵심적인 어려움은 많은 language models이 오류를 범하지 않는다는 점입니다. 항상 IDK를 outputs하는 퇴화된 model 또한 오류를 피합니다(IDK가 오류가 아니라고 가정할 때). 유사하게, 오류 없는 training data를 가정할 때, 무작위 training 예제에서 텍스트를 그대로 반복하는 사소한 base model 또한 오류를 범하지 않습니다. 그러나 이 두 language models은 아래에 정의된 statistical language modeling의 기본 목표인 density estimation에 실패합니다. 오류는 또한 training distribution과 일치하는 최적의 base model 에 의해서도 피해지지만, 이 model은 엄청나게 많은 training data를 필요로 할 것입니다. 그럼에도 불구하고, 우리는 잘 trained된 base models이 여전히 특정 유형의 errors를 생성해야 함을 보여줍니다.

우리의 분석은 valid outputs를 생성하는 것(즉, errors를 피하는 것)이 output의 유효성을 분류하는 것보다 더 어렵다는 것을 보여줍니다. 이 reduction은 errors가 예상되고 이해되는 computational learning theory의 렌즈를 generative models의 error 메커니즘에 적용할 수 있게 합니다. language model은 초기에 텍스트에 대한 확률 분포로 정의되고 나중에 prompts가 통합됩니다(섹션 3.2); 두 설정 모두 동일한 직관을 공유합니다. prompts가 없는 예로는 그림 1의 생일 진술과 같은 것이 있으며, prompted model은 특정 개인의 생일에 대해 질의받을 수 있습니다.

단순한 autocomplete가 아닙니다. 우리의 분석은 많은 language models이 이전 단어들을 기반으로 각 단어를 예측하기 위해 self-supervised learning을 사용하여 trained됨에도 불구하고, 일반적인 density estimation에 적용되며 "next-word predictors"에만 국한되지 않습니다. Hallucinations을 language model이 valid completions를 제공할 수 없는 잘못 선택된 prefixes (예: "Adam Kalai was born on") 탓으로 돌리고 싶은 유혹이 있습니다. 그러나 순전히 통계적인 관점에서, 계산을 무시하면 language models에 대한 autocomplete 관점은 어떤 인간 화자가 한 번에 한 단어씩 말한다는 사실보다 더 중요하지 않습니다. 우리의 분석은 특정 architecture가 추가적인 errors를 도입할 수 있음에도 불구하고, errors가 models이 기저의 language distribution에 맞춰지고 있다는 바로 그 사실에서 발생함을 시사합니다.


3.1 The reduction without prompts

prompts가 없다면, base model $\hat{p}$는 집합 에 대한 확률 분포입니다. 앞서 논의했듯이, 각 예제 는 "plausible"한 문자열, 예를 들어 문서를 나타냅니다. 예제 는 비어 있지 않은 서로소 집합인 errors 와 valid examples 로 분할됩니다. base model $\hat{p}$의 error rate는 다음과 같이 표기됩니다.

Training data는 noiseless training distribution $p(X)$에서 온다고 가정합니다, 즉 입니다. 논의된 바와 같이, noisy training data와 부분적으로 정확한 진술이 있는 경우, 우리의 lower bounds보다 훨씬 높은 error rates를 예상할 수 있습니다.

이제 서론에서 소개된 IIV binary-classification problem을 공식화합니다. IIV는 학습할 target function  (V의 멤버십)과 예제 에 대한 distribution  (p로부터의 samples과 uniformly random errors의 50/50 혼합)에 의해 명시됩니다:

우리의 분석은 error rate $\text{err} = \hat{p}(E)$를 앞서 언급된 IIV의 misclassification rate $\text{err}{\text{iiv}}$로 하한을 정합니다: $$\text{err}{\text{iiv}} := \text{Pr}_{x \sim D}[\hat{f}(x) \neq f(x)], \quad \text{where} \quad \hat{f}(x) := \begin{cases} + & \text{if } \hat{p}(x) > 1/|E|, \ - & \text{if } \hat{p}(x) \leq 1/|E|. \end{cases} \quad (2)$$ 따라서 base model은 우리의 reduction에서 base model의 확률을 특정 임계값 $1/|E|$에서 임계 처리함으로써 IIV classifier로 사용됩니다. 이러한 probabilities $\hat{p}(x)$는 일반적으로 base models에 대해 효율적으로 계산될 수 있다는 점에 유의하십시오(효율적인 계산이 lower-bounds가 의미 있기 위해 반드시 필요한 것은 아니지만).

Corollary 1. 인 모든 training distribution 와 모든 base model $\hat{p}$에 대해,

여기서 , $\text{err}_{\text{iiv}}$는 식 (1)과 (2)에서, 그리고 $\delta := |\hat{p}(A) - p(A)|$이고 $A := {x \in X | \hat{p}(x) > 1/|E|}$입니다.

이 관계는 모든 base model $\hat{p}$에 대해 성립하므로, unlearnable한 IIV facts(training data에 없는 생일과 같은)에 대해 모든 base models이 오류를 범할 것임을 즉시 암시합니다. 이러한 경우 $\text{err}{\text{iiv}}$는 필연적으로 크고, 와 $|V|/|E|$는 작습니다 (예: 각 사람에 대해 에 있는 올바른 생일 주장보다 에 364배 더 많은 잘못된 생일 주장이 있으며, IDK도 있습니다). 위의 따름정리는 prompts를 포함하는 더 일반적인 경우를 다루는 Theorem 1의 특별한 경우로서 즉시 도출됩니다. Theorem 2는 나중에 이 일반적인 결과를 사용하여 직관적인 특별한 경우에 대한 lower-bounds를 제공합니다. Theorem 3과 4는 참/거짓 질문에 대해 과 같이 작은 $|E|$를 다룹니다. 위 경계의 상수 2는 비교적 엄격합니다: 큰 $|E|$와 작은 에 대해, 학습 불가능한 개념에 대해 $\text{err}{\text{iiv}}$는 1/2에 가까울 수 있지만 입니다. Corollary 1은 또한 임을 암시합니다.

Hallucination errors. error 분석을 hallucinations에 적용하기 위해, 를 (하나 이상의) plausible falsehoods를 포함하는 plausible generations의 집합으로 간주할 수 있습니다. hallucinations의 일반적인 대체 정의는 training data(또는 prompt)에 grounded되지 않은 generations이라는 점에 유의하십시오. 다행히도, 위의 lower-bound는 우리가 오직 valid training data만을 가정했기 때문에 이 개념에도 적용됩니다. 즉, 생성된 사실적 오류는 사실적으로 정확한 training data에 grounded될 수 없습니다.

Calibration. 이제 우리는 왜 $|\delta|$가 pretraining 후에 작은 (mis)calibration의 척도인지 논합니다. 언어에 대한 지식이 전혀 없어도, 단순히 uniform distribution $\hat{p}(x) = 1/|X|$를 취함으로써 을 달성할 수 있으므로, 은 $p = \hat{p}$를 요구하지 않습니다. auditor는 training samples 와 synthetic generations  집합을 사용하여  대 $\hat{p}(\hat{x}) > 1/|E|$를 만족하는 응답의 비율을 비교함으로써 를 쉽게 추정할 수 있습니다. Dawid의 연구에서 영감을 받아, 매일 비가 올 확률을 예측하는 weather forecaster에 비유할 수 있습니다. 최소한의 calibration 요구 사항은 그들의 평균 예측이 평균 강수 비율과 일치하는지 여부일 것입니다. 또한 예측이 어떤 임계값 $t \in [0, 1]$보다 큰 날들에 대해 이 둘이 일치하도록 요구할 수도 있습니다. Dawid는 모든 $t \in [0, 1]$에 대해, 예측이 인 날들 중 약 의 비율로 비가 와야 한다는 더 엄격한 요구 사항을 도입했습니다.

표준 pretraining cross-entropy objective에 대해 가 일반적으로 작은 이유에 대한 특히 간단한 정당화는 다음과 같습니다.

양성으로 레이블된 예제의 확률을 스케일링 인자 로 재조정하고 정규화하는 것을 고려해 봅시다:

그러면 간단한 계산을 통해 가 스케일링 인자 에 대한 손실의 도함수의 크기이며, 에서 평가됨을 알 수 있습니다:

만약 이면, 어떤 로 재조정하면 손실이 줄어들 것이므로, 손실은 local minimum에 있지 않습니다. 이러한 간단한 재조정을 근사할 만큼 강력한 모든 language models 클래스에 대해, 지역 최적화는 작은 를 산출해야 합니다. 는 단일 임계값 $t = 1/|E|$에서 정의되므로, 임계값 에 대해 적분하는 Expected Calibration Error (ECE)와 같은 개념보다 약하다는 점에 유의하십시오.

Hallucinations은 base models에 대해서만 불가피합니다. 많은 사람들이 hallucinations이 불가피하다고 주장해 왔습니다. 그러나 hallucination을 일으키지 않는 model은 question-answer database와 calculator를 사용하여 쉽게 만들 수 있으며, 이는 "금의 화학 기호는 무엇인가?"와 같은 고정된 질문 집합과 "3 + 8"과 같은 잘 구성된 수학적 계산에 답하고, 그렇지 않으면 IDK를 outputs합니다. 더욱이, Corollary 1의 error lower-bound는 오류를 범하지 않는 language models이 calibrated되지 않았음을, 즉 가 커야 함을 암시합니다. 우리의 유도 과정이 보여주듯이, calibration과 그에 따른 errors는 표준 cross-entropy objective의 자연스러운 결과입니다. 실제로, 경험적 연구(그림 2)는 base models이 종종 calibrated된 것으로 밝혀지는 반면, post-trained models은 reinforcement learning을 위해 cross-entropy에서 벗어날 수 있음을 보여줍니다.


3.2 The reduction with prompts

이제부터 우리는 섹션 3.1의 설정을 prompt distribution 에서 추출된 prompts (contexts) 를 포함하도록 일반화합니다. 각 예제 $x = (c, r)$은 이제 prompt 와 plausible response 로 구성됩니다. 위의 분석은 가 빈 prompt에 확률 1을 할당하는 특별한 경우에 해당합니다. 주어진 prompt 에 대해, $V_c := {r | (c, r) \in V}$를 valid responses로, $E_c := {r | (c, r) \in E}$를 erroneous responses로 둡니다. training distribution과 base model은 이제 conditional response distributions , $\hat{p}(r | c)$입니다. 표기상의 편의를 위해, 이들을 에 대한 joint distributions으로 확장하여 $p(c, r) := \mu(c)p(r | c)$와 $\hat{p}(c, r) := \mu(c)\hat{p}(r | c)$로 정의합니다. 따라서 여전히 $\text{err} := \hat{p}(E) = \sum_{(c,r) \in E} \mu(c)\hat{p}(r | c)$이고 입니다.

따라서 training distribution 예제는 distillation의 경우와 같이 valid "dialogues"에 해당합니다. training data가 동일한 prompt distribution에서 추출된 model dialogues를 포함한다고 가정하는 것은 비현실적이지만, 가정이 실패할 경우 훨씬 더 높은 error rates가 예상될 수 있습니다. prompts가 있는 IIV 문제는 동일한 target function  iff 를 갖지만, 일반화된 distribution 는 동일한 확률로 를 선택하거나, 이고 uniformly random 인 $x = (c, r)$을 선택합니다. 마지막으로, classifier $\hat{f}(c, r)$은 이제 $\hat{p}(r | c) > 1/\min_c |E_c|$일 때만 $+$가 됩니다. 따라서 Corollary 1은 다음의 특별한 경우임이 분명합니다.

Theorem 1. 인 모든 training distribution 와 모든 base model $\hat{p}$에 대해,

여기서 $\delta := |\hat{p}(A) - p(A)|$이고 $A := {(c, r) \in X | \hat{p}(r | c) > 1/\min_c |E_c|}$입니다.

재조정 $\hat{p}s(r | c)$를 일반화하면(prompt당 정규화하며, 여전히 단일 매개변수  사용), 이제 $L(\hat{p}) := \sum{(c,r)\in X} -\mu(c) \log \hat{p}(r | c)$에 대해 작은 $\delta = |\frac{d}{ds}L(\hat{p}s)|{s=1}|$가 다시 정당화됩니다.


3.3 Error factors for base models

수십 년의 연구는 misclassifications(binary classification에서의 errors)에 기여하는 통계적 요인들을 밝혀냈습니다. 우리는 이 사전 이해를 활용하여 hallucinations 및 기타 generative errors의 배후 요인들을 열거할 수 있으며, 여기에는 생일과 같은 statistical complexity(섹션 3.3.1), 글자 수 세기와 같은 poor models(섹션 3.3.2), 그리고 음모론과 같은 GIGO와 같은 추가 요인들(섹션 3.4)이 포함됩니다.

3.3.1 Arbitrary-fact hallucinations

target function을 설명하는 간결한 패턴이 없을 때, epistemic uncertainty가 존재하며 이는 필요한 knowledge가 training data에 없음을 의미합니다. Vapnik-Chervonenkis dimension $VC(F)$는 functions의 family  ()를 높은 확률로 학습하는 데 필요한 최악의 경우 예제 수를 특징짓습니다. 높은  dimension을 가진 families는 학습하는 데 엄청나게 많은 samples이 필요할 수 있습니다. 우리는 높은 VC dimension의 자연스러운 특별한 경우를 고려합니다: 무작위적인 임의의 사실들. 특히, 이 섹션은 prompts에 걸쳐 무작위적이고 독립적인 valid responses(IDK 제외)를 고려합니다.

Definition 1 (Arbitrary Facts). 다음이 고정됩니다: 임의의 prompt distribution , IDK response, 그리고 각 prompt 에 대해: response set 와 응답 확률 . 각 에 대해 독립적으로, 단일 correct answer 가 무작위로 균등하게 선택됩니다. 마지막으로, 각 에 대해 이고 입니다. 따라서 $E_c = R_c \setminus {a_c}$이고 $V_c = {a_c, \text{IDK}}$입니다.

주어진 사실을 쓰는 방법은 단 하나라고 가정하며, 이는 형식이 지정되었던 앞의 생일 예제에서처럼 할 수 있습니다. 그러나 각 사실을 진술하는 방법이 여러 가지일 경우 훨씬 더 많은 hallucinations을 예상할 수 있다는 점을 다시 한번 언급합니다. 고정 형식의 생일의 경우, 이며, 생일이 자주 논의되는 유명인들은 높은 $\mu(c)$를 가질 것입니다. 아인슈타인의 생일과 같은 주목할 만한 생일은 여러 번 나타나는 반면, 다른 것들은 부고 기사와 같이 한 번만 나타날 수 있습니다. Large language models은 아인슈타인의 생일이나 논문 제목과 같이 자주 참조되는 사실에 대해서는 거의 오류를 범하지 않습니다.

hallucinations에 대한 우리의 lower-bound는 IDK를 무시하고 training data에 단 한 번 나타나는 prompts의 비율에 기반합니다.

Definition 2 (Singleton rate). prompt 는 abstention 없이 개의 training data 에서 정확히 한 번 나타나는 경우 singleton입니다, 즉 입니다. 를 singletons의 집합으로 나타내고, 을 training singletons의 비율로 나타냅니다.

singleton rate는 Alan Turing의 우아한 "missing-mass" 추정기에 기반을 두며, 이는 distribution에서 sample에 아직 나타나지 않은 결과에 얼마나 많은 확률이 할당되는지를 측정합니다. 구체적으로, Turing의 보이지 않는 사건 확률 추정치는 정확히 한 번 나타나는 samples의 비율입니다. 직관적으로, singletons는 추가 sampling에서 얼마나 더 많은 새로운 결과를 만날 수 있는지에 대한 대리 역할을 하므로, 그들의 empirical share는 전체 "missing" distribution 부분에 대한 추정치가 됩니다. 이제 Arbitrary Facts에 대한 우리의 경계를 기술합니다.

Theorem 2 (Arbitrary Facts). Arbitrary Facts model에서, 개의 training samples을 받아 $\hat{p}$를 outputs하는 모든 algorithm은, $\vec{a} = \langle a_c \rangle_{c \in C}$와 개의 training examples에 대해 $\geq 99%$의 확률로 다음을 만족합니다:

더욱이, $\geq 99\%$의 확률로, `calibrated`된 $\hat{p}$($\delta = 0$)를 outputs하는 효율적인 algorithm이 존재하며,

이 논문의 이전 버전은 prompts와 abstentions를 생략한 관련된 정리를 제시했습니다. 증명은 부록 B에 있습니다. Miao와 Kearns의 후속 연구는 hallucinations, singleton rate, calibration에 대한 경험적 연구를 제공합니다.

3.3.2 Poor models

Misclassifications는 underlying model이 좋지 않을 때도 발생할 수 있습니다. 그 이유는 (a) model family가 개념을 잘 representation할 수 없거나(원형 영역을 근사하는 linear separators처럼), 또는 (b) model family가 충분히 표현력이 있지만 model 자체가 좋은 적합이 아니기 때문입니다. Agnostic Learning은 주어진 classifiers의 family  ()에 있는 모든 classifier의 minimal error rate를 정의함으로써 (a)를 다룹니다:

만약 $\text{opt}(G)$가 크다면, 에 있는 어떤 classifier도 높은 misclassification rate를 가질 것입니다. 우리의 경우, 에 의해 parameterized된 language model 가 주어졌을 때, thresholded-language-model classifiers의 family를 고려합니다:

Theorem 1으로부터 즉시 다음과 같은 결론을 얻을 수 있습니다.

문맥당 정확히 하나의 정답이 존재하는 경우(즉, IDK 없는 표준 multiple choice), calibration term은 제거될 수 있으며, 개의 선택지에 대해서도 경계를 달성할 수 있습니다.

Theorem 3 (Pure multiple-choice). 모든 에 대해 이고, 선택지의 수를 이라고 가정하자. 그러면,

설명을 위해, 각 단어가 이전 두 단어에만 기반하여 예측되었던 고전적인 trigram language model을 생각해 봅시다. 즉, context window가 단 두 단어입니다. Trigram models은 1980년대와 1990년대에 지배적이었습니다. 그러나 Trigram models은 정기적으로 비문법적인 문장을 output합니다. 다음 prompts와 responses를 고려해 봅시다:  = She lost it and was completely out of . . .  = He lost it and was completely out of . . .  = her mind.  = his mind. 여기서, $V_{c1} := E_{c2} := {r_1}$이고 $V_{c2} := E_{c1} := {r_2}$입니다.

Corollary 2. 가 ${c_1, c_2}$에 대한 균등 분포라고 하자. 그러면 모든 trigram model은 최소 1/2의 generation error rate를 가져야 한다.

이는 Theorem 3에서 비롯되며, trigram models에 대해 이고 이기 때문입니다. Theorem 3과 Corollary 2의 증명은 부록 C에 있습니다. n-gram models이 더 큰 에 대해 더 긴 범위의 dependencies를 포착할 수 있지만, data requirements는 에 대해 지수적으로 확장됩니다.

이제 서론의 글자 수 세기 예제를 다시 살펴봅시다. 이것이 poor model 문제라는 것을 보려면, DeepSeek-R1 reasoning model이 글자를 안정적으로 센다는 점에 유의하십시오. 예를 들어, 다음과 같은 377-chain-of-thought를 생성합니다:

철자를 말해 보겠습니다: D-E-E-P-S-E-E-K. 첫 글자: D — D가 하나입니다. 두 번째 글자: E — D가 아닙니다. 세 번째 글자: E — D가 아닙니다. . . 따라서, D의 개수는 1입니다.

유사한 training data를 가정할 때, 이는 R1이 해당 작업에 대해 DeepSeekV3 model보다 더 나은 model임을 시사합니다. reasoning이 극복하는 한 가지 representational challenge는 현대 language models이 개별 characters보다는 tokens(예: D/EEP/SEE/K)로 prompts를 representation한다는 것입니다.


3.4 Additional factors

Errors는 위에서 논의된 요인들과 다른 여러 요인들을 포함한 여러 요인의 조합으로 인해 발생할 수 있습니다. 여기서는 몇 가지를 강조합니다.

  • Computational Hardness. 고전적인 컴퓨터에서 실행되는 어떤 algorithm도, superhuman capabilities를 가진 AI조차도, computational complexity theory의 법칙을 위반할 수 없습니다. 실제로, AI systems은 computationally hard problems에서 오류를 범하는 것으로 밝혀졌습니다. 부록 D의 관찰 2는 Theorem 1이 "c의 decryption은 무엇인가?" 형태의 intractable queries에 어떻게 적용되는지를 보여주며, IDK는 valid answer입니다.
  • Distribution shift. binary classification에서 잘 알려진 과제는 training과 test data distributions이 종종 발산한다는 것입니다. 유사하게, language models의 errors는 종종 training distribution과 상당히 다른 out-of-distribution (OOD) prompts에서 비롯됩니다. "깃털 1파운드와 납 1파운드 중 어느 것이 더 무거운가?"와 같은 질문은 training data에 없을 가능성이 높으며 특정 models에서 잘못된 답변을 유도할 수 있습니다. 유사하게, distribution shift는 위의 글자 수 세기 예제에서 요인이 될 수 있지만, reasoning models이 글자를 정확하게 센다는 사실은 poor models이 더 큰 요인일 수 있음을 시사합니다.
  • GIGO: Garbage in, Garbage out. 대규모 training corpora는 종종 수많은 사실적 errors를 포함하며, 이는 base models에 의해 복제될 수 있습니다. classification과 pretraining 모두에 대한 GIGO의 통계적 유사성은 자명하므로, 공식적인 처리는 제공하지 않습니다. 그러나 language models이 training data의 errors를 복제하는 것으로 나타났으므로, GIGO를 statistical factors 중 하나로 인식하는 것이 중요합니다.

GIGO는 또한 일반적인 오해나 음모론과 같은 특정 GIGO errors를 감소시키는 post-training 주제로 자연스럽게 이어집니다. 다음 섹션에서는 일부 hallucinations이 현재의 post-training pipelines에 의해 왜 지속되고, 심지어 악화될 수 있는지를 설명합니다.

 

 

🧑‍🔬 AI 연구자를 위한 정리 노트 (3 Pretraining Errors)

이 섹션은 hallucination이 training data의 오류 때문이 아니라, pretraining 과정 자체의 통계적 필연성 때문에 발생한다는 것을 이론적으로 증명합니다.

  • 핵심 주장: unsupervised density estimation(pretraining의 목표)은 supervised binary classification보다 본질적으로 더 어려운 문제입니다. 따라서 classification이 어려운 문제에서는 generative model의 error가 필연적으로 발생합니다.
  • 핵심 방법론: Reduction to IIV (Is-It-Valid)
    • 이 섹션의 핵심 아이디어는 generative model의 error를 **IIV라는 binary classification 문제로 reduction**하는 것입니다. IIV는 주어진 출력이 valid한지 error인지를 판별하는 가상의 문제입니다.
    • base model $\hat{p}$가 출력 에 부여하는 확률 $\hat{p}(x)$을 특정 임계값()과 비교하여 IIV classifier로 활용할 수 있음을 보입니다.
    • 이를 통해 generative error rate와 IIV misclassification rate 사이에 라는 수학적 관계(Corollary 1, Theorem 1)를 수립합니다. 이는 IIV 문제가 어려워 classifier의 오류()가 높으면, generative model의 오류() 역시 높을 수밖에 없음을 의미합니다.
  • Calibration의 역할:
    • pretraining의 표준 목표 함수인 cross-entropy는 model이 자연스럽게 calibrated 되도록 (즉, reduction의 오차항인 가 작아지도록) 유도합니다.
    • 따라서 calibrated된 base model에게 errors는 training 과정의 필연적인 부산물입니다. 역으로, error가 없는 model(예: 단순 DB)은 calibrated되지 않았음을 의미합니다.
  • Hallucination을 유발하는 주요 Error 요인: Computational learning theory의 관점을 차용하여, IIV classification을 어렵게 만드는, 즉 hallucination을 유발하는 근본적인 통계적 요인들을 다음과 같이 분석합니다.
    1. Arbitrary Facts (높은 Statistical Complexity): 학습 가능한 패턴이 없는 임의의 사실들(예: training data에 한 번만 등장하는 생일 정보)은 IIV classification을 본질적으로 어렵게 만듭니다. 이 경우 hallucination rate는 training data에서의 singleton rate (데이터셋에서 단 한 번 등장하는 prompt의 비율)에 의해 lower-bound가 결정된다는 것을 증명합니다(Theorem 2).
    2. Poor Models: Model의 architecture 자체가 특정 개념을 representation하기에 부적합할 때 error가 발생합니다. (예: reasoning 능력이 없는 model의 글자 수 세기 오류). 이 error는 Agnostic Learning의 minimal error rate인 $\text{opt}(G)$와 직접적으로 연결됩니다(Theorem 3).
    3. 기타 요인: Computational Hardness, Distribution Shift, GIGO 등 classification에서 잘 알려진 error 요인들 역시 generative error의 원인이 됨을 간략히 언급합니다.

쉬운 설명

이 섹션은 AI가 왜 완벽한 교과서로만 공부해도 스스로 틀린 정보를 만들어내는지(hallucination) 그 근본적인 이유를 설명합니다.

핵심 아이디어는 이렇습니다: AI가 **"새롭고 올바른 문장을 쓰는 것(창작)"**을 잘하려면, 그보다 더 쉬운 **"주어진 문장이 맞는지 틀리는지 판단하는 것(판단)"**을 먼저 잘해야 한다는 것입니다.

  1. AI에게 '판단' 시험을 보게 하다 🧐 이 논문은 IIV(Is-It-Valid)라는 가상의 '참/거짓 판단 시험'을 설계합니다. 그리고 AI가 원래 하던 '창작'의 실력은 이 '판단' 시험 점수와 수학적으로 연결되어 있다는 것을 보여줍니다. 즉, 판단 시험을 망치면, 창작도 반드시 망치게 됩니다.
  2. AI는 왜 '판단' 시험을 망칠 수밖에 없을까? 🤔 AI가 이 판단 시험에서 높은 점수를 받기 어려운 몇 가지 이유가 있습니다.
    • 패턴 없는 사실: 교과서에 어떤 사람의 생일이 딱 한 번만 나온다고 상상해보세요. AI는 생일의 '패턴'을 학습할 수 없습니다. 그래서 처음 보는 생일 정보가 맞는지 틀리는지 '판단'하라고 하면 거의 찍어야 합니다. 이렇게 판단을 못하니, 스스로 생일 정보를 '창작'할 때도 틀린 정보를 만들어낼 수밖에 없습니다.
    • 잘못된 두뇌 구조 (Poor Models): AI의 두뇌(모델 구조)가 특정 문제에 맞지 않는 경우도 있습니다. 예를 들어, 단어를 글자 단위가 아닌 덩어리(token)로 인식하는 AI에게 글자 수를 세라고 하면 힘들어합니다. 애초에 문제를 풀기에 적합한 두뇌가 아니기 때문에 '판단'도, '창작'도 틀리는 것입니다.
    • 그 외 문제들: 너무 어려운 계산 문제를 풀게 하거나(Computational Hardness), 쓰레기 정보를 배우게 하는 경우(GIGO) 등도 당연히 AI가 실수를 저지르는 원인이 됩니다.

결론적으로, pretraining이라는 AI의 학습 방식 자체가 이런 '판단하기 어려운' 문제들을 반드시 포함하기 때문에, hallucination은 단순한 버그가 아니라 학습 과정에서 발생하는 피할 수 없는 결과라는 것이 이 섹션의 핵심 설명입니다.

 

 

 

 

4 Post-training and hallucination

더보기

Post-training은 model을 autocomplete model처럼 trained된 것에서, 자신감 있는 거짓을 output하지 않는 model로 전환시켜야 합니다 (물론 소설을 쓰도록 요청받는 등 적절한 경우는 예외입니다). 그러나 우리는 기존의 benchmarks와 leaderboards가 특정 유형의 hallucination을 강화하기 때문에, hallucinations을 추가로 줄이는 것은 힘든 싸움이라고 주장합니다. 따라서 우리는 이러한 강화를 멈추는 방법에 대해 논의합니다. 이는 기존 evaluations을 수정해야 할 뿐만 아니라, 이러한 변화가 영향력 있는 leaderboards에 채택되어야 한다는 점에서 사회-기술적인 문제입니다.


4.1 How evaluations reinforce hallucination

language models에 대한 Binary evaluations는 잘못된 '맞고-틀림'의 dichotomy를 강요하며, 불확실성을 표현하거나, 의심스러운 세부 정보를 생략하거나, 명확화를 요청하는 답변에는 어떠한 점수도 부여하지 않습니다. accuracy나 pass rate와 같은 이러한 metrics는 아래에서 주장하는 바와 같이 이 분야의 지배적인 규범으로 남아있습니다. binary grading 하에서 기권하는 것은 명백히 차선책입니다. IDK-type responses는 최대로 감점되는 반면, 과도하게 자신감 있는 "best guess"가 최적입니다. 그 동기는 두 가지 바람직한 요소를 결합합니다: (a) language model이 output한 것들 중의 accuracy 비율, 그리고 (b) 응답이 얼마나 포괄적인가. 그러나 hallucinations을 줄이기 위해서는 (b)보다 (a)에 더 비중을 두는 것이 중요합니다.

공식적으로, prompt  형태의 주어진 질문에 대해, plausible responses (valid 또는 error)의 집합을 $R_c := {r | (c, r) \in X }$로 표기합니다. 더 나아가, plausible abstention responses의 집합 가 있다고 가정합니다 (예: IDK). grader $g_c : R_c \to \mathbb{R}$는 ${g_c(r) | r \in R_c} = {0, 1}$이고 모든 에 대해 일 때 binary라고 합니다. 문제는 $(c, R_c, A_c, g_c)$로 정의되며, 여기서 test-taker는 를 알고 있습니다. 우리는 test-taker가 채점 방식이 binary라는 것은 알지만, 이 되는 정답은 모른다고 가정합니다. 정답에 대한 test-taker의 믿음은 binary 에 대한 posterior distribution 로 볼 수 있습니다. 어떠한 믿음이든, 최적의 응답은 기권이 아닙니다.

Observation 1. 를 prompt라고 하자. binary graders에 대한 어떠한 distribution 에 대해서도, 최적의 응답은 기권이 아니다. 즉,

증명은 사소하지만(부록 E 참조), 관찰 1은 기존 evaluations이 수정될 필요가 있음을 시사합니다. 표 2는 부록 F의 간략한 메타-평가 분석을 요약한 것으로, 대다수의 인기 있는 evaluations이 binary grading을 사용하고 있음을 발견했습니다. 따라서 primary evaluations이 정직하게 confidence와 uncertainty를 보고하는 것에 불이익을 줄 때, 추가적인 hallucination evaluations만으로는 충분하지 않을 수 있습니다. 이것은 hallucination evaluations에 대한 기존 연구의 가치를 폄하하는 것이 아니라, 오히려 불확실성에 대한 정직한 보고를 산출하는 이상적인 hallucination evaluation과 이상적인 post-training methodology조차도, 기존 evaluations의 대다수에서 낮은 성능 때문에 묻혀버릴 수 있음을 지적합니다.


4.2 Explicit confidence targets

Human tests도 유사하게 대부분 binary이며, 이 역시 과도하게 자신감 있는 허세를 보상하는 것으로 인식되어 왔습니다. 물론, 시험은 인간 학습의 작은 부분일 뿐입니다. 예를 들어, 생일을 조작하면 금방 창피를 당하게 될 것입니다. 그럼에도 불구하고, 인도의 JEE, NEET, GATE 시험; 미국 수학 협회의 AMC 테스트; 그리고 과거의 미국 표준화 시험인 SAT, AP, GRE 테스트를 포함한 일부 국가 표준화 시험은 오답에 대한 감점(또는 기권에 대한 부분 점수 부여)을 사용하거나 사용해 왔습니다. 중요하게도, 채점 시스템은 지침에 명확하게 명시되어 있으며, 시험 응시자들은 종종 best guess를 하는 것이 합리적인 confidence threshold를 인지하고 있습니다.

유사하게, 우리는 evaluations이 prompt(또는 system message) 내의 지침에서 confidence targets을 명시적으로 밝힐 것을 제안합니다. 예를 들어, 각 질문에 다음과 같은 문장을 덧붙일 수 있습니다:

오답은 $t/(1 - t)$점 감점되고, 정답은 1점을 받으며, "모르겠습니다"라는 답변은 0점을 받으니,  이상의 confidence가 있을 때만 답하십시오.

 (감점 1),  (감점 2),  (감점 9)를 포함하여 몇 가지 자연스러운  값이 있습니다. 임계값 은 binary grading에 해당하며, 예를 들어 "시험을 보는 것처럼, 확신이 없더라도 최선의 추측을 하십시오."라고 설명할 수 있습니다. 간단한 계산을 통해, 답변을 제시하는 것의 기대 점수는 그 confidence(즉, 정답일 확률)가 보다 클 때만 IDK(점수 0)를 능가한다는 것을 알 수 있습니다.

이러한 감점은 hallucination research 내에서 잘 연구되어 왔습니다. 그러나 우리는 통계적 파급 효과가 있는 두 가지 미묘한 변형을 제안합니다. 첫째, 우리는 지침에서 confidence threshold를 명시적으로 만들 것을 제안하는 반면, 이전 연구는 대체로 지침에서 confidence targets이나 감점에 대한 언급을 생략했습니다. (주목할 만한 예외는 명시적인 감점이 있는 "risk-informing" prompts를 도입한 Wu 등의 연구입니다.) 이상적인 감점은 실제 세계에서 발생할 수 있는 해를 반영할 수 있지만, 이는 문제, 목표 애플리케이션, 사용자 그룹에 따라 특정되기 때문에 비현실적입니다. 지침 내에 투명한 명시가 없다면, language-model creators 사이에서 올바른 thresholds에 대한 합의를 이루기 어려울 것입니다. 유사하게, 학생들은 오류에 대한 불특정 감점이 있다는 지침이 주어진다면 채점이 불공평하다고 논쟁할 수 있습니다. 대신, 각 문제의 지침에 confidence thresholds를 명시적으로 지정하면 선택된 특정 thresholds가 다소 임의적이거나 심지어 무작위적이더라도 객관적인 채점을 지원합니다. threshold가 명시적이라면, 단일 model이 모든 thresholds에서 최고일 수 있습니다. 그러나 threshold가 명시되지 않으면 내재적인 절충 관계가 있으며, 일반적으로 단일 model이 최고가 될 수 없습니다(항상 정답인 model 제외).

둘째, 우리는 software patches의 binary grading을 포함하는 인기 있는 SWE-bench와 같은 기존의 mainstream evaluations에 confidence targets을 통합할 것을 제안합니다. 반면 이전 연구의 대다수는 맞춤형 bespoke hallucination evaluations에서 암묵적인 error penalties를 도입했습니다. 암묵적인 error penalties가 있는 evaluations을 단순히 추가하는 것은 앞서 언급한 accuracy-error tradeoff에 직면합니다. 반면에, 이미 사용 중인 기존 evaluations에 confidence targets을 통합하면, 불확실성의 적절한 표현에 대한 감점을 줄여줍니다. 따라서 이는 hallucination-specific evaluations의 효과를 증폭시킬 수 있습니다.

명시적인 confidence targets이 있으면, 모든 targets에 대해 동시에 최적인 한 가지 행동이 있습니다 — 정답 확률이 target보다 큰 예제들 중에서 IDK를 output하는 것입니다. 이를 behavioral calibration이라고 부릅시다 — model이 probabilistic confidence를 output하도록 요구하는 대신, 최소한 의 confidence를 가진 가장 유용한 response를 공식화해야 합니다. Behavioral calibration은 thresholds에 걸쳐 accuracy와 error rates를 비교하여 audited될 수 있으며, 정답을 표현하는 방법이 기하급수적으로 많을 수 있다는 문제를 회피합니다. 기존 models은 behavioral calibration을 보일 수도 있고 보이지 않을 수도 있지만, 이는 objective evaluation으로서 유용할 수 있습니다.

 

 

🧑‍🔬 AI 연구자를 위한 정리 노트 (4 Post-training and hallucination)

이 섹션은 hallucination 문제가 기술적 post-training만으로는 해결될 수 없으며, evaluation 패러다임의 근본적인 변화가 필요한 사회-기술적(socio-technical) 문제임을 주장합니다.

  • 핵심 문제 진단: 현재 AI 분야를 지배하는 대부분의 evaluations 및 leaderboards는 binary grading (예: accuracy, pass rate) 방식을 사용합니다. 이 방식은 IDK와 같은 불확실성 표현에 0점을 부여하므로, model이 점수를 최대화하기 위해 불확실한 상황에서도 best guess(즉, hallucination)를 하도록 **적극적으로 강화(reinforce)**합니다. (Observation 1)
  • 기존 접근법의 한계: 단순히 새로운 hallucination-specific evaluations을 추가하는 것은 해결책이 될 수 없습니다. primary evaluations의 대다수가 여전히 hallucination을 보상하는 구조라면, model 개발의 주된 인센티브는 변하지 않기 때문입니다.
  • 핵심 제안: Explicit Confidence Targets 도입:
    1. 무엇을: 기존의 mainstream evaluations (예: SWE-bench)의 채점 방식을 수정하여, 오답에 대한 페널티를 부여하고 confidence threshold()를 prompt나 지시문에 명시할 것을 제안합니다.
    2. : confidence target을 명시하면, model은 불확실한 페널티에 대한 절충(trade-off) 없이 모든 threshold에 대해 최적의 행동(주어진 confidence 하에 답변하거나 IDK를 출력)을 학습할 수 있습니다. 이는 공정하고 객관적인 evaluation을 가능하게 합니다.
  • 새로운 평가 개념: Behavioral Calibration:
    • 이 제안은 model이 단순히 probabilistic confidence를 출력하는 것을 넘어, 주어진 confidence target에 맞춰 최적의 행동을 취하는 능력, 즉 **behavioral calibration**을 평가의 새로운 목표로 제시합니다.
    • model이 정답 확률이 이하일 때 IDK를 출력하고, 이상일 때 답변을 생성하는지를 관찰함으로써, model의 신뢰도를 실질적으로 auditing할 수 있습니다.

쉬운 설명 💡

이 섹션은 AI가 post-training(일종의 심화 학습)을 거쳐도 왜 계속해서 거짓말(hallucination)을 하는지에 대한 매우 현실적인 이유를 설명합니다.

  1. 문제의 원인: 모든 시험이 '아니면 말고' 식이다 📝 현재 AI의 성능을 평가하는 대부분의 시험(benchmark)은 "정답이면 1점, 오답이거나 '모르겠다'고 답하면 0점"을 주는 binary grading 방식입니다.
  2. 여러분이 이런 시험을 보는 학생이라고 상상해보세요. 모르는 문제가 나왔을 때, "모르겠다"고 쓰는 것과 아무거나 찍는 것 중 어느 쪽이 점수에 유리할까요? 당연히 찍는 것입니다. 운 좋으면 1점을 받을 수 있으니까요. 논문은 바로 이 시험 방식이 AI가 정직하게 "모르겠다"고 말하는 대신, 일단 뭐라도 지어내고 보도록(hallucination) 부추기는 핵심 원인이라고 지적합니다.
  3. 해결책 제안: 시험 규칙을 바꾸자! 룰은 명확하게! 📢 이 문제를 해결하기 위해 논문은 다음과 같은 해결책을 제안합니다.
    • "찍으면 감점" 규칙 추가: 시험지 맨 앞에 "이 시험에서는 오답 시 감점이 있습니다. 90% 이상 확신이 있을 때만 답하세요." 와 같이 명확한 confidence target을 제시하는 것입니다.
    • 모든 주요 시험에 적용: 이 새로운 규칙을 hallucination 전용 시험에만 적용하는 것은 의미가 없습니다. 학생들이 정말 중요하게 생각하는 주요 시험(대학수학능력시험처럼 영향력 있는 evaluation)의 규칙 자체를 바꿔야 모두의 행동이 바뀐다는 것입니다.
  4. 최종 목표: 진짜 똑똑한 AI 가려내기 🧠 새로운 시험 규칙이 적용되면, 진짜 똑똑한 AI는 단순히 정답을 많이 아는 AI가 아니라, 자신이 무엇을 알고 무엇을 모르는지 정확히 아는 AI, 즉 **behavioral calibration**이 잘 된 AI가 됩니다. 이 AI는 90%의 확신을 요구하면 그에 맞게 답하고, 50%의 확신만 요구하면 더 과감하게 답하는 등, 상황에 맞게 자신의 지식을 행동으로 증명할 수 있게 됩니다.

 

 

 

 

 

 

주인장 이해

 

더보기

"Why Language Models Hallucinate" 

  1. Hallucination의 근본 원인은 두 단계로 나뉜다.
    • 1단계 (기원): Hallucination은 애초에 모델이 방대한 데이터를 통계적으로 학습할 때, 드물게 등장하는 정보(Singleton)에 대해 어쩔 수 없이 추론하며 발생하는 통계적 현상이다.
    • 2단계 (악화): 이 자연스러운 오류가 고쳐지지 않고 오히려 악화되는 이유는, 현재의 거의 모든 AI 평가 방식(벤치마크)이 **불확실성을 표현하는 것(IDK)에 페널티를 주고, 틀릴 위험이 있더라도 추측하는 행위에 더 높은 기대 보상을 주는 "시험 모드"**로 설계되어 있기 때문이다.
  2. 해결책은 '평가 시스템' 자체를 바꾸는 것이다.
    • 새로운 모델이나 알고리즘을 만드는 것보다, 기존의 영향력 있는 벤치마크들의 채점 규칙을 바꾸는 것이 더 근본적인 해결책이다.
    • 구체적인 제안은 **"명시적인 신뢰도 목표(Explicit Confidence Targets)"**를 프롬프트에 포함시키는 것이다. 예를 들어, "90% 이상 확신할 때만 답하고, 틀리면 큰 감점을 준다"는 규칙을 명시하여, 모델이 스스로의 불확실성을 판단하고 관리하도록 강제하는 것이다.
  3. 그러나 이 제안은 아직 '아이디어' 단계에 가깝다.
    • 논문은 이러한 새로운 평가 프레임워크가 왜 필요한지, 왜 효과가 있을 것인지에 대한 이론적 근거를 제시하는 데 집중했다.
    • 하지만 모델의 '신뢰도(confidence)'를 구체적으로 어떻게 수치화할지, 특히 Rationale을 포함하는 복잡하고 긴 답변의 신뢰도는 어떻게 측정할지에 대한 기술적인 구현 방법은 제시하지 않았다. 이는 이 제안의 명백한 한계이자 후속 연구가 풀어야 할 중요한 과제이다.

요약하자면, "Hallucination은 모델의 결함이라기보다, 현재의 평가 시스템이 조장하는 예측 가능한 행동이다. 따라서 해결책은 모델이 아니라 평가 시스템 자체를, 특히 불확실성을 고려하도록 채점 방식을 바꾸는 것이다. 다만, 이 아이디어를 실제로 구현하는 데에는 아직 기술적인 허들이 남아있다."