AI바라기의 인공지능
LLM : 논문 리뷰 : Hallucinations Undermine Trust; Metacognition is a Way Forward 본문
LLM : 논문 리뷰 : Hallucinations Undermine Trust; Metacognition is a Way Forward
AI바라기 2026. 6. 14. 19:35용어 설명
- Metacognition (메타인지): 모델이 스스로의 불확실성(uncertainty)을 인지하고 이를 바탕으로 행동(예: 정직하게 소통하거나 외부 툴을 언제 사용할지 결정)하는 능력입니다.
- Faithful uncertainty (신뢰할 수 있는 불확실성): 모델이 내뱉는 말의 확신 정도(linguistic uncertainty)와 모델 내부의 실제 통계적 확신 정도(intrinsic uncertainty)를 일치시키는 것을 의미합니다.
- Discriminative gap (식별 격차): 모델이 정답과 오답을 완벽하게 분리해내는 능력(discrimination)이 부족한 현상입니다.
- Calibration vs. Discrimination:
- Calibration: 모델의 평균적인 확신도(confidence)가 실제 정답률과 일치하는 정도입니다. (예: 60% 확신도로 예측한 답변들을 모아보면 실제로 60%가 정답임)
- Discrimination: 개별 질문에 대해 이것이 정답인지 오답인지 확신도를 기준으로 명확하게 구분해내는 능력입니다. 이 논문은 Calibration이 잘 되어 있어도 Discrimination 능력이 떨어지면 환각을 잡을 수 없다고 주장합니다.
- Utility tax (효용성 세금): 모델의 환각(hallucination)을 0으로 만들기 위해, 조금이라도 불확실한 경우 답변을 거부(abstain)하게 만들 때 발생하는 부작용입니다. 이 과정에서 수많은 '올바른 정답'들까지 함께 버려지게 되어 모델의 실제 쓸모(utility)가 급감하는 현상을 뜻합니다.
- Confident error (자신감 있는 오류): 이 논문에서 새롭게 정의한 환각의 개념입니다. 단순한 틀린 답이 아니라, '적절한 불확실성의 표현 없이 단정적으로 전달된 잘못된 정보'를 뜻합니다.
- Reliable utility: 모델이 답변을 거부하지 않고 최대한 많은 정보를 제공하되, 모델의 내부 확신도에 맞춰 말투의 단호함을 조절함으로써 사용자의 신뢰를 무너뜨리지 않는 상태를 말합니다.
Purpose of the Paper
- 기존 한계: 기존 연구들은 환각을 단순히 '오류'로 규정하고, 외부 툴 없이 이를 완전히 제거하기 위해 불확실할 때 답변을 거부(abstain)하도록 모델을 학습시켰습니다. 하지만 모델의 Discriminative gap으로 인해, 오류를 잡으려다 올바른 정보까지 대량으로 묵살해버리는 치명적인 Utility tax가 발생합니다.
- 새로운 문제 정의 및 접근: 본 논문은 환각을 단순히 틀린 것이 아닌 Confident error로 재정의합니다. "무조건 정답을 말하거나 아예 입을 다물어라(answer-or-abstain)"라는 이분법적 접근에서 벗어나, 모델이 자신이 모른다는 것을 아는 능력(Metacognition)을 갖추고 내부의 확신 상태를 텍스트로 솔직하게 표현하는 Faithful uncertainty를 새로운 해결책(Third path)으로 제시합니다.
Key Contributions
- 환각 제거의 이론적/실험적 한계 증명 (Utility tax 규명): Calibration이 완벽한 모델이라도 Discrimination 능력이 부족하면 환각을 없애는 것이 불가능함을 증명했습니다. 환각을 줄이려는 시도가 필연적으로 모델의 유용성을 파괴한다는 것을 구체적으로 밝혔습니다.
- 목표의 패러다임 전환 (Faithful uncertainty 도입): 모델의 외부적 사실성(세상의 진실과 일치하는가)을 완벽히 맞추는 불가능한 목표 대신, 내부적 상태(자신의 파라미터가 얼마나 확신하는가)와 출력 텍스트를 일치시키는 폐쇄 루프(closed-loop) 문제로 목표를 전환했습니다. 이는 실현 가능한 목표이며 Reliable utility를 달성할 수 있습니다.
- Agentic AI를 위한 필수 Control Layer 제안: 외부 검색 툴(Tool-use)이 환각 문제를 우회할 수 있다는 착각을 지적했습니다. 오히려 에이전트가 '언제 검색해야 하는가', '검색된 결과와 내 지식 중 무엇을 믿을 것인가'를 결정하기 위해서는 Metacognition이 핵심 제어 시스템(Control layer)으로 작용해야 함을 역설한 점이 참신합니다.
Experimental Highlights
- Utility-Error Trade-off 시뮬레이션: 문헌들의 데이터를 바탕으로 Calibration이 매우 잘 된(smECE 0.014) 상황을 시뮬레이션했습니다. 그 결과, 기본 환각률 25%를 엄격한 기준인 5%로 낮추기 위해서는, 맞출 수 있는 유효한 정답의 52%를 버려야만 한다는 극단적인 Utility tax 수치를 도출해 냈습니다.
- SimpleQA Verified Benchmark 시각화: 최신 SOTA 모델들의 성능을 시각화하여 현 필드의 상황이 두 갈래로 나뉘었음을 보여주었습니다. 대부분의 모델은 답변률을 높이고 높은 환각을 감수하거나(대각선 위치), 환각을 줄이려다 유용성을 심각하게 잃고(왼쪽으로 이동) 있었습니다. 완벽한 Discrimination을 의미하는 우측 상단의 'Ideal' 영역은 완전히 비어있음을 보여주며 현재 모델들의 구조적 한계를 입증했습니다.
- 평가 방식의 전환 제안: ECE나 AUROC 같은 요약된 metrics는 실제 운영 비용을 숨기므로, 특정 에러율에 도달하기 위해 얼마나 많은 utility를 희생해야 하는지 보여주는 전체 Utility-Error Curve를 시각화하여 평가할 것을 제안했습니다.
Limitations and Future Work
- The Bootstrapping Paradox: Base models는 본래 확신을 낮춰 말하는 법(hedging)을 모릅니다. 이를 가르치기 위해 Supervised fine-tuning (SFT) 을 해야 하는데, SFT 데이터는 정적인 반면 모델의 지식 경계는 학습에 따라 계속 변합니다. 모델이 아는 것을 '모른다'고 학습하게 되는 모순이 발생하므로, 동적인 데이터셋이나 지식 경계에 과적합되지 않는 새로운 학습 인프라 구축이 필요합니다.
- Signal Preservation through Post-Training: Pre-trained models는 내부적으로 잘 조정된 불확실성 신호를 가지고 있지만, Alignment (안전성, 지시 수행 학습) 과정을 거치면서 이 신호가 파괴되고 모델이 지나치게 과신(overconfident)하게 됩니다. 섬세한 내부 불확실성 분포를 보존하는 "uncertainty preserving" Alignment 알고리즘 개발이 시급합니다.
- Confidence Attribution: 모델이 단순히 "불확실하다"고 말하는 것을 넘어, 프롬프트가 모호해서인지(aleatoric), 지식이 부족해서인지(epistemic) 그 원인을 추적하여 상황에 맞는 정확한 언어적 표현(hedging)으로 매핑하는 연구가 필요합니다.
- Causal Evaluation: 모델이 실제로 자신의 내부 상태를 인지하는 것이 아니라, "희귀한 단어가 나오면 얼버무려라" 같은 얄팍한 패턴(mimic)을 학습할 위험이 있습니다. 진정한 Metacognition을 평가하기 위해 모델 간 교차 평가 및 전략적 게임 기반의 인과적 평가 프레임워크가 요구됩니다.
Overall Summary
본 논문은 LLM의 환각 문제를 완전히 제거하려는 기존의 방식이 완벽하지 않은 Discrimination 능력으로 인해 필연적으로 치명적인 Utility tax(정답 묵살)를 유발한다는 근본적 한계를 지적합니다. 이에 대한 해결책으로, 무리하게 정답만을 강요하기보다 모델이 스스로의 불확실성을 인지하고 솔직하게 언어로 표현하는 Metacognition 및 Faithful uncertainty로 연구 목표를 전환할 것을 촉구합니다. 이는 단순한 텍스트 생성의 신뢰성을 높이는 것을 넘어, 향후 자율적으로 외부 툴을 다루고 판단을 내리는 Agentic AI의 필수적인 제어 시스템(Control layer)을 구축하는 데 있어 핵심적인 패러다임 전환을 제시한다는 점에서 매우 큰 의의를 가집니다.
쉬운 설명
이 논문의 핵심 아이디어는 "오만하고 무능한 완벽주의자" 대신 "자신의 한계를 아는 솔직한 전문가"로 AI를 만들자는 것입니다.
우리가 의사를 신뢰하는 이유는 의사가 세상의 모든 희귀병을 100% 알아서가 아닙니다. "이 증상은 A 질병이 확실합니다"라고 말할 때와, "B 질병일 가능성이 높지만 확신할 수 없으니 추가 검사를 해봅시다"라고 말할 때를 정확히 구분해서 표현하기 때문입니다.
현재의 AI는 둘 중 하나입니다. 잘 모르면서도 100% 확신에 차서 엉터리 진단을 내리거나(환각), 자신이 100% 확신하지 못하는 병에 대해서는 아예 진료 자체를 거부해버립니다(Utility tax). 이 논문은 AI에게 "내부적으로 헷갈리면, 헷갈린다고 솔직하게 말하는 법(Faithful uncertainty)" 을 가르쳐야 한다고 말합니다. 이렇게 되면 AI는 무조건 정답만 말해야 한다는 압박에서 벗어나 쓸모 있는 추측을 제공할 수 있고, 나아가 스스로 '내가 지금 헷갈리니까 외부 인터넷 검색 툴을 사용해야겠다'라고 판단할 수 있는 진정한 지능형 에이전트로 진화할 수 있습니다.
Abstract
사실적 신뢰성에서 상당한 진전이 있었음에도 불구하고, 종종 hallucinations라고 불리는 오류는 여전히 generative AI의 주요 문제로 남아 있으며, 특히 LLMs가 더 복잡하거나 미묘한 설정에서 유용할 것으로 점점 더 기대됨에 따라 더욱 그렇습니다. 하지만 명확한 ground truth가 있는 가장 단순한 설정인 factoid question-answering에서조차 외부 도구가 없는 frontier models는 계속해서 hallucinate합니다.
우리는 이 영역에서 대부분의 사실성 향상이 그 boundary에 대한 인식(아는 것과 모르는 것을 구별하는 것)을 개선하기보다는 model의 knowledge boundary를 확장(더 많은 사실을 인코딩)하는 데서 비롯되었다고 주장합니다. 우리는 후자가 본질적으로 어렵다고 추측합니다. models는 진실과 오류를 완벽하게 분리할 discriminative power가 부족할 수 있으며, 이로 인해 hallucinations를 제거하는 것과 유용성을 유지하는 것 사이에 피할 수 없는 tradeoff가 발생합니다.
이 tradeoff는 다른 틀에서 접근할 때 해소됩니다. 만약 우리가 hallucinations를 적절한 수식어 없이 전달되는 부정확한 정보인 confident errors로 이해한다면, answer-or-abstain 이분법을 넘어선 세 번째 경로, 즉 uncertainty 표현이 등장합니다. 우리는 linguistic uncertainty를 intrinsic uncertainty와 일치시키는 faithful uncertainty를 제안합니다.
이것은 자신의 uncertainty를 인식하고 이에 따라 행동하는 능력인 metacognition의 한 측면입니다. 직접적인 상호작용의 경우, uncertainty에 기반하여 행동하는 것은 이를 정직하게 전달하는 것을 의미하며, agentic systems의 경우 언제 search를 수행하고 무엇을 trust할지를 제어하는 control layer가 됩니다.
따라서 metacognition은 LLMs가 신뢰할 수 있고 동시에 유능해지기 위해 필수적입니다. 우리는 이 목표를 향한 발전을 위해 해결해야 할 open problems를 강조하며 결론을 맺습니다.
1. Introduction
factual reliability에서 상당한 진전이 있었음에도 불구하고, 종종 hallucinations라고 불리는 오류는 여전히 generative AI의 주요 문제로 남아 있으며, 특히 large language models (LLMs)가 더 복잡하거나 미묘한 설정에서 유용할 것으로 increasingly 기대됨에 따라 더욱 그렇습니다. 이러한 사실적으로 부정확한 generations는 종종 권위 있는 어조로 전달되어, 사용자 신뢰를 훼손하고 misinformation을 퍼뜨릴 위험이 있습니다.
본 논문에서는 frontier models가 여전히 hallucinate하는 단순한 설정인, 명확한 ground truth가 있는 factoid question-answering에 초점을 맞춥니다(long-form generation이나 진정한 모호성 또는 논쟁의 여지가 있는 주장의 경우는 제쳐두고). 외부 도구에 접근할 수 없는 models의 경우, 우리는 이 영역에서 대부분의 factuality 향상이 그 boundary에 대한 인식(아는 것과 모르는 것을 구별하는 것)을 개선하기보다는 model의 knowledge boundary를 확장(더 많은 사실을 encoding)하는 데서 비롯되었다고 주장합니다. 우리는 knowledge boundary를 확장하는 것은 종종 scale, data, 그리고 향상된 training recipes를 통해 달성할 수 있지만, models는 진실과 오류를 완벽하게 분리할 discriminative power가 본질적으로 부족할 수 있기 때문에 이러한 비대칭성이 발생한다고 추측합니다.
uncertainty quantification에 대한 연구에 따르면 잘 보정된 confidence signals를 현대의 LLMs에서 추출할 수 있지만, calibration(정답 확률과 일치하는 confidence scores)이 discrimination(정답과 오답을 예리하게 구별할 수 있는 confidence scores)을 보장하지는 않습니다. hallucination을 오류와 동의어로 취급하는 전통적인 관점에서, 제한된 discrimination은 hallucinations를 제거하는 것과 utility를 보존하는 것 사이에 내재적인 tradeoff를 만듭니다. 즉, zero hallucinations를 보장하려면 model은 uncertain할 때마다 abstain해야 하며, 이는 오류와 함께 유효한 정보까지 억제하게 됩니다. 실제 환경에서 model 제공자들은 종종 이러한 utility tax를 지불하기를 꺼리며, 그 결과 answering을 우선시하고 여전히 hallucinate하는 models가 만들어집니다.
이러한 관점은 최근의 많은 경험적 관찰들을 하나로 묶어줍니다. truthfulness probes의 빈약한 generalization과 confident hallucinations의 존재는 모두 veracity prediction에 대한 model internals의 한계를 보여줍니다. models가 오류를 고백하도록 훈련시키는 것과 같은 고급 alignment 기법이 hallucinations를 완화하는 데 실패한 것은 강력한 supervision 하에서도 이러한 결함이 지속됨을 확인해 줍니다. 종합하면, 이것들은 discrimination gap의 존재에 대한 증거를 제공합니다. 마지막으로, 확장된 reasoning이 hallucinations를 증가시키고 abstention을 저하시킨다는 놀라운 발견은 현재의 training이 이러한 tradeoffs가 존재할 때 models가 utility를 선호하도록 어떻게 장려하는지를 반영합니다.
그러나 신뢰와 utility 사이의 피할 수 없어 보이는 tradeoff는 다른 틀에서 접근할 때 해소됩니다. 만약 우리가 hallucinations를 단순한 오류가 아니라, 적절한 수식어 없이 전달되는 부정확한 정보인 confident errors로 이해한다면, uncertainty를 표현하는 세 번째 경로가 등장합니다. 적절한 hedging과 함께 전달된 오류는 hallucination이 아닙니다. 그것은 고려를 위해 제공된 가설입니다. model은 utility와 신뢰 사이에서 선택할 필요가 없으며, 자신의 uncertainty를 정직하게 전달함으로써 두 가지 모두를 보존할 수 있습니다.
당연히 단순히 hedging을 더 많이 하는 것이 정답은 아닙니다. 균일하게 hedge하는 model은 아무런 signal을 제공하지 않습니다. hedge는 기술적으로 오류율에 맞춰 calibration될 수 있지만, instance 레벨에서는 완전히 정보가 없을 수 있습니다. 필요한 것은 faithful uncertainty입니다. 즉, 각각의 특정 답변에 대한 model의 실제 internal state를 반영하는 hedging입니다. 이는 model의 linguistic uncertainty(말하는 것)를 intrinsic uncertainty(믿는 것)와 일치시킬 것을 요구하는 개념에 기반합니다.
Faithful uncertainty는 우리가 metacognition이라고 부르는 것의 한 측면입니다. 이는 자신의 uncertainty를 인식하고 그 인식에 따라 행동하는 능력입니다. 직접적인 상호작용에서 uncertainty에 따라 행동하는 것은 이를 정직하게 전달하는 것을 의미하며, 나중에 논의하겠지만 agentic systems의 경우에는 tool 사용을 guide하기 위해 uncertainty를 사용하는 것을 의미합니다.
Faithful uncertainty는 model의 응답이 명확한 behavioral semantics와 함께 internal state의 정직한 signal을 제공하도록 보장합니다. "나는 자신 있다"는 다시 질문을 받아도 model이 동일한 답변을 할 가능성이 높음을 의미하며, "나는 불확실하다"는 상충되는 답변을 할 가능성이 있음을 시사합니다. 이는 model이 궁극적으로 올바른지 여부에 관계없이 사용자가 기반하여 행동할 수 있는 정보입니다. 결정적으로, faithful uncertainty는 원칙적으로 실현 가능합니다. 이는 언제 그 상태가 진실에 해당하는지 아는 어려운 문제를 해결하는 것이 아니라 model의 internal states에만 의존하기 때문입니다. model이 자신이 언제 틀렸는지 완벽하게 알 수는 없지만, 언제 uncertain한지는 알 수 있습니다.
이러한 틀은 uncertainty가 정직하게 전달된다면 불완전한 지식 위에서도 신뢰가 구축될 수 있음을 인정합니다. 마치 우리가 전지전능함 때문이 아니라 진단과 가설을 신뢰할 수 있게 구별해 주기 때문에 의사를 신뢰하는 것과 같습니다. 또한 models가 더 유능해짐에 따라 이것은 점점 더 시급해집니다. outputs가 더 정교해짐에 따라 사용자가 독립적으로 검증하기 어려워지며, uncertainty의 정직한 소통은 안전을 위한 필수 요건이 됩니다.
faithful uncertainty가 model이 본질적으로 uncertain한 경우를 다루는 반면, 남은 오류들(model이 진정으로 confident하지만 틀린 경우)은 정직한 실수이며 오직 지속적인 knowledge expansion을 통해서만 해결될 수 있습니다. 이는 이 두 가지 노력이 어떻게 상호보완적인지를 강조합니다. knowledge expansion은 knowledge boundary를 더 멀리 밀어내고, faithful uncertainty는 남아있는 boundary가 무엇이든 그것을 전달합니다.
Metacognition은 표현을 넘어선 두 번째 측면을 가집니다. agentic systems의 경우, 그것은 control layer가 됩니다. agentic AI systems로의 전환은 효과적으로 knowledge boundary를 확장합니다. model은 encoding되지 않은 정보를 retrieve할 수 있습니다. 표면적으로 이것은 uncertainty에 대한 인식이 불필요해진다는 것을 의미할 수 있습니다. 단순히 모든 것을 찾아볼 수 있다면 모르는 것을 굳이 알아야 할 이유가 무엇일까요?
그러나 uncertainty에 대한 인식은 정확히 효과적인 tool 사용을 가능하게 하는 요소입니다. 이것 없이는 model이 언제 tool을 호출해야 할지 결정할 수 없으며(비효율적인 남용 또는 위험한 과소 사용으로 이어짐), 충돌이 발생할 때 retrieved 정보를 자신의 신념에 대비하여 적절하게 저울질할 수도 없습니다. 따라서 faithful uncertainty는 tools에 의해 회피되는 것이 아니라 오히려 그것들을 지배하는 control layer가 됩니다. 그러나 현대의 search agents는 이러한 인식이 부족하여 비효율적인 tool 남용으로 이어집니다. 따라서 metacognition을 주입하는 것은 parametric reliability를 해결할 뿐만 아니라 견고한 agentic behavior를 위한 토대를 제공합니다.
현재 LLMs가 자신의 uncertainty를 충실히 전달하는 데 어려움을 겪고 있지만, 우리는 이 문제가 가시적인 발전 가능성을 제공한다고 믿습니다. 최근의 연구는 metacognitive prompting, fine-tuning, 그리고 model internals를 통해 유망한 방향을 보여줍니다. 고무적인 결과에는 reasoning models가 자신의 confidence를 더 잘 표현한다는 관찰과 reinforcement learning에서 intrinsic signals를 rewards로 사용하여 성공을 거둔 사례도 포함됩니다.
Summary of Contributions
- 우리는 명확한 ground truth가 있는 factual question-answering에서 지금까지의 대부분의 factuality 향상이 그 boundary에 대한 인식을 개선하기보다는 model의 knowledge boundary를 확장하는 데서 비롯되었다고 주장하며, 제한된 discriminative power로 인해 후자가 본질적으로 어려울 수 있다고 추측합니다.
- 우리는 hallucination을 단순한 오류가 아니라 confident error로 reframing할 것을 제안합니다. 이것은 answer-or-abstain 이분법을 넘어선 세 번째 경로, 즉 uncertainty 표현을 드러냅니다. linguistic uncertainty를 intrinsic uncertainty와 일치시키는 metacognitive capability인 Faithful uncertainty는 utility를 보존하면서 hallucinations를 직접적으로 완화합니다. aggregate property인 calibration과 달리, faithfulness는 instance-level 보장을 제공합니다. 즉, 각 hedge는 특정 답변의 internal state를 반영합니다. 이 접근 방식은 models가 confident하지만 틀린 경우인 남은 정직한 실수를 해결하는 knowledge expansion의 지속적인 노력을 보완합니다.
- 우리는 calibration보다 discriminative measures를 우선시하고 interventions의 utility 비용을 전체적으로 정량화하는 것을 포함하여, hallucination 완화 기술을 평가하기 위한 구체적인 권장 사항을 소개합니다. faithful uncertainty와 metacognition에 관심이 있는 연구자들을 위해, 우리는 entry points로서 주요 open problems를 스케치합니다.
Organization
우리는 정의, metrics, 그리고 mitigation 전략에 대한 배경 지식으로 시작하여, 엄격한 factuality가 직면한 과제에 대한 분석을 제시합니다. 다음으로, 우리는 faithful uncertainty의 목표를 제안하고 그것의 실현 가능성과 유리한 utility-reliability 속성들에 대해 주장하며, agentic systems에서의 역할에 대해 논의합니다. 마지막으로, 연구자들을 위한 구체적인 권장 사항을 개략적으로 설명하고, 대안적인 관점을 다루며 결론을 맺습니다.

1. 왼쪽 그림: 교착 상태 진단 (내재된 유용성-사실성 트레이드오프)
왼쪽 영역은 AI 모델이 진짜 사실(초록색 상자)과 틀린 오류(빨간색 상자)를 완벽하게 구별해 내는 능력이 부족할 때 발생하는 전통적인 딜레마 상황을 보여줍니다. 저울 그림을 통해 두 가지 선택지의 결과를 대조합니다.
- 답변 거부(Abstain): 모델이 불확실한 상황에서 아예 답변을 피하는 경로입니다. 저울을 보면 사실성(Strict Factuality)은 무겁게 지켜지지만, 유용성(Utility)은 가벼워집니다. 즉, 쓸모 있는 진짜 정보마저 제공하지 못하게 되어버리는 현상(utility tax)을 설명합니다.
- 예측 수행(Predict): 모델이 불확실함에도 불구하고 무조건 답변을 내놓는 경로입니다. 유용성은 높아지지만, 모델이 틀린 정보(빨간색 상자)를 확신에 차서 전달하는 오류가 발생하여 사실성이 떨어지고 신뢰가 무너집니다. 그림 하단의 노란색 경고 기호가 이를 상징합니다.
2. 오른쪽 그림: 트레이드오프 탈출 (신실한 불확실성)
오른쪽 영역은 환각을 단순한 오류가 아니라 확신에 찬 오류로 재정의함으로써 도출해 낸 세 번째 해결책을 보여줍니다.
- 해결책: 하단의 톱니바퀴 그림처럼, 모델 내부의 본질적 불확실성(Intrinsic Uncertainty)과 겉으로 내뱉는 언어적 불확실성(Linguistic Uncertainty)을 일치시킵니다.
- 효과:
- 초록색 상자(정답): "완전히 확신할 수는 없지만, 내 생각에는..."이라는 수식어(hedge)를 달아 답변을 제공합니다. 유용한 정보가 버려지지 않으므로 유용성 보존(UTILITY PRESERVED) 상태가 됩니다.
- 보라색 상자(오답): "나의 최선의 추측은... 하지만 확실하지 않다"라고 솔직하게 표현합니다. 틀린 정보가 주는 파급력을 낮추므로 피해 완화(HARM MITIGATED) 상태가 됩니다.
- 결과: 모델은 무조건 정답만 말하려고 입을 다무는 대신, 솔직한 불확실성을 표현함으로써 신뢰할 수 있는 유용성(Reliable Utility)을 달성하게 됩니다.
결론적으로 이 이미지는 AI가 모르는 것을 숨기거나 아예 답변을 거부하는 이분법에서 벗어나, 자신이 얼마나 불확실한지 솔직하게 표현함으로써 정보의 유용성과 사용자의 신뢰를 동시에 잡는 메타인지적 접근법을 훌륭하게 요약하고 있습니다.
정리노트: Metacognition과 Faithful Uncertainty의 도입
- 문제 제기 및 기존 접근법의 한계
- 명확한 정답이 있는 Factoid question-answering 설정에서도 frontier models의 hallucination 문제는 지속됨.
- 기존의 사실성 개선 연구는 주로 model의 knowledge boundary를 확장(더 많은 사실 학습)하는 데 집중됨.
- 하지만 model은 진실과 오류를 완벽히 구분할 discriminative power가 본질적으로 부족함. 이로 인해 환각을 완벽히 제거하려면 불확실할 때마다 답변을 거부(abstain)해야 하는 utility tax가 발생하며, 이는 유용성(utility)과 신뢰(trust) 사이의 피할 수 없는 tradeoff를 유발함.
- 발상의 전환: Confident Error와 Faithful Uncertainty
- Hallucination을 단순한 오류(error)가 아닌, 적절한 수식어 없이 단정적으로 전달되는 confident error로 재정의.
- 답변하거나 거부하는 이분법(answer-or-abstain) 대신, faithful uncertainty(linguistic uncertainty와 intrinsic uncertainty의 일치)를 표현하는 제3의 접근법을 제안.
- 단순히 전체적인 오류율을 맞추는 calibration(aggregate property)과 달리, faithfulness는 개별 답변 수준(instance-level)에서 model의 실제 내부 상태를 정직하게 반영해야 함을 의미함.
- Metacognition의 두 가지 역할
- 자신의 uncertainty를 인식하고 제어하는 metacognition 능력은 두 가지로 발현됨.
- 직접 상호작용: model이 내부적으로 불확실할 때 이를 정직하게 사용자에게 전달(hedging)하여 신뢰를 유지함.
- Agentic systems: 외부 검색이나 tool을 언제 호출하고, 검색된 정보를 얼마나 신뢰할지 결정하는 핵심 control layer로 작용하여 tool overuse/underuse를 방지함.
- 연구의 의의 및 상호보완성
- Knowledge expansion은 model이 확신하면서도 틀리는 honest mistakes를 줄이는 역할을 하고, faithful uncertainty는 남아있는 지식의 경계를 정직하게 전달하는 역할을 함으로써 두 접근법이 완벽히 상호보완적으로 작용함.
쉬운 설명 : 본문 핵심 요약
이 논문의 서론은 AI가 그럴듯한 거짓말을 만들어내는 현상(환각)을 완전히 새로운 시각으로 접근하고 있습니다.
기존 연구자들은 AI의 환각을 고치기 위해 주로 AI에게 더 많은 데이터를 먹여 똑똑하게 만드는 데 집중했습니다. 하지만 AI가 자신이 진짜로 아는 것과 모르는 것을 완벽하게 예리하게 구분해 내는 것은 기술적으로 너무 어려운 일입니다. 그래서 AI가 틀린 답을 말하지 못하게 통제하면, 정답을 말할 수 있는 유용한 상황에서도 지레짐작으로 아예 대답을 피하게 되어버리는 치명적인 딜레마에 빠지게 됩니다.
그래서 논문은 관점을 바꿉니다. 환각을 단순히 틀린 답이 아니라, 잘 모르면서 아는 척 확신에 차서 하는 거짓말로 정의합니다.
이에 대한 혁신적인 해결책으로 AI에게 메타인지(Metacognition) 능력을 부여할 것을 제안합니다. AI가 무조건 100% 정답만 말하게 강제하는 것이 아니라, 자기 내부 상태를 스스로 파악하여 헷갈릴 때는 "이거 확실하지 않은데..."라고 자신의 불확실성을 솔직하게 표현(Faithful Uncertainty)하도록 만드는 것입니다.
마치 명의가 세상의 모든 병을 다 알지는 못해도, "이 증상은 A 질병일 확률이 높지만, 다른 원인일 수도 있으니 추가 검사를 해봅시다"라고 말함으로써 환자의 깊은 신뢰를 얻는 것과 완벽히 같습니다. 특히 이 메타인지 능력은 스스로 판단하고 행동하는 최신 AI 에이전트가 "내가 지금 모르는 상태이니 외부 검색 기능을 써야겠다"라고 결정하게 만드는 가장 핵심적인 두뇌(제어 장치) 역할을 하게 됩니다.
Background
2.1. Problem Scope
Extrinsic Hallucinations in Parametric Models.
우리는 두 가지 배포 방식을 구분합니다. Parametric LLMs는 자체 parameters에 의존하는 반면, Tool-Augmented LLMs는 inference 시간에 정보를 검색하기 위해 search engines나 APIs와 같은 외부 출처와 상호 작용합니다. 우리는 주로 전자에 초점을 맞추고 §5에서 tool 사용에 대한 의미를 논의합니다. 이 범위 내에서 우리는 intrinsic hallucinations(출처 텍스트와 모순됨)나 reasoning 오류와 반대되는 개념으로서, 실제 세계의 지식과 관련하여 사실적으로 부정확한 generations인 extrinsic hallucinations를 구체적인 목표로 삼습니다.
The Challenge of Tail Knowledge.
표준적인 hallucination 완화 평가는 종종 일반적인 오해나 head knowledge에 초점을 맞추어, 희소한 데이터 영역에서 hallucinations의 심각성을 가릴 가능성이 있습니다. 신뢰성의 진정한 경계를 탐색하기 위해, 우리는 매우 드문 entities에 관한 사실에 대해 명시적이고 단순한 질문을 던지는 benchmarks를 사용하여 "long tail" knowledge가 필요한 작업에 초점을 맞춥니다 (예: "캐나다 리얼리티 시리즈 To Serve and Protect는 미국 어느 TV 방송국에서 데뷔했는가?").
2.2. Measuring Reliability
The Utility-Factuality Trade-off.
model이 확신하지 못하는 질문에 대한 답변을 거부함으로써 사소하게 zero hallucinations를 달성할 수 있기 때문에 hallucinations를 평가하는 데는 미묘한 차이가 필요합니다. zero hallucinations를 달성하긴 하지만, 이 전략은 model을 실질적으로 쓸모없게 만듭니다. 따라서 강력한 평가는 accuracy(전체적인 정확도)와 attempted accuracy(답변을 시도한 하위 집합의 정확도)를 모두 추적해야 합니다. 실제로는 model에 캡처된 지식이 제한되어 있기 때문에, 이상적인 행동은 F1이나 Omniscience Index와 같은 요약 metrics를 사용하여 accuracy와 attempted accuracy를 모두 극대화하는 것입니다.
Calibration vs. Discrimination.
우리 주장의 핵심은 uncertainty quantification의 두 가지 차원 사이의 구분입니다. Calibration은 confidence scores와 경험적 정확도 사이의 일치를 측정합니다. confidence $p$가 할당된 모든 predictions 중에서 정확히 $p$%가 올바른 경우 scores는 완벽하게 calibrated된 것입니다. 이와 대조적으로, discrimination은 confidence를 기반으로 정답과 오답을 구별하는 능력을 측정합니다. 결정적으로, calibration이 discrimination을 의미하지는 않습니다. 모든 답변에 0.6의 정적 confidence를 할당하는 (그리고 60%의 경우에 올바른) confidence score는 완벽하게 calibrated되었지만 discriminative power는 0입니다. 우리가 §3에서 주장하듯이, 실제로 hallucinations를 제거하려면 단순한 calibration이 아니라 좋은 discrimination이 필요합니다.
2.3. Existing Mitigation Strategies
Parametric LLMs에서 hallucinations를 완화하는 연구는 일반적으로 두 가지 흐름을 따랐습니다. Training-time interventions에는 신중한 데이터 필터링 및 regularization, 비사실적 outputs에 대한 페널티 부여, 협동 게임 기반의 rewards 사용, 그리고 linguistic calibration을 통한 과신 완화가 포함됩니다. Inference-time interventions는 weights를 변경하지 않고 사실적인 generations를 향해 model을 조종하는 데 중점을 두며, 맞춤형 decoding 전략 사용, 내부 signals 의존, 또는 self-verification을 활용합니다.
정리노트: 모델의 한계 측정 및 불확실성 평가의 재정의
- 문제 범위 및 대상
- 외부 도구 검색 없이 모델 자체 가중치에만 의존하는 Parametric LLMs 환경에 집중함.
- 단순한 추론 오류나 내재적 환각이 아닌, 실제 세계 지식과 충돌하는 Extrinsic Hallucinations(외재적 환각)을 주요 타깃으로 삼음.
- 가장 널리 알려진 지식(head knowledge)이 아닌 희귀 엔티티를 다루는 Long-tail knowledge(롱테일 지식) 벤치마크를 활용하여 신뢰성의 진정한 한계(true boundaries)를 탐색함.
- 신뢰성 측정과 트레이드오프
- 모델이 불확실한 모든 질문에 답변을 거부(abstain)하면 환각을 완전히 없앨 수 있으나, 모델의 실질적 유용성(utility)이 파괴됨.
- 따라서 환각 평가는 단순한 전체 정확도(accuracy)뿐만 아니라, 답변을 시도한 질문에 대한 정확도(attempted accuracy)를 동시에 측정하는 F1이나 Omniscience Index 같은 지표를 활용해 Utility-Factuality Trade-off(유용성-사실성 트레이드오프)를 극복하는 방향으로 이루어져야 함.
- 핵심 통찰: Calibration(보정) vs. Discrimination(식별)
- Calibration: 모델의 확신도(confidence score)와 실제 정답 확률이 통계적으로 일치하는 정도. (예: 확신도 $p$를 부여한 집단에서 실제로 $p$%가 정답인 상태).
- Discrimination: 개별 문제 단위에서 정답과 오답을 확신도를 기준으로 예리하게 분리해 내는 능력.
- 결론: 완벽한 Calibration이 Discrimination을 보장하지 않음. 모든 질문에 고정된 확신도(예: 0.6)를 부여하여 전체 정답률 60%를 달성하면 Calibration은 완벽하지만, 개별 답변의 정오를 가려내는 Discriminative power는 0임. 실제 환경에서 환각을 잡기 위해 모델에게 진정으로 필요한 것은 단순한 Calibration이 아니라 정밀한 Discrimination 능력임.
쉬운 설명 : 본문 핵심 요약
이 섹션은 AI의 환각을 평가할 때 우리가 흔히 빠지는 함정을 지적하고, 진짜로 평가해야 할 능력이 무엇인지 명확히 짚어주는 배경 설명입니다.
우선, AI의 진짜 실력을 보려면 누구나 아는 뻔한 질문이 아니라 아주 구석에 있는 희귀한 지식(롱테일 지식)을 물어봐야 한다고 말합니다. 인터넷 검색 없이 자기 머릿속 지식만으로 어디까지 정확히 대답하는지 그 '바닥'을 보겠다는 뜻입니다.
그리고 AI가 거짓말을 안 하는지 평가할 때 생기는 큰 딜레마를 설명합니다. AI가 모르는 질문에 전부 "모릅니다"라고 대답하면 환각(거짓말)은 0%가 됩니다. 하지만 그러면 AI를 쓰는 의미가 없겠죠? 그래서 대답을 회피하지 않고 얼마나 유용한 정보를 주면서도 정확한지를 동시에 평가해야 한다고 강조합니다.
가장 중요한 내용은 보정(Calibration)과 식별(Discrimination)의 차이입니다.
예를 들어, 학생이 "나는 평균적으로 60점을 받는 실력이야"라고 자신의 전체 실력을 정확히 아는 것이 '보정'입니다. 하지만 막상 시험지를 풀 때 1번 문제가 맞을지 틀릴지, 2번 문제가 맞을지 틀릴지는 본인도 모릅니다. 반면 '식별'은 "1번은 확실히 정답이고, 2번은 내가 확실히 모르는 문제야"라고 개별 문제마다 정확히 짚어내는 능력입니다.
논문은 기존의 많은 AI 연구들이 통계적으로 평균 정답률만 맞추는 '보정'에 집중해 왔지만, AI의 거짓말(환각)을 진짜로 해결하려면 개별 질문마다 자기가 아는지 모르는지를 예리하게 구분해 내는 '식별' 능력을 키워야 한다고 꼬집고 있습니다.
Why Hallucinations Persist
배경과 metrics를 확립했으므로, 이제 해당 분야의 상태를 분석해 보겠습니다. 이 섹션에서 우리는 hallucinations를 완전히 제거하려는 목표가 근본적인 과제에 직면해 있다고 주장합니다. 우리는 이론적 한계, information bottlenecks, 그리고 state-of-the-art LLMs의 경험적 증거에 근거하여 이 입장을 뒷받침합니다.
3.1. The Theoretical Ceiling
이전 연구는 extrinsic hallucinations가 auto-regressive text generation의 구조적 필연성이라고 주장했습니다. 일부 연구자들은 Halting Problem과 대각선 논법을 활용하여 계산 가능한 어떤 model도 보편적으로 진실을 verify하거나 모든 ground-truth 함수를 학습할 수 없음을 증명했습니다. 보정된 models는 다른 사실에서 진실 값을 유추할 수 없는 사실을 생성할 때 수학적으로 hallucinate할 수밖에 없음을 보여준 연구도 있으며, 일관성과 폭넓음 사이의 공식적인 tradeoff를 확립하여 hallucination 비율을 임계값 아래로 낮추려면 출력 다양성을 크게 줄여야 하므로 필연적으로 model이 mode-collapse에 빠지게 된다는 것을 증명한 연구도 있습니다.
3.2. The Discriminative Gap
이전 연구는 주로 LLMs에서 잘 보정된 confidence signals를 이끌어내는 긍정적인 결과에 집중했습니다. 이는 LLMs가 uncertainty를 정확하게 집계할 수 있음을 보여주지만, 평균 오류율을 아는 것(calibration)과 어떤 특정 인스턴스가 오류인지 아는 것(discrimination) 사이에는 결정적인 차이가 있습니다. 우리는 표준적인 완화 기술의 실제적인 실패가 정확히 이 결함, 즉 discriminative power의 근본적인 부족에서 비롯된다고 추측합니다. 실제로 여러 confidence scores에서 이 두 metrics 사이의 약한 상관관계가 실제로 입증되었습니다. 우리는 이 점을 그림에서 추가로 설명하는데, hallucinations를 제거하기 위해 잘 보정된 confidence signal을 사용하는 것이 어떻게 utility와 주요 tradeoffs를 초래하는지 보여주는 실용적인 시나리오를 보여줍니다. 예를 들어, 오류율을 25%에서 목표인 5%로 줄이려면 model은 유효한 답변의 50% 이상을 버려야 합니다.
discriminative gap을 경험적으로 정량화하기 위해, 우리는 model의 confidence signal을 사용하여 정답과 오답을 분리하는 작업에 대한 문헌의 AUROC 값을 검토합니다 (AUROC = 1.0은 완벽함; 0.5는 무작위). 여러 방법, models 및 tasks에 걸쳐, 현실적인 factual QA tasks의 경우 AUROC는 0.70-0.85 범위에 분포합니다. 구체적으로, semantic entropy를 사용하여 30개 model×task 조합에서 평균 0.79의 AUROC를 보고한 연구도 있고, 의료 QA에서 최고 0.79를 기록한 사례도 있으며, 우리의 tail facts 설정과 유사한 약력 생성에서 0.68-0.72에 불과하다는 것을 발견한 연구도 있습니다. 결정적으로 이 범위는 utility tax를 벗어나기에 불충분합니다. 그림의 근간이 되는 시뮬레이션은 문헌 평균과 일치하는 AUROC = 0.71을 갖습니다. 이 수준에서 오류율을 25%에서 5% 목표로 줄이려면 유효한 답변의 52%를 버려야 합니다. 0.85 상한선에서도 tax는 ~28%로 유지됩니다. 지식 집약적인 tasks에 대해 현재 보고된 어떤 방법보다 훨씬 높은 AUROC ≥ 0.95에서만 tax가 무시할 수 있는 수준(<5%)이 됩니다.
3.3. Corroborating Anomalies
model 개발의 최근 anomalies는 이러한 이론적 제약을 뒷받침하며, 추측되는 discrimination gap에 직접적으로 매핑됩니다. 첫째, truthfulness probes의 빈약한 generalization과 높은 intrinsic confidence를 가진 사실적 오류인 "confident hallucinations"의 입증된 존재는 정답과 오답을 강력하게 구별하는 데 필요한 정보가 종종 model의 latent states에도 존재하지 않음을 실제로 보여줍니다. 이는 또한 hallucinations를 실질적으로 완화하는 데 있어서 고급 supervision이 실패하는 이유를 설명합니다. models가 의도적인 안전 위반을 "고백"하도록 정렬될 수 있지만 이러한 능력이 hallucinations에는 전이되지 않음을 입증한 연구도 있습니다. 이러한 차이는 안전 문제와 달리 hallucinations가 단순한 행동적 버그가 아니라 discrimination gap에서 비롯됨을 나타냅니다. 즉, model은 내부적으로 표현할 수 없는 오류를 보고하도록 정렬될 수 없습니다. 마지막으로, 신뢰할 수 있는 discrimination이 없는 상황에서 utility에 최적화하는 것은 환각을 적극적으로 악화시킵니다. 최근 연구에 따르면 "thinking"은 종종 hallucination 비율을 증가시키고 대답할 수 있는 질문과 대답할 수 없는 질문 간의 성능 격차를 늘리면서 abstention을 저하시킵니다. 확장된 chain-of-thought과 끈기를 장려함으로써 이러한 models는 본질적으로 abstention보다 reasoning 경로의 완료를 우선시하여 utility 목표를 충족시키기 위해 오답을 효과적으로 합리화합니다.
3.4. The Empirical Tradeoff
마지막으로 우리는 이러한 요소들의 최고점을 특정 데이터 세트에서 다양한 state-of-the-art models의 성능을 표시한 그림에서 시각화합니다. 이 플롯은 분야가 효과적으로 양분되었음을 보여줍니다. 대부분의 frontier models(파란색 원)는 높은 hallucination 비율을 감수하면서 coverage에 최적화하여 대각선에 달라붙어 있습니다. 반대로 factuality를 극대화하려는 models(빨간색 원)는 유효한 답변을 버림으로써 utility tax를 지불하고 위가 아닌 왼쪽으로 이동해야 합니다. 오른쪽 상단 모서리인 "이상적인" 성능의 영역은 완전히 비어 있습니다. 이 빈 공간은 discriminative gap을 시각화합니다. 우리는 이 영역이 LLMs가 자체적인 hallucinations와 지식을 구별할 수 있는 내재적 능력이 부족하기 때문에 현재 도달할 수 없는 곳이라고 추측합니다.
정리노트: 모델이 환각을 극복할 수 없는 근본적 이유 (Why Hallucinations Persist)
- 이론적 한계 (The Theoretical Ceiling)
- 구조적 필연성: Auto-regressive text generation 구조에서 외재적 환각은 수학적, 구조적으로 피할 수 없는 필연적 현상임.
- 계산 가능성 이론(Halting Problem, 대각선 논법)에 따르면, 모든 ground-truth를 보편적으로 검증하는 것은 불가능함.
- Mode-collapse 위험: 환각을 임계치 이하로 억제하려면 출력의 다양성을 극단적으로 제한해야 하므로, 사실상 mode-collapse를 유발하는 치명적인 trade-off가 발생함.
- 식별 격차 (The Discriminative Gap)와 Utility Tax
- Calibration $\neq$ Discrimination: LLM은 평균 오류율을 집계하는 보정(Calibration) 능력은 갖췄으나, 개별 예측의 정오를 판별하는 식별(Discrimination) 능력은 현저히 부족함.
- 현실적 한계 (AUROC): 현실적인 factual QA에서 모델의 AUROC는 0.70~0.85 수준에 정체되어 있음.
- Utility Tax의 발생: 이 수준의 식별력으로는 환각을 줄이기 위해 치명적인 희생이 따름. 예를 들어 오류율을 25%에서 5%로 낮추려면, 정답(유효한 답변)의 50% 이상을 버려야 함. 이 세금(tax)을 무시할 수 있는 수준으로 낮추려면 AUROC $\ge$ 0.95가 필요하지만, 현재 기술로는 도달 불가능함.
- 격차를 방증하는 3가지 경험적 이상 현상 (Corroborating Anomalies)
- 1. Latent states의 정보 부재: 모델의 내부 표상(latent states) 자체에 정답과 오답을 가를 진실 정보가 애초에 없음. 이는 고도의 확신을 동반한 환각(Confident hallucinations)이 존재하는 이유임.
- 2. Alignment의 한계: 의도적 유해성을 고백하도록 정렬(alignment)하는 것은 성공하지만, 환각에 대한 고백은 실패함. 내부 표상에 없는 오류를 억지로 보고하도록 모델을 정렬할 수 없기 때문임.
- 3. Chain-of-thought의 역설: 생각하는 시간(Thinking)을 늘리면 오히려 환각이 악화됨. 모델이 답변 거부(abstention)보다 추론 완료를 우선시하도록 인센티브를 받기 때문에, utility 목표를 채우기 위해 오답을 합리화해 버림.
- 경험적 트레이드오프의 시각화 (The Empirical Tradeoff)
- 현재 최신 SOTA 모델들의 성능 분포는 양극화됨.
- Coverage 우선 (Frontier models): 높은 환각률을 감수하더라도 답변을 뱉어냄.
- Factuality 우선: 환각을 줄이기 위해 유용한 답변마저 대거 포기함.
- 결과적으로 높은 유용성과 높은 사실성을 동시에 달성하는 '이상적 영역(우상단)'은 완벽히 비어있음. 이는 LLM이 지식과 환각을 구분할 내재적 능력이 결여되어 있음을 명확히 보여줌.
쉬운 설명 : 본문 핵심 요약
이 섹션은 "AI 기술이 이렇게 발전했는데, 왜 아직도 거짓말(환각)을 완벽하게 못 고치나요?"라는 질문에 대한 냉혹한 현실 팩트 체크입니다. 저자들은 AI의 거짓말을 100% 없애는 것은 현재로서는 수학적으로도, 구조적으로도 불가능하다고 못 박습니다.
가장 큰 이유는 AI가 '자기 객관화의 디테일'이 부족하기 때문입니다. AI는 "내가 이번 시험에서 대충 70점 정도 받겠구나"라는 전체적인 감(보정 능력)은 뛰어납니다. 하지만 "이 3번 문제가 확실히 정답인가, 오답인가?"를 콕 집어내는 예리한 눈(식별 능력)은 없습니다.
그래서 AI에게 "틀릴 것 같으면 절대 말하지 마!"라고 강제하면, AI는 헷갈리는 모든 문제를 백지로 내버립니다. 오답률을 겨우 5%로 줄이려고, 자기가 맞출 수 있는 정답의 절반 이상을 포기해 버리는 엄청난 손해(Utility Tax)가 발생합니다.
더 재밌는 점은 최근 o1 모델처럼 '깊게 생각하는(Thinking)' AI일수록 오히려 더 그럴싸한 거짓말을 만들어낸다는 발견입니다. AI는 "모르겠습니다"라고 포기하는 것보다 어떻게든 추론 과정을 끝마쳐서 답을 내놓도록 훈련받았기 때문에, 논리를 억지로 끼워 맞춰서라도 소설을 써버립니다.
결국 지금의 AI는 많이 대답하면서 거짓말도 많이 하거나, 거짓말을 안 하려고 입을 꾹 닫아버려서 바보가 되거나, 둘 중 하나의 길만 걷고 있습니다. 두 마리 토끼를 다 잡은 완벽한 AI는 아직 지구상에 존재하지 않는다는 것이 이 섹션의 결론입니다.
Faithful Uncertainty
§3에서 설명한 과제들에 비추어 볼 때, 우리는 널리 퍼진 연구 목표에 대한 실용적인 조정을 제안합니다. 단순히 지식을 확장하는 데만 집중하기보다는, models는 가능한 한 지식이 풍부해야 하는 동시에 남아있는 uncertainty가 무엇이든 충실하게 표현해야 합니다. 여유가 있는 곳에서는 knowledge 확장이 여전히 가치가 있기 때문에, 이것은 factuality 목표를 포기하는 것이 아닙니다. 그러나 지식이 부족하고 discrimination gap으로 인해 신뢰성이 확보되기 어려운 남은 사례들을 해결하는 목표로 그것을 보완합니다.
4.1. Defining the Objective
우리는 faithful uncertainty를 model의 internal state와 verbalized된 output 사이의 일치로 정의하는 프레임워크를 채택합니다. 우리는 Appendix B에서 주요 정의와 metrics에 대한 독립적인 개요를 제공합니다. 구체적으로, faithful uncertainty는 intrinsic uncertainty, 즉 주장의 semantic 의미에 대한 model의 통계적 confidence(여기서 높은 uncertainty는 상충되는 답변을 생성할 확률이 높음을 의미함)와 linguistic uncertainty, 즉 "나는 90% 확신한다" 또는 "내가 틀렸을 수도 있다"와 같은 구문을 사용하여 model이 생성한 응답에서 단어로 표현된 confidence 사이의 일치를 요구합니다. model의 linguistic uncertainty가 intrinsic uncertainty를 정확하게 반영한다면 그 model은 uncertainty를 충실하게 표현한다고 말합니다. model의 output이 외부 세계와 일치해야 하는 hallucinations의 완전한 제거와 달리, faithful uncertainty는 model의 output이 내부 상태와 일치할 것을 요구합니다.
4.2. The Feasibility Argument
Faithful uncertainty는 §3에서 논의된 한계들을 우회합니다. 유한한 parameters를 무한한 세계에 매핑하는 것은 이론적으로 한계가 있지만, 내부 parameters를 output string에 매핑하는 것은 완전히 관찰 가능한 closed-loop 문제입니다. 완벽한 discrimination을 허용하는 activation space에 보편적인 "truth direction"이 없더라도, confidence signal은 본질적으로 model의 weights로부터 계산할 수 있습니다. model은 확률 $P(\text{answer})=0.6$이 현실 세계의 "진실"에 해당하는지 알 필요가 없습니다. 내부 confidence가 0.6임을 감지하고 그 signal을 verbalized hedge에 매핑하기만 하면 됩니다. faithfulness에 대한 ground truth는 시스템 내부에 있기 때문에, architecture 개선, 데이터 수정 및 더 나은 training recipes를 통해 이론적으로 해결할 수 있습니다.
4.3. Reliable Utility
faithful uncertainty 목표는 utility tax(§3.2)를 직접적으로 해결합니다. model이 60%의 intrinsic confidence를 갖는 일련의 답변들을 고려해 보십시오. confidence가 잘 보정(calibrated)되었다면, 이 답변들 중 정확히 60%가 정답입니다. hallucinations를 완전히 제거하려는 목표 하에서, model은 이 전체 세트에 대해 집단적인 결정을 내려야 합니다. 즉, 40%의 hallucinations를 피하기 위해 전체 클러스터에 대해 abstain해야 하며, 이로 인해 60%의 정답을 버리고 utility를 저해하게 됩니다. 반대로, faithful uncertainty 패러다임 하에서 model은 이 utility를 보존합니다. 즉, 답변을 generation하지만 적절한 인식론적 표식(epistemic markers)으로 그것들을 감쌉니다. 이 프레임워크에서 confident error는 (비록 충실한 것이긴 하지만) 여전히 hallucination으로 남지만, 적절한 uncertainty로 감싸진 오류는 유용한 가설로 변환됩니다.
우리는 이 결과를 reliable utility로 정의합니다. 이는 주장이 전달되는 단호함을 model의 intrinsic confidence와 일치시킴으로써 사용자 신뢰를 손상시키지 않으면서 제공되는 정보의 양을 극대화하는 능력입니다. Reliable utility는 인간 전문가들에게서 신뢰가 형성되는 방식을 모방합니다. 예를 들어, 우리가 의사를 가치 있게 여기는 이유는 그들이 전지전능(omniscient)해서가 아니라, 확신하는 진단과 단지 테스트 중인 가설 사이의 차이를 충실하게 소통하기 때문입니다. model이 confident할 때 답변하고 uncertain할 때 hedge할 수 있도록 허용함으로써, 우리는 models를 실용적으로 덜 유용하게 만들지 않으면서도 더 신뢰할 수 있게 만들 수 있습니다.
4.4. The Research Opportunity: Tractable Headroom
이 목표는 이론적으로 실현 가능하지만, 현재는 아직 도달하지 못한 격차로 남아 있습니다. 현재의 state-of-the-art models는 이 요구 사항을 충족하는 것과는 거리가 멀다는 것이 입증되었습니다. 그들은 일반적으로 intrinsic uncertainty가 낮은 경우에도 높은 linguistic confidence를 표현합니다. 최근 연구는 이미 이 능력을 탐구하기 시작했으며, meta-cognitive prompting 전략, supervised fine-tuning, 그리고 internal representations에 기반한 조향(steering)에 이르는 방법들을 사용하여 유망한 결과들을 보여주었습니다. model의 지식을 확장하려는 지속적인 노력과 함께, faithful uncertainty는 더 지식이 풍부하고 더 신뢰할 수 있는 models를 향한 길을 제공합니다. 우리는 §6에서 이 방향을 발전시키기 위한 구체적인 과제들을 자세히 설명합니다.
정리노트: Faithful Uncertainty (신실한 불확실성)의 도입과 목표
- 연구 목표의 실용적 전환
- 무조건적인 사실성(Factuality) 추구와 지식 확장만으로는 한계가 있음.
- 지식이 부족하거나 식별 격차(Discriminative gap)가 존재하는 영역에서는, 환각을 없애기 위해 입을 닫는 대신 남아있는 불확실성을 충실히 표현하는 방향으로 목표를 보완해야 함.
- Faithful Uncertainty의 정의
- 핵심 개념: 모델의 Internal state(내부 상태)와 Verbalized output(발화된 결과물)을 일치(Alignment)시키는 것.
- Intrinsic uncertainty: 주장의 의미에 대한 모델의 통계적 확신도 (낮을수록 상충되는 답변을 생성할 확률이 높음).
- Linguistic uncertainty: 생성된 텍스트에 텍스트로 명시된 확신도 (예: "나는 90% 확신한다").
- 차별점: 환각 제거가 모델의 출력을 '외부 세계의 진실(Ground truth)'과 맞추는 불가능에 가까운 작업이라면, Faithful uncertainty는 '모델 자신의 내부 상태'와 맞추는 작업임.
- 실현 가능성 (The Feasibility Argument)
- 유한한 파라미터로 무한한 현실 세계의 진리를 완벽히 매핑하는 것은 이론적으로 불가능함.
- 하지만 모델 내부의 파라미터를 텍스트(Output string)로 매핑하는 것은 완전히 관찰 가능한 Closed-loop 문제임.
- 모델은 $P(\text{answer})=0.6$이라는 확률이 현실의 진실인지 알 필요 없이, 그저 내부 확신도가 0.6이라는 것을 감지하고 이를 언어적 수식어(Hedge)로 변환하기만 하면 됨. 즉, 아키텍처 및 학습 레시피 개선으로 충분히 달성 가능함.
- 신뢰할 수 있는 유용성 (Reliable Utility)
- Utility tax의 해결: 확신도가 60%인 답변 그룹이 있을 때, 기존의 환각 제거 패러다임은 오답 40%를 피하기 위해 전체 답변을 거부(Abstain)하여 정답 60%까지 날려버림.
- 반면 Faithful uncertainty는 답변을 생성하되 적절한 인식론적 표식(Epistemic markers)을 달아줌. 확신에 찬 오류는 여전히 환각이지만, 불확실성을 동반한 오류는 '유용한 가설'로 기능함.
- 이는 의사가 확신하는 진단과 테스트 중인 가설을 명확히 구분하여 환자의 신뢰를 얻는 방식과 동일하며, 사용자 신뢰를 잃지 않으면서 모델의 정보 제공량(Utility)을 극대화할 수 있음.
- 향후 연구 기회 (Tractable Headroom)
- 현재의 State-of-the-art 모델들은 내부 불확실성이 높아도 언어적으로는 강한 확신을 내뱉는 한계를 가짐.
- 이를 해결하기 위해 Meta-cognitive prompting, Supervised fine-tuning, Internal representations 기반의 조향(Steering) 등의 연구가 유망한 돌파구로 제시되고 있음.
쉬운 설명 : 본문 핵심 요약
앞선 섹션에서 "AI가 환각을 없애려고 모르는 질문에 아예 대답을 안 해버리면 너무 쓸모없어진다"라는 딜레마를 확인했습니다. 이 섹션은 그 딜레마를 완벽하게 탈출하는 '솔직함의 기술'에 대해 설명합니다.
해결책은 아주 직관적입니다. AI에게 "세상의 모든 진리를 완벽하게 알아내라!"라고 요구하는 대신, "네가 속으로 얼마나 확신하는지 그 수치(Internal state)를 거짓말하지 말고 입 밖으로(Verbalized output) 솔직하게 말해라!"라고 요구하는 것입니다.
예를 들어, AI가 속으로 '이 정답이 맞을 확률은 60% 정도네'라고 계산했다고 가정해 보겠습니다.
과거에는 틀릴까 봐 무서워서 "모릅니다"라고 대답을 피했습니다. (유용한 정보 날림)
하지만 새로운 방식에서는 "제가 완전히 확신할 수는 없지만, 제 생각에는 A인 것 같습니다."라고 대답하게 만듭니다.
이렇게 하면 설령 그 대답이 틀렸더라도 사용자는 "아, AI가 헷갈렸구나. 그냥 참고만 해야지"라고 생각하게 되어 치명적인 위험(환각)을 피할 수 있습니다. 동시에 정답일 경우에는 유용한 정보를 얻을 수 있죠. 마치 현실 세계의 진짜 전문가들이 아는 것과 모르는 것을 확실히 구분해서 말해주는 것과 같습니다.
가장 희망적인 소식은, AI에게 세상의 모든 정답을 가르치는 것은 불가능하지만, "너 스스로의 상태를 읽어서 텍스트로 표현해"라고 가르치는 것은 기술적으로 충분히 풀 수 있는 문제라는 점입니다. 이것이 바로 AI 연구자들이 앞으로 집중해야 할 새로운 금광(Research Opportunity)이라고 논문은 강조합니다.
Metacognition in the Age of Agents
우리는 hallucinations를 완전히 제거하려면 models가 아는 것과 모르는 것을 분리하는 능력인 강력한 discrimination이 필요하며, 이는 본질적으로 어렵다고 주장해 왔습니다. agentic AI의 지배적인 전략은 이 문제를 회피하는 것처럼 보일 수 있습니다. 외부 tools에 접근할 수 있으므로 model은 원칙적으로 어떤 사실이든 찾아볼 수 있습니다. 단순히 search할 수 있다면 모르는 것을 굳이 알아야 할 이유가 무엇일까요? 우리는 반대로 주장합니다. tools는 faithful uncertainty의 필요성을 제거하는 것이 아니라 오히려 증폭시킵니다. 자신의 uncertainty에 대한 인식이 없이는, model은 언제 tool을 호출해야 할지 결정할 수 없으며(비효율적인 overuse 또는 위험한 under-use로 이어짐), 충돌이 발생할 때 retrieved 정보를 자신의 신념에 대비하여 적절하게 저울질할 수도 없습니다. 따라서 faithful uncertainty는 tool 사용을 지배하는 control layer가 됩니다.
Tool-Use Masks the Reliability Problem. 현재의 evaluations는 이러한 필요성을 모호하게 만듭니다. benchmarks는 final output accuracy에 초점을 맞춤으로써, model이 왜 search해야 했는지 이해했는지 여부를 테스트하지 않고 성공적인 retrieval에 보상합니다. 낮은 hallucination 비율은 metacognitive competence보다는 retrieval 품질을 반영할 수 있으며, 이는 사실적으로는 정확하지만 자신의 한계를 인식하지 못하는 systems를 만들어냅니다. 이러한 취약성은 tools가 실패하거나 예상치 못한 결과를 반환할 때 노출됩니다. 실제로 최근 연구는 현대의 search agents가 이러한 self-awareness가 부족하여 체계적인 overuse로 이어진다는 것을 보여줍니다.
Storage vs Control. Tools는 우리가 storage 문제라고 부르는 것을 해결합니다. 즉, model은 모든 사실을 encode할 필요가 없습니다. 하지만 그것들은 control 문제를 도입합니다. 즉, retrieval, verification, 그리고 orchestration의 과정을 지배하는 문제이며, 이러한 기능들은 inputs를 처리하고, tool 호출을 라우팅하며, 결과를 반환하는 scaffold인 agent harness에 의해 집합적으로 관리됩니다. agent는 언제 자신의 internal knowledge가 충분한지, 그리고 언제 harness에 위임할지를 판단해야 하며, 이는 자신의 uncertainty에 의해 정의되는 결정입니다. retrieval이 상충되거나 낮은 품질의 정보를 반환할 때, agent는 context에 나타나는 것을 맹목적으로 받아들이기보다는 이러한 signals를 internal priors에 대비하여 저울질해야 합니다. Figure 4에 설명된 바와 같이, faithful uncertainty는 이러한 모든 control 결정의 근간이 됩니다.
Towards Metacognitive LLMs. 인간의 metacognition을 바탕으로, 우리는 두 가지 과정을 강조합니다. 하나는 introspection(자신의 uncertainty 평가)이고, 다른 하나는 regulation(그 평가에 기반한 행동 조정)입니다. 현대의 agents는 종종 정적인 heuristics나 과도하게 엔지니어링된 harnesses에 의존합니다. open-ended 환경에서의 미래 agents는 정보가 언제 충분한지, 언제 verify해야 하는지, 언제 중단해야 하는지를 결정하는 dynamic control을 필요로 합니다. 따라서 metacognition을 주입하는 것은 hallucinations를 제거하는 것에 대한 보완일 뿐만 아니라, 신뢰할 수 있는 autonomous agents를 위한 전제 조건입니다.
정리노트: 에이전트 시대의 메타인지 (Metacognition in the Age of Agents)
- 검색 도구의 역설 (Paradox of Tool-use)
- 일반적인 통념과 달리, 외부 도구(검색, API 등)의 도입이 모델의 환각 문제를 우회하거나 해결해 주지 않음.
- 오히려 외부 도구는 신실한 불확실성(Faithful uncertainty)의 필요성을 더욱 증폭시킴. 모델이 스스로의 불확실성을 인지하지 못하면 도구를 비효율적으로 남용(Overuse)하거나 치명적으로 과소 사용(Under-use)하게 되기 때문임.
- 벤치마크의 착시 현상 (Masking the Reliability Problem)
- 현재의 에이전트 평가 지표들은 '최종 답변의 정확도'에만 치중하여 심각한 착시를 일으킴.
- 높은 정답률이 모델의 뛰어난 메타인지 능력 덕분인지, 아니면 단순히 훌륭한 외부 검색 엔진의 성능 덕분인지 가려내지 못함. 이로 인해 모델은 스스로의 한계를 모르는 상태로 남게 되며, 도구가 고장 나거나 엉뚱한 값을 반환할 때 치명적인 취약성을 드러냄.
- 저장 (Storage) vs. 제어 (Control)
- 외부 도구는 모델이 모든 사실을 파라미터에 압축해야 하는 저장 문제는 해결해 줌.
- 그러나 언제 도구를 호출할지, 언제 멈출지, 검색된 정보와 내부 지식이 충돌할 때 무엇을 우선할지 판단하는 새로운 제어 문제를 발생시킴.
- 결국 이 제어 계층(Control layer)을 관장하는 핵심 기반 기술이 바로 모델 스스로의 불확실성을 정직하게 평가하는 능력임.
- 메타인지적 LLM의 필수 요소
- 자율 에이전트가 정적 휴리스틱(Static heuristics)에서 벗어나 개방형 환경(Open-ended environments)에서 동작하려면 인간의 메타인지와 유사한 두 가지 동적 제어 프로세스가 필요함.
- Introspection(내성): 자신의 불확실성을 정확히 평가하는 능력.
- Regulation(조절): 그 평가를 바탕으로 도구 사용 여부 및 정보 검증 등의 행동을 조정하는 능력.
- 결론적으로 메타인지는 환각 완화를 돕는 보조 수단을 넘어, 신뢰할 수 있는 자율 에이전트를 구축하기 위한 가장 근본적인 전제 조건(Prerequisite)임.
쉬운 설명 : 본문 핵심 요약
이 섹션은 "요즘 AI는 인터넷 검색도 다 되는데, 굳이 자기가 아는지 모르는지 피곤하게 따질 필요가 있나요? 모르면 그냥 검색하면 되잖아요!"라는 흔한 질문에 대한 날카로운 반박입니다.
저자들은 "모른다는 것을 모르면 검색조차 제대로 할 수 없다"라고 말합니다. 스마트폰이 생겨서 우리가 전화번호를 일일이 외울 필요(저장)는 없어졌지만, 언제 전화를 걸고 누구의 말을 믿을지(제어)는 여전히 우리의 판단력에 달려있는 것과 같습니다.
만약 AI가 메타인지 능력이 없다면 두 가지 극단적인 바보짓을 하게 됩니다.
- 자기가 다 안다고 착각해서 검색을 아예 안 하고 그럴싸한 거짓말을 만들어 냅니다.
- 반대로 자기가 뭘 아는지 몰라서, 아주 쉬운 질문이나 이미 아는 내용까지 시도 때도 없이 검색을 남발하여 시스템을 느리고 비효율적으로 만듭니다.
게다가 인터넷에서 검색해 온 정보가 이상하거나 본인의 기존 상식과 다를 때, "이 검색 결과가 이상한데? 내 상식이 맞는 것 같아"라고 판단하는 기준점도 결국 AI 스스로의 확신도(불확실성)에서 나옵니다.
즉, AI에게 도구(검색 기능)를 쥐여주었기 때문에 지식을 구겨 넣는 암기력의 중요성은 낮아졌지만, 그 도구를 언제 어떻게 쓸지 결정하는 자기 객관화(메타인지) 능력은 과거 그 어느 때보다 훨씬 더 중요해졌다는 것이 이 섹션의 핵심입니다.
6. Call to Action
이 섹션에서 우리는 연구 커뮤니티를 위한 구체적인 권장 사항을 제공합니다. 우리는 이것들을 두 가지 범주로 나눕니다: 우리가 제안한 metacognitive LLMs와 faithful uncertainty 목표를 탐구하는 사람들을 위한 주요 과제 및 open problems에 대한 개요, 그리고 직접적인 hallucination 완화 연구에 대한 실용적인 제안입니다.
6.1. Challenges for Metacognitive LLMs
자신의 uncertainty를 충실하게 반영할 수 있는 models를 구현하려면 몇 가지 독특한 방법론적 장애물을 해결해야 합니다:
The Bootstrapping Paradox. 권위 있는 인터넷 텍스트에 대해 trained된 base models는 의심을 자연스럽게 표현하는 경우가 드뭅니다. 따라서 hedging의 구문(예: "완전히 확신할 수는 없지만...")을 가르치려면 supervised fine-tuning (SFT)이 필요하지만, 이는 역설을 낳습니다: SFT datasets는 정적인 반면, "올바른" uncertainty 레이블은 model의 현재 상태에 비해 동적입니다. model이 우연히 알고 있는 사실에 대해 "모른다"는 정적인 레이블로 training하는 것(또는 그 반대의 경우)은 hallucinated uncertainty 또는 confidence를 유발합니다. 이를 위해서는 이러한 동적인 datasets를 지원하는 인프라를 개발하거나 오래된 knowledge boundaries에 overfitting하지 않고 (SFT를 통해) uncertainty의 behavior를 bootstrap하는 방법을 개발해야 합니다.
Preserving the Signal through Post-Training. pre-trained models가 post-training 중에 저하되는 잘 보정된 uncertainty representations를 가지고 있다는 증거가 늘어나고 있습니다. 표준 alignment 기술은 mode-seeking behavior를 유발하는 경향이 있어, 정렬된 models를 기본 models보다 훨씬 더 과도하게 확신하게 만듭니다. 만약 우리의 목표가 model의 진정한 knowledge boundary(종종 base model에 의해 가장 잘 포착됨)에 충실하는 것이라면, 우리는 충돌에 직면하게 됩니다: metacognition을 주입하는 데 필요한 미묘한 distributional information을 지우지 않고 어떻게 안전과 instruction 따르기를 위해 models를 정렬할 것인가? 따라서 이러한 "uncertainty preserving" alignment algorithms를 개발하는 것은 향후 연구의 중요한 방향입니다.
Linguistic Precision Requires Confidence Attribution. uncertainty를 효과적으로 전달하기 위해, 단일 스칼라 confidence score로는 부족합니다. 왜냐하면 model이 매우 다른 이유로 uncertain할 수 있기 때문입니다: prompt의 모호성(aleatoric), 지식 부족(epistemic), alignment behavior에 관한 모호성(normative) 등. 따라서 고품질의 충실한 uncertainty 표현은 uncertainty의 출처를 추적하고 이를 적절한 linguistic hedge에 매핑하는 능력을 요구합니다(예: "X가 무엇을 의미하는지에 따라 다릅니다" 대 "나는 X를 기억하지 못합니다"). 연구는 더 유익하고 실행 가능한 signal을 산출하기 위해 이러한 출처들을 분리하는 데 집중해야 합니다.
Rigorous Causal Evaluation. 근본적인 과학적 위험은 models가 실제로 내부 상태를 감지하기보다는 단순한 heuristics(예: "prompt에 희귀한 entities가 포함되어 있을 때는 항상 hedge한다")를 학습함으로써 실체 없이 faithful uncertainty의 스타일을 모방하도록 학습할 수 있다는 것입니다. 이것은 LLMs의 metacognitive 능력을 평가하는 데 있어서 일반적인 과제이며, 최근 연구들은 concept injection, cross-model evaluations, 그리고 model이 자신의 confidence를 평가하고 활용함으로써 이익을 얻는 전략 게임과 같은 접근 방식을 제안하고 있습니다. 따라서 적절한 evaluation frameworks를 개발하는 것은 전체 연구 노력의 근본적인 측면입니다.
Evaluating Metacognition in Agents. 마지막으로, 우리가 agents로 이동함에 따라, 평가는 종단간 정확성에서 프로세스 기반 제어로 전환되어야 합니다. 표준 benchmarks는 종종 잘못된 reasoning에도 불구하고 우연히 정답을 맞춘 agents에게 보상을 제공합니다. agent 평가는 최종 답변이 우연히 정확했는지 여부에 관계없이 알려진 사실을 검색하거나(비효율성) 알려진 지식과 충돌하는 출처를 신뢰하는 것(sycophancy)과 같은 metacognitive 실패에 불이익을 주려는 통제 중심적이고 model 종속적인 평가로부터 이점을 얻을 수 있습니다.
6.2. Better Hallucination Mitigation Evaluations
우리가 식별한 주요 과제는 hallucinations를 제거하기 위한 utility tax가 불가피하며, 현재의 평가 패러다임은 이를 완전히 포착하고 반영하기에 불충분하다는 것입니다. 따라서 hallucinations를 완전히 제거하려는 방법을 연구하는 연구자들을 위해, 우리는 세 가지 구체적인 평가 방식을 권장합니다:
Visualize the Utility-Error Trade-off. 우리는 전체 분포에 걸쳐 평균을 내어 discriminative gap을 가리는 calibration 기반 metrics(ECE)에서 벗어날 것을 권장하지만, 동시에 특정 운영 비용을 모호하게 만드는 요약된 discrimination metrics(예: AUROC)에서도 벗어날 것을 권장합니다. 우리가 §3에서 주장했듯이, model은 잘 보정되거나 꽤 괜찮은 AUROC를 가지면서도 높은 신뢰성을 달성하기 위해 엄청난 abstention 비율을 요구할 수 있습니다. 대신, 연구자들은 특정 목표 오류율을 달성하기 위해 얼마나 많은 utility를 희생해야 하는지를 명시적으로 드러내는 Figure 2(오른쪽)에 표시된 전체 Utility-Error Curve를 시각화해야 합니다.
Demonstrate Frontier Improvements. "hallucinations 감소"에 대한 주장은 model의 근본적인 capability를 개선하기보다는 종종 기존의 tradeoff curve를 따라 단순히 미끄러지는 것(예: 거부 임계값 증가)에 불과합니다. 우리는 커뮤니티가 단일 operating points에 기반한 비교(예: "우리는 95% 정확도를 달성했습니다")를 거부할 것을 촉구합니다. 대신, 연구 기여는 고정된 오류율에 대해 제안된 방법이 baseline보다 더 높은 utility를 산출한다는 것을 입증해야 합니다.
Measure Holistic Spillovers. 마지막으로, interventions는 "부수적 피해"에 대해 테스트되어야 합니다. long-tail queries를 거부하도록 model을 tuning하는 것은 종종 "head" knowledge에 대해 회피하게 만들거나 reasoning, 코딩 또는 창의적인 tasks에서 덜 유용하게 만듭니다. 우리는 intervention의 "비용"을 단지 target set에서의 recall 손실이 아니라 model의 전반적인 capabilities 전반에 걸친 유용성의 저하로 완전히 정량화하기 위해 일련의 그러한 tasks에 대해 평가할 것을 권장합니다.
정리노트: 연구 커뮤니티를 위한 행동 촉구 (Call to Action)
본 섹션은 메타인지 능력을 갖춘 LLM을 개발하려는 연구자들과, 환각을 직접적으로 완화하려는 연구자들 양측 모두에게 던지는 구체적인 방법론적 과제와 평가 지침을 제시합니다.
1. 메타인지적 LLM을 위한 5가지 핵심 과제 (Challenges for Metacognitive LLMs)
- 부트스트래핑 역설 (The Bootstrapping Paradox):
- 사전 학습된 모델(Base model)은 본능적으로 불확실성을 표현하지 않으므로 SFT(지도 미세 조정)가 필수적임.
- 그러나 정적인 SFT 데이터셋으로 학습시키면 모델의 동적인 지식 상태와 충돌함. (예: 모델이 이미 아는 사실인데 정답 라벨이 '모른다'로 고정되어 있으면, 불확실성마저 환각으로 지어내게 됨). 동적 데이터셋 파이프라인 구축이 시급함.
- 사후 학습 과정에서의 신호 보존 (Preserving the Signal through Post-Training):
- 사전 학습 모델은 내부적으로 잘 보정된 불확실성 표현을 갖고 있으나, 인간의 지시에 맞추는 정렬(Alignment) 과정을 거치며 모드 탐색(Mode-seeking) 행동을 보여 과도한 확신을 갖게 됨.
- 안전성을 챙기면서도 모델 본연의 미묘한 지식 경계(불확실성 신호)를 지워버리지 않는 Uncertainty preserving(불확실성 보존) 정렬 알고리즘 개발이 필요함.
- 불확실성 원인 추적과 언어적 정밀성 (Linguistic Precision Requires Confidence Attribution):
- 불확실성은 단순한 하나의 스칼라 점수(Confidence score)로 퉁칠 수 없음. 프롬프트가 모호한지, 진짜 지식이 없는지, 정렬 규칙 때문에 충돌하는지 그 원인이 다름.
- 단순 점수가 아닌 불확실성의 '출처'를 추적하여 그에 맞는 정확한 언어적 수식어(Hedge)로 매핑하는 연구가 필요함.
- 엄밀한 인과적 평가 (Rigorous Causal Evaluation):
- 모델이 실제 자신의 내부 상태를 읽는 것이 아니라, "희귀한 단어가 나오면 무조건 '모른다'고 수식어를 붙여라" 식의 얄팍한 휴리스틱을 학습하여 메타인지를 흉내만 낼 위험이 있음.
- 이를 걸러낼 수 있는 개념 주입(Concept injection)이나 교차 모델 평가 등 인과관계 기반의 평가 프레임워크가 요구됨.
- 에이전트 메타인지 평가 (Evaluating Metacognition in Agents):
- 단순히 최종 정답을 맞혔는지(End-to-end correctness)를 보상해서는 안 됨.
- 이미 아는 사실을 굳이 검색하여 자원을 낭비하거나, 잘못된 외부 정보를 무비판적으로 수용하는 '메타인지적 실패'를 찾아내 감점하는 프로세스 기반 제어(Process-based control) 평가로 전환해야 함.
2. 더 나은 환각 완화 평가를 위한 3가지 지침 (Better Hallucination Mitigation Evaluations)
- 유용성-오류 트레이드오프 시각화 (Visualize the Utility-Error Trade-off):
- 분포 전체를 뭉뚱그리는 ECE나 요약 지표인 AUROC의 사용을 지양해야 함.
- 대신 특정 오류율을 달성하기 위해 유용성(정답)을 얼마나 희생해야 하는지 그 살인적인 운영 비용을 명시적으로 보여주는 Utility-Error Curve(유용성-오류 곡선)를 그려야 함.
- 진정한 프론티어의 개선 입증 (Demonstrate Frontier Improvements):
- 기존 곡선 위에서 단순히 답변 거부 임계값만 높여놓고 "정확도 95% 달성"이라고 주장하는 꼼수를 멈춰야 함.
- '동일한 오류율' 조건하에서 베이스라인보다 '더 높은 유용성(더 많은 정답 방출)'을 달성했음을 증명해야만 진짜 기술적 진보임.
- 전체적인 부수적 피해 측정 (Measure Holistic Spillovers):
- 환각을 잡으려다 모델이 멍청해지는 부수적 피해(Collateral damage)를 반드시 측정해야 함.
- 롱테일 질문에 대답하지 않도록 튜닝했더니, 누구나 아는 상식 질문에도 대답을 회피하거나 코딩, 창의적 추론 능력이 떨어지지 않는지 모델의 전반적 능력 저하를 총체적으로 정량화해야 함.
쉬운 설명 : 본문 핵심 요약
이 섹션은 AI 연구자들에게 "이제 낡은 방식은 버리고, 앞으로는 이렇게 연구하고 평가합시다!"라고 구체적인 숙제를 내주는 결론부입니다.
첫 번째로, AI에게 '자기 객관화(메타인지)'를 가르치는 것이 생각보다 엄청 까다롭다는 점을 경고합니다. 가장 큰 문제는 AI의 머릿속 지식은 계속 변하는데, 학습용 교재(데이터셋)는 "이 질문엔 무조건 모른다고 답해"라고 고정되어 있다는 것입니다. AI가 이미 그 지식을 배웠는데도 교재 때문에 억지로 "모릅니다"라고 거짓말을 하게 되는 역설이 발생하죠. 게다가 AI를 예의 바르게 만들려고 사람 입맛에 맞게 교정(정렬)하다 보면, AI가 눈치를 보며 억지로 아는 척을 하는 부작용도 생깁니다. 따라서 AI가 진짜 자기 실력을 스스로 읽고 상황에 맞는 정확한 말투로 표현하게 만드는 새로운 학습법과 평가법이 시급하다고 강조합니다.
두 번째로, AI의 거짓말(환각)을 고쳤다고 자랑하는 논문들을 제대로 검증할 '매운맛 평가 기준'을 제시합니다. 앞으로는 "우리 AI는 거짓말을 5%밖에 안 해요!"라는 단순한 점수 자랑을 믿지 말라고 합니다. 그 5%를 맞추기 위해 AI가 대답할 수 있는 유용한 정답들을 얼마나 많이 입을 틀어막아 버렸는지(유용성 포기) 그 처참한 대가를 투명하게 그래프로 공개하라는 것입니다. 또한 한쪽의 거짓말을 고치려다 코딩이나 추론 같은 다른 능력이 망가지지 않았는지, AI의 전체적인 실력 저하를 반드시 함께 검사해야 한다고 엄격한 기준을 세워줍니다.
Alternative Viewpoints
7.1. We Should Not Be Deprioritizing Factuality
회의론자들은 faithful uncertainty를 강조함으로써 models를 더 지식이 풍부하게 만드는 중요한 작업으로부터 주의를 분산시킬 위험이 있다고 주장할 수 있습니다. 자원이 metacognition으로 이동한다면, factuality에 대한 진전이 느려질까요?
우리는 faithful uncertainty가 knowledge expansion을 대체하는 것이 아니라 그것을 보완하는 것임을 강조합니다. Model 제공자들은 이미 가능한 한 지식이 풍부한 models를 개발할 강력한 인센티브를 가지고 있으며, 이러한 노력은 계속되어야 합니다. 더욱이, 다양한 domains는 각기 다른 발전 여지를 제공합니다: multimodal understanding과 같은 신흥 분야에서는 discrimination gap이 제한 요소가 되기 전에 기본적인 factuality 향상을 위한 상당한 여지가 여전히 남아 있습니다. 우리의 제안은 knowledge expansion만으로는 부족한 경우를 다룹니다. models가 자신의 능력의 한계에 있는 질문에 직면할 때, faithful uncertainty는 그들이 지어내기(confabulate)보다는 한계를 소통하도록 보장합니다. 이 두 가지 목표는 시너지 효과를 냅니다: 훌륭한 metacognition을 갖춘 더 지식이 풍부한 model은 두 capability 중 어느 하나만 가진 것보다 엄격하게 더 낫습니다.
7.2. Users Prefer Confidence Over Uncertainty
제품 관점에서, 사용자들은 단호한 답변을 선호하며, 이것이 RLHF-aligned models가 단호한 이유 중 하나라고 주장할 수 있습니다. 지속적인 hedging은 마찰을 일으키고, 특히 코딩이나 글쓰기와 같은 창의적이거나 속도가 빠른 작업에서는 무능함으로 인식될 수 있습니다.
우리는 이 반론이 우리 주장의 구체적인 범위(§2)를 무시한다는 점을 강조합니다: faithful uncertainty는 설계상 hallucination이 실제로 바람직한 창의적인 domains를 목표로 하지 않습니다. 더욱이, long-form generation에서 faithful uncertainty는 방해될 필요가 없으며, 특정 코드 줄이나 특정 날짜를 표시하는 것과 같은 "국지적인" uncertainty 표현은 사용자를 차단하지 않으면서도 가치를 더할 수 있습니다.
7.3. Latent Truth Exists, We Just Need Better Probes
강력한 반대 입장은 우리가 §3에서 설명한 과제들이 과장되었다는 것입니다. 지지자들은 LLMs가 진실의 representations를 encode하도록 인센티브를 받기 때문에, 주요 bottleneck은 이를 추출할 만큼 아직 정교하지 않은 현재의 방법에 있을 수 있다고 주장할 수 있습니다. 이 관점에서, 더 나은 discrimination의 추구는 우선순위에서 밀려나기보다는 계속되어야 합니다.
우리는 latent truth에 대한 탐색을 우리가 설명하는 tradeoffs를 완화할 수 있는 가치 있는 추구로 봅니다. 그러나 그것은 전체 long tail의 사실들에 대해 보편적인 진실 representation이 존재한다는 강력한 가정을 요구하며, 우리는 §3.2의 증거를 고려할 때 이 가정에 회의적입니다. 대조적으로, faithful uncertainty는 오늘날 구체적인 발전 여지를 제공합니다. 진실의 방향(truth direction)과 달리, 우리는 models가 이미 활용될 수 있는 접근 가능한 confidence signals를 보유하고 있다는 강력한 증거를 가지고 있습니다. 첫째, mechanistic interpretability에서의 최근 연구는 model로부터 직접 self-awareness와 confidence를 추출하는 것의 타당성을 입증합니다. 둘째, reasoning models는 더 많이 hallucinate하는 동안에도 자신의 confidence를 표현하는 데 훨씬 더 뛰어나다는 것이 밝혀졌으며, 이는 metacognitive signal이 factual signal과 구별됨을 시사합니다. 마지막으로, intrinsic signals는 diversity를 장려하고 reasoning을 향상시키기 위해 RL에서 rewards로 이미 사용되고 있습니다.
정리노트: 대안적 관점과 예상되는 비판에 대한 반박
이 섹션은 Faithful uncertainty 접근법에 대해 제기될 수 있는 3가지 주요 학술적, 실무적 반론을 소개하고 이를 논리적으로 방어합니다.
- 사실성(Factuality) 연구가 우선순위에서 밀려날 것이라는 우려
- 반론: 메타인지(Metacognition)에 집중하느라 모델의 지식 자체를 확장(Knowledge expansion)하는 연구가 위축될 수 있음.
- 저자의 방어: 두 목표는 대체재가 아닌 완벽한 보완재(Complement)임. 지식 확장은 여전히 최우선 과제이나, 모델이 자신의 지식 경계(Edge of competence)에 도달했을 때 허위 정보를 지어내는(Confabulation) 대신 한계를 명확히 소통하도록 돕는 것이 본 제안의 핵심임. 두 가지가 결합될 때 완벽한 시너지(Synergistic)를 창출함.
- 사용자는 '불확실성'보다 '확신(Confidence)'을 선호한다는 제품적 관점
- 반론: 지속적인 수식어(Hedging)는 사용자 경험에 마찰(Friction)을 일으키고, 코딩이나 창의적 작업에서 모델을 무능해 보이게 만듦. RLHF가 확신에 찬 어조를 선호하는 이유이기도 함.
- 저자의 방어: 본 제안은 환각이 오히려 유용할 수 있는 창의적 영역(Creative domains)을 타깃으로 하지 않음. 또한 긴 글 생성(Long-form generation) 시, 답변 전체를 모호하게 만드는 것이 아니라 특정 코드 라인이나 날짜 등에만 국지적(Localized)으로 불확실성을 표시하면 사용자의 작업 흐름을 끊지 않으면서도 신뢰성을 더할 수 있음.
- '내재적 진실(Latent Truth)'은 존재하므로 탐침(Probe) 기술을 더 개선해야 한다는 주장
- 반론: LLM 내부에 이미 '진실 표상(Truth representations)'이 인코딩되어 있으므로, 불확실성으로 우회할 것이 아니라 진실을 추출하는 식별(Discrimination) 기술을 끝까지 파고들어야 함.
- 저자의 방어: 희귀한 롱테일(Long tail) 지식 전체에 걸쳐 보편적인 진실 표상이 존재할 것이라는 가정은 너무 이상적이고 증명하기 어려움. 반면, Faithful uncertainty는 당장 실현 가능한 발전 여지(Concrete headroom today)를 제공함. 기계론적 해석 가능성(Mechanistic interpretability) 연구나 추론(Reasoning) 모델의 행동 패턴을 볼 때, 모델은 완벽한 진실은 모를지라도 자신이 '얼마나 헷갈리는지'를 나타내는 신뢰도 신호(Confidence signals)는 이미 내부에 확실하게 보유하고 있으며 이를 즉시 활용할 수 있음.
쉬운 설명 : 본문 핵심 요약
이 섹션은 저자들이 자신들의 주장에 대해 다른 학자들이나 개발자들이 공격할 만한 예상 질문 3가지를 뽑아내고, 그에 대해 시원하게 "철벽 방어"를 하는 파트입니다.
- "AI 똑똑하게 만드는 연구 안 하고, 소심하게 만드는 데 집중하는 거 아님?"
- 방어: 아닙니다! AI에 지식을 더 채워 넣는 노력은 당연히 계속해야 합니다. 하지만 아무리 똑똑한 AI라도 모르는 게 생길 수밖에 없는데, 그때 아는 척 거짓말하는 걸 막자는 겁니다. '지식이 많은 AI'에 '솔직함(메타인지)'까지 장착하면 무적 아닐까요?
- "사람들은 '아마도요...', '글쎄요...' 하는 AI보다 자신감 있는 AI를 좋아하잖아요."
- 방어: 맞습니다. 소설을 쓰거나 아이디어를 낼 때는 자신감 있게 내뱉는 게 좋습니다. 그래서 우리 기술은 그런 창의적인 일에는 쓰지 않을 겁니다. 팩트가 중요한 문서나 코드에서 틀리기 쉬운 특정 숫자나 줄에만 살짝 "이 부분은 확실하지 않아요"라고 밑줄(국지적 표시)을 쳐주자는 것이지, AI를 매사에 쭈구리로 만들자는 게 아닙니다.
- "AI 뇌 구조를 더 깊게 파헤쳐서 진짜 '진실'을 찾는 기술을 개발하는 게 정공법 아닌가요?"
- 방어: AI 머릿속에 세상 모든 진실이 숨어있을 거란 기대는 환상입니다. 언제 완성될지도 모르는 '완벽한 진실 탐지기'를 기다리기보다, 현실을 봅시다. 지금 당장 AI 뇌를 열어보면 "나 이거 진짜 헷갈리는데..." 하는 신호는 이미 뚜렷하게 잡히고 있습니다. 있는 줄도 모르는 파랑새(완벽한 진실)를 찾기보다, 지금 당장 써먹을 수 있는 확실한 무기(불확실성 신호)를 쓰자는 게 훨씬 현실적인 전략입니다.
내부 지식과 말투로 메타인지를 강화 시켰음.
내부지식의 경우 여러번 답하게 해서 일관성을 보고
말투는 외부 llm으로 스코어를 매기게 평가.
그 차이가 적을 수록 높은 보상
