AI바라기의 인공지능

LLM : 빠른 논문 리뷰 : Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting 본문

논문리뷰

LLM : 빠른 논문 리뷰 : Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

AI바라기 2026. 1. 8. 20:22


용어 설명 (Glossary)

이 논문을 이해하기 위해 필수적인 핵심 용어 및 개념 정리:

  • Confident Conflicts (확신적 충돌): 모델이 자신의 예측에 대해 매우 높은 확신(Low Entropy)을 가지고 있지만, 실제 정답 데이터(Ground Truth)와는 일치하지 않는(Low Probability) 상태의 토큰들. 저자들은 이 토큰들이 Catastrophic Forgetting의 주원인임을 밝혀냄.
  • Catastrophic Forgetting (파멸적 망각): 새로운 데이터나 태스크를 학습할 때, 이전에 학습했던 지식이나 일반적인 능력이 급격히 저하되는 현상. SFT 과정에서 흔히 발생함.
  • Entropy-Adaptive Fine-Tuning (EAFT): 이 논문에서 제안하는 방법론. 토큰 수준의 Entropy를 게이팅(gating) 신호로 사용하여, 모델이 불확실해하는(배워야 할) 정보는 학습시키고, 확신을 가지고 충돌하는 정보는 학습을 억제하는 기법.
  • Token-level Entropy: 모델이 다음 단어를 예측할 때 가지는 불확실성의 척도. Entropy가 낮으면 확신이 높은 상태, 높으면 불확실한 상태를 의미함.
  • SFT (Supervised Fine-Tuning) vs. On-policy RL: SFT는 외부 정답을 강제로 주입하는 방식(Off-policy)인 반면, On-policy RL은 모델 자신이 생성한 데이터를 기반으로 보상 학습을 하는 방식. 논문은 RL이 일반 능력을 더 잘 보존하는 이유를 분석함.
  • Distributional Gap: 모델의 내부 믿음(Internal Belief)과 외부 훈련 데이터(External Supervision) 사이의 확률 분포 차이.

Purpose of the Paper

이 연구는 Supervised Fine-Tuning (SFT) 이 특정 도메인 성능은 높이지만 일반적인 능력(General Capabilities)을 훼손시키는 Catastrophic Forgetting 문제를 해결하기 위해 시작되었습니다.

  • 기존 연구의 한계: 기존에는 SFT와 On-policy RL이 학습 결과에서 차이를 보이는 현상은 관찰되었으나, "왜 RL은 일반 능력을 보존하는데 SFT는 망가뜨리는가?" 에 대한 근본적인 메커니즘 규명이 부족했습니다. 또한, 기존 해결책(예: KL Divergence 제약, 단순히 확률 기반 가중치 조절)은 모델의 '확신(Entropy)'과 '정답 여부(Probability)'를 구분하지 못해 효과가 제한적이었습니다.
  • 문제 정의의 전환: 저자들은 SFT 데이터가 모델의 기존 지식과 충돌할 때 발생하는 Confident Conflicts 가 망각의 주범임을 지목했습니다. 즉, 단순히 새로운 것을 배우는 게 문제가 아니라, 모델이 "틀림없다"고 믿는 지식을 강제로 덮어쓰려 할 때 파괴적인 그래디언트 업데이트가 발생한다는 점에 주목했습니다.

Key Contributions

이 논문의 독창성은 Entropy를 학습의 필터로 사용하여 '지식 습득'과 '지식 충돌'을 구분했다는 점에 있습니다.

  • Confident Conflicts 발견 (Novelty): SFT 데이터셋과 On-policy RL 데이터셋의 토큰 분포를 시각화하여, SFT에만 존재하는 Low Probability & Low Entropy 영역(Confident Conflicts)을 발견했습니다. 이는 모델이 자신의 예측에 확신을 갖지만 정답 라벨과 다른 경우로, 이 영역의 학습이 기존 지식을 파괴함을 입증했습니다.
  • Entropy-Adaptive Fine-Tuning (EAFT) 제안:
    • 단순히 정답 확률(Probability)만 보는 것이 아니라, Entropy를 가중치로 사용하는 새로운 손실 함수(Loss function)를 설계했습니다.
    • 매커니즘: Entropy가 높은(불확실한) 토큰은 가중치를 높여 새로운 지식을 학습하게 하고, Entropy가 낮은(이미 확신하는) 토큰은 가중치를 낮춰 기존 지식 파괴를 방지합니다 (Soft Gating).
    • 효율성: 전체 단어장(Vocabulary)에 대한 Entropy를 계산하는 대신, Top-K (K=20) 근사법을 사용하여 추가적인 계산 비용을 거의 0에 가깝게 최소화했습니다.
  • Domain-Agnostic 솔루션: 특정 도메인에 국한되지 않고 수학, 코딩(Agent), 의료 등 다양한 분야에서 일관된 효과를 입증했습니다.

Experimental Highlights

다양한 모델 크기(4B ~ 32B)와 도메인에서 EAFT가 SFT의 단점을 보완함을 증명했습니다.

  • 실험 설정:
    • Models: Qwen3-4B, GLM4-9B, Qwen2.5-32B 등 다양한 크기의 LLM.
    • Domains & Datasets: Math (AIME, GSM8K), Agent (Tool-use), Medical (MedMCQA 등).
    • Baselines: Standard SFT, SFT-KL, FLOW, DFT, TALR (최신 SFT 개선 기법들).
  • 주요 결과:
    • Pareto Improvement: EAFT는 타겟 도메인(예: 수학 문제 해결) 성능에서 Standard SFT와 동등한 수준을 유지하면서, 일반 상식 벤치마크(MMLU, CLUEWSC)에서는 SFT 대비 월등히 높은 점수를 기록했습니다. (예: Qwen3-4B에서 SFT는 일반 성능이 4.6점 하락했으나 EAFT는 1.0점 하락에 그침)
    • Pilot Experiment: Confident Conflict 토큰(하위 15%)을 단순히 마스킹(Masking)하여 학습에서 제외하는 것만으로도 망각 현상이 크게 완화됨을 보여주어, 가설을 검증했습니다.
    • Training Dynamics: 학습 곡선 분석 결과, EAFT는 Confident Conflict 영역의 손실(Loss)을 강제로 줄이려 하지 않고 유지함으로써, 모델의 기존 표현(Representation)이 왜곡되는 것을 방지했습니다.

Limitations and Future Work

  • Knowledge Editing의 어려움 (Limitations): EAFT는 모델의 기존 믿음(Prior)을 보호하는 데 특화되어 있습니다. 따라서, "하늘은 초록색이다"와 같이 기존 지식을 의도적으로 수정해야 하는 경우(Counterfactual Training) 나 잘못된 지식을 교정해야 하는 상황에서는 모델이 이를 '충돌'로 인식하여 학습을 거부할 수 있습니다. 이는 사실 관계 업데이트가 필요한 태스크에는 부적합할 수 있습니다.
  • Base Model 의존성: 이 방법론은 Base Model의 확신(Confidence)이 신뢰할 만하다는 가정하에 작동합니다. 만약 Base Model이 잘못된 정보에 대해 근거 없는 확신(Hallucination 등)을 가지고 있다면, EAFT는 이 오류까지 보존해버릴 위험이 있습니다.
  • Future Work:
    • Uncertainty Calibration: 모델의 확신이 실제 정확도와 일치하도록 보정하는 기술과 결합하여, '진짜 지식'과 '확신에 찬 환각'을 구분하는 연구가 필요합니다.
    • Selective Editing: 지식을 보존해야 할 때와 수정해야 할 때를 구분하는 더 정교한 메커니즘 연구가 제안됩니다.

Overall Summary

이 논문은 LLM의 파인튜닝(SFT) 과정에서 발생하는 치명적인 망각 현상의 원인이 모델의 사전 지식과 강하게 충돌하는 "Confident Conflicts" (확신적 충돌) 데이터에 있음을 규명했습니다. 저자들은 토큰의 Entropy를 기반으로 학습 가중치를 동적으로 조절하는 EAFT를 제안하여, 모델이 불확실한 새로운 지식은 받아들이되 기존의 확고한 지식을 파괴하는 업데이트는 무시하도록 만들었습니다. 이 연구는 복잡한 RL 과정 없이도 SFT의 효율성을 유지하면서 모델의 일반적인 지능을 보존할 수 있는 강력하고 범용적인 방법론을 제시했다는 점에서 중요한 의의를 가집니다.


쉬운 설명 (Intuitive Explanation)

상상해 보세요. 당신이 수학 시험 공부를 하는 학생(모델)입니다.

  • 상황: 당신은 "1+1=2"라고 아주 강력하게 믿고 있습니다. (Low Entropy, 높은 확신)
  • 일반 SFT (기존 방식): 선생님(데이터셋)이 갑자기 와서 "아니야, 1+1=3이라고 외워!"라고 강요합니다. 당신은 혼란에 빠지고, 억지로 이걸 외우려다 보니 뇌 구조가 꼬여서 기존에 알던 "2+2=4" 같은 다른 상식까지 까먹게 됩니다. (Catastrophic Forgetting)
  • EAFT (이 논문의 방식): 선생님이 당신의 표정을 살핍니다. "1+1=3"이라고 가르치려는데 당신이 "말도 안 돼, 난 2라고 확신해!"라는 표정(Low Entropy)을 짓습니다. 그러자 선생님은 "음, 이 문제는 네가 너무 확고하니 일단 넘어가자. 대신 네가 잘 모르는(High Entropy) 고등 수학 문제만 집중적으로 가르쳐 줄게."라고 합니다.
  • 결과: 당신은 억지스러운 정보를 배우느라 뇌를 망가뜨리지 않으면서도, 모르는 새로운 지식은 효율적으로 배우게 됩니다. 즉, "아는 건 지키고, 모르는 것만 배운다" 는 것이 핵심입니다.

 

 

 

주인장 이해

더보기

모델이 확신을 가지고 있는 데이터는 엔트로피가 낮을 것임.

그것을 강제로 학습시키려 하면 다양한 문제가 있기에

 

엔트로피가 낮으면 0으로 높으면 1로 

어떤 사이의 값으로 매핑시켜서 loss에 곱한 후 학습을 원활하게 함.

 

 

 

[상황 설정: 수학 도메인 SFT 중]

  • 모델: 이미 구구단을 완벽히 아는 LLM
  • 입력(Input): "12 곱하기 12는?"
  • 모델의 속마음(Prior): "144" (확신 99%)
  • SFT 데이터의 정답(Label): "150" (데이터셋의 오류 혹은 노이즈라고 가정)

1. 입력 (Input)

파인튜닝 데이터셋에서 "12 곱하기 12는?" 이라는 텍스트가 모델에 입력됩니다.

2. 예측 및 확률 분포 생성 (Model Prediction)

모델은 자신의 사전 지식을 바탕으로 다음 단어를 예측합니다. "144"일 확률을 99%, SFT 라벨인 "150"일 확률을 0.001%로 예측합니다.

3. 엔트로피 계산 (Entropy Calculation)

예측 확률이 "144"라는 특정 값에 쏠려 있으므로, 엔트로피(불확실성) 값은 0에 가깝게 매우 낮게 계산됩니다. (모델이 답을 확신함)

4. 게이팅 신호 생성 (Gating Signal)

계산된 엔트로피 값이 낮으므로, 이를 변환한 가중치(Weight) 역시 0에 가까운 아주 작은 값(예: 0.01) 이 됩니다.

5. 기본 손실 계산 (Standard Loss)

모델의 예측("144")과 데이터셋의 정답("150")이 다르기 때문에, 일반적인 Cross-Entropy 방식으로는 엄청나게 큰 기본 오차(Loss, 예: 100) 가 발생합니다.

6. EAFT 최종 손실 계산 (Final Loss)

EAFT는 [거대한 기본 오차 100]  [아주 작은 가중치 0.01] 을 곱해버립니다. 그 결과 최종 오차는 1로 대폭 줄어듭니다.

7. 역전파 및 업데이트 (Backpropagation)

최종 오차가 매우 작아졌으므로, 모델은 파라미터를 거의 수정하지 않습니다. 즉, 오류 데이터("150")를 학습하지 않고 무시하며, 기존의 올바른 지식("144")을 지켜냅니다.


[반대 상황: 모델이 모르는 새로운 지식을 배울 때]

  • 상황: 입력이 고등 수학 공식이고, 모델이 답을 잘 모를 때
  • 엔트로피: 답을 모르니 확률이 퍼져 있어 엔트로피가 높음.
  • 가중치: 1에 가까운 값(높음) 이 됨.
  • 결과: [기본 오차] * [1] = 오차가 그대로 전달되어, 모델이 새로운 지식을 적극적으로 학습함.