EN KO
← 전체 논문 목록

ADVICE: Answer-Dependent Verbalized Confidence Estimation

ACL 2026
Ki Jung Seo, Sehun Lim, Taeuk Kim

한줄 요약

LLM의 과신(overconfidence)이 신뢰도 생성과 답변 생성이 내부적으로 분리되는 "답변 독립성"에서 비롯됨을 밝히고, 대조 학습 기반 미세조정 프레임워크 ADVICE를 제안하여 신뢰도 보정을 크게 개선합니다 (예: Llama-3.1-8B에서 ECE 16.9 → 10.4, AUROC 56.2 → 77.0).

ADVICE 개요 - LLM이 답변 정확도와 관계없이 과도한 확신을 표현하는 문제
Figure 1. LLM은 답변이 맞든 틀리든 상관없이 과도한 확신을 표현합니다(왼쪽). ADVICE는 실제 답변에 기반하여 적절한 신뢰도 점수를 생성하도록 학습합니다(오른쪽).

배경 및 동기

대규모 언어 모델(LLM)은 불가피하게 사실과 다른 내용(할루시네이션)을 생성하며, 이를 완전히 제거하는 것은 이론적으로도 어려울 수 있습니다. 이에 대한 유망한 대안으로, LLM이 답변과 함께 신뢰도 추정치를 제공하는 방법이 주목받고 있습니다. 특히 자연어로 신뢰도를 표현하는 verbalized confidence는 모델 내부 상태에 접근할 필요 없이 범용적으로 적용할 수 있어 매력적입니다.

그러나 핵심적인 문제가 있습니다: LLM은 출력 품질과 무관하게 높은 신뢰도를 부여하는 체계적인 과신(overconfidence)을 보입니다. 본 연구는 과신을 사후적으로 완화하는 것을 넘어, 왜 과신이 발생하는가라는 근본적인 질문에 답합니다.

핵심 발견: 모델 내부 프로세스를 분석한 결과, LLM의 답변 생성과 신뢰도 표현이 내부적으로 분리(decoupled)되어 있음을 발견했으며, 이를 "답변 독립성(answer-independence)"이라 명명합니다.

  • 분포 분석: 정답과 오답에 조건부인 신뢰도 분포 간 Jensen-Shannon 발산(JSD)이 대부분의 샘플에서 0.1 이하에 집중되어, 모델이 답변과 무관하게 거의 동일한 신뢰도를 생성함을 증명합니다.
  • Attention Rollout 분석: 신뢰도 토큰에서 답변 토큰으로의 어텐션 흐름이 질문 토큰 대비 유의미하게 낮아, 모델이 신뢰도 생성 시 답변 정보에 덜 의존함을 확인했습니다.
  • Integrated Gradients 분석: 토큰 기여도 분석에서 답변 토큰이 질문이나 지시문 등 다른 구성 요소에 비해 일관되게 과소 가중치를 받고 있음이 드러났습니다.
Jensen-Shannon 발산 분석
Figure 2. 정답과 오답에 대한 신뢰도 분포 간 JSD 점수가 0 근처에 강하게 집중되어, 모델이 답변과 독립적으로 신뢰도를 표현함을 보여줍니다.
Attention Rollout 점수
Figure 3. Attention Rollout 분석 결과, 신뢰도 토큰이 질문 토큰 대비 답변 토큰에 유의미하게 적은 어텐션을 보여 내부적 분리를 확인합니다.

제안 방법: ADVICE 프레임워크

ADVICE(Answer-Dependent VerbalIzed Confidence Estimation)는 답변에 기반한 신뢰도 추정을 명시적으로 촉진하는 경량 미세조정 프레임워크입니다. 핵심 아이디어는 정답/오답 쌍에 대한 대조 학습을 통해 답변의 정확성에 따라 신뢰도가 근본적으로 달라져야 한다는 것을 모델에게 가르치는 것입니다.

ADVICE 프레임워크 다이어그램
Figure 4. ADVICE 프레임워크의 전체 구조. 각 질문에 대해 정답과 오답을 모두 처리하며, 네 가지 손실 함수가 협력하여 신뢰도 분포를 분리하고 보정합니다.
1
학습 데이터 구축
TriviaQA 학습 세트에서 4,000개 인스턴스를 추출하되, greedy decoding으로 정답을 생성하는 인스턴스만 유지합니다. 각 인스턴스에 대해 (질문, 정답, 무작위 추출 오답) 삼중쌍을 구성하고, 다양한 신뢰도 형식(ScoreLetter, ScoreNumber)에 걸쳐 유창한 표현을 학습하도록 인스턴스당 2개 변형을 생성합니다.
2
다목적 대조 학습
네 가지 상호보완적 손실 함수로 모델을 미세조정합니다. 동일한 질문에 정답과 오답을 각각 입력하여, 각 손실이 두 경우의 신뢰도 분포를 체계적으로 분리합니다.
3
답변 기반 추론
추론 시 모델은 답변과 신뢰도 점수를 한 번의 패스로 생성합니다. 학습을 통해 답변 인식(answer-awareness)이 내재화되어, 모델이 자연스럽게 생성된 답변에 조건부로 잘 보정된 신뢰도를 출력합니다.

네 가지 손실 함수의 구체적 역할:

실험 결과

세 가지 모델(Llama-3.1-8B-Instruct, Mistral-7B-Instruct-v0.3, Gemma-2-9b-it)을 대상으로 도메인 내(TriviaQA) 및 도메인 외(MMLU, LogiQA) 벤치마크에서 실험을 수행하며, ECE(Expected Calibration Error), |NCE|(Absolute Net Calibration Error), BS(Brier Score), AUROC의 네 가지 지표를 사용합니다.

도메인 내 결과 (TriviaQA)

모델방법ECE ↓|NCE| ↓BS ↓AUROC ↑
Llama-3.1-8BDefault16.916.621.256.2
Llama-3.1-8BSelf-Consistency15.7--58.6
Llama-3.1-8BConfTuner5.21.115.366.3
Llama-3.1-8BADVICE10.49.814.877.0
Llama-3.1-8BADVICE + ConfTuner9.4--77.9

도메인 외 결과 (Out-of-Distribution)

데이터셋방법ECE ↓AUROC ↑
MMLUDefault26.9-
MMLUConfTuner13.9-
MMLUADVICE8.669.2
LogiQADefault53.8-
LogiQAConfTuner28.6-
LogiQAADVICE23.057.9
신뢰도 다이어그램
Figure 5. 신뢰도 다이어그램: ADVICE 적용 후 모델의 신뢰도가 이상적인 대각선에 훨씬 가깝게 보정됩니다.

절삭 연구 (Gemma-2-9b, TriviaQA)

구성ECE ↓
L_LM만 사용23.0
L_LM + L_JSD8.6
L_LM + L_Margin16.8
전체 ADVICE (모든 목적 함수)6.2

왜 중요한가?

AI가 "확실합니다"라고 말할 때 정말 확신하는 것인지 아는 것은 매우 중요합니다. 의료, 법률, 금융과 같은 고위험 분야에서 LLM의 과신은 심각한 실제 결과를 초래할 수 있습니다 -- 사용자가 잘못된 출력을 의심 없이 신뢰할 수 있기 때문입니다.

본 연구는 기존 접근법을 넘어 세 가지 핵심 기여를 합니다:

링크

Confidence Reasoning Abstention