EN KO
← 전체 논문 목록

Think Just Enough: Leveraging Self-Assessed Confidence for Adaptive Reasoning in Language Models

EACL 2026 Findings
Junyeob Kim, Sang-goo Lee, Taeuk Kim

한줄 요약

강화학습 기반 추론 모델에 자기 평가 신뢰도를 프롬프팅으로 유도하여, 추가 학습 없이 추론 길이를 적응적으로 조절하고 정확도 손실 없이 추론 토큰을 대폭 절감하는 프레임워크를 제안합니다.

자기 평가 신뢰도 기반 적응적 추론 개요
Figure 1. 적응적 추론 프레임워크 개요: 모델이 추론 중 반성적 마커(예: "Wait")가 나타나는 시점에서 자기 신뢰도를 평가하고, 충분한 확신에 도달하면 추론을 조기 종료합니다.

배경 및 동기

OpenAI의 o1, DeepSeek-R1 등 강화학습으로 훈련된 대형 추론 모델(LRM)은 반성, 검증, 역추적을 포함하는 긴 사고 과정(Chain of Thought)을 생성합니다. 이러한 확장된 추론 과정은 복잡한 과제에서 뛰어난 성능을 가능하게 하지만, 과소 사고(underthinking) — 정답에 도달하기 전 조기 종료 — 또는 과잉 사고(overthinking) — 정답 이후 불필요한 추론 지속으로 연산 낭비 및 정확도 저하 — 의 문제를 야기합니다.

기존 접근법들은 내부 로짓 기반 신호(예: DEER), 배치 샘플링, 또는 메모리 집약적 기법에 의존하여 폐쇄형 모델에서는 적용이 어렵습니다. 모델 자체의 자기 평가 신뢰도를 활용하여 추론 길이를 적응적으로 제어할 수 있을까요?

핵심 통찰: 강화학습으로 훈련된 추론 모델은 자신의 신뢰도를 합리적으로 내성(introspection)할 수 있는 능력을 갖추고 있습니다. 중간 단계에서 신뢰도를 명시적으로 표현하도록 프롬프팅하면, 추가 학습이나 내부 로짓 접근, 외부 샘플링 없이도 추론 종료 시점을 동적으로 결정할 수 있습니다.

제안 방법

본 방법은 추론 중 자연스러운 결정 지점에서 모델이 자신의 신뢰도를 평가하도록 하는 자기 평가 메커니즘을 도입합니다. 시스템 프롬프트를 통해 모델이 Almost no chance(0.0–0.1)부터 Almost certain(0.9–1.0)까지 10단계 척도의 구조화된 신뢰도 라벨을 출력하도록 지시합니다.

1
반성적 마커 탐지
추론 중 LRM이 자연스럽게 생성하는 반성적 토큰("Wait", "Alternatively" 등)은 사고 과정의 전환점을 나타냅니다. 이러한 마커가 신뢰도 추정의 자연스러운 결정 지점으로 활용됩니다.
2
자기 평가 신뢰도 주입
각 결정 지점에서 생성을 일시 중단하고 추가 프롬프트를 주입하여 모델이 \confidence{...} 라벨로 신뢰도를 표현하도록 요청합니다. 추정 중 추가 추론은 방지됩니다.
3
적응적 조기 종료
신뢰도가 임계값(기본값: Almost certain)에 도달하면 </think> 태그를 삽입하여 추론을 종료하고 최종 답변으로 진행합니다. 그렇지 않으면 연속 단서("Wait")로 추론을 짧게 연장합니다.

핵심 설계 선택:

실험 결과

3개의 RL 기반 LRM(QwQ-32B, Qwen3-32B, R1-Distill-Qwen-32B)을 5개 벤치마크(MATH-500, AIME25, AIME24, AMC23, GPQA Diamond)에서 평가하였습니다. 베이스라인으로 Vanilla(조기 종료 없음)와 DEER(로짓 기반 신뢰도)를 비교합니다.

모델 / 방법평균 정확도 (↑)평균 길이 (↓)
QwQ-32B
  Vanilla76.759,260
  DEER77.487,529
  Ours79.177,512
Qwen3-32B
  Vanilla80.328,148
  DEER78.785,630
  Ours81.256,624
R1-Distill-32B
  Vanilla66.757,057
  DEER68.245,778
  Ours67.375,387

연구의 의의

본 연구는 강화학습으로 훈련된 추론 모델이 내성적 신뢰도 추정(introspective confidence estimation)의 의미 있는 능력을 보유하고 있으며, 이를 간단한 프롬프팅으로 활용할 수 있음을 입증합니다. 내부 로짓 접근이나 다중 샘플링이 필요한 방법과 달리, 본 접근법은 학습 불필요, 모델 무관, 폐쇄형 API 호환이라는 장점을 갖습니다. 자기 평가 신뢰도가 내부 신호와 정합한다는 발견은, 추론 지향 모델이 RL 최적화를 통해 진정한 자기 모니터링 능력을 발달시킨다는 가설을 뒷받침합니다 — 이는 일반적인 지시 조정(instruction-tuned) LLM에서는 거의 나타나지 않는 특성입니다. 추론 모델이 프로덕션 시스템의 핵심이 되어감에 따라, 이 경량 메커니즘은 정확도를 유지하거나 오히려 향상시키면서 추론 비용을 절감하는 실용적 경로를 제시합니다.

링크

Efficiency Confidence Abstention