강화학습 기반 추론 모델에 자기 평가 신뢰도를 프롬프팅으로 유도하여, 추가 학습 없이 추론 길이를 적응적으로 조절하고 정확도 손실 없이 추론 토큰을 대폭 절감하는 프레임워크를 제안합니다.
OpenAI의 o1, DeepSeek-R1 등 강화학습으로 훈련된 대형 추론 모델(LRM)은 반성, 검증, 역추적을 포함하는 긴 사고 과정(Chain of Thought)을 생성합니다. 이러한 확장된 추론 과정은 복잡한 과제에서 뛰어난 성능을 가능하게 하지만, 과소 사고(underthinking) — 정답에 도달하기 전 조기 종료 — 또는 과잉 사고(overthinking) — 정답 이후 불필요한 추론 지속으로 연산 낭비 및 정확도 저하 — 의 문제를 야기합니다.
기존 접근법들은 내부 로짓 기반 신호(예: DEER), 배치 샘플링, 또는 메모리 집약적 기법에 의존하여 폐쇄형 모델에서는 적용이 어렵습니다. 모델 자체의 자기 평가 신뢰도를 활용하여 추론 길이를 적응적으로 제어할 수 있을까요?
핵심 통찰: 강화학습으로 훈련된 추론 모델은 자신의 신뢰도를 합리적으로 내성(introspection)할 수 있는 능력을 갖추고 있습니다. 중간 단계에서 신뢰도를 명시적으로 표현하도록 프롬프팅하면, 추가 학습이나 내부 로짓 접근, 외부 샘플링 없이도 추론 종료 시점을 동적으로 결정할 수 있습니다.
본 방법은 추론 중 자연스러운 결정 지점에서 모델이 자신의 신뢰도를 평가하도록 하는 자기 평가 메커니즘을 도입합니다. 시스템 프롬프트를 통해 모델이 Almost no chance(0.0–0.1)부터 Almost certain(0.9–1.0)까지 10단계 척도의 구조화된 신뢰도 라벨을 출력하도록 지시합니다.
\confidence{...} 라벨로 신뢰도를 표현하도록 요청합니다. 추정 중 추가 추론은 방지됩니다.</think> 태그를 삽입하여 추론을 종료하고 최종 답변으로 진행합니다. 그렇지 않으면 연속 단서("Wait")로 추론을 짧게 연장합니다.핵심 설계 선택:
3개의 RL 기반 LRM(QwQ-32B, Qwen3-32B, R1-Distill-Qwen-32B)을 5개 벤치마크(MATH-500, AIME25, AIME24, AMC23, GPQA Diamond)에서 평가하였습니다. 베이스라인으로 Vanilla(조기 종료 없음)와 DEER(로짓 기반 신뢰도)를 비교합니다.
| 모델 / 방법 | 평균 정확도 (↑) | 평균 길이 (↓) |
|---|---|---|
| QwQ-32B | ||
| Vanilla | 76.75 | 9,260 |
| DEER | 77.48 | 7,529 |
| Ours | 79.17 | 7,512 |
| Qwen3-32B | ||
| Vanilla | 80.32 | 8,148 |
| DEER | 78.78 | 5,630 |
| Ours | 81.25 | 6,624 |
| R1-Distill-32B | ||
| Vanilla | 66.75 | 7,057 |
| DEER | 68.24 | 5,778 |
| Ours | 67.37 | 5,387 |
본 연구는 강화학습으로 훈련된 추론 모델이 내성적 신뢰도 추정(introspective confidence estimation)의 의미 있는 능력을 보유하고 있으며, 이를 간단한 프롬프팅으로 활용할 수 있음을 입증합니다. 내부 로짓 접근이나 다중 샘플링이 필요한 방법과 달리, 본 접근법은 학습 불필요, 모델 무관, 폐쇄형 API 호환이라는 장점을 갖습니다. 자기 평가 신뢰도가 내부 신호와 정합한다는 발견은, 추론 지향 모델이 RL 최적화를 통해 진정한 자기 모니터링 능력을 발달시킨다는 가설을 뒷받침합니다 — 이는 일반적인 지시 조정(instruction-tuned) LLM에서는 거의 나타나지 않는 특성입니다. 추론 모델이 프로덕션 시스템의 핵심이 되어감에 따라, 이 경량 메커니즘은 정확도를 유지하거나 오히려 향상시키면서 추론 비용을 절감하는 실용적 경로를 제시합니다.