Think Just Enough - HYU NLP Lab

한줄 요약

강화학습 기반 추론 모델에 자기 평가 신뢰도를 프롬프팅으로 유도하여, 추가 학습 없이 추론 길이를 적응적으로 조절하고 정확도 손실 없이 추론 토큰을 대폭 절감하는 프레임워크를 제안합니다.

배경 및 동기

OpenAI의 o1, DeepSeek-R1 등 강화학습으로 훈련된 대형 추론 모델(LRM)은 반성, 검증, 역추적을 포함하는 긴 사고 과정(Chain of Thought)을 생성합니다. 이러한 확장된 추론 과정은 복잡한 과제에서 뛰어난 성능을 가능하게 하지만, 과소 사고(underthinking) — 정답에 도달하기 전 조기 종료 — 또는 과잉 사고(overthinking) — 정답 이후 불필요한 추론 지속으로 연산 낭비 및 정확도 저하 — 의 문제를 야기합니다.

기존 접근법들은 내부 로짓 기반 신호(예: DEER), 배치 샘플링, 또는 메모리 집약적 기법에 의존하여 폐쇄형 모델에서는 적용이 어렵습니다. 모델 자체의 자기 평가 신뢰도를 활용하여 추론 길이를 적응적으로 제어할 수 있을까요?

핵심 통찰: 강화학습으로 훈련된 추론 모델은 자신의 신뢰도를 합리적으로 내성(introspection)할 수 있는 능력을 갖추고 있습니다. 중간 단계에서 신뢰도를 명시적으로 표현하도록 프롬프팅하면, 추가 학습이나 내부 로짓 접근, 외부 샘플링 없이도 추론 종료 시점을 동적으로 결정할 수 있습니다.

제안 방법

본 방법은 추론 중 자연스러운 결정 지점에서 모델이 자신의 신뢰도를 평가하도록 하는 자기 평가 메커니즘을 도입합니다. 시스템 프롬프트를 통해 모델이 Almost no chance(0.0–0.1)부터 Almost certain(0.9–1.0)까지 10단계 척도의 구조화된 신뢰도 라벨을 출력하도록 지시합니다.

1

반성적 마커 탐지

추론 중 LRM이 자연스럽게 생성하는 반성적 토큰("Wait", "Alternatively" 등)은 사고 과정의 전환점을 나타냅니다. 이러한 마커가 신뢰도 추정의 자연스러운 결정 지점으로 활용됩니다.

2

자기 평가 신뢰도 주입

각 결정 지점에서 생성을 일시 중단하고 추가 프롬프트를 주입하여 모델이 \confidence{...} 라벨로 신뢰도를 표현하도록 요청합니다. 추정 중 추가 추론은 방지됩니다.

3

적응적 조기 종료

신뢰도가 임계값(기본값: Almost certain)에 도달하면 </think> 태그를 삽입하여 추론을 종료하고 최종 답변으로 진행합니다. 그렇지 않으면 연속 단서("Wait")로 추론을 짧게 연장합니다.

핵심 설계 선택:

키워드 트리거 추정: 추론 과정에서 자연스럽게 나타나는 반성적 마커("Wait", "Alternatively")에서 신뢰도를 평가하여 모델의 사고 전환과 일치시킴
주기적 프로빙 대안: 반성적 마커가 드문 모델의 경우, 매 k 토큰마다 신뢰도를 질의하는 Periodic-Conf(k) 변형을 제공
구성 가능한 임계값: Very good chance(0.7–0.8), Highly likely(0.8–0.9), Almost certain(0.9–1.0) 세 가지 임계값을 평가하여 효율성과 보수성 간 트레이드오프 조절 가능
학습 불필요 & 모델 무관: 미세조정이나 내부 모델 상태 접근 없이 프롬프팅만으로 작동

실험 결과

3개의 RL 기반 LRM(QwQ-32B, Qwen3-32B, R1-Distill-Qwen-32B)을 5개 벤치마크(MATH-500, AIME25, AIME24, AMC23, GPQA Diamond)에서 평가하였습니다. 베이스라인으로 Vanilla(조기 종료 없음)와 DEER(로짓 기반 신뢰도)를 비교합니다.

모델 / 방법	평균 정확도 (↑)	평균 길이 (↓)
QwQ-32B
Vanilla	76.75	9,260
DEER	77.48	7,529
Ours	79.17	7,512
Qwen3-32B
Vanilla	80.32	8,148
DEER	78.78	5,630
Ours	81.25	6,624
R1-Distill-32B
Vanilla	66.75	7,057
DEER	68.24	5,778
Ours	67.37	5,387

짧은 추론으로 더 높은 정확도: QwQ-32B와 Qwen3-32B에서 제안 방법이 Vanilla 대비 추론 길이를 대폭 줄이면서도 최고 평균 정확도를 달성
최대 24% 토큰 절감: 예를 들어 Qwen3-32B에서 8,148 → 6,624 토큰으로 감소하면서 정확도 손실 없음 — 오히려 정확도가 향상되는 경우도 다수
어려운 벤치마크에서도 안정적: AIME24, AIME25 등 난이도 높은 데이터셋에서도 성능이 안정적으로 유지 (예: Qwen3-32B AIME24에서 75.56% vs Vanilla 72.22%)
DEER 대비 장점: 내부 로짓에 의존하는 DEER와 달리, 자기 평가 신뢰도는 과신(overconfidence) 문제가 적어 더 안정적이고 접근 가능한 추정치를 제공
신뢰도 정합성: 자기 평가 신뢰도와 로짓 기반 신뢰도 간 상관관계 확인 (Pearson r = 0.33), 추론 모델이 생성 텍스트와 내부 표현 모두에서 확신도를 일관되게 인코딩함을 시사

연구의 의의

본 연구는 강화학습으로 훈련된 추론 모델이 내성적 신뢰도 추정(introspective confidence estimation)의 의미 있는 능력을 보유하고 있으며, 이를 간단한 프롬프팅으로 활용할 수 있음을 입증합니다. 내부 로짓 접근이나 다중 샘플링이 필요한 방법과 달리, 본 접근법은 학습 불필요, 모델 무관, 폐쇄형 API 호환이라는 장점을 갖습니다. 자기 평가 신뢰도가 내부 신호와 정합한다는 발견은, 추론 지향 모델이 RL 최적화를 통해 진정한 자기 모니터링 능력을 발달시킨다는 가설을 뒷받침합니다 — 이는 일반적인 지시 조정(instruction-tuned) LLM에서는 거의 나타나지 않는 특성입니다. 추론 모델이 프로덕션 시스템의 핵심이 되어감에 따라, 이 경량 메커니즘은 정확도를 유지하거나 오히려 향상시키면서 추론 비용을 절감하는 실용적 경로를 제시합니다.

링크

ACL Anthology

Think Just Enough: Leveraging Self-Assessed Confidence for Adaptive Reasoning in Language Models

한줄 요약

배경 및 동기

제안 방법

실험 결과

연구의 의의

링크