When to Speak, When to Abstain: Contrastive Decoding with Abstention

한줄 요약

파라메트릭, 문맥적, 보류(abstention) 분포를 동적으로 혼합하여, 관련 지식이 있을 때는 답변하고 없을 때는 답변을 거부하는 학습 불필요(training-free) 대조적 디코딩 방법

배경 및 동기

LLM은 사전학습을 통해 광범위한 파라메트릭 지식을 습득하지만, 덜 다뤄지거나 빠르게 변화하는 주제에 대해서는 필연적으로 지식이 부족합니다. RAG(Retrieval-Augmented Generation)가 외부 문맥 지식으로 이를 보완하지만, 두 지식 소스 모두 답을 포함하지 않는 경우가 존재합니다. 이런 상황에서 모델에게 답변을 강제하면 자신 있게 들리는 환각(hallucination)이 발생하며, 이는 고위험 도메인에서 특히 위험합니다.

기존 방법의 한계: 기존 대조적 디코딩 방법(Context-Aware Decoding, Adaptive Contrastive Decoding 등)은 최소한 하나의 지식 소스가 관련 있는 경우만 처리합니다. 파라메트릭 지식과 문맥적 지식이 모두 부재한 핵심 네 번째 시나리오를 다루지 않아, 절대 답변을 보류하지 않으며 F1_abs가 0에 가까운 수치를 보입니다.

본 연구는 네 가지 시나리오를 정의합니다: (1) 파라메트릭 지식만 존재, (2) 문맥적 지식만 존재, (3) 둘 다 존재, (4) 둘 다 부재. 먼저 각 시나리오를 명시적으로 라벨링하는 통제된 테스트베드를 구축한 후, 네 가지 시나리오 모두를 견고하게 처리하는 Contrastive Decoding with Abstention (CDA)를 제안합니다.

제안 방법: Contrastive Decoding with Abstention (CDA)

**Figure 2.** 테스트베드 구축 파이프라인: MRQA 데이터셋으로부터 파라메트릭 및 문맥적 지식 가용성을 평가하여 네 가지 시나리오에 걸쳐 균형 잡힌 평가 세트를 생성한다.

1

3방향 분포 혼합

기존 2방향 대조적 디코딩(파라메트릭 + 문맥적)을 3방향으로 확장: d_o = w_p·d_p + w_c·d_c + (1 − w_p − w_c)·d_a. 여기서 d_a는 모델에게 답변 거부를 유도하는 프롬프트로 얻은 명시적 보류 분포이다.

2

보정된 불확실성 추정

서로 다른 프롬프트 간 엔트로피 값을 직접 비교할 수 없는 문제를 해결한다. 플레이스홀더 입력으로 "content-free" 널(null) 분포를 계산하고, 상대적 엔트로피 감소량으로 신뢰도를 보정: r_p = max(H_p − H̄_p, 0) / H̄_p. 이를 통해 파라메트릭과 문맥적 지식 신호를 공정하게 비교한다.

3

동적 가중치 정규화

보정된 신뢰도 비율을 w_p + w_c ≤ 1이 되도록 정규화한다. 두 신뢰도가 모두 낮을 때, 잔여 가중치(1 − w_p − w_c)가 자연스럽게 보류 분포로 흘러가 모델이 답변을 거부하게 된다.

4

모멘텀 안정화 (CDA-m)

이전에 디코딩된 토큰이 모델을 의도치 않게 편향시킬 수 있다. CDA-m은 가중치에 지수이동평균을 적용: w_t ← α·w_t−1 + (1−α)·w_t로 디코딩 단계 간 급격한 변동을 완화한다.

실험 결과

3개 QA 벤치마크(Natural Questions, HotpotQA, TriviaQA)에서 4개 LLM(Llama3-8B, Llama2-7B/13B, Mistral-7B)으로 평가. 지표: F1_ans(응답 가능 정확도), F1_abs(보류 정확도), RS(신뢰도 점수).

데이터셋	방법	F1_ans	F1_abs	RS
NQ	FSB (최강 베이스라인)	69.27	54.94	59.64
NQ	CDA	72.06	55.49	62.95
NQ	CDA-m	73.15	55.47	63.72
HotpotQA	FSB (최강 베이스라인)	74.89	58.51	66.21
HotpotQA	CDA	78.71	62.50	70.20
HotpotQA	CDA-m	79.32	62.59	70.64
TriviaQA	FSB (최강 베이스라인)	77.02	59.84	68.55
TriviaQA	CDA	80.39	65.67	72.35
TriviaQA	CDA-m	80.93	65.66	72.74

**Figure 7.** Contriever-msmarco 검색기와 위키피디아를 활용한 실제 RAG 환경에서의 신뢰도 점수. CDA-m이 모든 베이스라인 대비 최고 RS(~68.7)를 달성.

보류 미지원 베이스라인의 실패: Context-only, CAD, ACD 방법은 지식 가용성과 무관하게 답변을 거부하지 않아 F1_abs가 0에 가깝다.
일관된 성능 향상: CDA-m은 최강 베이스라인(FSB) 대비 NQ에서 +3.88, HotpotQA에서 +4.43, TriviaQA에서 +3.91 F1_ans 향상.
보정의 핵심적 중요성: 불확실성 보정을 제거하면 NQ에서 RS가 15.06포인트, HotpotQA에서 13.78포인트 하락하여 원시 엔트로피 비교의 비신뢰성을 확인.
지도학습 모델 능가: CDA-m(학습 불필요)은 인도메인에서도 instruction-tuned 모델을 능가하며(NQ RS +2.60), 특히 아웃오브도메인에서 큰 차이를 보임(TriviaQA RS +10.60).
실제 RAG 환경에서의 효과: Contriever 검색기를 활용한 위키피디아 RAG 실험에서도 CDA-m이 최고 신뢰도 점수를 달성하여 통제된 환경 외에서도 유효함을 검증.

의의

신뢰할 수 있는 AI 배포를 위해, 답하지 않아야 할 때를 아는 것은 올바르게 답하는 것만큼이나 중요합니다. CDA는 대조적 디코딩 프레임워크에 보류(abstention)를 직접 통합한 최초의 학습 불필요 디코딩 방법으로, 파라미터 업데이트 없이 네 가지 지식 접근 시나리오를 모두 처리합니다. 보정된 불확실성 추정으로 다양한 모델과 데이터셋에서 견고한 성능을 보장하고, 모멘텀 안정화로 자기회귀 생성 중 오류 전파를 방지합니다. RAG를 사용하는 모든 instruction-tuned LLM에 즉시 적용 가능하여, 보다 신뢰할 수 있는 질의응답 시스템을 향한 실용적 진전을 이룹니다.

링크

ACL Anthology arXiv Paper