EN KO
← 전체 논문 목록

When to Speak, When to Abstain: Contrastive Decoding with Abstention

ACL 2025
Hyuhng Joon Kim, Youna Kim, Sang-goo Lee, Taeuk Kim

한줄 요약

파라메트릭, 문맥적, 보류(abstention) 분포를 동적으로 혼합하여, 관련 지식이 있을 때는 답변하고 없을 때는 답변을 거부하는 학습 불필요(training-free) 대조적 디코딩 방법

파라메트릭 및 문맥적 지식 가용성에 따른 네 가지 시나리오
Figure 1. 네 가지 지식 접근 시나리오: 파라메트릭 지식(사전학습)과 문맥적 지식(검색)의 가용성에 따라 모델은 답변하거나 보류해야 한다.

배경 및 동기

LLM은 사전학습을 통해 광범위한 파라메트릭 지식을 습득하지만, 덜 다뤄지거나 빠르게 변화하는 주제에 대해서는 필연적으로 지식이 부족합니다. RAG(Retrieval-Augmented Generation)가 외부 문맥 지식으로 이를 보완하지만, 두 지식 소스 모두 답을 포함하지 않는 경우가 존재합니다. 이런 상황에서 모델에게 답변을 강제하면 자신 있게 들리는 환각(hallucination)이 발생하며, 이는 고위험 도메인에서 특히 위험합니다.

기존 방법의 한계: 기존 대조적 디코딩 방법(Context-Aware Decoding, Adaptive Contrastive Decoding 등)은 최소한 하나의 지식 소스가 관련 있는 경우만 처리합니다. 파라메트릭 지식과 문맥적 지식이 모두 부재한 핵심 네 번째 시나리오를 다루지 않아, 절대 답변을 보류하지 않으며 F1abs가 0에 가까운 수치를 보입니다.

본 연구는 네 가지 시나리오를 정의합니다: (1) 파라메트릭 지식만 존재, (2) 문맥적 지식만 존재, (3) 둘 다 존재, (4) 둘 다 부재. 먼저 각 시나리오를 명시적으로 라벨링하는 통제된 테스트베드를 구축한 후, 네 가지 시나리오 모두를 견고하게 처리하는 Contrastive Decoding with Abstention (CDA)를 제안합니다.

제안 방법: Contrastive Decoding with Abstention (CDA)

테스트베드 구축 파이프라인
Figure 2. 테스트베드 구축 파이프라인: MRQA 데이터셋으로부터 파라메트릭 및 문맥적 지식 가용성을 평가하여 네 가지 시나리오에 걸쳐 균형 잡힌 평가 세트를 생성한다.
1
3방향 분포 혼합
기존 2방향 대조적 디코딩(파라메트릭 + 문맥적)을 3방향으로 확장: do = wp·dp + wc·dc + (1 − wp − wc)·da. 여기서 da는 모델에게 답변 거부를 유도하는 프롬프트로 얻은 명시적 보류 분포이다.
2
보정된 불확실성 추정
서로 다른 프롬프트 간 엔트로피 값을 직접 비교할 수 없는 문제를 해결한다. 플레이스홀더 입력으로 "content-free" 널(null) 분포를 계산하고, 상대적 엔트로피 감소량으로 신뢰도를 보정: rp = max(Hp − H̄p, 0) / H̄p. 이를 통해 파라메트릭과 문맥적 지식 신호를 공정하게 비교한다.
3
동적 가중치 정규화
보정된 신뢰도 비율을 wp + wc ≤ 1이 되도록 정규화한다. 두 신뢰도가 모두 낮을 때, 잔여 가중치(1 − wp − wc)가 자연스럽게 보류 분포로 흘러가 모델이 답변을 거부하게 된다.
4
모멘텀 안정화 (CDA-m)
이전에 디코딩된 토큰이 모델을 의도치 않게 편향시킬 수 있다. CDA-m은 가중치에 지수이동평균을 적용: wt ← α·wt−1 + (1−α)·wt로 디코딩 단계 간 급격한 변동을 완화한다.

실험 결과

3개 QA 벤치마크(Natural Questions, HotpotQA, TriviaQA)에서 4개 LLM(Llama3-8B, Llama2-7B/13B, Mistral-7B)으로 평가. 지표: F1ans(응답 가능 정확도), F1abs(보류 정확도), RS(신뢰도 점수).

데이터셋방법F1ansF1absRS
NQFSB (최강 베이스라인)69.2754.9459.64
NQCDA72.0655.4962.95
NQCDA-m73.1555.4763.72
HotpotQAFSB (최강 베이스라인)74.8958.5166.21
HotpotQACDA78.7162.5070.20
HotpotQACDA-m79.3262.5970.64
TriviaQAFSB (최강 베이스라인)77.0259.8468.55
TriviaQACDA80.3965.6772.35
TriviaQACDA-m80.9365.6672.74
RAG 환경에서의 신뢰도 점수
Figure 7. Contriever-msmarco 검색기와 위키피디아를 활용한 실제 RAG 환경에서의 신뢰도 점수. CDA-m이 모든 베이스라인 대비 최고 RS(~68.7)를 달성.

의의

신뢰할 수 있는 AI 배포를 위해, 답하지 않아야 할 때를 아는 것은 올바르게 답하는 것만큼이나 중요합니다. CDA는 대조적 디코딩 프레임워크에 보류(abstention)를 직접 통합한 최초의 학습 불필요 디코딩 방법으로, 파라미터 업데이트 없이 네 가지 지식 접근 시나리오를 모두 처리합니다. 보정된 불확실성 추정으로 다양한 모델과 데이터셋에서 견고한 성능을 보장하고, 모멘텀 안정화로 자기회귀 생성 중 오류 전파를 방지합니다. RAG를 사용하는 모든 instruction-tuned LLM에 즉시 적용 가능하여, 보다 신뢰할 수 있는 질의응답 시스템을 향한 실용적 진전을 이룹니다.

링크

RAG Knowledge Reasoning