Ambiguity - HYU NLP Lab

한줄 요약

Alignment with Perceived Ambiguity (APA)는 각 모델 고유의 모호성 인식을 활용하여 모호한 질의를 명시적으로 감지하고 처리하도록 언어 모델을 정렬하며, 특히 분포 외(OOD) 시나리오에서 골드 레이블 기반 학습을 능가합니다.

배경 및 동기

사용자와 언어 모델 에이전트의 상호작용에서, 사용자 발화는 효율성을 위해 생략(ellipsis)이나 부정확성(imprecision)을 빈번하게 포함합니다. 예를 들어, "누가 전국 대회에서 우승했나요?"라는 질문은 다양한 종목과 연도의 대회를 지칭할 수 있어, 서로 다른 가정이나 배경 지식에 따라 다양한 해석이 가능합니다. 그러나 대부분의 대형 언어 모델(LLM)은 하나의 해석만 선택하여 자신 있게 답변하며, 내재된 모호성을 무시합니다.

한계 1 — 명시적 학습의 부재: 기존 LLM은 모호한 발화를 처리하도록 명시적으로 학습되지 않았습니다. 질문이 실제로 모호한 경우에도 단일 답변을 생성하는 경향이 있어, 사용자가 의도했을 수 있는 다른 유효한 해석을 제시하지 못합니다.

한계 2 — 모델 의존적 모호성: 모호성의 인식 정도는 모델에 따라 다릅니다 — 넓은 지식을 가진 모델은 제한된 지식을 가진 모델보다 더 많은 가능한 해석을 인식합니다. 모든 모델에 동일한 골드 레이블을 사용하는 것은 이 근본적 차이를 무시하여 차선의 정렬로 이어집니다.

핵심 통찰: 외부 주석 모호성 레이블에 의존하기보다, 정렬은 각 모델 고유의 지식 경계에 맞춰 수행되어야 합니다. 모델은 보편적 기준이 아닌 자신의 지식 경계에서 정확히 모호성을 표시하도록 학습해야 합니다.

제안 방법: Alignment with Perceived Ambiguity (APA)

APA는 외부 골드 레이블이 아닌 모델 자체의 모호성 인식을 활용하여, LLM이 모호성을 감지하고 명확화 응답을 생성하도록 학습시키는 4단계 정렬 파이프라인입니다:

1

명시적 예측 및 필터링

모델이 모든 샘플을 처리하여, 올바르게 처리된 예측은 D_correct를, 잘못 처리된 것(실제로 모호함에도 단일 답변을 제공)은 D_incorrect를 구성합니다. 이를 통해 모델이 명확화해야 하는 것과 현재 하지 않는 것 사이의 격차를 식별합니다.

2

자기 모호성 해소 및 정보 이득 측정

D_incorrect의 각 샘플에 대해 모델이 모호성 해소를 생성합니다. 정보 이득은 엔트로피 감소량으로 계산됩니다: InfoGain = H(x) − H(x_disambig). 토큰 수준 불확실성 변화를 측정하여, 임계값(ε = 0.1) 이상인 샘플을 모델 관점에서 진정으로 모호한 것으로 분류합니다.

3

데이터 구성 및 지도 미세조정 (SFT)

모호한 샘플에 명확화 레이블(예: "이 질문은 모호합니다. 왜냐하면...")을 부여하고 D_correct와 균형을 맞추어 학습 데이터셋 D를 형성합니다. 이 균형 잡힌 데이터셋에서 표준 다음 토큰 예측으로 모델을 미세조정합니다.

4

선호도 최적화

선호도 기반 학습(DPO)을 통해 단일 답변 응답보다 명시적 모호성 처리를 강화하여, 적절한 경우 모델이 일관되게 여러 해석을 제시하도록 합니다.

실험 결과

APA는 Llama-2 (7B, 13B)와 Mistral (7B)을 기반 모델로 사용하여 4개의 질의응답 데이터셋에서 평가되었습니다. 모델은 AmbigQA에서 학습되고, 분포 내 및 분포 외(SituatedQA, AmbigTriviaQA)에서 모두 테스트됩니다. 베이스라인으로는 추론 전용 방법(naive prompting, 모호성 인식 지시문, 샘플 반복, self-ask)과 학습 기반 방법(honesty-tuned, 전체 데이터셋, 무작위 부분집합)이 포함됩니다.

데이터셋	지표	Llama-2 7B	Mistral 7B	Llama-2 13B
AmbigQA	비모호 정확도	27.23%	37.23%	37.83%
AmbigQA	모호 F1	63.69	50.31	58.15
SituatedQA (지리)	비모호 정확도	24.51%	32.21%	24.51%
SituatedQA (지리)	모호 F1	42.05	42.18	41.59
SituatedQA (시간)	비모호 정확도	21.90%	35.74%	24.36%
SituatedQA (시간)	모호 F1	40.77	40.17	41.09
AmbigTriviaQA	비모호 정확도	53.41%	58.14%	63.74%
AmbigTriviaQA	모호 F1	61.34	58.93	55.23

OOD에서 골드 레이블 능가: APA는 전체 골드 레이블로 학습한 베이스라인 대비 분포 외 데이터셋에서 최대 17 F1 포인트 향상을 달성하며, Llama-2 기준 약 32%, Mistral 기준 약 13%의 데이터만 사용
정보 이득 > 무작위 선택: 절삭 연구(ablation study)에서 정보 이득 기반 샘플 선택이 무작위 부분집합 선택보다 OOD 데이터셋에서 약 10 F1 포인트 우수하며, 모델 인지 기반 큐레이션 전략의 가치를 검증
균형 잡힌 정렬: APA는 최고의 전체 정렬 성능(AmbigTriviaQA에서 23.87%)을 달성하며, 높은 유효 정렬율과 낮은 오정렬 명확화율을 결합 — 즉, 명확한 질문에 대한 거짓 모호성 신호를 방지
명확성 유지: 모호하지 않은 질문에 대해서는 불필요한 유보 없이 직접적이고 단일한 답변을 계속 제공하여, 일반 QA 성능을 보존
규모 및 모델 간 일관성: Llama-2, Mistral 등 서로 다른 모델 계열과 7B, 13B 규모에서 효과적으로 작동하여 폭넓은 적용 가능성을 입증

왜 중요한가

실제 사용자 질의는 종종 불충분하거나 모호하지만, 대부분의 LLM은 단일한 확정적 답변을 제공하도록 학습됩니다. 본 연구는 모델이 언제 명확화를 요청해야 하는지와 여러 유효한 해석을 어떻게 제시해야 하는지를 가르치는 원칙적 프레임워크를 제공합니다. APA가 특히 중요한 세 가지 측면이 있습니다:

모델 인지 기반 정렬: 각 모델 고유의 지식을 기반으로 정렬 과정을 수행함으로써, 과도한 유보(명확한 질문을 모호하다고 판단)와 과소 유보(실제 모호성을 무시) 모두를 방지하여 LLM과의 상호작용을 더 신뢰할 수 있게 만듦
데이터 효율성: APA는 가용 학습 데이터의 일부만으로 우수한 OOD 성능을 달성하며, 지능적 샘플 선택이 모든 데이터에 대한 무차별 학습을 능가함을 입증
실용적 신뢰성: LLM이 검색, 어시스턴트, 챗봇 등 사용자 대면 애플리케이션에 점차 배포됨에 따라, 조용히 추측하는 대신 명시적으로 모호성을 처리하는 능력은 사용자 신뢰와 안전에 핵심적

링크

ACL Anthology arXiv Paper GitHub

Aligning Language Models to Explicitly Handle Ambiguity

한줄 요약

배경 및 동기

제안 방법: Alignment with Perceived Ambiguity (APA)

실험 결과

왜 중요한가

링크