EN KO
← 전체 논문 목록

Aligning Language Models to Explicitly Handle Ambiguity

EMNLP 2024
Hyuhng Joon Kim, Youna Kim, Cheonbok Park, Junyeob Kim, Choonghyun Park, Kang Min Yoo, Sang-goo Lee, Taeuk Kim

한줄 요약

Alignment with Perceived Ambiguity (APA)는 각 모델 고유의 모호성 인식을 활용하여 모호한 질의를 명시적으로 감지하고 처리하도록 언어 모델을 정렬하며, 특히 분포 외(OOD) 시나리오에서 골드 레이블 기반 학습을 능가합니다.

모호한 질의 예시: 모델의 지식에 따라 인식되는 모호성 정도가 달라짐
Figure 1. AmbigQA의 모호한 질의 예시. "national championship"이라는 표현이 다양한 의미를 가져 모호성을 유발함. 관련 지식이 풍부한 모델은 이를 모호하게 인식하지만(왼쪽), 지식이 부족한 모델은 그렇지 않을 수 있음(오른쪽).
모호성 처리를 위한 4단계 정렬 파이프라인 개요
Figure 2. 4단계 정렬 파이프라인의 전체 과정. 모델이 명시적으로 처리할 수 없는 샘플을 필터링(1단계)하고, 자기 모호성 해소를 통해 정보 이득을 측정(2단계)한 후, 높은 정보 이득을 가진 샘플을 지도 미세조정에 활용(3&4단계).

배경 및 동기

사용자와 언어 모델 에이전트의 상호작용에서, 사용자 발화는 효율성을 위해 생략(ellipsis)이나 부정확성(imprecision)을 빈번하게 포함합니다. 예를 들어, "누가 전국 대회에서 우승했나요?"라는 질문은 다양한 종목과 연도의 대회를 지칭할 수 있어, 서로 다른 가정이나 배경 지식에 따라 다양한 해석이 가능합니다. 그러나 대부분의 대형 언어 모델(LLM)은 하나의 해석만 선택하여 자신 있게 답변하며, 내재된 모호성을 무시합니다.

한계 1 — 명시적 학습의 부재: 기존 LLM은 모호한 발화를 처리하도록 명시적으로 학습되지 않았습니다. 질문이 실제로 모호한 경우에도 단일 답변을 생성하는 경향이 있어, 사용자가 의도했을 수 있는 다른 유효한 해석을 제시하지 못합니다.

한계 2 — 모델 의존적 모호성: 모호성의 인식 정도는 모델에 따라 다릅니다 — 넓은 지식을 가진 모델은 제한된 지식을 가진 모델보다 더 많은 가능한 해석을 인식합니다. 모든 모델에 동일한 골드 레이블을 사용하는 것은 이 근본적 차이를 무시하여 차선의 정렬로 이어집니다.

핵심 통찰: 외부 주석 모호성 레이블에 의존하기보다, 정렬은 각 모델 고유의 지식 경계에 맞춰 수행되어야 합니다. 모델은 보편적 기준이 아닌 자신의 지식 경계에서 정확히 모호성을 표시하도록 학습해야 합니다.

제안 방법: Alignment with Perceived Ambiguity (APA)

APA는 외부 골드 레이블이 아닌 모델 자체의 모호성 인식을 활용하여, LLM이 모호성을 감지하고 명확화 응답을 생성하도록 학습시키는 4단계 정렬 파이프라인입니다:

1
명시적 예측 및 필터링
모델이 모든 샘플을 처리하여, 올바르게 처리된 예측은 Dcorrect를, 잘못 처리된 것(실제로 모호함에도 단일 답변을 제공)은 Dincorrect를 구성합니다. 이를 통해 모델이 명확화해야 하는 것과 현재 하지 않는 것 사이의 격차를 식별합니다.
2
자기 모호성 해소 및 정보 이득 측정
Dincorrect의 각 샘플에 대해 모델이 모호성 해소를 생성합니다. 정보 이득은 엔트로피 감소량으로 계산됩니다: InfoGain = H(x) − H(xdisambig). 토큰 수준 불확실성 변화를 측정하여, 임계값(ε = 0.1) 이상인 샘플을 모델 관점에서 진정으로 모호한 것으로 분류합니다.
3
데이터 구성 및 지도 미세조정 (SFT)
모호한 샘플에 명확화 레이블(예: "이 질문은 모호합니다. 왜냐하면...")을 부여하고 Dcorrect와 균형을 맞추어 학습 데이터셋 D를 형성합니다. 이 균형 잡힌 데이터셋에서 표준 다음 토큰 예측으로 모델을 미세조정합니다.
4
선호도 최적화
선호도 기반 학습(DPO)을 통해 단일 답변 응답보다 명시적 모호성 처리를 강화하여, 적절한 경우 모델이 일관되게 여러 해석을 제시하도록 합니다.

실험 결과

APA는 Llama-2 (7B, 13B)와 Mistral (7B)을 기반 모델로 사용하여 4개의 질의응답 데이터셋에서 평가되었습니다. 모델은 AmbigQA에서 학습되고, 분포 내 및 분포 외(SituatedQA, AmbigTriviaQA)에서 모두 테스트됩니다. 베이스라인으로는 추론 전용 방법(naive prompting, 모호성 인식 지시문, 샘플 반복, self-ask)과 학습 기반 방법(honesty-tuned, 전체 데이터셋, 무작위 부분집합)이 포함됩니다.

데이터셋지표Llama-2 7BMistral 7BLlama-2 13B
AmbigQA비모호 정확도27.23%37.23%37.83%
AmbigQA모호 F163.6950.3158.15
SituatedQA (지리)비모호 정확도24.51%32.21%24.51%
SituatedQA (지리)모호 F142.0542.1841.59
SituatedQA (시간)비모호 정확도21.90%35.74%24.36%
SituatedQA (시간)모호 F140.7740.1741.09
AmbigTriviaQA비모호 정확도53.41%58.14%63.74%
AmbigTriviaQA모호 F161.3458.9355.23

왜 중요한가

실제 사용자 질의는 종종 불충분하거나 모호하지만, 대부분의 LLM은 단일한 확정적 답변을 제공하도록 학습됩니다. 본 연구는 모델이 언제 명확화를 요청해야 하는지여러 유효한 해석을 어떻게 제시해야 하는지를 가르치는 원칙적 프레임워크를 제공합니다. APA가 특히 중요한 세 가지 측면이 있습니다:

링크

Knowledge Reasoning