EN KO
← 전체 논문 목록

UniKnow: A Unified Framework for Reliable Language Model Behavior across Parametric and External Knowledge

arXiv 2025
Youna Kim, Hyuhng Joon Kim, Minjoon Choi, Sungmin Cho, Hyunsoo Cho, Sang-goo Lee, Taeuk Kim

한줄 요약

UniKnow는 LLM이 파라메트릭 지식과 외부 지식을 결합할 때 발생하는 4가지 지식 시나리오(충돌, 외부 전용, 파라메트릭 전용, 미지)를 통합적으로 평가하고 훈련하는 프레임워크로, 단 4,000개의 훈련 인스턴스만으로 기존의 단편적 접근법을 크게 능가하는 신뢰성을 달성합니다.

네 가지 지식 시나리오
Figure 1. UniKnow의 4가지 지식 시나리오: 파라메트릭 지식(PK)과 외부 지식(EK)의 존재 여부에 따라 Conflict, External-Only, Parametric-Only, Unknown으로 분류됩니다.

배경 및 동기

언어 모델은 두 가지 지식 소스에 의존합니다: 사전학습 중 인코딩된 파라메트릭 지식(PK)은 고정적이며, RAG를 통해 추론 시 제공되는 외부 지식(EK)은 동적입니다. 그러나 실제 배포 환경에서는 이 두 소스 간의 복잡한 상호작용이 발생하며, 기존 연구는 이를 개별적으로만 다루고 있습니다:

핵심 문제: COIECD(충돌 전용), RetRobust(강건성 전용), KAFT(충돌+강건성) 등 기존 방법들은 최대 4개 시나리오 중 3개만 다룹니다. 4가지 모두에서 평가하면 심각한 시나리오별 편향이 드러납니다: 응답 가능성에 특화된 방법은 Unknown 시나리오에서 환각을 생성하고, 응답 보류가 가능한 방법은 답이 있을 때 과도하게 거부합니다. UniKnow는 4가지 시나리오를 모두 정의하고, 평가하고, 통합 훈련하는 최초의 프레임워크입니다.

제안 방법

UniKnow 개요
Figure 2. UniKnow 프레임워크의 전체 구조: 7개 QA 데이터셋에 걸쳐 통제된 지식 조건하에서 4가지 시나리오를 체계적으로 평가합니다.
1
파라메트릭 지식 추정
각 질문에 대해 맥락 없이 모델로부터 n=10개의 응답을 샘플링합니다. 70% 이상 정답이면(임계값 τ=0.7) ∃PK(파라메트릭 지식 존재)로, 정답이 하나도 없으면 ∅PK로 분류합니다. 임계값 사이의 질문은 모호한 것으로 제외하여, 질문별로 통제된 시나리오 할당이 가능합니다.
2
외부 지식 구성
각 질문을 4가지 맥락 유형과 쌍으로 구성합니다: (a) 답을 포함하는 원본 맥락, (b) 품사 일관성을 유지하면서 답과 모순되도록 LLM 지시로 생성된 충돌 맥락, (c) 같은 데이터셋에서 주제와 무관한 랜덤 맥락, (d) Contriever-msmarco 검색기에서 답을 포함하지 않는 최상위 문서인 오검색 맥락으로, 현실적인 검색 실패를 시뮬레이션합니다.
3
시나리오 정렬 평가
PK 존재 여부(∃PK/∅PK)와 EK 유형(관련/충돌/무관)을 교차하여 4가지 시나리오를 구성합니다. 7개 QA 데이터셋에서 평가: NaturalQuestions(3,994개 테스트), TriviaQA(7,712), HotpotQA(4,760), SQuAD(7,918), BioASQ(697), TextbookQA(1,056), RelationExtraction(1,974). 모든 맥락은 약 100단어로 제한됩니다.
4
LMUniKnow 훈련
균형 샘플링 방식을 사용합니다: NaturalQuestions와 TriviaQA에서 ∃PK와 ∅PK 각 250개 질문을 추출하고, 4가지 맥락 유형과 결합하여 총 4,000개 훈련 인스턴스를 구성합니다. 응답 가능 시나리오(C, E-Only, P-Only)에서는 시나리오별 기대 답변을 생성하도록, Unknown 시나리오에서는 "unknown" 보류 토큰을 출력하도록 훈련합니다. QLoRA를 통한 효율적 파인튜닝을 적용합니다.

본 논문은 추론 전용 변형인 COIECDPrompt도 제안합니다. 이는 COIECD 디코딩 전략을 4가지 시나리오 모두에 대한 명시적 프롬프팅으로 확장하여, 훈련 없이도 완전한 시나리오 커버리지를 달성합니다.

실험 결과

8개 LLM(Llama 2 7B/13B, Llama 3 8B, Mistral 7B v0.3, Qwen 2.5 1.5B/3B/7B/14B)에 대해 7개 데이터셋에서 평가했으며, Exact Match(EM)와 정확한 응답과 적절한 보류 간의 균형을 측정하는 신뢰성(Reliability) 점수를 사용했습니다.

시나리오별 EM 점수
Figure 4. 시나리오별 EM 점수 (Llama 3 8B): 각 방법이 특정 시나리오에 편향되어 있으며, LMUniKnow가 최고 종합 성능을 달성합니다.
오류 유형 분포
Figure 6. 오류 유형 분포: Conflict 시나리오에서 파라메트릭 오류가 지배적(40–45%)이며, 보류 훈련이 없는 방법에서 Unknown 시나리오의 환각이 가장 빈번합니다.

시나리오별 주요 발견

어블레이션: 맥락 다양성 (Llama 3 8B)

훈련 구성 TriviaQA Rely NQ Rely
LMUniKnow (전체) 0.842 0.740
충돌 맥락 제외 0.733 0.623
오검색 맥락 제외 0.733 0.623
둘 다 제외 0.708 0.621

어블레이션: 보류 데이터 비율 (Llama 3 8B)

Unknown 비율 정확도 진실성 신뢰성
0% (보류 없음) 최고 최저 ~0.75
25% (LMUniKnow 기본값) 0.69 0.88 ~0.84
50% 최저 최고 ~0.79
정확도 및 신뢰성 점수
Figure 7. 정확도(Acc) vs. 신뢰성(Rely): LMUniKnow가 경쟁력 있는 정확도를 유지하면서 최고 신뢰성을 달성합니다. 대각선 위의 방법들은 응답 가능성을 안전성과 맞바꿉니다.

왜 중요한가?

실제 RAG 시스템에서는 지식 충돌, 무관한 검색, 답변 불가능한 질의가 동시에 예측 불가능하게 발생합니다. UniKnow는 모든 지식 상태에서 신뢰할 수 있는 AI를 구축하기 위해 세 가지 핵심 기여를 합니다:

링크

Knowledge