UniKnow - HYU NLP Lab

한줄 요약

UniKnow는 LLM이 파라메트릭 지식과 외부 지식을 결합할 때 발생하는 4가지 지식 시나리오(충돌, 외부 전용, 파라메트릭 전용, 미지)를 통합적으로 평가하고 훈련하는 프레임워크로, 단 4,000개의 훈련 인스턴스만으로 기존의 단편적 접근법을 크게 능가하는 신뢰성을 달성합니다.

배경 및 동기

언어 모델은 두 가지 지식 소스에 의존합니다: 사전학습 중 인코딩된 파라메트릭 지식(PK)은 고정적이며, RAG를 통해 추론 시 제공되는 외부 지식(EK)은 동적입니다. 그러나 실제 배포 환경에서는 이 두 소스 간의 복잡한 상호작용이 발생하며, 기존 연구는 이를 개별적으로만 다루고 있습니다:

Conflict (C): PK와 EK가 모두 존재하지만 서로 모순 — 모델은 최신성과 과제 특수성을 위해 외부 지식을 우선해야 함
External-Only (E-Only): 모델에 관련 파라메트릭 지식이 없어 제공된 맥락에 전적으로 의존해야 함
Parametric-Only (P-Only): 외부 맥락이 무관한 노이즈(랜덤 또는 오검색된 문서)이며, 내부 지식만이 정확한 답을 제공
Unknown (U): 어떤 지식 소스에도 답이 없으며 — 모델은 환각 대신 응답을 보류해야 함

핵심 문제: COIECD(충돌 전용), RetRobust(강건성 전용), KAFT(충돌+강건성) 등 기존 방법들은 최대 4개 시나리오 중 3개만 다룹니다. 4가지 모두에서 평가하면 심각한 시나리오별 편향이 드러납니다: 응답 가능성에 특화된 방법은 Unknown 시나리오에서 환각을 생성하고, 응답 보류가 가능한 방법은 답이 있을 때 과도하게 거부합니다. UniKnow는 4가지 시나리오를 모두 정의하고, 평가하고, 통합 훈련하는 최초의 프레임워크입니다.

제안 방법

UniKnow 개요 — **Figure 2.** UniKnow 프레임워크의 전체 구조: 7개 QA 데이터셋에 걸쳐 통제된 지식 조건하에서 4가지 시나리오를 체계적으로 평가합니다.

1

파라메트릭 지식 추정

각 질문에 대해 맥락 없이 모델로부터 n=10개의 응답을 샘플링합니다. 70% 이상 정답이면(임계값 τ=0.7) ∃PK(파라메트릭 지식 존재)로, 정답이 하나도 없으면 ∅PK로 분류합니다. 임계값 사이의 질문은 모호한 것으로 제외하여, 질문별로 통제된 시나리오 할당이 가능합니다.

2

외부 지식 구성

각 질문을 4가지 맥락 유형과 쌍으로 구성합니다: (a) 답을 포함하는 원본 맥락, (b) 품사 일관성을 유지하면서 답과 모순되도록 LLM 지시로 생성된 충돌 맥락, (c) 같은 데이터셋에서 주제와 무관한 랜덤 맥락, (d) Contriever-msmarco 검색기에서 답을 포함하지 않는 최상위 문서인 오검색 맥락으로, 현실적인 검색 실패를 시뮬레이션합니다.

3

시나리오 정렬 평가

PK 존재 여부(∃PK/∅PK)와 EK 유형(관련/충돌/무관)을 교차하여 4가지 시나리오를 구성합니다. 7개 QA 데이터셋에서 평가: NaturalQuestions(3,994개 테스트), TriviaQA(7,712), HotpotQA(4,760), SQuAD(7,918), BioASQ(697), TextbookQA(1,056), RelationExtraction(1,974). 모든 맥락은 약 100단어로 제한됩니다.

4

LM_UniKnow 훈련

균형 샘플링 방식을 사용합니다: NaturalQuestions와 TriviaQA에서 ∃PK와 ∅PK 각 250개 질문을 추출하고, 4가지 맥락 유형과 결합하여 총 4,000개 훈련 인스턴스를 구성합니다. 응답 가능 시나리오(C, E-Only, P-Only)에서는 시나리오별 기대 답변을 생성하도록, Unknown 시나리오에서는 "unknown" 보류 토큰을 출력하도록 훈련합니다. QLoRA를 통한 효율적 파인튜닝을 적용합니다.

본 논문은 추론 전용 변형인 COIECD_Prompt도 제안합니다. 이는 COIECD 디코딩 전략을 4가지 시나리오 모두에 대한 명시적 프롬프팅으로 확장하여, 훈련 없이도 완전한 시나리오 커버리지를 달성합니다.

실험 결과

8개 LLM(Llama 2 7B/13B, Llama 3 8B, Mistral 7B v0.3, Qwen 2.5 1.5B/3B/7B/14B)에 대해 7개 데이터셋에서 평가했으며, Exact Match(EM)와 정확한 응답과 적절한 보류 간의 균형을 측정하는 신뢰성(Reliability) 점수를 사용했습니다.

**Figure 4.** 시나리오별 EM 점수 (Llama 3 8B): 각 방법이 특정 시나리오에 편향되어 있으며, LM_UniKnow가 최고 종합 성능을 달성합니다.

**Figure 6.** 오류 유형 분포: Conflict 시나리오에서 파라메트릭 오류가 지배적(40–45%)이며, 보류 훈련이 없는 방법에서 Unknown 시나리오의 환각이 가장 빈번합니다.

시나리오별 주요 발견

LM_UniKnow 최고 신뢰성 달성 (~0.82–0.85): 4가지 시나리오 모두를 포괄하는 훈련이 최고 종합 성능을 달성하며, 넓은 시나리오 커버리지가 더 나은 일반화로 이어짐을 확인
Conflict가 가장 어려운 시나리오: 방법 간 EM 점수 분산이 가장 적어, 파라메트릭 지식 간섭을 극복하는 것이 새로운 정보 통합보다 근본적으로 더 어려움을 시사
응답 가능성 vs. 신뢰성 트레이드오프: COIECD, RetRobust, KAFT는 P-Only에서 뛰어나지만 Unknown에서 환각을 생성하고, 보류 가능 방법(Prompting, COIECD_Prompt, LM_UniKnow)은 반대 패턴을 보이며, LM_UniKnow가 최적 균형을 달성
스케일 효과는 시나리오에 따라 다름: Qwen 1.5B–14B 테스트에서 E-Only 성능은 모델 크기에 관계없이 안정적(~65–70% EM)이지만, Conflict와 P-Only는 명시적 훈련 시 크기에 따라 크게 향상되며, Unknown 보류 능력은 대형 모델에서 일관되게 개선

어블레이션: 맥락 다양성 (Llama 3 8B)

훈련 구성	TriviaQA Rely	NQ Rely
LM_UniKnow (전체)	0.842	0.740
충돌 맥락 제외	0.733	0.623
오검색 맥락 제외	0.733	0.623
둘 다 제외	0.708	0.621

어블레이션: 보류 데이터 비율 (Llama 3 8B)

Unknown 비율	정확도	진실성	신뢰성
0% (보류 없음)	최고	최저	~0.75
25% (LM_UniKnow 기본값)	0.69	0.88	~0.84
50%	최저	최고	~0.79

정확도 및 신뢰성 점수 — **Figure 7.** 정확도(Acc) vs. 신뢰성(Rely): LM_UniKnow가 경쟁력 있는 정확도를 유지하면서 최고 신뢰성을 달성합니다. 대각선 위의 방법들은 응답 가능성을 안전성과 맞바꿉니다.

다양한 맥락 유형이 필수적: 충돌 맥락이나 오검색 맥락을 훈련에서 제거하면 신뢰성이 10포인트 이상 하락하며, 각 맥락 유형이 의미 있게 기여함을 확인
균등 시나리오 배분이 최적: 25% 보류 데이터(4개 시나리오 균등)가 정확한 응답과 적절한 거부 사이의 최적 신뢰성 균형을 달성
과의존은 PK 존재에 의존: 오류 분석에서 파라메트릭 오류가 Conflict에 집중(오류의 40–45%)됨을 밝혀냈으며, 이는 충돌을 개별적으로 다루는 기존 연구에서는 가려져 있던 발견

왜 중요한가?

실제 RAG 시스템에서는 지식 충돌, 무관한 검색, 답변 불가능한 질의가 동시에 예측 불가능하게 발생합니다. UniKnow는 모든 지식 상태에서 신뢰할 수 있는 AI를 구축하기 위해 세 가지 핵심 기여를 합니다:

최초의 통합 평가: 4가지 포괄적 지식 시나리오를 정의하고 운용함으로써, 단편적 벤치마크가 놓치는 모델의 약점을 체계적으로 진단할 수 있게 합니다
효율적 훈련 레시피: LM_UniKnow는 QLoRA를 통해 단 4,000개 훈련 인스턴스만으로 최고 수준의 신뢰성을 달성하여, 어떤 오픈 가중치 LLM에도 실용적으로 적용 가능합니다
실행 가능한 통찰: 파라메트릭 지식 상호작용이 모델 행동을 근본적으로 변화시킨다는 점을 밝혀내어, 충돌, 방해, 부재를 우아하게 처리해야 하는 미래 지식 기반 시스템 설계에 핵심적인 시사점을 제공합니다

링크

arXiv Paper

UniKnow: A Unified Framework for Reliable Language Model Behavior across Parametric and External Knowledge