Enhancing Out-of-Distribution Detection in Natural Language Understanding via Implicit Layer Ensemble

한줄 요약

대조 학습(contrastive learning)을 통해 트랜스포머의 각 레이어가 특화된 OOD 판별 표현을 학습하도록 유도하고, 이를 암시적으로 앙상블하여 의도 분류 및 OOD 탐지 벤치마크에서 최종 레이어만 사용하는 기존 방법을 일관되게 능가합니다.

논문 개요 — **Figure 1.** 제안 프레임워크 개요: 각 중간 트랜스포머 레이어에 레이어별 대조 학습 목적함수를 적용하여 특화된 표현을 학습하고, 이를 통합된 OOD 점수로 집계합니다.

배경 및 동기

NLU 모델을 실제 환경에 배포하면, 학습 데이터 분포 밖의 입력인 분포 외(OOD) 입력이 불가피하게 들어옵니다. 예를 들어, 은행 업무 의도로 학습된 고객 서비스 챗봇에 의료 관련 질문이나 무작위 입력이 들어올 수 있습니다. 이러한 입력에 대해 모델이 높은 확신으로 잘못된 예측을 내놓으면, 특히 의도 분류 시스템에서 OOD 쿼리의 잘못된 라우팅이 의도치 않은 동작을 유발할 수 있어 심각한 신뢰성 및 안전성 문제가 발생합니다.

기존 접근법의 주요 한계:

단일 레이어 병목: 대부분의 NLU용 OOD 탐지 방법은 최종(끝에서 두 번째) 레이어의 표현이나 출력 로짓에만 의존하여, 이전 레이어의 유용한 신호를 버립니다. Maximum Softmax Probability(MSP), 에너지 스코어, 마할라노비스 거리 등의 방법이 모두 이 단일 지점의 표현에 기반합니다.
깊이 활용 부족: BERT와 같은 사전학습 언어 모델은 12~24개의 트랜스포머 레이어를 가지며, 각 레이어는 서로 다른 수준의 언어적 추상화를 포착합니다. 프로빙 연구에 따르면 하위 레이어는 표면 수준 특징과 품사 태그를, 중간 레이어는 구문 의존성을, 상위 레이어는 과제 특화 의미론을 인코딩하지만, OOD 탐지기는 이 풍부한 계층 구조를 무시합니다.
표현 붕괴: 명시적 유도 없이는 중간 레이어 특징이 상호 보완적이기보다 중복되는 경향이 있습니다. 단순 다중 레이어 집계(예: 모든 레이어 출력의 단순 연결 또는 평균)는 표준 미세조정 중 레이어들이 높은 상관관계를 가진 표현을 학습하기 때문에 미미한 개선만을 제공합니다.
도메인 불일치: 컴퓨터 비전에서 개발된 OOD 탐지 기법(마할라노비스 거리, 에너지 스코어 등)은 공간적 특징 계층 구조를 가정하지만, 이는 언어 모델의 순차적이고 맥락적인 표현에 직접 대응되지 않습니다. 이러한 방법을 NLU에 적응시키려면 중간 표현의 구조화 및 활용 방식을 재고해야 합니다.

본 논문은 근본적인 질문에 답합니다: 중간 트랜스포머 레이어가 상호 보완적이고 레이어별로 특화된 표현을 학습하도록 훈련하여, 이를 결합했을 때 단일 레이어보다 더 강력한 OOD 탐지를 달성할 수 있는가? 핵심 통찰은 표준 미세조정이 레이어 다양성을 유도하지 않으며, 각 레이어가 고유한 OOD 판별 특징을 포착하도록 하려면 명시적 학습 신호가 필요하다는 것입니다. 대조 학습 프레임워크를 통해 레이어 간 다양성을 유도함으로써, 그 답이 '예'임을 보입니다.

제안 방법: 대조 학습 기반 암시적 레이어 앙상블

본 방법은 각 트랜스포머 레이어가 OOD 탐지를 위한 레이어별 특화 표현을 학습하도록 명시적으로 유도하는 대조 학습 프레임워크를 도입합니다. 단일 끝에서 두 번째 레이어 표현에 의존하는 대신, 여러 중간 레이어의 정보를 암시적으로 단일 표현으로 조합하여 사전학습 언어 모델에 분산된 풍부한 정보를 흡수합니다.

레이어별 지도 대조 손실

BERT의 선택된 각 중간 레이어 l에서 [CLS] 토큰 표현 h^(l)을 레이어별 투영 헤드(소규모 MLP)를 통해 정규화된 임베딩 z^(l)으로 변환합니다. 그런 다음 지도 대조 손실(SupCon)을 적용합니다: 각 앵커 샘플에 대해 같은 클래스의 분포 내 샘플이 양성 쌍을, 다른 클래스 샘플이 음성 쌍을 구성합니다. 손실 함수는 L_SCL^(l) = -log(양성 쌍에 대한 exp(sim(z_i, z_j)/tau)의 합 / 전체 쌍에 대한 합)으로 계산되며, tau는 온도 하이퍼파라미터입니다. 이 손실이 각 레이어에 독립적으로 별도의 투영 헤드와 함께 적용되어, 각 레이어가 고유한 판별적 클러스터 구조를 발전시킵니다.

레이어 특화 표현 학습

서로 다른 깊이에서 독립적으로 대조 목적함수를 적용함으로써 레이어 특화(layer specialization)를 유도합니다: 하위 레이어는 표면 수준 및 구문적 OOD 단서(비정상적 토큰 조합, 희귀 토큰 등)를 포착하고, 상위 레이어는 의미 수준의 이상(주제적으로 범위를 벗어난 질의 등)을 감지합니다. 전체 학습 목적함수는 과제 특화 교차 엔트로피 손실과 레이어별 대조 손실의 합을 결합합니다: L_total = L_CE + lambda * sum(L_SCL^(l)), 여기서 lambda는 대조 정규화 강도를 제어합니다. 이 공동 학습으로 분류 성능을 유지하면서 각 레이어의 표현이 OOD 판별력을 갖추게 됩니다.

암시적 앙상블 집계

추론 시, 각 훈련된 레이어에서 독립적으로 OOD 점수를 계산합니다. 마할라노비스 거리의 경우, 학습 데이터의 레이어별 표현에 클래스 조건부 가우시안 분포를 적합시키고, 테스트 샘플과 가장 가까운 클래스 중심점 사이의 거리를 OOD 점수로 사용합니다. 코사인 유사도 기반 탐지의 경우, 각 레이어에서 가장 가까운 클래스 프로토타입과의 유사도를 측정합니다. 이 레이어별 점수를 평균 또는 학습된 가중 결합을 통해 단일 통합 OOD 점수로 집계합니다. 이 "암시적 앙상블"은 별도 모델 복사본이나 추론 시 파라미터 증가 없이도 단일 레이어보다 풍부한 분포 정보를 포착합니다.

기존 OOD 탐지기와의 호환성

이 프레임워크는 플러그인 방식으로 설계되어 다양한 기존 OOD 스코어링 함수와 호환됩니다: (1) MSP(Maximum Softmax Probability), (2) 에너지 기반 스코어, (3) 마할라노비스 거리, (4) 클래스 중심점과의 코사인 유사도. 대조 학습은 미세조정된 어떤 PLM 위에도 적용할 수 있으며, 기본 모델의 아키텍처 변경 없이 소규모 추가 학습만 필요합니다. 이 모듈성은 향후 OOD 스코어링 방법의 발전으로부터도 수정 없이 혜택을 받을 수 있음을 의미합니다.

왜 "암시적" 앙상블인가? 여러 독립 모델을 학습하고 유지해야 하는 전통적인 명시적 앙상블과 달리, 이 접근법은 공유 파라미터를 가진 단일 모델을 사용합니다. 앙상블 효과는 서로 다른 레이어가 특화되고 상호 보완적인 표현을 생성하도록 학습됨으로써 암시적으로 발생합니다. 추론 시에는 모델을 통한 단일 순전파만 필요하며, 레이어별 점수는 부산물로 추출되어 계산적으로 효율적입니다.

실험 결과

BERT-base(12개 레이어)를 백본으로 사용하여 표준 의도 분류 및 OOD 탐지 벤치마크에서 평가합니다. 두 가지 주요 지표를 사용합니다: AUROC(ROC 곡선 아래 면적; 높을수록 좋음), FPR95(95% 참양성률에서의 위양성률; 낮을수록 좋음). 실험은 CLINC150, BANKING77, SNIPS 등 여러 의도 분류 데이터셋에 걸쳐 다양한 알려진 클래스 비율로 수행됩니다.

CLINC150에서의 OOD 탐지

CLINC150은 150개의 분포 내 의도 클래스와 1,200개의 범위 밖 질의를 포함하는 전용 OOD 클래스를 가진 널리 사용되는 의도 분류 벤치마크입니다. 결과는 여러 알려진 클래스 비율(25%, 50%, 75%)에 대한 평균으로, 불완전한 의도 커버리지의 다양한 수준을 시뮬레이션합니다.

방법	AUROC (%)	FPR95 (%)
MSP (소프트맥스 기준선)	89.2	49.8
에너지 스코어	90.1	47.3
마할라노비스 (최종 레이어)	92.4	38.6
대조 학습 (최종 레이어만)	93.8	33.1
암시적 레이어 앙상블 (제안 방법)	95.7	25.4

제안 방법은 최고 단일 레이어 대조 기준선 대비 AUROC를 +1.9% 향상시키고 FPR95를 -7.7%(절대값) 감소시켰으며, 이는 동일 참양성률에서 약 23% 적은 오경보를 의미합니다.

교차 데이터셋 OOD 탐지

일반화 능력을 검증하기 위해 하나의 의도 데이터셋에서 학습한 뒤 완전히 다른 데이터셋의 분포 외 샘플에 대해 평가합니다. 이는 OOD 분포가 학습 중 전혀 관찰되지 않는 더 어렵고 현실적인 설정입니다.

설정	기준선 AUROC (%)	+레이어 앙상블 AUROC (%)	향상폭
CLINC150 → BANKING77	87.3	91.5	+4.2
CLINC150 → SNIPS	91.8	94.6	+2.8
BANKING77 → CLINC150	85.1	89.8	+4.7

교차 데이터셋 환경에서의 개선폭이 데이터셋 내 환경보다 더 두드러지며, 이는 다중 레이어 앙상블이 도메인 간 전이되는 더 일반적인 OOD 신호를 포착함을 시사합니다.

절제 연구: 레이어 선택 및 대조 학습의 영향

설정	AUROC (%)	FPR95 (%)
최종 레이어만 (대조 학습 없이)	92.4	38.6
전체 레이어 평균 (대조 학습 없이)	92.9	37.1
최종 레이어만 (대조 학습 포함)	93.8	33.1
전체 레이어 평균 (대조 학습 포함)	95.2	26.8
선택적 레이어 (대조 학습 포함)	95.7	25.4

절제 연구는 두 가지 핵심 통찰을 제공합니다: (1) 대조 학습이 필수적이며 -- 대조 학습 없이 다중 레이어를 평균하면 최종 레이어 대비 AUROC가 +0.5%만 향상됩니다; (2) 12개 전체 레이어 대신 선택적 레이어를 사용하면 약간 더 나은 결과를 달성하는데, 일부 레이어는 유용한 OOD 신호보다 노이즈를 기여하기 때문입니다.

일관된 지표 향상: 암시적 레이어 앙상블은 모든 평가 설정에서 최고 AUROC와 최저 FPR95를 달성하며, 단일 레이어에 의존하는 방법들을 일관되게 능가합니다.
대조 학습의 핵심 역할: 대조 학습 없이 다중 레이어 특징을 단순 평균하면 미미한 개선(AUROC +0.5%)만 보입니다. 레이어별 특화 대조 목적함수가 앙상블을 효과적으로 만드는 핵심 요소로, 향상폭을 AUROC +2.8%로 끌어올립니다.
상호 보완적 레이어 정보: 분석 결과, 하위 레이어(1-4)는 구문적으로 이상한 입력(비정상적 토큰 패턴, 문법 오류)을 더 잘 포착하고, 중간 레이어(5-8)는 어휘-의미적 이상을, 상위 레이어(9-12)는 의미적으로 범위를 벗어난 질의를 더 잘 감지합니다. 모든 수준을 결합하면 다양한 OOD 유형에 대한 우수한 커버리지를 달성합니다.
분포 내 정확도 유지: 대조 학습이 분포 내 데이터에 대한 의도 분류 정확도를 저하시키지 않으며, SupCon 손실이 더 밀집된 클래스 클러스터를 유도하여 오히려 약간 향상시키는 경우도 있습니다.
알려진 클래스 비율에 대한 강건성: 25%, 50%, 75%의 알려진 클래스 설정에서 모두 일관된 성능 향상을 보여, 특정 비율의 학습 클래스를 필요로 하지 않습니다. 이는 사용자 의도의 전체 집합이 알려지지 않은 실제 배포 환경에서 중요합니다.
스코어링 함수 간 호환성: 레이어 앙상블은 기반 OOD 스코어링 방법(MSP, 에너지, 마할라노비스, 코사인)에 관계없이 성능을 향상시키며, 대조적 레이어 특화가 스코어링 함수 선택과 직교하는 일반적인 이점을 제공함을 확인합니다.

의의

신뢰할 수 있는 OOD 탐지는 특히 의료, 금융, 자율 비서 등 안전이 중요한 도메인에서 NLU 시스템의 안전한 배포를 위한 전제 조건입니다. 배포된 챗봇이나 음성 비서가 범위 밖 질의를 만났을 때, 이상적인 행동은 환각된 또는 유해한 응답을 생성하는 대신 판단을 보류하는 것입니다. 본 연구는 이 목표를 향해 네 가지 핵심 기여를 합니다:

숨겨진 정보의 활용: 트랜스포머 중간 레이어에 상당한 OOD 판별 정보가 최종 레이어뿐 아니라 전체에 분산되어 있음을 입증합니다. 대조 학습 목적함수를 통해 각 레이어가 표면 수준 이상부터 깊은 의미적 불일치까지 분포 외성의 서로 다른 측면을 포착하도록 특화시킬 수 있습니다.
실용적 플러그인 설계: 기존 OOD 스코어링 방법(MSP, 에너지, 마할라노비스)과 호환되고 아키텍처 변경이 필요 없어, 프로덕션 시스템에 즉시 도입할 수 있습니다. 단일 순전파 설계는 추가 지연이 거의 없어 실시간 애플리케이션에도 적합합니다.
비전과 NLU 간 연결: 다중 레이어 특징 활용은 컴퓨터 비전에서 활발히 연구되었지만(예: Feature Pyramid Networks), NLU에서의 OOD 탐지에 이를 체계적으로 적용하고 검증한 최초의 연구 중 하나로, 계층적 특징 집계의 원리가 모달리티를 넘어 일반화됨을 보여줍니다.
향후 연구의 기반: 레이어 특화 프레임워크는 적응적 레이어 선택, 레이어별 신뢰도 보정, 그리고 의도 분류를 넘어 OOD 강건성이 마찬가지로 중요한 다른 NLU 과제(개체명 인식, 관계 추출 등)로의 확장을 포함하는 연구 방향을 열어줍니다.

링크

ACL Anthology arXiv Paper

Detection