Hyper-CL: Conditioning Sentence Representations with Hypernetworks

한줄 요약

하이퍼네트워크 기반 대조 학습 프레임워크로, 문장 임베딩을 조건별 부분공간에 동적으로 투영하여 bi-encoder와 tri-encoder 간의 성능-효율성 격차를 해소하는 조건부 유사도 학습 방법론

배경 및 동기

문장 임베딩은 다양한 NLP 응용의 핵심이며, SimCSE 등의 대조 학습 기법이 그 품질 향상을 이끌어 왔습니다. 그러나 표준 문장 표현은 문장 의미의 단일하고 고정된 관점만을 포착합니다. 실제로 문장 간 유사도는 특정 관점이나 조건에 따라 달라지는 경우가 많습니다. 예를 들어, 자전거를 타는 사람과 등산을 하는 사람에 관한 문장이 있을 때, "이동 수단" 관점에서는 유사하지만 "이동 속도" 관점에서는 다릅니다. 이러한 과제는 조건부 의미 텍스트 유사도(C-STS)로 정형화되며, 관계에 따라 개체 유사도가 달라지는 지식 그래프 완성(KGC)에서도 자연스럽게 나타납니다.

조건부 유사도를 계산하는 기존 아키텍처는 세 가지가 있으며, 각각 고유한 트레이드오프를 가집니다. Cross-encoder는 두 문장과 조건을 하나의 입력 [s1; s2; c]으로 결합하여 높은 성능을 달성하지만, 모든 고유 조합에 대해 순전파가 필요하여 검색에 부적합합니다. Bi-encoder는 각 문장을 조건과 결합하여 [si; c] 형태로 개별 인코딩하지만, |S| x |C|번의 인코더 순전파가 필요합니다. Tri-encoder는 문장과 조건을 독립적으로 인코딩하여(|S| + |C|번) 효율적인 캐싱이 가능하지만, 문장-조건 간 명시적 상호작용을 모델링할 수 없어 정확도가 떨어집니다.

핵심 문제: Tri-encoder는 독립 인코딩과 캐싱 덕분에 매우 효율적이지만, 단순한 합성 함수(예: Hadamard 곱, 연결)로는 bi-encoder가 달성하는 풍부한 문장-조건 상호작용을 포착할 수 없습니다. Hyper-CL은 하이퍼네트워크를 사용하여 표현력 있는 조건 특화 투영 행렬을 생성함으로써, tri-encoder의 효율성을 유지하면서 bi-encoder와의 성능 격차를 대폭 줄입니다.

제안 방법

Hyper-CL은 tri-encoder 아키텍처에 하이퍼네트워크를 도입하여, 조건에 민감한 선형 변환 행렬을 동적으로 생성합니다. 이를 통해 tri-encoder 고유의 캐싱 이점을 유지하면서도 표현력 있는 조건부 문장 임베딩을 가능하게 합니다.

1

독립적 임베딩 계산

공유 인코더 f(예: SimCSE-RoBERTa)가 문장과 조건을 독립적으로 인코딩합니다: 문장에 대해 h_s = f(s), 조건에 대해 h_c = f(c). 인코딩이 독립적이므로 모든 임베딩을 사전 계산하고 캐싱할 수 있습니다.

2

하이퍼네트워크 기반 투영 행렬 생성

하이퍼네트워크 q가 조건 임베딩 h_c를 받아 완전한 선형 변환 행렬을 생성합니다: W_c = q(h_c), 여기서 q는 R^(N_h)에서 R^(N_h x N_h)로의 매핑입니다. 3차(cubic) 파라미터 폭발을 방지하기 위해 저순위 분해를 사용합니다: 두 개의 작은 하이퍼네트워크 q_1, q_2가 각각 저순위 인수(R^(N_h) -> R^(N_h x N_K))를 생성하고, 최종 행렬은 W_c = W_c1 * W_c2^T로 계산됩니다 (N_K << N_h, 예: base 모델에서 K=64, large 모델에서 K=85).

3

조건 인식 부분공간 투영

문장 임베딩을 조건 특화 부분공간으로 투영합니다: h_sc = W_c * h_s. 이를 통해 동일한 문장 임베딩이 각 조건에 따라 다르게 투영되어 관점에 따른 세밀한 표현이 가능해집니다. 중요한 점은 W_c가 h_c에만 의존하므로, 변환 행렬도 조건 임베딩과 함께 캐싱할 수 있다는 것입니다.

4

태스크 특화 대조 학습

C-STS의 경우: MSE(예측 유사도와 정답 점수 매칭) + InfoNCE(높은 유사도 조건 쌍은 가깝게, 낮은 유사도 쌍은 멀리) 결합 손실. KGC의 경우: 가산 마진, 학습 가능한 온도, self-negative/pre-batch/in-batch 네거티브를 포함한 SimKGC 적응 목적 함수.

저순위 분해의 중요성: 768차원 인코더에 대한 전체 순위 하이퍼네트워크는 레이어당 약 4.5억 개의 파라미터가 필요합니다. K=64의 저순위 분해는 이를 약 9.8만 개로 줄이면서 C-STS에서 Spearman 0.39점만 손실됩니다. 순위 K는 표현력과 효율성 간 최적 균형점으로 선택됩니다 (base 모델: K=64, large 모델: K=85).

표현력 우위: 단순한 Hadamard 곱 조건화(대각 행렬과 동등)와 비교하여, Hyper-CL의 완전 변환 행렬은 조건 간 Frobenius 노름 분산이 24.8배 더 높아, 훨씬 다양하고 표현력 있는 조건 특화 투영을 생성합니다.

실험 결과

Hyper-CL은 두 가지 과제에서 평가됩니다: 조건부 의미 텍스트 유사도(C-STS, Spearman/Pearson 상관계수)와 지식 그래프 완성(KGC, WN18RR 및 FB15K-237, MRR 및 Hits@K).

C-STS 결과

방법	아키텍처	Spearman	Pearson
DiffCSE_base	Tri-encoder	28.9	27.8
SimCSE_base	Tri-encoder	31.5	31.0
SimCSE_large	Tri-encoder	35.3	35.6
SimCSE_base + Hyper-CL	Tri-encoder	38.75	38.38
SimCSE_large + Hyper-CL	Tri-encoder	39.60	39.96
SimCSE_base	Bi-encoder	44.8	44.9
SimCSE_large	Bi-encoder	47.5	47.6

KGC 결과 (WN18RR)

방법	MRR	Hits@1	Hits@3	Hits@10
SimKGC (bi-encoder)	0.666	0.587	0.717	0.800
SimKGC + Hadamard	0.164	0.004	0.243	0.481
SimKGC + Concatenation	0.335	0.226	0.382	0.550
SimKGC + Hyper-CL	0.616	0.506	0.690	0.810

KGC 결과 (FB15K-237)

방법	MRR	Hits@1	Hits@3	Hits@10
SimKGC (bi-encoder)	0.336	0.249	0.362	0.511
SimKGC + Hyper-CL	0.318	0.231	0.344	0.496

효율성 비교

아키텍처	데이터셋	추론 시간	캐시 적중률
SimCSE_base (bi-encoder)	C-STS	791.71초	1.46%
SimCSE_base + Hyper-CL	C-STS	541.55초	64.11%
SimCSE_large (bi-encoder)	C-STS	1498.65초	1.46%
SimCSE_large + Hyper-CL	C-STS	960.84초	64.11%
SimKGC_base (bi-encoder)	WN18RR	994.41초	46.65%
SimKGC_base + Hyper-CL	WN18RR	448.95초	85.32%

미지의 조건에 대한 일반화

방법	전체	미지 조건	기지 조건
SimCSE_large (기준)	32.13	13.93	25.02
SimCSE_large + Hyper-CL	38.59	36.25	41.14

C-STS: Hyper-CL은 tri-encoder 성능을 Pearson 기준 최대 +7.25 향상시키며, bi-encoder와의 격차를 13.3에서 6.05로 축소
KGC: WN18RR에서 Hyper-CL은 MRR 0.616으로 bi-encoder(0.666)에 근접하며, 단순 tri-encoder 변형(Hadamard: 0.164, Concatenation: 0.335)을 크게 상회. Hits@10(0.810)은 bi-encoder(0.800)를 초과
효율성: 64%와 85%의 캐시 적중률 덕분에 bi-encoder 대비 C-STS에서 약 40%, WN18RR에서 약 55% 빠른 추론 속도
일반화: 미지 조건(C-STS 검증 세트의 25.79%)에서 Hyper-CL은 기준 13.93 대비 36.25 Spearman을 달성하여 +22점 향상, 강력한 제로샷 조건 전이 능력을 입증
클러스터링 품질: 조건 특화 투영 후 임베딩 클러스터 불순도(엔트로피)가 0.739에서 0.270으로 감소, Hyper-CL이 효과적으로 임베딩을 조건별로 구성함을 확인
절삭 연구: 하이퍼네트워크 + 대조 학습(Spearman 37.96)이 대조 학습만(36.13) 또는 하이퍼네트워크만(35.38) 사용하는 것보다 우수하여 시너지 효과를 입증

의의

Hyper-CL은 문장 임베딩이 정적이고 획일적인 벡터일 필요가 없음을 보여줍니다. 하이퍼네트워크가 생성하는 투영을 도입함으로써, 동일한 사전 계산된 문장 임베딩을 거의 추가 추론 비용 없이 다양한 관점에 동적으로 적응시킬 수 있습니다. 핵심 통찰은 경량 하이퍼네트워크가 즉석에서 생성하는 조건 특화 선형 변환이 단순한 원소별 연산보다 훨씬 표현력 있는 조건화를 제공하면서도, tri-encoder를 실용적으로 만드는 캐싱 및 사전 계산 전략과 완전히 호환된다는 점입니다.

이는 "유사성"의 개념이 근본적으로 맥락에 의존하는 조건부 검색, 지식 그래프 추론 등 보다 세밀한 NLP 응용의 가능성을 열어줍니다. 미지 조건에 대한 강력한 일반화(+22점 향상)는 Hyper-CL이 특정 조건을 암기하는 것이 아니라 전이 가능한 부분공간 투영을 학습함을 시사하며, 조건이 개방적이고 예측 불가능한 실제 배포 환경에서의 활용 가능성을 보여줍니다.

링크

ACL Anthology arXiv