하이퍼네트워크 기반 대조 학습 프레임워크로, 문장 임베딩을 조건별 부분공간에 동적으로 투영하여 bi-encoder와 tri-encoder 간의 성능-효율성 격차를 해소하는 조건부 유사도 학습 방법론
문장 임베딩은 다양한 NLP 응용의 핵심이며, SimCSE 등의 대조 학습 기법이 그 품질 향상을 이끌어 왔습니다. 그러나 표준 문장 표현은 문장 의미의 단일하고 고정된 관점만을 포착합니다. 실제로 문장 간 유사도는 특정 관점이나 조건에 따라 달라지는 경우가 많습니다. 예를 들어, 자전거를 타는 사람과 등산을 하는 사람에 관한 문장이 있을 때, "이동 수단" 관점에서는 유사하지만 "이동 속도" 관점에서는 다릅니다. 이러한 과제는 조건부 의미 텍스트 유사도(C-STS)로 정형화되며, 관계에 따라 개체 유사도가 달라지는 지식 그래프 완성(KGC)에서도 자연스럽게 나타납니다.
조건부 유사도를 계산하는 기존 아키텍처는 세 가지가 있으며, 각각 고유한 트레이드오프를 가집니다. Cross-encoder는 두 문장과 조건을 하나의 입력 [s1; s2; c]으로 결합하여 높은 성능을 달성하지만, 모든 고유 조합에 대해 순전파가 필요하여 검색에 부적합합니다. Bi-encoder는 각 문장을 조건과 결합하여 [si; c] 형태로 개별 인코딩하지만, |S| x |C|번의 인코더 순전파가 필요합니다. Tri-encoder는 문장과 조건을 독립적으로 인코딩하여(|S| + |C|번) 효율적인 캐싱이 가능하지만, 문장-조건 간 명시적 상호작용을 모델링할 수 없어 정확도가 떨어집니다.
핵심 문제: Tri-encoder는 독립 인코딩과 캐싱 덕분에 매우 효율적이지만, 단순한 합성 함수(예: Hadamard 곱, 연결)로는 bi-encoder가 달성하는 풍부한 문장-조건 상호작용을 포착할 수 없습니다. Hyper-CL은 하이퍼네트워크를 사용하여 표현력 있는 조건 특화 투영 행렬을 생성함으로써, tri-encoder의 효율성을 유지하면서 bi-encoder와의 성능 격차를 대폭 줄입니다.
Hyper-CL은 tri-encoder 아키텍처에 하이퍼네트워크를 도입하여, 조건에 민감한 선형 변환 행렬을 동적으로 생성합니다. 이를 통해 tri-encoder 고유의 캐싱 이점을 유지하면서도 표현력 있는 조건부 문장 임베딩을 가능하게 합니다.
저순위 분해의 중요성: 768차원 인코더에 대한 전체 순위 하이퍼네트워크는 레이어당 약 4.5억 개의 파라미터가 필요합니다. K=64의 저순위 분해는 이를 약 9.8만 개로 줄이면서 C-STS에서 Spearman 0.39점만 손실됩니다. 순위 K는 표현력과 효율성 간 최적 균형점으로 선택됩니다 (base 모델: K=64, large 모델: K=85).
표현력 우위: 단순한 Hadamard 곱 조건화(대각 행렬과 동등)와 비교하여, Hyper-CL의 완전 변환 행렬은 조건 간 Frobenius 노름 분산이 24.8배 더 높아, 훨씬 다양하고 표현력 있는 조건 특화 투영을 생성합니다.
Hyper-CL은 두 가지 과제에서 평가됩니다: 조건부 의미 텍스트 유사도(C-STS, Spearman/Pearson 상관계수)와 지식 그래프 완성(KGC, WN18RR 및 FB15K-237, MRR 및 Hits@K).
| 방법 | 아키텍처 | Spearman | Pearson |
|---|---|---|---|
| DiffCSE_base | Tri-encoder | 28.9 | 27.8 |
| SimCSE_base | Tri-encoder | 31.5 | 31.0 |
| SimCSE_large | Tri-encoder | 35.3 | 35.6 |
| SimCSE_base + Hyper-CL | Tri-encoder | 38.75 | 38.38 |
| SimCSE_large + Hyper-CL | Tri-encoder | 39.60 | 39.96 |
| SimCSE_base | Bi-encoder | 44.8 | 44.9 |
| SimCSE_large | Bi-encoder | 47.5 | 47.6 |
| 방법 | MRR | Hits@1 | Hits@3 | Hits@10 |
|---|---|---|---|---|
| SimKGC (bi-encoder) | 0.666 | 0.587 | 0.717 | 0.800 |
| SimKGC + Hadamard | 0.164 | 0.004 | 0.243 | 0.481 |
| SimKGC + Concatenation | 0.335 | 0.226 | 0.382 | 0.550 |
| SimKGC + Hyper-CL | 0.616 | 0.506 | 0.690 | 0.810 |
| 방법 | MRR | Hits@1 | Hits@3 | Hits@10 |
|---|---|---|---|---|
| SimKGC (bi-encoder) | 0.336 | 0.249 | 0.362 | 0.511 |
| SimKGC + Hyper-CL | 0.318 | 0.231 | 0.344 | 0.496 |
| 아키텍처 | 데이터셋 | 추론 시간 | 캐시 적중률 |
|---|---|---|---|
| SimCSE_base (bi-encoder) | C-STS | 791.71초 | 1.46% |
| SimCSE_base + Hyper-CL | C-STS | 541.55초 | 64.11% |
| SimCSE_large (bi-encoder) | C-STS | 1498.65초 | 1.46% |
| SimCSE_large + Hyper-CL | C-STS | 960.84초 | 64.11% |
| SimKGC_base (bi-encoder) | WN18RR | 994.41초 | 46.65% |
| SimKGC_base + Hyper-CL | WN18RR | 448.95초 | 85.32% |
| 방법 | 전체 | 미지 조건 | 기지 조건 |
|---|---|---|---|
| SimCSE_large (기준) | 32.13 | 13.93 | 25.02 |
| SimCSE_large + Hyper-CL | 38.59 | 36.25 | 41.14 |
Hyper-CL은 문장 임베딩이 정적이고 획일적인 벡터일 필요가 없음을 보여줍니다. 하이퍼네트워크가 생성하는 투영을 도입함으로써, 동일한 사전 계산된 문장 임베딩을 거의 추가 추론 비용 없이 다양한 관점에 동적으로 적응시킬 수 있습니다. 핵심 통찰은 경량 하이퍼네트워크가 즉석에서 생성하는 조건 특화 선형 변환이 단순한 원소별 연산보다 훨씬 표현력 있는 조건화를 제공하면서도, tri-encoder를 실용적으로 만드는 캐싱 및 사전 계산 전략과 완전히 호환된다는 점입니다.
이는 "유사성"의 개념이 근본적으로 맥락에 의존하는 조건부 검색, 지식 그래프 추론 등 보다 세밀한 NLP 응용의 가능성을 열어줍니다. 미지 조건에 대한 강력한 일반화(+22점 향상)는 Hyper-CL이 특정 조건을 암기하는 것이 아니라 전이 가능한 부분공간 투영을 학습함을 시사하며, 조건이 개방적이고 예측 불가능한 실제 배포 환경에서의 활용 가능성을 보여줍니다.