한줄 요약
비지도 대조 학습 방법론(ConSERT, SimCSE)을 세 가지 한국어 사전학습 언어모델(KoBERT, KR-BERT, KLUE-BERT)에 적용하여 체계적으로 비교 분석한 결과, KLUE-BERT가 가장 안정적인 백본이며 토큰 셔플링이 가장 효과적인 데이터 증강 전략임을 규명합니다.
배경 및 동기
문장 임베딩은 의미 검색, 클러스터링 등 다양한 NLP 응용에서 핵심적인 역할을 합니다. 최근 SimCSE와 ConSERT 같은 비지도 대조 학습 방법론은 라벨 데이터 없이도 의미적으로 유사한 문장을 임베딩 공간에서 가깝게, 비유사한 문장을 멀리 배치하는 학습을 통해 영어 문장 표현의 품질을 크게 향상시켰습니다.
대조 학습이란?
대조 학습은 의미적으로 유사한 문장은 임베딩 공간에서 가깝게, 비유사한 문장은 멀리 배치하는 표현 공간을 학습하는 방법입니다. 문장 x가 주어지면, 데이터 증강(ConSERT) 또는 드롭아웃 노이즈(SimCSE)를 통해 양성 쌍 (x, x+)을 생성하고, 미니배치 내의 다른 모든 문장을 음성 샘플로 취급합니다. 대조 손실 함수는 양성 쌍 간의 일치도를 최대화하고 음성 샘플과의 일치도를 최소화하여, 라벨 데이터 없이도 의미적 유사도를 포착하는 문장 임베딩을 학습합니다.
한국어에서의 핵심 과제:
- 한국어 특화 평가 부재: 대부분의 대조 학습 연구가 영어에 집중되어 있어, 교착어적 형태론과 유연한 어순 등 한국어 고유의 언어적 특성에서 이러한 방법론이 얼마나 잘 작동하는지 불명확했습니다.
- 설계가 상이한 다양한 한국어 PLM: KoBERT(SentencePiece 토큰화), KR-BERT(문자 수준 토큰화), KLUE-BERT(형태소 기반 WordPiece) 등 근본적으로 다른 토큰화 전략을 가진 모델들이 존재하지만, 대조적 문장 학습의 백본으로서 이들을 체계적으로 비교한 연구는 없었습니다.
- 데이터 증강 전략의 불확실성: ConSERT의 증강 전략(토큰 셔플링, 피처 컷오프, 토큰 컷오프, 드롭아웃)이 교착어인 한국어에서 영어와 다르게 어떤 영향을 미치는지 검증되지 않았습니다.
- 과적합 우려: 한국어 STS 평가 데이터가 제한적(KorSTS 벤치마크가 주된 자원)이어서, 방법론들이 검증 셋에 과적합되고 실제 일반화 성능은 떨어질 위험이 있었습니다.
본 연구는 이러한 공백을 메우기 위해, 3개 백본 모델, 2개 학습 프레임워크, 4개 증강 전략을 아우르는 한국어 문장 표현을 위한 비지도 대조 학습 접근법의 최초의 포괄적 비교 분석을 제공합니다.
제안 방법
본 연구는 두 가지 대표적인 비지도 대조 학습 프레임워크인 ConSERT와 SimCSE를 세 가지 한국어 사전학습 언어모델에 적용하여, 한국어 STS 벤치마크에서 체계적으로 평가합니다.
1
백본 모델 선정
각각 고유한 설계 특성을 가진 세 가지 한국어 사전학습 언어모델을 백본으로 사용합니다:
- KoBERT (SKTBrain): SentencePiece 토큰화를 사용하며, 한국어 위키피디아 및 뉴스 데이터로 학습.
- KR-BERT: 문자 수준 토큰화를 사용하여 띄어쓰기 변형이나 오타를 포함한 모든 한국어 문자 시퀀스를 처리 가능.
- KLUE-BERT: 형태소 기반 WordPiece 토큰화를 사용하며, 대규모 KLUE 코퍼스(뉴스, 리뷰, 백과사전 등)로 학습. KLUE 벤치마크 스위트를 위해 설계.
이러한 토큰화 단위와 사전학습 데이터의 다양성 차이를 통해 백본 설계가 대조 학습 성능에 미치는 영향을 체계적으로 분석할 수 있습니다.
2
대조 학습 프레임워크
ConSERT (Yan et al., 2021)는 입력 또는 표현 수준에서 명시적 데이터 증강을 통해 양성 쌍을 생성합니다. 주어진 문장에 대해 서로 다른 두 가지 증강된 뷰를 만들고, 대조 손실(NT-Xent)을 사용하여 이 두 뷰 간의 일치도를 최대화하도록 학습합니다. SimCSE (Gao et al., 2021)는 더 단순한 접근법을 취합니다: 동일한 입력을 서로 다른 드롭아웃 마스크로 인코더에 두 번 통과시켜, 결과로 나온 두 표현을 양성 쌍으로 취급합니다. 두 방법 모두 미니배치 내 음성 샘플(in-batch negatives)을 사용합니다.
3
ConSERT 데이터 증강 전략
네 가지 증강 전략을 체계적으로 비교하며, 각각 입력 또는 표현의 서로 다른 측면을 변형합니다:
- 토큰 셔플링: 토큰 집합을 유지하면서 입력 토큰의 순서를 무작위로 변경 -- 모델이 순서에 불변하는 의미 자질을 학습할 수 있는지 검증.
- 피처 컷오프: 토큰 임베딩 벡터의 무작위 차원을 0으로 설정 -- 모델이 의미 정보를 여러 차원에 분산시키도록 유도.
- 토큰 컷오프: 입력 토큰의 일부를 무작위로 제거 -- 정보 손실에 대한 견고성 검증.
- 드롭아웃: 토큰 표현에 표준 드롭아웃을 증강으로 적용 -- 가장 단순한 변형 전략.
네 가지 전략 모두 세 가지 백본 모델에서 평가하여, ConSERT 12개 + SimCSE 3개(백본당 1개) = 총 15개 실험 구성을 생성합니다.
4
한국어 STS 평가 프로토콜
한국어 의미적 텍스트 유사도(KorSTS) 벤치마크에서 스피어만 순위 상관계수로 모델을 평가합니다. 핵심적으로, 검증(dev) 셋과 테스트 셋 결과를 나란히 보고합니다. 이러한 이중 보고는 잠재적 과적합을 노출하기 위한 것으로, 높은 검증 점수를 달성하면서도 테스트 점수가 현저히 낮은 모델은 진정으로 전이 가능한 문장 표현을 학습하기보다는 검증 분포에 과적합되었을 가능성이 있습니다.
실험 결과
ConSERT(4가지 증강 전략)와 SimCSE를 세 가지 한국어 PLM에 적용하여 총 15개 실험 구성을 수행합니다. KorSTS 벤치마크에서 스피어만 상관계수(x100)로 성능을 측정합니다.
ConSERT: 전체 증강 전략 비교
| 백본 모델 | 증강 전략 | Dev (스피어만) | Test (스피어만) | 격차 (Dev-Test) |
| KoBERT | 셔플링 | 78.66 | 68.82 | 9.84 |
| KoBERT | 피처 컷오프 | 73.78 | 65.25 | 8.53 |
| KoBERT | 토큰 컷오프 | 72.41 | 64.18 | 8.23 |
| KoBERT | 드롭아웃 | 71.95 | 63.50 | 8.45 |
| KR-BERT | 셔플링 | 78.37 | 72.02 | 6.35 |
| KR-BERT | 피처 컷오프 | 77.25 | 68.52 | 8.73 |
| KR-BERT | 토큰 컷오프 | 75.80 | 67.91 | 7.89 |
| KR-BERT | 드롭아웃 | 74.62 | 67.03 | 7.59 |
| KLUE-BERT | 셔플링 | 80.05 | 73.15 | 6.90 |
| KLUE-BERT | 피처 컷오프 | 78.92 | 72.85 | 6.07 |
| KLUE-BERT | 토큰 컷오프 | 77.60 | 71.42 | 6.18 |
| KLUE-BERT | 드롭아웃 | 76.88 | 70.95 | 5.93 |
SimCSE: 백본별 결과
| 백본 모델 | Dev (스피어만) | Test (스피어만) | 격차 (Dev-Test) |
| KoBERT | 75.33 | 66.04 | 9.29 |
| KR-BERT | 77.49 | 70.81 | 6.68 |
| KLUE-BERT | 79.62 | 73.08 | 6.54 |
백본별 최적 구성 (테스트 셋)
| 백본 모델 | 최적 방법 | Test (스피어만) |
| KoBERT | ConSERT + 셔플링 | 68.82 |
| KR-BERT | ConSERT + 셔플링 | 72.02 |
| KLUE-BERT | ConSERT + 셔플링 | 73.15 |
증강 전략 순위 (백본 평균):
토큰 셔플링 > 피처 컷오프 > 토큰 컷오프 > 드롭아웃. 한국어에서 토큰 셔플링의 강한 성능은 한국어 구문의 비교적 유연한 어순으로 설명될 수 있습니다 -- 토큰 순서를 변경해도 어느 정도 그럴듯한 증강 뷰가 생성되어, 의미를 파괴하지 않으면서 유용한 학습 신호를 제공합니다.
- KLUE-BERT가 가장 안정적인 백본: ConSERT와 SimCSE 모두에서 KLUE-BERT가 일관되게 가장 높고 안정적인 성능을 보였으며, 이는 더 크고 다양한 사전학습 코퍼스(뉴스, 리뷰, 백과사전)와 형태소 기반 토큰화 덕분으로 분석됩니다.
- 토큰 셔플링이 최적의 증강 전략: ConSERT의 증강 전략 중 토큰 셔플링이 모든 백본 모델에서 일관되게 최고 성능을 기록했습니다. 이는 한국어의 유연한 SOV 어순과 관련이 있을 수 있으며, 셔플된 시퀀스가 어순이 고정된 영어보다 의미 파괴가 적습니다.
- Dev-Test 격차가 과적합을 시사: 개발 셋과 테스트 셋 간에 5~10점의 성능 차이가 관찰되었습니다. KLUE-BERT가 가장 작은 격차(5.9~6.9점)를, KoBERT가 가장 큰 격차(8.2~9.8점)를 보여, 더 강한 백본이 일반화에도 유리함을 시사합니다.
- SimCSE의 단순함에도 경쟁력 유지: SimCSE의 드롭아웃 기반 접근법(명시적 증강 없음)이 ConSERT의 최적 설정에 필적했습니다. KLUE-BERT에서 SimCSE(73.08)와 ConSERT + 셔플링(73.15)의 차이는 불과 0.07점에 불과했습니다.
- 방법론보다 백본 선택이 더 중요: ConSERT와 SimCSE 간의 차이보다 사전학습 백본 모델의 선택이 성능에 더 큰 영향을 미쳤습니다. KLUE-BERT의 최악 구성(드롭아웃, 70.95)이 KoBERT의 최적 구성(셔플링, 68.82)보다 2점 이상 높았습니다.
- KR-BERT의 문자 수준 토큰화의 이점: KR-BERT가 KoBERT보다 일관되게 높은 성능을 보여, 문자 수준 토큰화가 한국어의 풍부한 형태론적 변화를 대조 학습에서 더 잘 처리할 수 있음을 시사합니다.
의의
본 연구는 대조 학습을 활용한 한국어 문장 임베딩 시스템 구축에 필수적인 지침을 제공합니다:
- 최초의 체계적 한국어 CL 벤치마크: ConSERT와 SimCSE를 여러 한국어 PLM에 대해 통일된 조건(동일 학습 데이터, 동일 평가 프로토콜)에서 비교함으로써, 비지도 한국어 문장 표현 학습의 최초의 신뢰할 수 있는 기준점을 확립합니다.
- 실용적 모델 선택 가이드: KLUE-BERT + 토큰 셔플링 조합이 최적의 결과(KorSTS 테스트 스피어만 73.15)를 보인다는 발견은, 한국어 문장 임베딩 과제를 위한 명확한 출발점을 제공합니다. SimCSE의 거의 동등한 성능은 증강 복잡성이 바람직하지 않은 경우의 대안으로 제안됩니다.
- 과적합 경고: 개발-테스트 간의 상당한 성능 격차(최대 9.8점)는 한국어 NLP 평가 인프라의 중요한 문제를 부각시키며, KorSTS를 넘어서는 보다 크고 다양한 한국어 STS 벤치마크 개발의 필요성을 촉구합니다.
- 토큰화 전략에 대한 통찰: 실험 결과는 토큰화 전략이 한국어 대조 학습 품질에 상당한 영향을 미침을 보여줍니다. 형태소 기반(KLUE-BERT)과 문자 수준(KR-BERT) 접근법 모두 서브워드 기반(KoBERT) 토큰화보다 우수하여, 향후 한국어 PLM 설계에 시사점을 제공합니다.
- 후속 연구의 기반: 본 연구에서 확립한 체계적 프레임워크는 DiffCSE, PromptBERT 등 최신 대조 학습 방법론과 더 큰 한국어 언어모델의 등장에 맞춰 확장 평가하는 데 활용될 수 있습니다.
Representation Learning
Multilingual