EN KO
← 전체 논문 목록

한국어 문장 표현을 위한 비지도 대조 학습 방법론의 비교 및 분석

제34회 한글 및 한국어 정보처리 학술대회 (HCLT 2022)
Young Hyun Yoo, Kyumin Lee, Minjin Jeon, Jii Cha, Kangsan Kim, Taeuk Kim

한줄 요약

비지도 대조 학습 방법론(ConSERT, SimCSE)을 세 가지 한국어 사전학습 언어모델(KoBERT, KR-BERT, KLUE-BERT)에 적용하여 체계적으로 비교 분석한 결과, KLUE-BERT가 가장 안정적인 백본이며 토큰 셔플링이 가장 효과적인 데이터 증강 전략임을 규명합니다.

배경 및 동기

문장 임베딩은 의미 검색, 클러스터링 등 다양한 NLP 응용에서 핵심적인 역할을 합니다. 최근 SimCSEConSERT 같은 비지도 대조 학습 방법론은 라벨 데이터 없이도 의미적으로 유사한 문장을 임베딩 공간에서 가깝게, 비유사한 문장을 멀리 배치하는 학습을 통해 영어 문장 표현의 품질을 크게 향상시켰습니다.

대조 학습이란?

대조 학습은 의미적으로 유사한 문장은 임베딩 공간에서 가깝게, 비유사한 문장은 멀리 배치하는 표현 공간을 학습하는 방법입니다. 문장 x가 주어지면, 데이터 증강(ConSERT) 또는 드롭아웃 노이즈(SimCSE)를 통해 양성 쌍 (x, x+)을 생성하고, 미니배치 내의 다른 모든 문장을 음성 샘플로 취급합니다. 대조 손실 함수는 양성 쌍 간의 일치도를 최대화하고 음성 샘플과의 일치도를 최소화하여, 라벨 데이터 없이도 의미적 유사도를 포착하는 문장 임베딩을 학습합니다.

한국어에서의 핵심 과제:

  • 한국어 특화 평가 부재: 대부분의 대조 학습 연구가 영어에 집중되어 있어, 교착어적 형태론과 유연한 어순 등 한국어 고유의 언어적 특성에서 이러한 방법론이 얼마나 잘 작동하는지 불명확했습니다.
  • 설계가 상이한 다양한 한국어 PLM: KoBERT(SentencePiece 토큰화), KR-BERT(문자 수준 토큰화), KLUE-BERT(형태소 기반 WordPiece) 등 근본적으로 다른 토큰화 전략을 가진 모델들이 존재하지만, 대조적 문장 학습의 백본으로서 이들을 체계적으로 비교한 연구는 없었습니다.
  • 데이터 증강 전략의 불확실성: ConSERT의 증강 전략(토큰 셔플링, 피처 컷오프, 토큰 컷오프, 드롭아웃)이 교착어인 한국어에서 영어와 다르게 어떤 영향을 미치는지 검증되지 않았습니다.
  • 과적합 우려: 한국어 STS 평가 데이터가 제한적(KorSTS 벤치마크가 주된 자원)이어서, 방법론들이 검증 셋에 과적합되고 실제 일반화 성능은 떨어질 위험이 있었습니다.

본 연구는 이러한 공백을 메우기 위해, 3개 백본 모델, 2개 학습 프레임워크, 4개 증강 전략을 아우르는 한국어 문장 표현을 위한 비지도 대조 학습 접근법의 최초의 포괄적 비교 분석을 제공합니다.

제안 방법

본 연구는 두 가지 대표적인 비지도 대조 학습 프레임워크인 ConSERTSimCSE를 세 가지 한국어 사전학습 언어모델에 적용하여, 한국어 STS 벤치마크에서 체계적으로 평가합니다.

1
백본 모델 선정
각각 고유한 설계 특성을 가진 세 가지 한국어 사전학습 언어모델을 백본으로 사용합니다:
  • KoBERT (SKTBrain): SentencePiece 토큰화를 사용하며, 한국어 위키피디아 및 뉴스 데이터로 학습.
  • KR-BERT: 문자 수준 토큰화를 사용하여 띄어쓰기 변형이나 오타를 포함한 모든 한국어 문자 시퀀스를 처리 가능.
  • KLUE-BERT: 형태소 기반 WordPiece 토큰화를 사용하며, 대규모 KLUE 코퍼스(뉴스, 리뷰, 백과사전 등)로 학습. KLUE 벤치마크 스위트를 위해 설계.
이러한 토큰화 단위와 사전학습 데이터의 다양성 차이를 통해 백본 설계가 대조 학습 성능에 미치는 영향을 체계적으로 분석할 수 있습니다.
2
대조 학습 프레임워크
ConSERT (Yan et al., 2021)는 입력 또는 표현 수준에서 명시적 데이터 증강을 통해 양성 쌍을 생성합니다. 주어진 문장에 대해 서로 다른 두 가지 증강된 뷰를 만들고, 대조 손실(NT-Xent)을 사용하여 이 두 뷰 간의 일치도를 최대화하도록 학습합니다. SimCSE (Gao et al., 2021)는 더 단순한 접근법을 취합니다: 동일한 입력을 서로 다른 드롭아웃 마스크로 인코더에 두 번 통과시켜, 결과로 나온 두 표현을 양성 쌍으로 취급합니다. 두 방법 모두 미니배치 내 음성 샘플(in-batch negatives)을 사용합니다.
3
ConSERT 데이터 증강 전략
네 가지 증강 전략을 체계적으로 비교하며, 각각 입력 또는 표현의 서로 다른 측면을 변형합니다:
  • 토큰 셔플링: 토큰 집합을 유지하면서 입력 토큰의 순서를 무작위로 변경 -- 모델이 순서에 불변하는 의미 자질을 학습할 수 있는지 검증.
  • 피처 컷오프: 토큰 임베딩 벡터의 무작위 차원을 0으로 설정 -- 모델이 의미 정보를 여러 차원에 분산시키도록 유도.
  • 토큰 컷오프: 입력 토큰의 일부를 무작위로 제거 -- 정보 손실에 대한 견고성 검증.
  • 드롭아웃: 토큰 표현에 표준 드롭아웃을 증강으로 적용 -- 가장 단순한 변형 전략.
네 가지 전략 모두 세 가지 백본 모델에서 평가하여, ConSERT 12개 + SimCSE 3개(백본당 1개) = 총 15개 실험 구성을 생성합니다.
4
한국어 STS 평가 프로토콜
한국어 의미적 텍스트 유사도(KorSTS) 벤치마크에서 스피어만 순위 상관계수로 모델을 평가합니다. 핵심적으로, 검증(dev) 셋과 테스트 셋 결과를 나란히 보고합니다. 이러한 이중 보고는 잠재적 과적합을 노출하기 위한 것으로, 높은 검증 점수를 달성하면서도 테스트 점수가 현저히 낮은 모델은 진정으로 전이 가능한 문장 표현을 학습하기보다는 검증 분포에 과적합되었을 가능성이 있습니다.

실험 결과

ConSERT(4가지 증강 전략)와 SimCSE를 세 가지 한국어 PLM에 적용하여 총 15개 실험 구성을 수행합니다. KorSTS 벤치마크에서 스피어만 상관계수(x100)로 성능을 측정합니다.

ConSERT: 전체 증강 전략 비교

백본 모델증강 전략Dev (스피어만)Test (스피어만)격차 (Dev-Test)
KoBERT셔플링78.6668.829.84
KoBERT피처 컷오프73.7865.258.53
KoBERT토큰 컷오프72.4164.188.23
KoBERT드롭아웃71.9563.508.45
KR-BERT셔플링78.3772.026.35
KR-BERT피처 컷오프77.2568.528.73
KR-BERT토큰 컷오프75.8067.917.89
KR-BERT드롭아웃74.6267.037.59
KLUE-BERT셔플링80.0573.156.90
KLUE-BERT피처 컷오프78.9272.856.07
KLUE-BERT토큰 컷오프77.6071.426.18
KLUE-BERT드롭아웃76.8870.955.93

SimCSE: 백본별 결과

백본 모델Dev (스피어만)Test (스피어만)격차 (Dev-Test)
KoBERT75.3366.049.29
KR-BERT77.4970.816.68
KLUE-BERT79.6273.086.54

백본별 최적 구성 (테스트 셋)

백본 모델최적 방법Test (스피어만)
KoBERTConSERT + 셔플링68.82
KR-BERTConSERT + 셔플링72.02
KLUE-BERTConSERT + 셔플링73.15

증강 전략 순위 (백본 평균):

토큰 셔플링 > 피처 컷오프 > 토큰 컷오프 > 드롭아웃. 한국어에서 토큰 셔플링의 강한 성능은 한국어 구문의 비교적 유연한 어순으로 설명될 수 있습니다 -- 토큰 순서를 변경해도 어느 정도 그럴듯한 증강 뷰가 생성되어, 의미를 파괴하지 않으면서 유용한 학습 신호를 제공합니다.

의의

본 연구는 대조 학습을 활용한 한국어 문장 임베딩 시스템 구축에 필수적인 지침을 제공합니다:

링크

Representation Learning Multilingual