EN KO
← 전체 논문 목록

효과적인 한국어 교차언어 전송을 위한 특성 연구

제35회 한글 및 한국어 정보처리 학술대회 (HCLT 2023)
Taejun Yun, Taeuk Kim

한줄 요약

다양한 NLP 과제에 걸친 회귀 분석을 통해 한국어 교차 언어 전이 성능을 가장 효과적으로 예측하는 원천 언어의 특성을 규명하고, 어순이나 형태론 유형 등 구조적 속성이 계통적 관련성보다 중요함을 밝혀 LANGRANK 등 기존 방법론 대비 개선된 원천 언어 선택 전략을 제안합니다.

배경 및 동기

교차 언어 전이 학습은 다국어 사전학습 언어 모델(mBERT, XLM-R 등)을 활용하여, 데이터가 풍부한 원천 언어에서 학습한 뒤 저자원 언어의 NLP 시스템을 구축하는 방법입니다. 그러나 한국어로의 전이 성능은 원천 언어에 따라 크게 달라지며, 이는 근본적인 질문을 제기합니다: 어떤 특성이 한국어 교차 언어 전이에 효과적인 원천 언어를 만드는가?

한국어가 제시하는 고유한 과제:

  • 교착어적 형태론: 한국어는 여러 문법 표지를 접미사로 부착하여 복잡한 어형을 생성합니다(예: "학교에서부터" = 학교 + 에서 + 부터). 이는 영어나 중국어 같은 분석적 언어와 근본적으로 다르며, 다국어 모델의 서브워드 토크나이징과 교차 언어 정렬을 어렵게 합니다.
  • SOV 어순: 한국어는 주어-목적어-동사 순서를 따르며, 이는 일본어, 터키어 등 일부 언어에서만 공유됩니다. 다국어 모델이 표현을 정렬하는 방식에 구문 구조가 영향을 미치므로, 영어 같은 SVO 언어와의 어순 불일치는 전이 품질에 직접적으로 영향을 줍니다.
  • 주제 우세 구조: 한국어는 "은/는" 같은 조사로 담화 주제를 명시적으로 표시하는데, 이는 많은 인도유럽어에 없는 특성으로 텍스트의 정보 구조에 영향을 미치고 교차 언어 문장 정렬을 복잡하게 만듭니다.
  • 고유한 문자 체계: 한국어는 음운 정보를 체계적으로 인코딩하는 자질 문자인 한글을 사용합니다. 내적 일관성은 높지만, 대부분의 다른 언어와 문자 수준의 중복이 제한되어 서브워드 어휘 중복도가 특히 중요한 요인이 됩니다.
  • 선행 연구의 부재: 교차 언어 전이 특성에 대한 연구는 광범위하게 수행되었으나(Lin et al., 2019; Lauscher et al., 2020 등), 한국어를 목표 언어로 한 체계적이고 집중적인 분석은 이전에 수행된 바 없었으며, 이는 한국어가 NLP 수요가 증가하는 주요 언어임에도 불구하고 그러했습니다.

어떤 언어적, 유형론적 특성이 전이 성공을 좌우하는지 이해하는 것은, 영어를 기본값으로 사용하는 대신 최적의 원천 언어와 설정을 선택해야 하는 실무자에게 필수적입니다. 특히 영어와 한국어 간의 상당한 유형론적 거리를 고려하면, 영어 기본값 선택이 크게 차선적일 수 있습니다.

제안 방법

본 연구는 다국어 사전학습 모델을 활용하여 여러 NLP 과제에 걸쳐 원천 언어 특성과 한국어 교차 언어 전이 성능 간의 관계를 정량화하는 체계적인 회귀 기반 프레임워크를 사용합니다. 원천 언어 선택을 특성 예측 문제로 다룸으로써, 휴리스틱 기반의 언어 선택에서 데이터 기반의 정량적 가이드로 전환합니다.

1
특성 추출
각 후보 원천 언어에 대해 다차원적이고 포괄적인 언어적 특성을 추출합니다: (a) WALS(World Atlas of Language Structures)의 유형론적 특성 -- 어순(SVO/SOV/VSO), 형태론 유형(분석적/교착적/굴절적), 격 표지 체계, 일치 패턴 포함; (b) 다국어 모델의 토크나이저 어휘를 기반으로 각 원천 언어와 한국어 간 계산된 서브워드 어휘 중복도; (c) 동원어 중복 및 차용어 빈도에 기반한 어휘 유사도; (d) 언어 공동체 간 물리적 거리와 어족 계통 거리인 지리적 및 계통적 거리; (e) 학습 데이터 크기, 레이블 분포 등 데이터셋 수준 통계량.
2
교차 언어 전이 실험
다국어 사전학습 모델(mBERT, XLM-R)을 사용하여 여러 원천 언어에서 한국어로의 통제된 제로샷 교차 언어 전이 실험을 수행합니다. 각 실험은 모델 아키텍처, 하이퍼파라미터, 데이터 크기 등 다른 변수를 언어 간 동일하게 유지하여 개별 특성의 효과를 분리합니다. 토큰 수준부터 문서 수준까지 다양한 언어 분석 단계를 아우르도록 개체명 인식(NER), 품사 태깅(POS tagging), 텍스트 분류 등 다중 NLP 과제를 평가합니다.
3
회귀 분석
통계적 회귀 모델을 적합하여 각 특성의 전이 성능에 대한 예측력을 정량화합니다. 단순 선형 회귀(특성별)와 다중 회귀(특성 결합)를 모두 사용합니다. 상관 계수, 결정 계수(R-squared), 특성 중요도 점수를 계산하여 한국어로의 성공적인 전이를 가장 잘 나타내는 특성의 순위를 매깁니다. 이 분석은 어떤 특성이 중요한지뿐만 아니라, 각 특성의 상대적 기여도와 잠재적 상호작용까지 밝혀냅니다.
4
원천 언어 선택 방법론 비교
기존의 자동 원천 언어 선택 방법론 -- LANGRANK(학습 기반 랭킹 모델) 및 기타 특성 기반 선택 접근법 -- 을 회귀 분석 결과와 비교합니다. 이러한 기존 방법이 한국어에 최적의 원천 언어를 정확히 식별하는지 평가하고, 한국어 고유의 교착어적 형태론과 SOV 어순 등 언어적 특성을 더 잘 반영하는 개선된 선택 전략을 제안합니다.

실험 결과

본 연구는 어떤 특성이 한국어로의 전이 성능을 가장 잘 예측하는지 체계적으로 평가하고, 여러 NLP 과제에 걸쳐 원천 언어 선택 전략을 비교하여 원칙적인 원천 언어 선택을 위한 정량적 근거를 제공합니다.

한국어 전이에 대한 특성별 예측력

특성 범주예측 강도핵심 관찰
서브워드 어휘 중복도높음모든 과제에서 전이 성능과 강한 양의 상관관계; 가장 보편적으로 예측력 높은 단일 특성
어순 유사성 (SOV)높음구문적 과제(품사 태깅)에서 특히 높은 예측력; SOV 언어가 SVO/VSO 원천 언어를 일관되게 상회
형태론 유형중상교착어(일본어, 터키어, 핀란드어)가 분석적/굴절적 언어보다 더 나은 전이 성능
어족낮음-중간구조적 특성과 분리 시 예상보다 낮은 예측력; 계통적 관련성이 유형론적 유사성과 혼재
지리적 거리낮음근접 언어의 이점은 주로 공유된 구조적 특성과 문화적 차용에 기인하며, 근접성 자체의 효과는 아님

과제별 주요 발견

과제가장 중요한 특성관찰
개체명 인식서브워드 중복도고유명사가 언어 간 표면형을 공유하는 경우가 많아 서브워드 어휘 공유에서 가장 큰 이점
품사 태깅어순구문적 과제는 구조적 정렬에 매우 민감; SOV 원천 언어가 유의미하게 높은 정확도
텍스트 분류서브워드 중복도의미적 과제는 표현 수준의 유사성에 더 의존; 서브워드 중복도가 임베딩 정렬의 대리 지표로 기능

의의

본 연구는 교차 언어 전이를 통한 한국어 NLP 시스템 구축에 실행 가능한 통찰을 제공하며, 다국어 NLP 방법론 전반에 대한 폭넓은 시사점을 가집니다:

링크

Multilingual