EN KO
← 전체 논문 목록

HYU at SemEval-2022 Task 2: Effective Idiomaticity Detection with Consideration at Different Levels of Contextualization

International Workshop on Semantic Evaluation (SemEval 2022) at NAACL 2022
Youngju Joung, Taeuk Kim

한줄 요약

문장 간(inter-sentence) 및 문장 내(inner-sentence) 맥락을 모두 활용하는 네 가지 특징을 계산하여, 두 명사 복합어와 같은 다중 단어 표현(MWE)이 관용적으로 사용되었는지 아니면 문자적으로 사용되었는지를 판별하는 통합 프레임워크로, 영어, 포르투갈어, 갈리시아어에서 강력한 교차 언어 일반화를 달성합니다.

관용 표현 탐지 프레임워크
Figure 1. 관용 표현 탐지를 위한 네 가지 특징 기반 프레임워크. 왼쪽의 특징 1, 2는 주변 문장 간 맥락에 기반하며, 오른쪽의 특징 3, 4는 은유 식별 이론에서 영감받은 문장 내 맥락에서 유도됩니다.

배경 및 동기

다중 단어 표현(MWE)은 뛰어난 연어 관계를 가진 두 개 이상의 언어 구성 요소로 이루어진 그룹입니다. MWE는 맥락에 따라 다양한 해석을 허용함으로써 언어의 표현력을 풍부하게 합니다. 예를 들어, wet blanket이라는 표현은 구성적("액체에 적신 천")으로 또는 관용적("분위기를 망치는 사람")으로 해석될 수 있습니다. MWE가 관용적으로 사용되었는지를 감지하는 것은 같은 표현이 맥락에 따라 다른 의미를 가질 수 있기 때문에 어려운 NLP 문제이며, 현재 대부분의 NLP 모델이 구성적 의미 포착에 주로 초점을 맞추고 있어 더욱 도전적입니다.

SemEval-2022 Task 2는 두 명사 복합어를 관용적 사용과 비관용적 사용으로 분류하는 과제로, 두 가지 설정을 제공합니다: 학습 중 한 번도 등장하지 않은 MWE를 평가하는 제로샷 설정과, 학습 시 각 MWE당 관용적 예시 하나와 비관용적 예시 하나를 제공하는 원샷 설정입니다.

핵심 과제: 기존 연구(Tayyar Madabushi et al., 2021)에서 세 문장(이전, 대상, 다음)을 단순히 순서대로 연결하는 것은 관용어 감지에 일반적으로 도움이 되지 않음을 보여주었습니다. 이러한 단순 연결 방식은 입력 시퀀스 길이를 약 3배로 늘려, 인코더가 대상 문장과 주변 맥락을 구분하기 어렵게 만들어 오히려 성능을 저하시킬 수 있습니다. 대상 문장을 강조하면서도 주변 정보를 활용하는 더 정교한 맥락 활용 접근이 필요합니다.

제안 방법: 다수준 맥락화 프레임워크

프레임워크는 Transformer 인코더(XLM-RoBERTa base)에서 각각 다른 맥락화 측면을 포착하는 네 가지 특징을 계산합니다. 각 특징은 인코더 마지막 레이어에서 추출한 [CLS] 임베딩(v[CLS])과 MWE 임베딩(vMWE, 대상 MWE를 구성하는 서브워드 표현의 평균)으로부터 유도됩니다. 네 가지 특징을 연결한 후 선형 분류기를 통해 최종 관용적/비관용적 예측을 수행합니다:

1
특징 1: 이전 문장 + 대상 문장 맥락 (fprev)
대상 문장을 이전 문장과 연결하여 인코더에 입력합니다. 학습 가능한 세그먼트 임베딩을 적용하여 MWE 토큰(세그먼트=1)과 기타 토큰(세그먼트=0)을 구분하며, MWE의 위치에 대한 단서를 제공합니다. MWE는 입력 시퀀스 끝에도 반복됩니다. v[CLS]와 vMWE의 연결에 대한 선형 변환으로 특징을 생성합니다.
2
특징 2: 대상 문장 + 다음 문장 맥락 (fnext)
특징 1과 동일한 절차이나, 대상 문장을 이전 문장 대신 다음 문장과 쌍을 이룹니다. 세 문장을 모두 연결하는 대신 두 개의 청크로 분리함으로써, 대상 문장이 자연스럽게 강조되고(양쪽 청크에 모두 등장) 인코더가 과도하게 긴 입력에 압도되지 않습니다.
3
특징 3: 맥락 전용 표현 (fctx)
은유 감지의 선택적 선호 위반(SPV) 이론에서 영감: 대상 문장에서 MWE 토큰을 [MASK]로 대체하여 인코더에 입력합니다. 이를 통해 MWE 자체와 독립적인 문장 내 맥락 표현을 얻습니다. 기존 SPV 구현에서 v[CLS]와 vMWE를 같은 입력에서 계산하면 어텐션에 의해 상호 얽히는 문제가 있는데, MWE를 마스킹함으로써 진정으로 분리된 맥락 의미를 보장합니다.
4
특징 4: MWE 전용 표현 (fmwe)
은유 식별 절차(MIP)에서 영감: MWE만 단독으로(맥락에서 분리하여) 인코더에 입력합니다. 이를 통해 표현의 정적이고 맥락 독립적인 의미를 포착합니다. 이 정적 표현과 특징 1-2의 맥락화된 표현 간의 차이가 크면 관용적 사용을 나타내며, 이는 맥락화된 의미가 문자적 의미에서 벗어날 때 은유적이라고 판단하는 MIP 원리를 반영합니다.

설계 핵심: MWE를 반복할 때 원형(사전형)이 아닌 대상 문장에서의 굴절형을 복사하여 사용합니다. 이는 맥락화된 표현과 고립된 표현 사이의 형태론적 일관성을 유지하여 공정한 비교를 가능하게 합니다.

실험 결과

SemEval-2022 Task 2 Subtask A(두 명사 복합어 관용어 감지)에서 영어, 포르투갈어, 갈리시아어 3개 언어를 대상으로 평가하였습니다. 갈리시아어는 학습 데이터에 포함되지 않아 순수한 교차 언어 전이 테스트에 해당합니다. 모델은 XLM-R(base)를 사용하며, 최대 시퀀스 길이 300, AdamW 옵티마이저(lr=3e-5), 배치 크기 16, 10 에폭 학습을 적용했습니다. 모델당 5개의 서로 다른 랜덤 시드로 실행하여 개발 세트 매크로 F1 기준 최적 체크포인트를 선택합니다.

모델 / 설정영어포르투갈어갈리시아어전체
베이스라인 (BERT) - 제로샷70.7068.0350.6565.40
베이스라인 (XLM-R) - 제로샷72.2965.6846.1663.21
제안 방법 (제출) - 제로샷76.4272.8262.9272.27
베이스라인 (BERT) - 원샷88.6286.3781.6286.46
베이스라인 (XLM-R) - 원샷88.4585.0384.0286.56
제안 방법 (제출) - 원샷91.5984.5782.8787.50
제안 방법 (사후평가) - 원샷92.2988.0587.1089.96

소거 실험에서는 여섯 가지 변형을 비교하였습니다: (A) 맥락 미사용, (B) 단순 3문장 연결, (C) 세그먼트 임베딩 제거, (D) 시퀀스 끝 MWE 반복 제거, (E) 맥락 전용 특징에서 MWE 복원(마스킹 해제), (F) MWE 전용 특징 제거:

의의

관용적 언어를 이해하는 것은 일상 소통에 만연한 비유적 표현을 NLP 시스템이 올바르게 처리하기 위해 필수적입니다. 이 연구는 다음과 같은 중요한 기여를 합니다:

링크

Representation Learning Multilingual