Multilingual Chart-based Constituency Parse Extraction from Pre-trained Language Models
EMNLP 2021 Findings
Taeuk Kim, Bowen Li, Sang-goo Lee
한줄 요약
차트 기반 구문 분석 추출(CPE) 프레임워크를 통해 다국어 사전학습 언어 모델에서 9개 유형론적으로 다양한 언어의 구문 트리를 완전히 언어 비의존적 방식으로 추출하며, 입력 언어와 무관하게 구문 구조에 일관되게 민감한 보편적 어텐션 헤드의 존재를 밝힙니다.
Figure 2. XLM-R에서 9개 언어에 걸친 구문적으로 민감한 어텐션 헤드의 분포. 상위 20개 헤드의 상당한 중복은 언어와 무관하게 구문 구조를 포착하는 보편적 어텐션 헤드의 존재를 보여줍니다.
배경 및 동기
최근 연구들은 BERT와 같은 사전학습 언어 모델(PLM)이 내부 표현에 풍부한 구문 정보를 인코딩한다는 것을 보여주었습니다. 이 중 한 연구 흐름은 구문 분석 추출(Constituency Parse Extraction, CPE) -- 지도 학습된 구문 훈련 없이 PLM 표현에서 계층적 구구조를 복원하는 것 -- 에 초점을 맞추고 있습니다. 핵심 직관은 동일한 구문 성분에 속하는 단어들은 유사한 내부 표현을 공유하는 반면, 성분 경계에서는 표현의 불연속성이 나타난다는 것입니다. 그러나 기존 CPE 방법은 거의 전적으로 영어(Penn Treebank)에서만 평가되어 왔으며, 전체 구의 타당성을 평가할 수 없는 탐욕적 하향식 알고리즘에 의존하고 있었습니다.
기존 연구의 주요 한계:
영어 중심 평가: 기존 CPE 방법(예: Hewitt & Manning, 2019; Kim et al., 2020의 구문적 거리 접근법)은 Penn Treebank에서만 검증되어, 어순, 형태론적 풍부성, 구구조가 다른 유형론적으로 상이한 언어들로의 일반화 가능성이 알려지지 않았습니다.
하향식 방법의 한계: 기존 접근법은 인접 단어 간의 구문적 거리에 의존하고 탐욕적 하향식 절차를 사용하므로, 각 분할 단계에서 경계 정보만 고려합니다. 이는 후보 구 내의 모든 단어가 실제로 하나의 성분으로 응집되는지를 평가할 수 없음을 의미합니다 -- 단순히 가장 큰 경계 거리를 선택하고 재귀적으로 처리할 뿐입니다.
미활용된 다국어 PLM: mBERT(104개 언어), XLM-RoBERTa(100개 언어)와 같은 모델은 대규모 다국어 코퍼스로 학습되지만, 구문 구조에 대한 교차 언어적 표현은 체계적으로 탐침되지 않았습니다. 이러한 모델은 구문 지식이 언어 간에 전이되는지를 검증할 수 있는 독특한 기회를 제공합니다.
보편성에 대한 미해결 질문: 다국어 PLM에 인코딩된 구문 구조가 언어별로 별도로 학습된 것인지, 아니면 언어 간에 공유되는 보편적 문법 패턴을 반영하는지는 여전히 열린 질문으로, 언어학 이론과 실용적 교차 언어 NLP 모두에 깊은 시사점을 가집니다.
본 논문은 후보 구 내의 모든 단어를 고려하는 (경계만이 아닌) 차트 기반 CPE 프레임워크를 제안하고, 이를 두 개의 다국어 PLM에 걸쳐 9개 언어에 적용하여 인코딩된 구문 구조의 보편성을 조사함으로써 위 네 가지 한계를 모두 해결합니다.
제안 방법: 차트 기반 구문 분석 추출
본 방법은 CPE를 최소 비용 구문 트리 탐색 문제로 공식화하며, 비용은 PLM 표현에서 계산된 구문적 거리로부터 도출됩니다. 탐욕적 하향식 접근법이 지역적으로 최적인 분할을 수행하는 것과 달리, 차트 기반 방법은 동적 프로그래밍을 사용하여 모든 가능한 스팬 분해를 동시에 고려함으로써 전역적으로 최적인 이진 트리를 산출합니다.
Figure 1. 하향식(TD)과 차트 기반(CP/CC) 구문 분석 추출의 비교. TD는 최대 구문적 거리 위치에서 탐욕적으로 분할하는 반면, 차트 기반 방법은 CYK 동적 프로그래밍으로 모든 가능한 스팬을 점수화하여 전역 최적 트리를 찾습니다.
1
구문적 거리 계산
각 인접 단어 쌍에 대해 구문적 거리 di = f(g(wi), g(wi+1))를 계산합니다. 여기서 g(·)는 특정 PLM 레이어에서 표현을 추출하고, f(·,·)는 거리 메트릭입니다. 두 가지 유형의 표현이 사용됩니다: 은닉 상태(Gv) -- 각 레이어의 문맥화된 단어 임베딩으로, Cosine, L1, L2 거리와 결합; 어텐션 분포(Gd) -- 개별 헤드의 어텐션 가중치 벡터로, Jensen-Shannon 발산 또는 Hellinger 거리와 결합. 어텐션 기반 표현이 토큰 간 관계적 패턴을 인코딩하기 때문에 구문 분석 추출에 더 효과적인 것으로 나타납니다.
2
차트 기반 스팬 점수화
탐욕적 하향식 분할 대신, 모든 후보 스팬 (i, j)에 합성성 점수를 부여합니다. 두 가지 점수 함수가 제안됩니다: Pair Score(sp)는 스팬 내 모든 단어 조합의 쌍별 거리 평균을 계산합니다 -- sp(i,j) = C(j-i+1, 2)-1 Σ f(g(wx), g(wy)) -- 성분 구성원이 유사한 어텐션 패턴을 공유한다는 가정 하에 내부 일관성을 측정합니다. Characteristic Score(sc)는 먼저 스팬 내 모든 단어의 평균 어텐션 분포인 특성 벡터 c를 계산한 후, 각 단어의 이로부터의 편차를 측정합니다: sc(i,j) = (j-i+1)-1 Σ f(g(wx), c). 낮은 점수는 유효한 성분일 가능성이 높은 응집적 스팬을 나타냅니다.
3
CYK 동적 프로그래밍
전체 트리 점수는 stree(T) = Σ(i,j)∈T sspan(i,j)로 분해되며, 각 스팬 점수는 합성성 점수와 최적 분할점을 결합합니다. CYK 알고리즘은 O(n3) 시간 복잡도로 차트를 상향식으로 채워 최소 비용 이진 트리를 효율적으로 찾습니다. O(n log n)의 하향식 접근법보다 계산 비용이 높지만, 이 전역 최적화는 경계 정보에만 기반한 되돌릴 수 없는 지역적 결정을 내리는 탐욕적 방법의 한계를 극복합니다.
4
Top-K 앙상블
서로 다른 어텐션 헤드의 상호 보완적 강점을 활용하기 위해 Top-K 앙상블 전략을 도입합니다. 먼저 모든 (f, g) 조합에 대해 전체 어텐션 헤드를 검증 세트에서 철저히 평가합니다. 가장 우수한 K개 헤드를 선택하고(K=20이 모든 설정에서 최적), 테스트 시 각 K개 헤드가 별도의 구문 트리를 생성합니다. 이를 구문적 거리 벡터로 변환하여 K개 벡터를 평균하고, 평균된 거리로부터 최종 구문 분석을 도출합니다. 이는 점수 함수 선택과 무관하게 일관된 2-4 F1 포인트 향상을 제공하며, 구문 정보가 단일 헤드에 집중되지 않고 여러 어텐션 헤드에 분산되어 있음을 확인합니다.
실험 결과
다양한 어족(인도유럽어족, 우랄어족, 고립어, 아프리카아시아어족)과 어순(SVO, SOV, VSO, 자유 어순)을 아우르는 9개 유형론적으로 다양한 언어에서 평가되었습니다. Penn Treebank(영어)와 SPMRL 공유 태스크 트리뱅크(바스크어, 프랑스어, 독일어, 히브리어, 헝가리어, 한국어, 폴란드어, 스웨덴어)를 사용합니다. 테스트된 다국어 모델은 mBERT와 XLM-RoBERTa(XLM-R)이며, 세 가지 CPE 변형을 비교합니다: TD(하향식 기준선), CP(Pair Score 차트 기반), CC(Characteristic Score 차트 기반).
단일 언어 영어 결과 (문장 수준 F1)
모델
TD
CP
CC
BERT-base
37.0
38.5
39.0
RoBERTa-base
35.6
37.8
38.1
XLNet-base
40.1
42.3
41.8
XLNet-large
40.1
43.4
46.4
비지도 구문 분석 기준선과의 비교 (F1)
언어
PRPN
ON-LSTM
C-PCFG
CPE-PLM (본 연구)
영어
--
--
--
46.4
프랑스어
--
--
40.5
42.4
독일어
--
--
37.3
39.6
한국어
--
--
27.7
47.3
스웨덴어
--
--
23.7
38.4
CPE-PLM 결과는 각 언어별 최적 단일 언어 PLM과 Top-K 앙상블을 사용합니다. 언어별 파서 훈련 없이도 Compound PCFG(C-PCFG)를 크게 능가하며, 특히 한국어(+19.6 F1)와 스웨덴어(+14.7 F1)에서 두드러집니다.
XLM-R 다국어 결과 (문장 수준 F1)
언어
TD
CP
CC
영어
45.5
46.7
47.0
바스크어
43.7
43.8
45.1
프랑스어
45.8
44.2
45.5
독일어
41.4
42.2
41.6
히브리어
45.0
43.2
45.3
헝가리어
42.4
44.0
43.4
한국어
55.9
55.7
54.3
폴란드어
43.1
43.7
44.6
스웨덴어
39.5
40.6
41.5
차트 기반 방법이 하향식을 능가: 제안된 CP 및 CC 방법이 대부분의 언어에서 TD 기준선을 개선하며, 앙상블을 통해 영어 XLNet-large에서 40.1에서 46.4 F1로 6포인트 향상을 달성합니다.
강력한 다국어 성능: XLM-R이 9개 언어 모두에서 의미 있는 구문 트리를 생성하며, 한국어가 가장 높은 F1(55.9)을 달성하여 C-PCFG 비지도 기준선(한국어 27.7)을 크게 능가합니다.
XLM-R이 단일 언어 PLM에 필적하거나 능가: 주목할 만하게도, XLM-R은 영어에서 47.7 F1을 달성하여 단일 언어 BERT-base 결과(39.0)를 초과합니다. 이는 다국어 사전학습이 구문 표현을 희석시키지 않으며, 오히려 교차 언어 구조적 전이를 통해 풍부하게 할 수 있음을 시사합니다.
교차 언어 전이 및 보편적 어텐션 헤드
핵심적인 질문은 CPE에 최적인 어텐션 헤드가 언어별 특이적인지 아니면 보편적인지입니다. 이를 검증하기 위해 교차 언어 전이 실험을 수행합니다: 영어 PTB 검증 세트만으로 상위 K개 헤드를 선택한 후, 동일한 헤드를 다른 모든 언어에 적용합니다.
교차 언어 전이 결과:
영어에서 선택된 헤드를 다른 언어에 사용하면 언어별 헤드 선택 대비 일반적으로 0-2 F1 포인트 하락에 그칩니다.
일부 경우에는 전이가 오히려 성능을 향상시킵니다: 바스크어는 45.1에서 46.2 F1로 개선되었으며, 이는 영어 검증 데이터가 더 작은 검증 세트를 가진 언어별 선택보다 더 잘 일반화하는 구문적으로 유의미한 헤드를 식별할 수 있음을 시사합니다.
더 작은 검증 세트를 가진 언어(히브리어, 폴란드어, 스웨덴어)가 교차 언어 전이에서 가장 큰 이점을 얻으며, 영어가 헤드 선택을 위한 더 신뢰할 수 있는 신호를 제공합니다.
XLM-R에서 각 언어의 상위 20개 어텐션 헤드를 시각화하면 놀라운 중복이 드러납니다: 한 언어에서 구문적으로 민감한 대부분의 헤드가 다른 언어에서도 민감합니다. 이러한 보편적 어텐션 헤드는 6-12 레이어(중간~상위 레이어)에 집중되어 있으며, 이는 하위 레이어가 표면 수준의 특징을 인코딩하고 상위 레이어가 보다 추상적이고 구조적인 정보를 인코딩한다는 기존 연구 결과와 일치합니다.
구 유형별 분석
구 유형별 성능 분석은 흥미로운 비대칭성을 보여줍니다:
명사구(NP)가 잘 복원됨: CPE-PLM은 9개 언어 모두에서 50% 이상의 NP 식별 재현율을 달성하며, 무작위 기준선을 크게 능가합니다. NP는 일반적으로 더 짧고 지역적으로 한정된 성분으로, 어텐션 패턴으로부터 식별하기가 더 용이합니다.
동사구(VP)는 더 어려움: VP 복원율은 현저히 낮습니다. VP는 일반적으로 더 길고 구조적으로 복잡하며, 종종 문장의 상당 부분을 포괄합니다. 저자들은 "CPE-PLM이 VP를 인식하는 데 상대적으로 약하다"고 언급하며, 이는 어텐션 기반 표현이 전역적 문장 구조보다 지역적 구 일관성을 더 쉽게 포착함을 시사합니다.
사전학습 데이터 양과 성능 간 상관관계 부재: XLM-R의 균형 잡힌 언어별 샘플링 전략으로 인해, 특정 언어의 사전학습 데이터 양과 CPE 성능 간에 명확한 관계가 나타나지 않습니다. 이는 단일 언어의 원시 데이터 양보다 다국어 사전학습의 품질과 다양성이 더 중요함을 나타냅니다.
의의
본 연구는 다국어 PLM의 구문 지식 이해를 진전시키는 세 가지 기여를 합니다:
최초의 체계적 다국어 CPE 평가: 구문 분석 추출을 영어에서 다양한 어족과 어순을 아우르는 9개 유형론적으로 다양한 언어로 확장함으로써, PLM이 계층적 구문 구조를 영어만의 현상이 아닌 교차 언어적 현상으로 인코딩함을 확립합니다. 이는 언어학 이론에 대한 시사점을 갖습니다 -- 트랜스포머 모델이 유형론적으로 상이한 언어로 학습되더라도 공유된 구조적 표현으로 수렴함을 시사합니다.
하향식 한계를 극복하는 차트 기반 프레임워크: 제안된 차트 기반 방법은 전역 최적화를 통해 구 내의 모든 단어를 고려하여 (경계만이 아닌) 일관되게 구문 분석 품질을 향상시킵니다. Top-K 앙상블 전략이 여러 어텐션 헤드에 분산된 구문 정보를 활용하여 추가적인 직교 이득을 제공하며, 영어에서 기존 연구 대비 6 F1 포인트 향상을 달성합니다.
보편적 어텐션 헤드의 발견: 특정 어텐션 헤드가 9개 언어 모두에서 일관되게 구문에 민감하다는 발견은 다국어 PLM 내 언어 보편적 구조 표현의 증거를 제공하며, CPE 설정의 교차 언어 전이가 최소한의 성능 손실로 작동하는 이유를 설명합니다. 이는 보편 문법에 대한 이론적 논의와 연결되며, 통계적 언어 모델이 독립적으로 언어 간 공유된 구조적 패턴을 발견함을 시사합니다.
대규모 트리뱅크가 없는 저자원 언어에서 다국어 PLM만으로 근사적 구문 분석에 이르는 실행 가능한 경로를 제시하며 -- 언어별 파서 훈련이 전혀 필요하지 않습니다. 한국어(+19.6 F1)와 스웨덴어(+14.7 F1)에서 C-PCFG 대비 극적인 성능 향상은 실용적 활용에 특히 유망합니다. 보편적 어텐션 헤드에 대한 통찰은 트랜스포머가 문법을 어떻게 표현하는지에 대한 폭넓은 연구에 기여하며, 다국어 모델의 구조적 속성을 탐침하면 깊은 교차 언어적 규칙성을 발견할 수 있음을 시사합니다.