사전학습 언어 모델(BERT, ELMo, XLNet)에서 구성 구문 트리를 추출하는 간단한 탐사(probing) 방법이, 전용 비지도 문법 유도 시스템에 필적하거나 이를 능가하는 F1 점수를 달성하여 PLM이 구(phrase) 수준의 통사 구조를 암묵적으로 인코딩함을 입증합니다.
BERT, ELMo, XLNet 등의 사전학습 언어 모델(PLM)은 사실상 모든 NLP 벤치마크에서 최고 성능을 달성하며, 사전학습 과정에서 상당한 언어 지식을 내재화하는 것으로 알려져 있습니다. 그러나 이러한 모델이 어떤 종류의 통사 구조를 포착하는지, 그리고 그것이 얼마나 접근 가능한지는 여전히 불분명했습니다. 문법 유도(grammar induction) -- 주석된 트리뱅크 없이 원시 텍스트에서 계층적 구 구조를 복원하는 과제 -- 는 이 질문을 검증하기 위한 엄격한 테스트베드를 제공합니다.
핵심 연구 질문: 사전학습 언어 모델이 어떠한 구문 지도 없이도 의미 있는 구성 구문 트리를 생성할 수 있는가? 가능하다면, 이러한 "무료" 구문 분석은 이 과제를 위해 명시적으로 설계된 전용 비지도 문법 유도 시스템과 비교하여 어떠한가?
왜 자명하지 않은가: 기존의 비지도 문법 유도 모델(PRPN, ON-LSTM, URNNG)은 구문을 발견하기 위해 게이팅 메커니즘이나 구조적 변분 추론과 같은 특수한 아키텍처적 귀납적 편향을 도입합니다. 범용 PLM이 이러한 시스템에 필적할 수 있다면, 표준 언어 모델링 목적 함수가 과제 특화 설계 없이도 이미 풍부한 통사 지식을 인코딩한다는 것을 의미합니다.
당시 PLM의 구문 지식을 탐사하는 지배적인 접근법은 하류 지도학습 태스크(예: 품사 태깅, 의존 구문 분석)에 초점을 맞추고 있었습니다. 본 논문은 이와 상보적인 완전 비지도 접근법을 취합니다: PLM의 내부 표현에 대한 스코어링 함수를 설계하고 이를 차트 기반 파싱에 직접 활용합니다 -- 파인튜닝 없이, 레이블된 데이터 없이, 태스크 특화 파라미터 없이.
문법 유도의 광범위한 맥락: 비지도 문법 유도는 분포적 클러스터링(distributional clustering)과 베이지안 PCFG에 관한 초기 연구로 거슬러 올라가는, 전산 언어학의 핵심 문제입니다. CCM(Constituent-Context Model)이나 DMV(Dependency Model with Valence) 같은 고전적 접근법은 수작업으로 설계된 확률 모델에 의존했습니다. 이후 PRPN, ON-LSTM, URNNG 등 신경망 기반 문법 유도 모델이 통사적 편향을 신경 언어 모델 아키텍처에 내장하며 의미 있는 진전을 이루었습니다. 본 논문은 도발적인 질문을 던집니다: 현대 PLM의 규모와 표현력을 고려할 때, 그러한 편향이 과연 필요한가?
이 질문은 PLM이 일반적인 문법 유도 시스템보다 훨씬 많은 데이터로 학습된다는 점에서 특히 시의적절합니다. 예를 들어 BERT는 16 GB의 텍스트(BooksCorpus + 영어 Wikipedia)로 사전학습되는 반면, PRPN이나 ON-LSTM 같은 신경 문법 유도 모델은 상대적으로 작은 PTB 학습 셋(약 4만 문장)으로 학습됩니다. 순수한 데이터 규모만으로 PLM이 통사 구조를 암묵적으로 학습할 수 있다면, 이는 구문이 분포 통계로부터 어떻게 출현하는지에 대한 우리의 이해에 깊은 함의를 갖습니다.
핵심 아이디어는 우아할 정도로 단순합니다: 사전학습 언어 모델이 연속된 단어 스팬(span)이 통사적 구성소(constituent)를 이룬다는 것을 진정으로 "알고" 있다면, 모델의 내부 표현이 이를 반영해야 합니다 -- 해당 스팬의 표현이 주변 문맥과 체계적으로 달라야 합니다. 저자들은 이 직관을 세 가지 상보적 스코어링 함수와 표준 차트 기반 디코더를 통해 구현합니다.
핵심 직관 -- 내부-외부 가설: "The cat sat on the mat."이라는 문장을 생각해 봅시다. "the cat"이 진정한 명사구 구성소라면, 이 스팬 내부 토큰들의 PLM 표현은 외부 토큰들("sat on the mat")의 표현과 구별되는 일관된 군집을 형성해야 합니다. 반대로 "cat sat"처럼 구성소가 아닌 스팬의 경우, 해당 스팬이 의미 있는 통사 단위에 해당하지 않으므로 내부와 외부 표현의 차이가 덜 뚜렷해야 합니다.
문장 내 각 후보 스팬 (i, j)에 대해, 스팬의 내부 표현과 외부 표현 간의 차이를 측정하여 점수를 계산합니다. 세 가지 스코어링 변형이 제안됩니다:
(a) 코사인 유사도 (sim): 스팬 내 토큰들의 평균 은닉 상태 벡터(h̅in)와 스팬 바깥 토큰들의 평균 벡터(h̅out)를 계산합니다. 구성소 점수는 1 - cos(h̅in, h̅out)로 정의됩니다. 진정한 구성소는 자기완결적 통사 단위를 형성하므로 문맥과의 코사인 유사도가 낮아야 한다는 직관입니다.
(b) L2 노름 차이 (norm): 코사인 유사도 대신, 내부와 외부 표현 간의 L2 노름 차이 ||h̅in - h̅out||2를 사용합니다. 노름이 클수록 차이가 크다는 것을 의미하며, 구성소일 가능성이 높습니다.
(c) 교란된 표현 (perturb): BERT의 마스크드 언어 모델링 기능을 활용합니다. 스팬 내 각 토큰에 대해, 외부 문맥이 존재할 때와 마스킹되었을 때의 표현을 비교합니다. 스팬이 자기완결적(실제 구성소)이라면, 외부 문맥을 마스킹해도 표현 변화가 비구성소 스팬보다 적어야 합니다.
PLM은 여러 레이어로 구성되며, 각 레이어는 서로 다른 유형의 언어 정보를 인코딩합니다. 저자들은 각 레이어를 독립적으로 평가하고, 레이어 집계 전략(레이어 간 평균, 최적 단일 레이어 선택)도 탐구합니다.
그 결과 중간 레이어(예: BERT-base의 6-9번 레이어)가 문법 유도에 가장 유용한 통사 정보를 인코딩하며, 초기 레이어는 표면적 특성(예: 위치 정보, 문자 수준 패턴)을, 후기 레이어는 태스크 지향적 의미를 인코딩함을 발견합니다. 이 발견은 당시에는 아직 충분히 확립되지 않았던 트랜스포머 레이어의 "언어적 파이프라인" 관점과 일치합니다.
중요하게도, 저자들은 서브워드 토큰 처리도 조사합니다: BERT는 WordPiece 토크나이제이션을 사용하므로, 스팬 스코어링을 단어 수준에서 적용하기 전에 여러 토큰으로 분리된 단어를 (평균을 통해) 단일 표현으로 합쳐야 합니다.
1단계에서 얻은 스팬 점수를 바탕으로, 표준 CKY 스타일 동적 프로그래밍 알고리즘이 총 구성소 점수를 최대화하는 이진 트리를 찾습니다. 형식적으로, 길이 n인 문장에 대해 알고리즘은 O(n2)개의 가능한 스팬을 모두 고려하고, 유효한 이진 트리를 형성하면서 구성소 점수 합을 최대화하는 겹치지 않는 스팬 집합을 동적 프로그래밍으로 선택합니다.
이를 통해 학습이나 파라미터 추정 없이 각 문장에 대한 완전한 비레이블 구성 구문 분석을 생성합니다 -- 순전히 PLM의 고정된 표현만을 활용합니다. 이 방법은 완전히 비지도입니다: 레이블된 구문 트리도, 문법 규칙도, 학습 가능한 파라미터도 관여하지 않습니다.
동일한 탐사 프레임워크를 여러 PLM 아키텍처에 균일하게 적용하여, 발견이 특정 모델 계열이나 사전학습 목적 함수를 넘어 일반화되는지 검증합니다:
BERT (양방향 마스크드 LM): 마스크드 언어 모델링과 트랜스포머 인코더를 사용합니다. 양방향 어텐션을 통해 각 토큰이 좌우 문맥 모두에 주의를 기울일 수 있어, 내부-외부 비교가 특히 자연스럽습니다.
ELMo (양방향 LSTM LM): 순방향과 역방향 LSTM을 연결하여 사용합니다. 트랜스포머가 아닌 아키텍처로서, 통사적 인식이 어텐션 기반 모델에 특유한 것인지 검증합니다.
XLNet (순열 기반 자기회귀 LM): Transformer-XL과 순열 언어 모델링을 사용합니다. BERT의 양방향 학습이 필수적인지, 아니면 순열 기반 목적 함수로도 구 구조를 포착할 수 있는지 검증합니다.
표준 Penn Treebank (PTB) Wall Street Journal (WSJ) 코퍼스의 Section 23(표준 테스트 셋)에서 실험을 수행합니다. 두 가지 평가 설정을 사용합니다: WSJ10(길이 10 이하 문장, Klein & Manning, 2002 이래 비지도 파싱의 전통적 설정)과 전체 WSJ 테스트 셋(모든 문장 길이). 성능은 골드 구성 구문 트리에 대한 비레이블 문장 수준 F1으로 측정되며, 표준 관례에 따라 구두점은 제거됩니다.
평가 프로토콜 상세: 비지도 파싱의 관례에 따라, 자명한 스팬(단일 단어 및 전체 문장)은 평가에서 제외됩니다. 생성된 트리는 공정한 비교를 위해 이진화됩니다. BERT/XLNet의 다중 토큰 단어(서브워드 토크나이제이션으로 인한)의 경우, 스팬 스코어링 전에 모든 서브워드 토큰의 은닉 상태를 평균하여 병합합니다. 테스트 셋에서 하이퍼파라미터 튜닝은 수행하지 않으며 -- 유일한 선택은 어떤 레이어를 사용할지이며, 이는 레이블된 트리 없이 소규모 검증 셋에서 선택할 수 있습니다.
| 모델 | 유형 | F1 (%) |
|---|---|---|
| 랜덤 트리 | 기준선 | 34.7 |
| 좌분지(Left Branching) | 기준선 | 28.7 |
| 우분지(Right Branching) | 기준선 | 56.7 |
| PRPN (Shen et al., 2018) | 문법 유도 | 47.9 |
| ON-LSTM (Shen et al., 2019) | 문법 유도 | 49.4 |
| URNNG (Kim et al., 2019) | 문법 유도 | 52.4 |
| BERT-base (ours) | PLM 탐사 | 51.6 |
| BERT-large (ours) | PLM 탐사 | 53.6 |
| ELMo (ours) | PLM 탐사 | 42.8 |
| XLNet (ours) | PLM 탐사 | 48.3 |
| 모델 | 유형 | F1 (%) |
|---|---|---|
| 우분지(Right Branching) | 기준선 | 39.8 |
| PRPN (Shen et al., 2018) | 문법 유도 | 38.1 |
| ON-LSTM (Shen et al., 2019) | 문법 유도 | 39.0 |
| BERT-large (ours) | PLM 탐사 | 45.6 |
종합적인 F1 점수를 넘어, 저자들은 유도된 트리에 대한 정성적 분석을 수행합니다. PLM 기반 파서는 영어에서 가장 빈번한 구성소 유형인 명사구(NP)와 전치사구(PP)를 정확하게 식별하는 경향을 보입니다. 등위 접속 구조(예: "X and Y")도 비교적 잘 처리합니다. 그러나 동사구(VP), 특히 복잡한 보어 구조나 부가어를 포함하는 VP 경계에서는 어려움을 겪는 경우가 있습니다.
구성소 유형별 분석: 구성소 레이블별 재현율(recall) 분석에 따르면, 본 방법은 NP(명사구)와 PP(전치사구)에서 가장 높은 재현율을 달성하며, 이 두 유형은 PTB에서 비자명 스팬의 대다수를 차지합니다. VP(동사구)와 SBAR(종속절)에서의 성능은 상대적으로 낮아, 이러한 상위 수준의 구조적 결정은 PLM의 스팬 표현에 덜 직접적으로 인코딩되어 있음을 시사합니다.
세 가지 제안된 스코어링 함수 중 코사인 유사도(sim) 변형이 전반적으로 가장 우수한 성능을 보이며, 노름 기반 변형이 그 뒤를 따릅니다. 교란 기반 방법은 개념적으로 흥미롭지만 레이어에 따른 성능 변동이 더 큽니다. 이는 표현 공간에서의 단순한 기하학적 관계만으로도 구성소를 감지하기에 충분하며, 더 복잡한 탐사 메커니즘이 반드시 도움이 되는 것은 아님을 시사합니다.
ICLR 2020에 발표된 본 논문은 NLP와 표현 학습의 후속 연구 방향에 영향을 미친 여러 중요한 기여를 했습니다: