EN KO
← 전체 논문 목록

Revisiting the Practical Effectiveness of Constituency Parse Extraction from Pre-trained Language Models

COLING 2022
Taeuk Kim

한줄 요약

사전학습 언어 모델에서의 구문 분석 추출(CPE-PLM)을 엄밀히 재검토하고, 이종 PLM의 어텐션 헤드를 결합하는 새로운 앙상블 기법을 제안하여 PTB에서 55.7 F1을 달성 -- 비지도 파서와 동등한 성능을 보이며, 퓨샷 환경에서는 지도 학습 파서를 크게 능가함을 입증한 연구.

논문 개요
Figure 1. CPE-PLM(사전학습 언어 모델에서의 구문 분석 추출) 개념도. 단일 어텐션 헤드, Top-K 앙상블, 레이어별 앙상블 등 다양한 앙상블 방법을 보여줍니다.

배경 및 동기

사전학습 언어 모델에서의 구문 분석 추출(CPE-PLM)은 태스크별 파인튜닝 없이 사전학습 언어 모델의 내부 지식만을 활용하여 구문 분석 트리를 유도하려는 최근의 패러다임입니다. 핵심 아이디어는 BERT, RoBERTa 등의 PLM이 어텐션 패턴과 은닉 표현에 구문 구조를 인코딩하고 있으며, 이를 차트 기반 알고리즘으로 디코딩하여 파스 트리를 얻을 수 있다는 것입니다.

기존 연구의 주요 한계점:

  • 비일관적 평가: 기존 연구들은 서로 다른 PLM, 레이어 선택 전략, 거리 메트릭, 디코딩 알고리즘을 사용하여 공정한 비교가 불가능했습니다.
  • 제한된 범위: 대부분의 평가가 단일 PLM이나 좁은 구성 집합에 집중되어, CPE-PLM이 진정으로 달성할 수 있는 성능의 전체 그림을 놓치고 있었습니다.
  • 미탐색된 앙상블 잠재력: 개별 어텐션 헤드의 파싱 능력은 제한적이지만, 여러 헤드, 레이어, 나아가 여러 PLM에 걸쳐 정보를 결합하는 잠재력은 체계적으로 탐구되지 않았습니다.
  • 불명확한 실용적 가치: 학습이 필요 없는 CPE-PLM이 기존의 비지도 또는 지도 학습 파서 대비 실제 시나리오에서 어떤 실용적 이점을 제공할 수 있는지 불분명했습니다.

본 논문은 CPE-PLM의 수학적 재정식화, 새로운 앙상블 기법 제안, 그리고 다국어, 하류 태스크, 다양한 데이터 환경에 걸친 포괄적 실험을 통해 이 모든 격차를 해소합니다. 총 16개의 PLM(영어 12개, 다국어 4개)을 체계적으로 평가하며, 인코더 기반(BERT, RoBERTa, ELECTRA), 디코더 기반(GPT-2, CTRL), 하이브리드 아키텍처(XLNet, BART)를 모두 포괄하는 가장 광범위한 CPE-PLM 평가를 수행합니다.

제안 방법

본 논문은 먼저 CPE-PLM을 통합된 수학적 프레임워크로 재정식화하여 기존 접근법들 간의 관계를 명확히 하고, 원칙적인 앙상블 전략을 가능하게 합니다.

핵심 정식화

주어진 문장에 대해, 각 어텐션 헤드가 스팬에 대한 쌍별 점수 함수를 제공합니다. 트리 점수는 다음과 같이 분해됩니다:

stree(T) = Σ(i,j)∈T sspan(i,j)

스팬 점수는 재귀적으로 정의됩니다: i < j일 때 sspan(i,j) = scomp(i,j) + mini≤k<j ssplit(i,k,j), sspan(i,i) = 0. 분할 점수는 ssplit(i,k,j) = sspan(i,k) + sspan(k+1,j)로 추가 분해됩니다. 파스 트리는 총 트리 점수를 최소화하는 CKY 알고리즘을 통해 탐색합니다: T̂ = argminT stree(T).

어텐션 분포 간의 발산을 측정하기 위해 Jensen-Shannon 발산(JSD)Hellinger 거리(HEL) 두 가지 거리 함수를 사용하며, Hellinger 거리가 단순성과 동등한 효과 면에서 선호됩니다.

1
수학적 재정식화
쌍 점수 함수는 sp(i,j) := C(j-i+1,2)-1 Σ f(g(wx), g(wy))로 정의됩니다. 여기서 g(m,n)m번째 레이어의 n번째 헤드에서 어텐션 분포를 추출하고, f는 단어 쌍의 어텐션 분포 간 거리를 측정합니다. 이 정식화는 기존 접근법들을 단일 프레임워크로 통합하고, 원칙적인 앙상블 전략을 가능하게 합니다. l개의 레이어와 a개의 헤드를 가진 PLM에서 l × a개의 후보 트리가 생성됩니다.
2
Greedy 앙상블
최고 성능의 단일 어텐션 헤드에서 시작하여, 검증 셋에서 전체 파싱 성능이 향상되면 추가 헤드를 순차적으로 앙상블에 추가합니다. 정렬된 후보 헤드 집합 Gsorted를 순회하며, 검증 성능 향상에 기여하는 헤드만 유지합니다. 참여 헤드 수에 고정된 제한이 없어, 최적의 앙상블 크기를 적응적으로 결정합니다.
3
Beam 앙상블
신경망 텍스트 생성의 빔 서치에서 영감을 받아, 각 확장 단계에서 b개의 최고 가설(헤드 조합)을 유지합니다. 각 반복에서 현재 모든 가설에 후보 헤드를 하나씩 추가하고 평가하여, 상위 b개 조합만 유지합니다. 각 헤드는 최대 한 번만 선택됩니다(비복원). 빔 크기는 단일 PLM에서 b=5, 다중 PLM에서 b=30으로 설정하여, 탐욕적 지역 최적해를 적절한 계산 비용으로 회피합니다.
4
다중 PLM 확장
어텐션 헤드 후보 풀을 단일 PLM을 넘어 P개의 이종 모델로 확장하여 결합된 트리 풀을 구성합니다: τmulti := {T̂(p,m,n) | p∈{1,...,P}, m∈{1,...,l}, n∈{1,...,a}}. 앙상블은 모든 PLM의 모든 가용 헤드 중에서 최적의 조합을 선택하여, 서로 다른 아키텍처에 인코딩된 상보적 구문 지식을 활용합니다. 총 16개 PLM 평가: 영어 12개(BERT-base/large, RoBERTa-base/large, ELECTRA-base/large, GPT-2, GPT-2-medium, CTRL, BART-large, XLNet-base/large) 및 다국어 4개(MBERT, XLM, XLM-R, XLM-R-large).

실험 결과

단일 PLM 성능 (PTB, 주요 모델)

PLM최고 단일 헤드Greedy 앙상블Beam 앙상블
BERT-base42.743.0--
BERT-large44.245.0--
RoBERTa-large41.947.2--
ELECTRA-large44.347.9--
XLNet-large46.447.2--
XLM-R46.748.5--
기존 최고 (Kim et al., 2021)47.7

CPE-PLM vs. 비지도 파서 (PTB 테스트셋)

모델유형F1NPVPPPADVP
PRPN비지도47.359465732
ON-LSTM비지도48.164415431
Neural PCFG비지도50.871335845
Compound PCFG비지도55.274416852
Neural L-PCFG비지도55.367486558
XLM-R + GreedyCPE-PLM (단일)48.569296273
All PLMs + GreedyCPE-PLM (다중)55.375367676
All PLMs + BeamCPE-PLM (다중)55.774427572

구문 유형별 분석: CPE-PLM은 NP(75%), PP(76%), ADVP(76%) 구성소 인식에서 뛰어나며, PP와 ADVP에서는 비지도 파서를 크게 능가합니다. 그러나 VP 재현율(42%)은 Neural L-PCFG(48%) 대비 상대적 약점으로, 동사구 경계가 어텐션 패턴만으로는 포착하기 어려움을 시사합니다.

다국어 결과 (9개 언어, F1)

방법평균ENEUFRDEHEHUKOPLSV
Top-K (MBERT)39.844.639.335.935.937.833.247.551.132.6
Greedy (MBERT)40.447.140.236.937.538.630.249.152.431.9
Greedy (전체 MLM)47.551.944.041.947.348.140.153.761.439.0

4개의 다국어 PLM(MBERT, XLM, XLM-R, XLM-R-large)을 결합하면 평균 F1이 40.4에서 47.5로 +7.1 포인트 향상됩니다. 폴란드어가 61.4 F1로 가장 높은 점수를 달성하며, 한국어(53.7)와 영어(51.9)가 그 뒤를 잇습니다. 유형론적으로 다양한 9개 언어 전반에 걸친 일관된 향상은 다중 PLM 시너지가 언어 비의존적 현상임을 확인합니다.

퓨샷 파싱: CPE-PLM vs. 지도 학습 파서 (Benepar)

주석 수CPE-PLM GreedyCPE-PLM BeamBenepar (지도 학습)
146.245.411.6
248.445.912.5
549.947.712.5
1049.149.614.0
17 (데이터의 1%)49.451.331.1
100% 검증셋55.355.792.2

검증셋 의존도

검증 데이터Greedy F1상대적 손실Beam F1상대적 손실
1%49.4-5.9%51.3-4.5%
2%49.9-5.3%49.8-6.0%
5%52.7-2.5%51.8-4.0%
10%54.3-0.9%52.9-2.9%
100%55.3--55.7--

검증 데이터의 1%(17개 주석 트리)만으로도 CPE-PLM은 전체 성능의 90% 이상을 유지하여, 극단적인 데이터 효율성을 확인합니다.

하류 태스크: URNNG 학습

구성퍼플렉시티F1
Compound PCFG85.457.8
CPE-PLM (All + Greedy) → URNNG81.357.2
CPE-PLM (All + Beam) → URNNG82.060.7

CPE-PLM이 유도한 트리로 URNNG를 학습하면 파싱 F1이 55.7에서 60.7로 +5 포인트 향상되어, CPE-PLM 트리가 전용 파서 학습을 위한 효과적인 감독 신호로 기능함을 보여줍니다.

하류 태스크: TreeLSTM 분류 정확도

파스 소스SST-2MRSUBJTREC
우분기 기준선85.7283.3794.8094.50
CPE-PLM (All + Beam)86.1083.6294.8594.75
지도 학습 파서86.7083.6295.1295.05

CPE-PLM 트리는 4개 텍스트 분류 벤치마크 모두에서 우분기 기준선을 일관되게 능가하며, 지도 학습 파서 트리에 근접한 성능을 보여 유도된 구문 구조가 하류 응용에 의미 있는 정보를 담고 있음을 확인합니다.

추론 시간 비교

접근법F1시간
Compound PCFG55.231분
CPE-PLM (Greedy)55.327분
CPE-PLM으로 학습한 거리 기반 파서55.036초
CPE-PLM으로 학습한 Benepar59.332초

CPE-PLM에서 지도 학습 파서(Benepar)로의 지식 증류는 추론 시간을 27분에서 32초로 단축하면서 오히려 F1을 55.7에서 59.3으로 향상시켜, 실용적인 배포 경로를 제시합니다.

의의

본 논문은 구문 분석 및 PLM 해석 가능성 분야에 다음과 같은 중요한 기여를 합니다:

링크

Parsing & Syntax