Revisiting the Practical Effectiveness of Constituency Parse Extraction from Pre-trained Language Models

한줄 요약

사전학습 언어 모델에서의 구문 분석 추출(CPE-PLM)을 엄밀히 재검토하고, 이종 PLM의 어텐션 헤드를 결합하는 새로운 앙상블 기법을 제안하여 PTB에서 55.7 F1을 달성 -- 비지도 파서와 동등한 성능을 보이며, 퓨샷 환경에서는 지도 학습 파서를 크게 능가함을 입증한 연구.

배경 및 동기

사전학습 언어 모델에서의 구문 분석 추출(CPE-PLM)은 태스크별 파인튜닝 없이 사전학습 언어 모델의 내부 지식만을 활용하여 구문 분석 트리를 유도하려는 최근의 패러다임입니다. 핵심 아이디어는 BERT, RoBERTa 등의 PLM이 어텐션 패턴과 은닉 표현에 구문 구조를 인코딩하고 있으며, 이를 차트 기반 알고리즘으로 디코딩하여 파스 트리를 얻을 수 있다는 것입니다.

기존 연구의 주요 한계점:

비일관적 평가: 기존 연구들은 서로 다른 PLM, 레이어 선택 전략, 거리 메트릭, 디코딩 알고리즘을 사용하여 공정한 비교가 불가능했습니다.
제한된 범위: 대부분의 평가가 단일 PLM이나 좁은 구성 집합에 집중되어, CPE-PLM이 진정으로 달성할 수 있는 성능의 전체 그림을 놓치고 있었습니다.
미탐색된 앙상블 잠재력: 개별 어텐션 헤드의 파싱 능력은 제한적이지만, 여러 헤드, 레이어, 나아가 여러 PLM에 걸쳐 정보를 결합하는 잠재력은 체계적으로 탐구되지 않았습니다.
불명확한 실용적 가치: 학습이 필요 없는 CPE-PLM이 기존의 비지도 또는 지도 학습 파서 대비 실제 시나리오에서 어떤 실용적 이점을 제공할 수 있는지 불분명했습니다.

본 논문은 CPE-PLM의 수학적 재정식화, 새로운 앙상블 기법 제안, 그리고 다국어, 하류 태스크, 다양한 데이터 환경에 걸친 포괄적 실험을 통해 이 모든 격차를 해소합니다. 총 16개의 PLM(영어 12개, 다국어 4개)을 체계적으로 평가하며, 인코더 기반(BERT, RoBERTa, ELECTRA), 디코더 기반(GPT-2, CTRL), 하이브리드 아키텍처(XLNet, BART)를 모두 포괄하는 가장 광범위한 CPE-PLM 평가를 수행합니다.

제안 방법

본 논문은 먼저 CPE-PLM을 통합된 수학적 프레임워크로 재정식화하여 기존 접근법들 간의 관계를 명확히 하고, 원칙적인 앙상블 전략을 가능하게 합니다.

핵심 정식화

주어진 문장에 대해, 각 어텐션 헤드가 스팬에 대한 쌍별 점수 함수를 제공합니다. 트리 점수는 다음과 같이 분해됩니다:

s_tree(T) = Σ_(i,j)∈T s_span(i,j)

스팬 점수는 재귀적으로 정의됩니다: i < j일 때 s_span(i,j) = s_comp(i,j) + min_i≤k<j s_split(i,k,j), s_span(i,i) = 0. 분할 점수는 s_split(i,k,j) = s_span(i,k) + s_span(k+1,j)로 추가 분해됩니다. 파스 트리는 총 트리 점수를 최소화하는 CKY 알고리즘을 통해 탐색합니다: T̂ = argmin_T s_tree(T).

어텐션 분포 간의 발산을 측정하기 위해 Jensen-Shannon 발산(JSD)과 Hellinger 거리(HEL) 두 가지 거리 함수를 사용하며, Hellinger 거리가 단순성과 동등한 효과 면에서 선호됩니다.

1

수학적 재정식화

쌍 점수 함수는 s_p(i,j) := C(j-i+1,2)^-1 Σ f(g(w_x), g(w_y))로 정의됩니다. 여기서 g(m,n)은 m번째 레이어의 n번째 헤드에서 어텐션 분포를 추출하고, f는 단어 쌍의 어텐션 분포 간 거리를 측정합니다. 이 정식화는 기존 접근법들을 단일 프레임워크로 통합하고, 원칙적인 앙상블 전략을 가능하게 합니다. l개의 레이어와 a개의 헤드를 가진 PLM에서 l × a개의 후보 트리가 생성됩니다.

2

Greedy 앙상블

최고 성능의 단일 어텐션 헤드에서 시작하여, 검증 셋에서 전체 파싱 성능이 향상되면 추가 헤드를 순차적으로 앙상블에 추가합니다. 정렬된 후보 헤드 집합 G_sorted를 순회하며, 검증 성능 향상에 기여하는 헤드만 유지합니다. 참여 헤드 수에 고정된 제한이 없어, 최적의 앙상블 크기를 적응적으로 결정합니다.

3

Beam 앙상블

신경망 텍스트 생성의 빔 서치에서 영감을 받아, 각 확장 단계에서 b개의 최고 가설(헤드 조합)을 유지합니다. 각 반복에서 현재 모든 가설에 후보 헤드를 하나씩 추가하고 평가하여, 상위 b개 조합만 유지합니다. 각 헤드는 최대 한 번만 선택됩니다(비복원). 빔 크기는 단일 PLM에서 b=5, 다중 PLM에서 b=30으로 설정하여, 탐욕적 지역 최적해를 적절한 계산 비용으로 회피합니다.

4

다중 PLM 확장

어텐션 헤드 후보 풀을 단일 PLM을 넘어 P개의 이종 모델로 확장하여 결합된 트리 풀을 구성합니다: τ_multi := {T̂_(p,m,n) | p∈{1,...,P}, m∈{1,...,l}, n∈{1,...,a}}. 앙상블은 모든 PLM의 모든 가용 헤드 중에서 최적의 조합을 선택하여, 서로 다른 아키텍처에 인코딩된 상보적 구문 지식을 활용합니다. 총 16개 PLM 평가: 영어 12개(BERT-base/large, RoBERTa-base/large, ELECTRA-base/large, GPT-2, GPT-2-medium, CTRL, BART-large, XLNet-base/large) 및 다국어 4개(MBERT, XLM, XLM-R, XLM-R-large).

실험 결과

단일 PLM 성능 (PTB, 주요 모델)

PLM	최고 단일 헤드	Greedy 앙상블	Beam 앙상블
BERT-base	42.7	43.0	--
BERT-large	44.2	45.0	--
RoBERTa-large	41.9	47.2	--
ELECTRA-large	44.3	47.9	--
XLNet-large	46.4	47.2	--
XLM-R	46.7	48.5	--
기존 최고 (Kim et al., 2021)	47.7

CPE-PLM vs. 비지도 파서 (PTB 테스트셋)

모델	유형	F1	NP	VP	PP	ADVP
PRPN	비지도	47.3	59	46	57	32
ON-LSTM	비지도	48.1	64	41	54	31
Neural PCFG	비지도	50.8	71	33	58	45
Compound PCFG	비지도	55.2	74	41	68	52
Neural L-PCFG	비지도	55.3	67	48	65	58
XLM-R + Greedy	CPE-PLM (단일)	48.5	69	29	62	73
All PLMs + Greedy	CPE-PLM (다중)	55.3	75	36	76	76
All PLMs + Beam	CPE-PLM (다중)	55.7	74	42	75	72

구문 유형별 분석: CPE-PLM은 NP(75%), PP(76%), ADVP(76%) 구성소 인식에서 뛰어나며, PP와 ADVP에서는 비지도 파서를 크게 능가합니다. 그러나 VP 재현율(42%)은 Neural L-PCFG(48%) 대비 상대적 약점으로, 동사구 경계가 어텐션 패턴만으로는 포착하기 어려움을 시사합니다.

다국어 결과 (9개 언어, F1)

방법	평균	EN	EU	FR	DE	HE	HU	KO	PL	SV
Top-K (MBERT)	39.8	44.6	39.3	35.9	35.9	37.8	33.2	47.5	51.1	32.6
Greedy (MBERT)	40.4	47.1	40.2	36.9	37.5	38.6	30.2	49.1	52.4	31.9
Greedy (전체 MLM)	47.5	51.9	44.0	41.9	47.3	48.1	40.1	53.7	61.4	39.0

4개의 다국어 PLM(MBERT, XLM, XLM-R, XLM-R-large)을 결합하면 평균 F1이 40.4에서 47.5로 +7.1 포인트 향상됩니다. 폴란드어가 61.4 F1로 가장 높은 점수를 달성하며, 한국어(53.7)와 영어(51.9)가 그 뒤를 잇습니다. 유형론적으로 다양한 9개 언어 전반에 걸친 일관된 향상은 다중 PLM 시너지가 언어 비의존적 현상임을 확인합니다.

퓨샷 파싱: CPE-PLM vs. 지도 학습 파서 (Benepar)

주석 수	CPE-PLM Greedy	CPE-PLM Beam	Benepar (지도 학습)
1	46.2	45.4	11.6
2	48.4	45.9	12.5
5	49.9	47.7	12.5
10	49.1	49.6	14.0
17 (데이터의 1%)	49.4	51.3	31.1
100% 검증셋	55.3	55.7	92.2

검증셋 의존도

검증 데이터	Greedy F1	상대적 손실	Beam F1	상대적 손실
1%	49.4	-5.9%	51.3	-4.5%
2%	49.9	-5.3%	49.8	-6.0%
5%	52.7	-2.5%	51.8	-4.0%
10%	54.3	-0.9%	52.9	-2.9%
100%	55.3	--	55.7	--

검증 데이터의 1%(17개 주석 트리)만으로도 CPE-PLM은 전체 성능의 90% 이상을 유지하여, 극단적인 데이터 효율성을 확인합니다.

하류 태스크: URNNG 학습

구성	퍼플렉시티	F1
Compound PCFG	85.4	57.8
CPE-PLM (All + Greedy) → URNNG	81.3	57.2
CPE-PLM (All + Beam) → URNNG	82.0	60.7

CPE-PLM이 유도한 트리로 URNNG를 학습하면 파싱 F1이 55.7에서 60.7로 +5 포인트 향상되어, CPE-PLM 트리가 전용 파서 학습을 위한 효과적인 감독 신호로 기능함을 보여줍니다.

하류 태스크: TreeLSTM 분류 정확도

파스 소스	SST-2	MR	SUBJ	TREC
우분기 기준선	85.72	83.37	94.80	94.50
CPE-PLM (All + Beam)	86.10	83.62	94.85	94.75
지도 학습 파서	86.70	83.62	95.12	95.05

CPE-PLM 트리는 4개 텍스트 분류 벤치마크 모두에서 우분기 기준선을 일관되게 능가하며, 지도 학습 파서 트리에 근접한 성능을 보여 유도된 구문 구조가 하류 응용에 의미 있는 정보를 담고 있음을 확인합니다.

추론 시간 비교

접근법	F1	시간
Compound PCFG	55.2	31분
CPE-PLM (Greedy)	55.3	27분
CPE-PLM으로 학습한 거리 기반 파서	55.0	36초
CPE-PLM으로 학습한 Benepar	59.3	32초

CPE-PLM에서 지도 학습 파서(Benepar)로의 지식 증류는 추론 시간을 27분에서 32초로 단축하면서 오히려 F1을 55.7에서 59.3으로 향상시켜, 실용적인 배포 경로를 제시합니다.

비지도 파서와 동등한 성능: 다중 PLM 빔 앙상블은 55.7 F1을 달성하여 Compound PCFG(55.2)를 능가하고 Neural L-PCFG(55.3)와 동등 -- 어떠한 학습 없이 이를 달성했습니다.
퓨샷에서의 압도적 우위: 주석 데이터 1개만으로 CPE-PLM은 46.2 F1, Benepar는 11.6 F1을 기록합니다. 17개(데이터의 1%)에서도 CPE-PLM이 지도 학습 파싱을 20+ F1 포인트 차이로 능가하여, 저자원 환경에서의 높은 실용성을 입증합니다.
앙상블 다양성이 핵심: 단일 PLM 추출의 최대 성능은 약 47-48 F1이지만, 이종 모델(BERT, RoBERTa, ELECTRA, 다국어 변형)의 헤드를 결합하면 +8.5 F1 향상되어, 서로 다른 PLM이 상보적 구문 지식을 인코딩함을 보여줍니다.
다중 PLM 시너지의 일관성: 이종 앙상블의 이점은 평가된 9개 언어 모두에서 유지되며, 다중 MLM Greedy 앙상블이 평균 F1을 40.4에서 47.5로 +7.1 포인트 향상시킵니다.
하류 태스크에서의 유용성: CPE-PLM이 유도한 파스 트리로 URNNG를 학습하면 60.7 F1(단독 대비 5포인트 상승)을 달성하고, TreeLSTM 분류기에서는 4개 벤치마크 모두에서 지도 학습 파서 다음으로 높은 성능을 기록합니다.
지식 증류를 통한 빠른 배포: CPE-PLM의 출력을 Benepar에 증류하면 32초 만에 59.3 F1을 달성 -- 직접 CPE-PLM 대비 50배 빠르면서 정확도도 3.6 포인트 향상됩니다.
인코더 PLM의 우위: 인코더 기반 모델(BERT, RoBERTa, ELECTRA)이 디코더 기반(GPT-2: 37.2-40.8 F1) 및 하이브리드 아키텍처(BART: 38.5 F1)를 일관되게 능가하여, 양방향 어텐션이 구문 구조 포착에 결정적임을 시사합니다.

의의

본 논문은 구문 분석 및 PLM 해석 가능성 분야에 다음과 같은 중요한 기여를 합니다:

학습 없는 파싱의 실현: CPE-PLM은 학습 데이터나 모델 파인튜닝이 전혀 필요 없으면서도, 대규모 학습이 필요한 비지도 파서와 동등한 결과를 달성합니다. 이는 계산 자원이나 학습 데이터가 제한된 상황에서 매력적인 선택지가 됩니다.
퓨샷 환경에서의 명확한 실용적 틈새: 저데이터 환경에서 지도 학습 파서 대비 압도적 우위(1개 예시에서 46.2 vs. 11.6 F1)는 소수의 주석된 파스 트리만 가용한 경우 CPE-PLM이 최선의 선택임을 확립합니다.
PLM의 구문 지식에 대한 통찰: 다중 PLM 앙상블의 성공은 서로 다른 사전학습 모델이 구문 구조의 상보적 측면을 인코딩하고 있음을 밝혀, PLM이 포착하는 언어 지식과 이를 효과적으로 추출하는 방법에 대한 이해를 심화시킵니다.
실용적 배포 경로: 지식 증류 결과(CPE-PLM을 Benepar에 증류: 32초 만에 59.3 F1)는 CPE-PLM이 단순한 연구적 호기심이 아니라 실제 시스템에 효율적으로 배포될 수 있음을 보여주며, 학습 없는 추출과 실용적 추론 속도 사이의 격차를 해소합니다.
통합된 이론적 프레임워크: 수학적 재정식화는 기존에 단편적이었던 연구 분야에 명확성을 부여하며, 사전학습 모델에서 구조화된 언어 지식을 추출하는 향후 연구를 위한 원칙적 기반을 제공합니다.

링크

ACL Anthology arXiv Paper PDF