EN KO
← 전체 논문 목록

Heads-up! Unsupervised Constituency Parsing via Self-Attention Heads

AACL-IJCNLP 2020
Bowen Li, Taeuk Kim, Reinald Kim Amplayo, Frank Keller

한줄 요약

트랜스포머 셀프 어텐션 헤드를 고유 속성 기반으로 순위화하고 앙상블하여, 레이블 데이터나 개발 세트 없이도 경쟁력 있는 구문 분석 성능을 달성하는 완전 비지도 구문 분석 방법으로, 사전학습 언어 모델이 암묵적으로 학습한 문법 분석까지 가능하게 합니다.

논문 개요
Figure 1. BERT-base-cased에서 선택된 어텐션 헤드 수(K)와 파싱 성능(F1)의 관계. 비지도 파싱을 위한 헤드 선택의 트레이드오프를 보여줍니다.

배경 및 동기

구문 분석(constituency parsing)은 문장을 명사구(NP), 동사구(VP), 전치사구(PP) 등 중첩된 하위 구(phrase)로 분해하는 자연어처리의 핵심 과제입니다. 전통적으로 Penn Treebank(PTB)과 같은 약 40,000개 문장에 대한 고비용 트리뱅크 주석이 필요하며, 비지도 구문 분석은 레이블 데이터 없이 이러한 계층적 구조를 복원하는 것을 목표로 하지만 지도학습 방법에 비해 성능이 크게 뒤처져 왔습니다.

한편, BERT와 같은 사전학습 언어 모델(PLM)은 내부 표현에 놀라울 정도로 풍부한 구문 정보를 인코딩하는 것으로 밝혀져 왔습니다. 자연스러운 질문이 떠오릅니다: 구문 특성을 단순히 프로빙하는 것이 아니라, PLM의 어텐션 패턴에서 직접 구문 트리를 추출할 수 있을까? Kim et al. (2020)의 선행 연구에서 개별 BERT 어텐션 헤드가 구문 트리를 생성할 수 있음을 보였으나, 최적 헤드를 선택하기 위해 레이블된 개발 세트가 필요했습니다 — 비지도 전제를 훼손하는 치명적 한계였습니다.

본 연구가 해결하는 핵심 문제:

  • 프로빙의 한계: PLM의 구문 지식을 분석하는 기존 연구는 외부 프로빙 분류기(예: 은닉 상태에 대한 선형 프로브)나 특정 테스트 세트(예: 주어-동사 일치)에 의존했으나, 이러한 방법은 자체적으로 교란 요인을 도입하며 — 높은 프로빙 성능이 모델의 지식이 아닌 프로브 자체의 용량을 반영할 수 있음 — 직접적으로 구문 트리를 생성할 수 없습니다.
  • 개발 세트 의존성: PLM을 활용하는 기존 비지도 구문 분석 방법(예: 오라클 비교를 통한 최적 어텐션 헤드 선택)은 하이퍼파라미터 선택을 위해 레이블된 개발 세트가 필요하여, 진정한 비지도 설정을 훼손합니다. 실질적으로 “비지도” 파싱을 위해 트리뱅크가 필요하다는 모순적 요구 사항입니다.
  • 저자원 언어 적용성: 트리뱅크가 전혀 없는 저자원 언어 — 전 세계 7,000개 이상 언어의 대다수 — 에는 개발 데이터 없이 작동하는 방법이 필수적이지만, 기존 접근법은 이 제약 하에서 작동할 수 없었습니다.
  • 해석 가능성 부재: 서로 다른 PLM이 암묵적으로 학습한 문법을 단순한 트리 정확도가 아닌 문법 규칙 수준에서 인간 주석 트리뱅크와 정량적으로 비교할 원칙적 방법이 부재했습니다.

본 논문은 (1) 어텐션 패턴에서 직접 구문 트리를 추출하고, (2) 개발 세트나 레이블 데이터가 필요 없으며, (3) 다양한 PLM과 언어에 걸쳐 작동하고, (4) 유도된 PCFG를 통한 문법 수준 분석을 가능하게 하는 방법을 제안하여 네 가지 문제를 모두 해결합니다. 핵심 통찰은 구문 정보가 여러 어텐션 헤드에 분산되어 있으며, 트리 구조 품질에 기반한 비지도 기준이 가장 유용한 헤드를 식별하고 결합할 수 있다는 것입니다.

제안 방법

본 접근법은 어텐션 행렬에서 스팬 점수를 계산하고, 비지도 방식으로 가장 구문적으로 유용한 헤드를 순위화 및 선택한 뒤, 탐욕적 하향식 알고리즘으로 트리를 구축하는 세 단계로 구성됩니다. 선택적 네 번째 단계에서는 분석 목적의 명시적 문법을 유도합니다.

1
어텐션 기반 스팬 점수 산출

레이어 l의 각 어텐션 헤드 h에 대해, 길이 n인 문장 내 가능한 모든 텍스트 스팬 (i, j)의 구문 친화도 점수를 계산합니다. n × n 크기의 어텐션 행렬 A가 주어지면, 스팬 점수는 스팬 내부 토큰이 서로에게 얼마나 주의를 기울이는지(스팬 내부 어텐션 질량)와 외부 토큰에 대한 어텐션의 비율로 계산됩니다. 높은 점수는 해당 토큰들이 자기 완결적인 어텐션 클러스터를 형성함을 나타내며, 이는 구문적 구성소의 기대되는 특성입니다 — “the big red ball”과 같은 구 내의 단어들은 주로 서로에게 주의를 기울여야 합니다.

이 점수는 문장 내 모든 O(n2)개의 가능한 스팬에 대해 계산되어, 각 어텐션 헤드에 대한 완전한 스팬 점수 차트를 생성합니다. 이 차트는 CKY 파싱에서 사용하는 차트와 유사하지만, 학습된 문법 규칙이 아닌 사전학습된 어텐션 패턴에서 점수가 산출됩니다.

2
비지도 헤드 순위화 및 앙상블

모든 어텐션 헤드가 구문을 인코딩하는 것은 아닙니다 — 많은 헤드가 위치 패턴(예: 이전 또는 다음 토큰에 주의), 구두점, 또는 의미적 관계에 주의를 기울입니다. 본 논문은 각 헤드가 유도한 트리의 구조적 속성에 기반한 비지도 순위화 기준을 도입합니다.

이 기준은 헤드가 코퍼스 전체에서 생성하는 트리들의 분기 엔트로피(branching entropy)를 측정합니다: 항상 좌분기 트리(항상 첫 단어를 분리)나 항상 우분기 트리(마지막 단어를 분리)를 생성하는 헤드는 낮은 점수를 받습니다. 이러한 트리는 자명하게 퇴화되어 실제 구문 정보를 담지 않기 때문입니다. 반면, 실제 문장 구조에 따라 때로는 좌분기, 때로는 우분기하는 등 다양하고 비자명한 분기 패턴을 보이는 헤드는 높은 점수를 받으며, 이 변동성은 구문에 대한 진정한 민감성을 나타냅니다.

상위 K개 헤드(일반적으로 K = 5–15)의 스팬 점수를 요소별로 평균하여, 서로 다른 헤드와 레이어의 상보적 구문 정보를 활용한 강건한 복합 신호를 생성합니다. 이 순위화에는 레이블 데이터나 개발 세트가 전혀 필요 없으며 — 대상 도메인의 비레이블 텍스트만 있으면 됩니다.

3
탐욕적 하향식 트리 구축

앙상블된 스팬 점수를 바탕으로, 탐욕적 하향식 알고리즘이 재귀적으로 구문 트리를 구축합니다. 전체 문장 스팬 (1, n)에서 시작하여, 두 결과 하위 스팬의 점수 합 score(1, k) + score(k+1, n)을 최대화하는 분할점 k를 찾습니다. 그런 다음 각 하위 스팬에 대해 재귀적으로 진행하여, 개별 토큰(길이 1의 스팬)에 도달할 때까지 계속합니다.

이를 통해 레이블 없는 이진 구문 트리가 생성됩니다. 알고리즘의 시간 복잡도는 문장당 O(n2)로(재귀 각 수준에서의 선형 탐색), 차트 파싱 접근법에 비해 매우 효율적입니다. 결과 트리는 이진화되어 — 각 내부 노드가 정확히 두 자식을 가짐 — PTB의 이진화된 골드 스탠다드 트리와의 평가에 표준적입니다.

4
신경 PCFG를 통한 문법 유도 (분석)

추가 분석 도구로, 유도된 구문 트리를 지도 신호로 사용하여 Kim et al. (2019)의 compound PCFG 프레임워크를 따르는 신경 PCFG(확률적 문맥자유문법)를 학습합니다. 신경 PCFG는 신경망으로 매개변수화된 명시적 생성 규칙(예: S → NP VP, NP → DT NN)과 관련 확률을 학습합니다.

이를 통해 서로 다른 PLM이 포착한 암묵적 문법을 정량적으로 비교할 수 있습니다: BERT, GPT-2, XLNet 등에서 유도된 트리로 각각 별도의 PCFG를 학습한 뒤, 결과 규칙 분포를 PTB의 인간 주석 문법과 비교합니다. 이 비교를 통해 각 모델이 어떤 구 유형을 잘 포착하는지(예: NP vs. VP), 어떤 구문이 문제가 되는지, 서로 다른 PLM 아키텍처의 암묵적 문법이 어떻게 체계적으로 다른지를 드러냅니다.

실험 결과

Penn Treebank의 WSJ10(10단어 이하 문장) 및 WSJ 테스트 세트(섹션 23, 전체 길이)에서 전통적 비지도 파서 및 PLM 기반 접근법과 비교하여 평가하였습니다. BERT(base/large, cased/uncased), GPT-2, XLNet, RoBERTa 등 다양한 PLM을 테스트하였습니다. 모든 결과는 비레이블 F1을 평가 지표로 사용합니다.

PTB 비지도 구문 분석 F1 (개발 세트 미사용)

방법WSJ10 F1WSJ Test F1
PRPN (Shen et al., 2018)70.538.3
ON-LSTM (Shen et al., 2019)65.147.7
URNNG (Kim et al., 2019)73.651.6
단일 최적 헤드 (오라클)52.1
Heads-up! (본 방법, BERT-base)69.549.4
Heads-up! (본 방법, BERT-large)71.350.8

“단일 최적 헤드 (오라클)” 결과는 어느 헤드가 최선인지 식별하기 위해 레이블된 개발 세트가 필요하므로 진정한 비지도가 아닙니다. 제안 방법은 이러한 지도 없이 BERT-large로 50.8 F1을 달성하여, 오라클 헤드 선택과의 차이를 1.3 F1 이내로 좁힙니다.

다양한 PLM에서의 성능

사전학습 모델WSJ Test F1전체 헤드 수선택된 K
BERT-base-cased49.4144~10
BERT-base-uncased48.2144~10
BERT-large-cased50.8384~15
GPT-240.1144~10
XLNet-base45.7144~10
RoBERTa-base47.3144~10

레이어별 분석

PLM에서 구문은 어디에 존재하는가?

헤드 순위화 분석은 테스트된 모든 모델에서 명확한 패턴을 드러냅니다:

  • 초기 레이어 (1–3층): 위치 기반 어텐션 헤드가 지배적으로, 이전 토큰, 다음 토큰, 또는 첫 번째 토큰에 주의를 기울입니다. 이들은 거의 좌분기 또는 우분기 트리를 생성하여 순위화 기준에서 낮은 점수를 받습니다.
  • 중간 레이어 (4–8층): 가장 높은 순위의 헤드를 포함합니다. 이 헤드들은 실제 구문 구조와 상관되는 다양한 분기 패턴을 보이며, 종종 특정 구성소 유형에 특화됩니다(예: 한 헤드는 NP 식별에 특히 뛰어나고 다른 헤드는 VP를 잘 포착).
  • 후기 레이어 (9–12층): 어텐션 패턴이 더 확산되고 의미 지향적입니다. 이 헤드들은 긴밀한 구문 클러스터를 형성하기보다 긴 거리에 걸친 관련 단어에 주의를 기울이는 경향이 있습니다(예: 상호참조와 유사한 패턴).

문법 유도 분석

신경 PCFG 분석은 서로 다른 PLM이 문장 구조를 어떻게 개념화하는지에 대한 통찰을 제공합니다:

의의

본 연구는 비지도 구문 분석과 PLM 해석 가능성의 교차점에서 여러 중요한 기여를 합니다:

링크

Parsing & Syntax