EN KO
← 전체 논문 목록

Dynamic Compositionality in Recursive Neural Networks with Structure-aware Tag Representations

AAAI 2019
Taeuk Kim, Jihun Choi, Daniel Edmiston, Sanghwan Bae, Sang-goo Lee

한줄 요약

각 트리 노드에서 구조 인식 태그 표현을 조건으로 합성 함수를 동적으로 변환하는 재귀 신경망 아키텍처(SATA Tree-LSTM)를 제안하여, 구문적으로 적응적인 문장 인코딩을 구현하고 감성 분석 및 자연어 추론 성능을 향상시킵니다.

논문 개요
Figure 2. SATA(Structure-Aware Tag Augmented) Tree-LSTM 아키텍처. 단어 트리-LSTM에 태그 트리-LSTM을 결합하여 동적 합성을 수행합니다.

배경 및 동기

재귀 신경망(RecNN)은 구문 분석 트리를 따라 단어 벡터를 상향식으로 합성하여 문장 표현을 구축합니다. 이러한 트리 구조 계산은 언어학적으로 동기가 부여되지만, 표준 RecNN은 관형어-명사 결합이든, 형용사-명사구 수식이든, 두 독립절의 병합이든 모든 노드에서 동일한 합성 함수를 적용합니다. 그러나 이 서로 다른 구문 구조는 근본적으로 다른 합성 연산을 요구합니다.

핵심 문제: 표준 Tree-LSTM은 구문 트리의 모든 노드에서 하나의 고정된 가중치 행렬 집합을 사용합니다. 즉, 다음과 같이 서로 다른 합성을 수행할 때도 동일한 변환을 적용합니다:

  • NP + VP → S (주어-술어 병합)
  • DT + NN → NP (관형어-명사 결합)
  • JJ + NN → NP (형용사-명사 수식)
  • VP + PP → VP (동사구와 전치사구 부착)

각 구문은 서로 다른 의미적 관계를 포함하지만, 모델은 모든 곳에서 동일한 변환을 적용합니다. 이러한 정적 합성성이 재귀 모델의 표현력을 제한합니다.

이 한계를 해결하려는 기존 시도들은 서로 다른 합성 행렬을 선택하기 위해 수작업 규칙에 의존하거나(예: MV-RNN), 과도하게 큰 파라미터 공간을 필요로 했습니다. 본 연구의 핵심 통찰은 구문 분석 트리에서 이미 제공되는 구성소 태그(constituency parse tags)가 합성 함수를 조건화하기 위한 자연스럽고 컴팩트한 신호를 제공하여, 파라미터 폭발 없이 각 노드의 구문적 역할에 적응하는 동적 합성을 가능하게 한다는 것입니다.

제안 방법: SATA Tree-LSTM

제안 모델인 SATA(Structure-Aware Tag Augmented) Tree-LSTM은 표준 단어 수준 Tree-LSTM과 병렬로 실행되는 태그 수준 재귀 네트워크를 도입합니다. 태그 표현은 각 트리 노드에서 합성 함수를 동적으로 조절하는 데 사용됩니다.

1
태그 임베딩 및 태그 Tree-LSTM
구성소 구문 트리의 각 노드는 해당 구문 태그(예: NP, VP, S, PP)와 연결됩니다. 이 태그들은 연속 벡터로 임베딩되고, 별도의 태그 Tree-LSTM이 상향식으로 구조 인식 태그 표현을 계산합니다. 단순한 태그 조회와 달리, 이 표현은 트리 내에서 태그의 문맥을 포착합니다 — S 노드 아래의 NP는 PP 노드 아래의 NP와 다르게 표현됩니다.
2
동적 가중치 생성
각 내부 노드에서 왼쪽 자식, 오른쪽 자식, 부모의 태그 표현을 연결(concatenate)하여 경량 파라미터 생성 네트워크에 입력합니다. 이 네트워크는 표준 Tree-LSTM 게이트(입력 게이트, 망각 게이트, 출력 게이트, 셀 후보)의 고정 파라미터를 대체하는 노드별 가중치 행렬과 편향 벡터를 생성합니다. 생성 네트워크는 단일 선형 변환과 재구성(reshaping)으로 구현되어 오버헤드를 최소화합니다.
3
구문 조건부 합성
동적으로 생성된 파라미터는 단어 수준에서 자식 은닉 상태를 합성하는 데 사용됩니다. 서로 다른 구문 구성(예: NP+VP vs. DT+NN)이 서로 다른 태그 표현 삼중체를 생성하므로, 모델은 자연스럽게 서로 다른 노드에서 서로 다른 합성 함수를 적용합니다. 트리 루트의 결과 은닉 상태가 문장 표현으로 사용되며, 모든 합성 단계에서 구문 인식이 반영됩니다.

이 아키텍처는 범용적이며 모든 이진 분기 Tree-LSTM 또는 Tree-GRU 변형에 적용할 수 있습니다. 태그 임베딩과 파라미터 생성 네트워크의 추가만 필요하며, 일반적으로 전체 파라미터 수 대비 15% 미만의 증가만 발생합니다.

실험 결과

모델은 두 가지 주요 NLP 벤치마크에서 평가됩니다: 감성 분석을 위한 Stanford Sentiment Treebank(SST)와 자연어 추론을 위한 Stanford Natural Language Inference(SNLI). 두 과제 모두 높은 품질의 문장 표현을 요구하며 합성적 이해로부터 혜택을 받습니다.

감성 분석 (SST)

모델SST-5 (세분류)SST-2 (이진 분류)
Tree-LSTM (기준선)51.088.0
Tree-LSTM + 태그 임베딩51.688.2
SATA Tree-LSTM (제안)52.689.2

자연어 추론 (SNLI)

모델테스트 정확도 (%)
Tree-LSTM (300D, 기준선)85.9
SPINN86.6
SATA Tree-LSTM (제안)87.2

의의

본 연구는 언어학 이론과 신경망 설계 사이의 중요한 간극을 메우며, 재귀적 합성을 구문적으로 인식하게 만듭니다. 그 기여는 여러 방향으로 확장됩니다:

링크

Representation Learning Parsing & Syntax