EN KO
← 전체 논문 목록

Summary Level Training of Sentence Rewriting for Abstractive Summarization

The Second Workshop on New Frontiers in Summarization (NewSum 2019) at EMNLP-IJCNLP 2019
Sanghwan Bae, Taeuk Kim, Jihoon Kim, Sang-goo Lee

한줄 요약

강화학습을 통한 요약 수준 ROUGE 최적화와 BERT 기반 추출기를 도입하여, CNN/Daily Mail 및 New York Times 데이터셋에서 최고 성능을 달성한 추상적 요약을 위한 개선된 문장 재작성 프레임워크입니다.

추출기 네트워크 구조
Figure 1. BERT 및 구간 세그먼트 임베딩을 사용하는 추출기 네트워크 구조 개요.

배경 및 동기

추상적 요약(abstractive summarization)은 문서의 핵심 내용을 간결하고 자연스러운 문장으로 재구성하는 과제입니다. 문장 재작성(Sentence Rewriting) 패러다임(Chen & Bansal, 2018)은 추출적 방법과 추상적 방법을 결합한 2단계 접근법으로, 먼저 추출기가 원문에서 핵심 문장을 선택하고, 이어서 추상기가 각 문장을 더 간결한 형태로 재작성합니다. 최종 요약은 재작성된 문장들의 연결로 구성됩니다.

이 분해 방식은 우아하지만, 기존 문장 재작성 모델에는 두 가지 근본적 한계가 있습니다:

학습-평가 불일치: 추출기는 문장 수준 ROUGE 보상으로 학습됩니다 -- 각 문장이 참조 문장과 독립적으로 매칭되어 개별 ROUGE 점수에 따라 보상을 받습니다. 그러나 최종 모델은 요약 수준 ROUGE로 평가되며, 이는 생성된 전체 요약을 전체 참조 요약과 비교합니다. 개별 점수가 높은 문장들을 탐욕적으로 선택하면 정보가 겹치는 중복 요약이 생성되어 요약 수준 성능이 저하될 수 있습니다.

제한적 문맥 이해: 기존 추출기(예: 시간적 합성곱 네트워크 기반)는 문장 간 장거리 의존성과 풍부한 의미적 관계를 포착하는 능력이 제한되어, 전체 문서 맥락에서 진정으로 핵심적인 내용을 식별하는 데 한계가 있습니다.

제안 방법

제안 모델은 추출기-추상기 2모듈 구조를 유지하되, 두 구성 요소와 학습 절차 모두에 상당한 개선을 도입합니다:

1
BERT 기반 추출기 인코더
BERT를 문서 인코더로 활용합니다. 각 문장 앞에 [CLS] 토큰을 삽입하여 문장 수준 표현으로 사용합니다. BERT의 일반적인 입력 형식을 넘어 다중 문장 문서를 처리하기 위해 구간 세그먼트 임베딩(interval segment embeddings)을 도입합니다: 문장들에 세그먼트 A와 세그먼트 B 임베딩을 교대로 할당하여(BERT의 2세그먼트 설계와 유사), 전체 문서를 처리하면서도 문장 경계를 구분할 수 있게 합니다. 이를 통해 얻어진 [CLS] 표현은 풍부하고 문맥화된 문장 의미를 포착합니다.
2
LSTM 포인터 네트워크 디코더
LSTM 기반 포인터 네트워크가 추출 디코더 역할을 합니다. 각 시간 단계에서 BERT 인코더의 모든 문장 표현에 대해 어텐션을 수행하고 하나의 문장을 선택합니다. LSTM 은닉 상태는 이전에 추출된 문장 정보를 전달하여, 디코더가 중복 선택을 피하고 문맥적으로 적절한 추출 결정을 순차적으로 내릴 수 있게 합니다.
3
요약 수준 RL 학습 (A2C)
Advantage Actor-Critic (A2C) 알고리즘을 사용하여 추출기가 요약 수준 ROUGE-L F1 점수를 직접 최대화하도록 학습합니다. 핵심 아이디어는 보상이 전체 요약(추출 후 재작성된 모든 문장의 연결)에 대해 계산되어 학습 목표와 평가 지표를 일치시키는 것입니다. 희소한 보상 문제(모든 문장이 추출된 후에야 보상을 받을 수 있는 문제)를 해결하기 위해 보상 정형화(reward shaping)를 적용합니다: 각 추출 단계 t에서 에이전트는 t번째 문장 추가로 인한 요약 수준 ROUGE의 증분 차이를 중간 보상으로 받습니다.
4
복사 메커니즘을 갖춘 추상기
추상기는 어텐션과 복사 메커니즘(pointer-generator)을 갖춘 표준 시퀀스-투-시퀀스 모델입니다. (추출된 문장, 참조 문장) 쌍에 대해 최대 우도(maximum likelihood)로 독립적으로 학습됩니다. 추론 시 각 추출된 문장을 더 간결한 추상적 형태로 재작성합니다.
5
중복 제어: 트라이그램 블로킹 & 재순위화
두 가지 메커니즘으로 중복을 줄입니다: (1) 추출기 수준의 트라이그램 블로킹은 이미 선택된 문장과 트라이그램을 공유하는 문장의 선택을 방지합니다; (2) 추상기 수준의 재순위화는 빔 서치를 통해 여러 후보 재작성을 생성한 후, 다른 요약 문장과의 ROUGE를 최대화하면서 반복을 최소화하는 후보를 선택합니다.

실험 결과

CNN/Daily Mail(비익명화 버전), New York Times(NYT50), DUC-2002 세 가지 벤치마크 데이터셋에서 평가하였습니다. BERT 기반 추출기와 요약 수준 RL 학습 모두에서 일관된 성능 향상을 확인하였습니다.

CNN/Daily Mail

모델 (CNN/Daily Mail)ROUGE-1ROUGE-2ROUGE-L
Sentence Rewrite (Chen & Bansal, 2018)40.8817.8038.54
Bottom-Up (Gehrmann et al., 2018)41.2218.6838.34
BERTSUM (Liu, 2019) -- 추출적43.2520.2439.63
BERT-ext + abs (제안)40.1417.8737.83
BERT-ext + abs + RL (제안)41.5818.8739.34
BERT-ext + abs + RL + rerank (제안)41.9019.0839.64

NYT50 & DUC-2002

모델데이터셋ROUGE-1ROUGE-2ROUGE-L
BERT-ext + abs + RL + rerank (제안)NYT5046.6326.7643.38
BERT-ext + abs + RL + rerank (제안)DUC-200243.3919.3840.14

분석 및 Ablation

의의

본 연구는 추출-추상 요약의 근본적 문제인 모델 학습 방식(문장 수준 최적화)과 평가 방식(요약 수준 지표) 사이의 괴리를 다룹니다. 핵심 기여는 세 가지입니다:

링크

Representation Learning