EN KO
← 전체 논문 목록

Self-Generated In-Context Learning: Leveraging Auto-regressive Language Models as a Demonstration Generator

Workshop on Large-scale Pre-trained Language Models (LPLM 2022) at NAACL 2022
Hyuhng Joon Kim, Hyunsoo Cho, Junyeob Kim, Taeuk Kim, Kang Min Yoo, Sang-goo Lee

한줄 요약

대규모 언어 모델이 테스트 입력에 조건화하여 자체적으로 인컨텍스트 시연을 생성함으로써, 외부 학습 데이터 없이도 제로샷 학습을 크게 능가하고 골드 샘플 기반 퓨샷 학습에 근접하는 텍스트 분류 성능을 달성하는 방법입니다.

SG-ICL 개요
Figure 1. 자기 생성 및 추론 단계로 구성된 SG-ICL의 전체 프로세스.

배경 및 동기

인컨텍스트 학습(ICL)은 사전학습 언어 모델이 소수의 입력-레이블 시연 쌍을 조건으로 하여 파라미터 업데이트 없이 과제를 해결할 수 있게 합니다. 이 패러다임은 매우 효과적이지만, 치명적인 한계가 있습니다: 성능이 시연의 품질, 선택, 순서에 매우 민감하며, 이 시연은 보통 외부 레이블 데이터셋에서 선택됩니다. 선행 연구에 따르면 시연의 무작위 선택에 따라 동일 과제에서 30 퍼센트 포인트 이상의 정확도 차이가 발생할 수 있습니다.

또한 표준 ICL은 시연을 추출할 레이블 학습 데이터의 존재를 전제로 합니다. 이 가정은 현실적인 저자원 환경에서 ICL의 적용 가능성을 제한합니다. 시연 민감성을 완화하기 위한 기존 접근법—검색 기반 선택 전략 등—도 여전히 레이블 예시 풀이 필요합니다.

핵심 통찰: 대규모 자기회귀 언어 모델은 이미 방대한 세계 지식을 내재하고 있으며 유창한 텍스트를 생성할 수 있습니다. 이 생성 능력을 활용하여 테스트 입력에 조건화된 시연을 즉석에서 생성할 수 있다면? 이를 통해 (1) 외부 학습 데이터 의존성을 제거하고 (2) 각 테스트 인스턴스에 의미적으로 정렬된 시연을 생성하여 분산을 줄일 수 있습니다.

제안 방법: SG-ICL

자기 생성 인컨텍스트 학습(SG-ICL)은 사전학습 언어 모델의 자기회귀 생성 능력을 활용하여 자체 시연을 생성합니다. 핵심 아이디어는 테스트 입력과 각 후보 클래스 레이블 모두에 조건화하여, 특정 테스트 인스턴스와 의미적으로 상관관계가 높은 시연을 생성하는 것입니다. 방법은 두 단계로 구성됩니다:

1
자기 생성 단계 (Self-Generation)
각 테스트 입력 x와 각 클래스 레이블 yi에 대해, PLM이 수동 설계된 생성 템플릿을 사용하여 k개의 시연 샘플을 생성합니다. 템플릿은 "[테스트 입력] is [레이블]. Similarly, [생성 텍스트]" 형태로 구성됩니다. 입력과 레이블 모두에 조건화함으로써 모델은 테스트 인스턴스와 주제적으로 관련되면서 해당 클래스와 연관된 텍스트를 생성합니다. 이를 모든 클래스에 대해 반복하여 총 k × |C|개의 시연을 생성합니다 (|C|는 클래스 수).
2
추론 단계 (Inference)
자기 생성된 시연을 표준 입력-레이블 쌍으로 포맷하여 ICL 프롬프트를 구성합니다. 이 프롬프트와 테스트 입력을 동일한 PLM에 입력하여 분류를 수행합니다. 모델은 자기 생성 시연이 포함된 프롬프트가 주어졌을 때 각 클래스의 우도(likelihood)를 계산하여 레이블을 할당합니다. 각 테스트 인스턴스가 자체적으로 맞춤 시연 세트를 받으므로, 인스턴스 적응형(instance-adaptive) ICL이 실현됩니다.

핵심 설계 선택은 입력 조건화 생성 vs. 클래스만 조건화 생성입니다. 클래스 레이블에만 조건화하면(테스트 입력 없이) 각 클래스의 일반적인 예시가 생성됩니다. 테스트 입력에도 추가로 조건화하면 SG-ICL은 테스트 인스턴스와 의미적 유사성이 훨씬 높은 시연을 생성하며, 이는 선행 연구에서 ICL 성공의 핵심 요소로 밝혀진 바 있습니다.

실험 결과

4개의 텍스트 분류 벤치마크에서 GPT-J(6B 파라미터)를 백본 모델로 실험하였으며, 클래스당 k = 4개의 자기 생성 샘플을 사용합니다 (이진 과제 시 총 8개, SST-5 시 총 20개).

방법SST-2SST-5RTECB
제로샷67.430.850.232.1
골드 ICL (k=1)77.933.352.841.1
골드 ICL (k=4)87.738.253.346.4
SG-ICL (k=4, 제안)85.635.954.948.2

의의

SG-ICL은 언어 모델이 외부 데이터 없이도 자체적으로 시연을 부트스트랩할 수 있는 새로운 패러다임을 개척합니다. 이는 여러 중요한 시사점을 가집니다:

링크

In-Context Learning