EN KO
← 전체 논문 목록

MAdapter: 효율적인 중간 층 도입을 통한 Adapter 구조 개선

제35회 한글 및 한국어 정보처리 학술대회 (HCLT 2023)
Jinhyeon Kim, Taeuk Kim

한줄 요약

MAdapter는 사전학습 언어 모델의 중간 층에 추가적인 경량 어댑터 모듈을 전략적으로 삽입하여, 전체 모델 파라미터의 약 1%(기존 어댑터의 약 절반)만으로도 동등하거나 더 우수한 성능을 달성하는 개선된 어댑터 구조입니다.

배경 및 동기

어댑터와 같은 파라미터 효율적 미세조정(PEFT) 방법은 대규모 사전학습 언어 모델을 다운스트림 과제에 적응시키는 데 필수적인 기법이 되었습니다. 표준 어댑터는 모든 트랜스포머 블록의 피드포워드 부분 뒤에 균일하게 소규모 병목 층을 삽입합니다. 이 방식이 효과적이긴 하지만, 각 층이 실제로 과제에 기여하는 정도를 고려하지 않는다는 한계가 있습니다.

핵심 관찰:

  • 중간 층이 가장 과제 관련성이 높음: 트랜스포머의 계층별 동작에 관한 연구들은 일관되게 중간 층이 가장 과제 판별적인 특징을 인코딩하며, 초기 층은 저수준 패턴을, 마지막 층은 보다 일반적인 표현을 포착한다고 보고합니다.
  • 균일한 배치는 비효율적: 모든 층에 동일한 어댑터 용량을 할당하면, 과제 적응에 덜 기여하는 층에 파라미터가 낭비되고 핵심적인 중간 층에는 충분한 용량이 제공되지 않습니다.
  • 파라미터 예산은 제한적: 실용적인 시나리오에서 학습 가능한 파라미터의 총량은 작게 유지되어야 합니다. 보다 현명한 할당 전략으로 더 적은 파라미터로도 더 나은 결과를 얻을 수 있습니다.

MAdapter는 이러한 격차를 해소하기 위해, 전체 모델 파라미터의 약 1%라는 극히 적은 예산 내에서 중간 층에 추가적인 어댑터 용량을 집중 배치하는 방법을 제안합니다.

제안 방법

MAdapter는 가장 중요한 위치에 추가 용량을 집중하는 전략적 삽입 방식으로 표준 어댑터 패러다임을 개선합니다.

1
표준 어댑터 기준선
기존의 어댑터 구성을 출발점으로 합니다: 각 트랜스포머 블록의 피드포워드 부분 뒤에 소규모 병목 모듈(다운 프로젝션, 비선형 활성화, 업 프로젝션 + 잔차 연결)을 삽입합니다. 사전학습된 모델 가중치는 고정되며 어댑터 파라미터만 학습됩니다.
2
중간 층 식별
트랜스포머 스택에서 가장 과제 관련성이 높은 표현을 인코딩하는 것으로 알려진 중간 층을 식별합니다. L개의 층을 가진 모델에서 중간 영역은 L/2를 중심으로 하는 연속적인 층의 부분집합으로 정의됩니다.
3
효율적인 중간 층 증강
식별된 중간 층에 추가적인 경량 어댑터 모듈을 삽입합니다. 이 추가 어댑터는 축소된 병목 차원으로 설계되어 전체 파라미터 수를 낮게 유지합니다. 총 학습 가능한 파라미터 수는 전체 모델의 약 1%로, 모든 층에 균일하게 적용하는 기존 어댑터의 약 절반 수준입니다.
4
아키텍처 비의존적 적용
본 접근법은 BERT, RoBERTa 등 다양한 사전학습 언어 모델과 호환되며, 기존 어댑터 구현에 최소한의 수정만으로 적용할 수 있어 실무에서 쉽게 도입할 수 있습니다.

실험 결과

MAdapter는 다양한 자연어 이해(NLU) 벤치마크에서 표준 어댑터 기준선 및 다른 PEFT 방법들과 비교 평가되었습니다.

파라미터 효율성

방법학습 파라미터 (전체 대비 %)표준 어댑터 대비
전체 미세조정100%--
표준 어댑터~2%1.0배
MAdapter~1%~0.5배

의의

MAdapter는 파라미터 효율적 미세조정 분야에 실용적, 개념적 기여를 제공합니다:

링크

Efficiency Representation Learning