한줄 요약
MAdapter는 사전학습 언어 모델의 중간 층에 추가적인 경량 어댑터 모듈을 전략적으로 삽입하여, 전체 모델 파라미터의 약 1%(기존 어댑터의 약 절반)만으로도 동등하거나 더 우수한 성능을 달성하는 개선된 어댑터 구조입니다.
배경 및 동기
어댑터와 같은 파라미터 효율적 미세조정(PEFT) 방법은 대규모 사전학습 언어 모델을 다운스트림 과제에 적응시키는 데 필수적인 기법이 되었습니다. 표준 어댑터는 모든 트랜스포머 블록의 피드포워드 부분 뒤에 균일하게 소규모 병목 층을 삽입합니다. 이 방식이 효과적이긴 하지만, 각 층이 실제로 과제에 기여하는 정도를 고려하지 않는다는 한계가 있습니다.
핵심 관찰:
- 중간 층이 가장 과제 관련성이 높음: 트랜스포머의 계층별 동작에 관한 연구들은 일관되게 중간 층이 가장 과제 판별적인 특징을 인코딩하며, 초기 층은 저수준 패턴을, 마지막 층은 보다 일반적인 표현을 포착한다고 보고합니다.
- 균일한 배치는 비효율적: 모든 층에 동일한 어댑터 용량을 할당하면, 과제 적응에 덜 기여하는 층에 파라미터가 낭비되고 핵심적인 중간 층에는 충분한 용량이 제공되지 않습니다.
- 파라미터 예산은 제한적: 실용적인 시나리오에서 학습 가능한 파라미터의 총량은 작게 유지되어야 합니다. 보다 현명한 할당 전략으로 더 적은 파라미터로도 더 나은 결과를 얻을 수 있습니다.
MAdapter는 이러한 격차를 해소하기 위해, 전체 모델 파라미터의 약 1%라는 극히 적은 예산 내에서 중간 층에 추가적인 어댑터 용량을 집중 배치하는 방법을 제안합니다.
제안 방법
MAdapter는 가장 중요한 위치에 추가 용량을 집중하는 전략적 삽입 방식으로 표준 어댑터 패러다임을 개선합니다.
1
표준 어댑터 기준선
기존의 어댑터 구성을 출발점으로 합니다: 각 트랜스포머 블록의 피드포워드 부분 뒤에 소규모 병목 모듈(다운 프로젝션, 비선형 활성화, 업 프로젝션 + 잔차 연결)을 삽입합니다. 사전학습된 모델 가중치는 고정되며 어댑터 파라미터만 학습됩니다.
2
중간 층 식별
트랜스포머 스택에서 가장 과제 관련성이 높은 표현을 인코딩하는 것으로 알려진 중간 층을 식별합니다. L개의 층을 가진 모델에서 중간 영역은 L/2를 중심으로 하는 연속적인 층의 부분집합으로 정의됩니다.
3
효율적인 중간 층 증강
식별된 중간 층에 추가적인 경량 어댑터 모듈을 삽입합니다. 이 추가 어댑터는 축소된 병목 차원으로 설계되어 전체 파라미터 수를 낮게 유지합니다. 총 학습 가능한 파라미터 수는 전체 모델의 약 1%로, 모든 층에 균일하게 적용하는 기존 어댑터의 약 절반 수준입니다.
4
아키텍처 비의존적 적용
본 접근법은 BERT, RoBERTa 등 다양한 사전학습 언어 모델과 호환되며, 기존 어댑터 구현에 최소한의 수정만으로 적용할 수 있어 실무에서 쉽게 도입할 수 있습니다.
실험 결과
MAdapter는 다양한 자연어 이해(NLU) 벤치마크에서 표준 어댑터 기준선 및 다른 PEFT 방법들과 비교 평가되었습니다.
파라미터 효율성
| 방법 | 학습 파라미터 (전체 대비 %) | 표준 어댑터 대비 |
| 전체 미세조정 | 100% | -- |
| 표준 어댑터 | ~2% | 1.0배 |
| MAdapter | ~1% | ~0.5배 |
- 동등하거나 우수한 성능: MAdapter는 학습 가능한 파라미터를 약 절반으로 줄이면서도 NLU 벤치마크에서 표준 어댑터와 동등하거나 더 나은 성능을 달성합니다.
- 효율성 향상: 가장 정보가 풍부한 중간 층에 어댑터 용량을 집중함으로써, 과제 적응에 덜 기여하는 층에 파라미터를 낭비하지 않습니다.
- 일관된 개선: 중간 층 증강의 이점은 다양한 모델 아키텍처와 과제 유형에 걸쳐 관찰되어, 접근법의 일반화 가능성을 확인합니다.
- 복잡한 과제에서 더 큰 효과: 풍부한 특징 상호작용이 필요한 과제에서 중간 층 전략의 효과가 가장 크게 나타나며, 이는 중간 층이 가장 과제 판별적인 표현을 인코딩한다는 가설과 일치합니다.
의의
MAdapter는 파라미터 효율적 미세조정 분야에 실용적, 개념적 기여를 제공합니다:
- 배치 전략의 중요성: 어댑터를 어디에 배치하느냐가 어떻게 설계하느냐만큼 중요하다는 것을 입증합니다. 단순한 할당 전략의 변경만으로도 성능 저하 없이 파라미터 수를 절반으로 줄일 수 있습니다.
- 해석 가능성과 효율성의 연결: 트랜스포머 해석 가능성 연구(중간 층이 가장 과제 관련성이 높다는 발견)의 통찰을 활용하여, 모델 내부 이해가 더 나은 PEFT 설계로 직접 이어질 수 있음을 보여줍니다.
- 실용적 적용 가능성: 전체 모델 파라미터의 약 1%만 학습하고 기반 모델에 아키텍처 변경이 불필요하므로, BERT, RoBERTa 등의 기존 미세조정 파이프라인에 쉽게 통합할 수 있습니다.
Efficiency
Representation Learning