EN KO
← 전체 논문 목록

다중 레이블 분류를 위한 프롬프팅 고도화

Korea Computer Congress 2024 (KCC 2024)
Jungyeon Lee, Youngwoo Shin, Yejin Yoon, Taeuk Kim

한줄 요약

프롬프트 구조 설계, 시연 예제 선택, 레이블 언어화 전략을 종합적으로 최적화하여 거대 언어 모델의 다중 레이블 분류 성능을 크게 향상시키는 체계적 프롬프팅 고도화 프레임워크.

배경 및 동기

다중 레이블 분류는 하나의 입력에 여러 레이블을 동시에 부여해야 하는 과제로, 토픽 태깅, 감정 감지, 의도 인식 등 실제 NLP 응용에서 흔히 요구됩니다. 거대 언어 모델(LLM)은 인컨텍스트 학습(ICL)을 통해 단일 레이블 과제에서 우수한 성능을 보여왔으나, 다중 레이블 시나리오에서의 효과는 제한적입니다. 이 격차는 다중 레이블 분류가 실무에서 오히려 더 보편적이라는 점에서 특히 문제가 됩니다. 예를 들어, 뉴스 기사는 정치, 경제, 기술을 동시에 다룰 수 있고, 고객 리뷰는 만족, 불만, 놀라움을 동시에 표현할 수 있습니다.

다중 레이블 ICL의 핵심 과제:

  • 단일 레이블 편향: 기존 프롬프트 형식은 암묵적으로 단일 레이블 예측을 유도하여, LLM이 여러 레이블을 동시에 출력하기 어렵게 만듭니다. 기존 ICL 연구의 대부분이 단일 레이블 분류를 대상으로 하여, 프롬프트 설계 관행에서도 이러한 편향이 고착되어 있습니다.
  • 조합적 레이블 공간: n개의 레이블이 존재할 때 유효한 레이블 부분집합의 수는 지수적으로 증가(2n)하므로, 소수의 시연 예제만으로 가능한 레이블 조합을 충분히 다루기 어렵습니다. 레이블이 10개만 되어도 가능한 레이블 부분집합은 1,024개에 달합니다.
  • 시연 예제의 비효율성: 무작위 인컨텍스트 예제 선택은 편향된 레이블 분포를 초래하여 과제의 다중 레이블 특성을 제대로 반영하지 못합니다. 희소 레이블과 드문 레이블 공출현 조합이 체계적으로 과소 대표됩니다.
  • 모호한 레이블 의미: 명확한 레이블 설명 없이는 모델이 의미적으로 유사한 레이블(예: "분노" vs. "좌절")을 혼동하거나 데이터에서 빈번히 나타나는 레이블 간 공출현 패턴을 놓칠 수 있습니다.

이러한 과제들은 프롬프트의 구조적, 예시적, 의미적 차원을 동시에 다루는, 다중 레이블 분류에 특화된 체계적 프롬프팅 프레임워크의 필요성을 보여줍니다. 기존 연구가 이러한 요소들을 개별적으로만 다루었던 것과 달리, 본 연구는 세 차원 모두와 그 상호작용을 통합적 프레임워크 안에서 탐구합니다.

제안 방법

제안된 프레임워크는 독립적으로 또는 결합하여 적용할 수 있는 세 가지 상호보완적 전략을 통해 다중 레이블 분류를 위한 인컨텍스트 학습을 고도화합니다. 각 전략은 다중 레이블 ICL의 서로 다른 난이도 원인을 타겟으로 하며, 함께 적용될 때 포괄적인 해결책을 제공합니다.

1
프롬프트 재구성
다중 레이블 과제의 특성을 명시적으로 전달하도록 프롬프트 형식을 재설계합니다. 기존의 단일 정답 형식 대신, 레이블 집합을 출력하도록 안내하며 구조화된 출력 형식(쉼표 구분 목록, 번호 매기기 등)을 사용합니다. "해당하는 모든 레이블을 선택하시오"와 같은 명시적 지시를 추가하여 단일 레이블 편향을 극복합니다. 또한 재구성된 프롬프트는 시연 예제를 접하기 전에 전체 레이블 목록을 먼저 제시하여, 모델이 사용 가능한 레이블의 전체 범위를 파악할 수 있게 합니다.
2
시연 예제 선택
레이블 공간의 커버리지를 극대화하는 다양성 기반 인컨텍스트 예제 선택 전략을 제안합니다. 무작위 샘플링 대신, (a) 다양한 레이블 카디널리티(서로 다른 수의 레이블이 부여된 예제)와 (b) 개별 레이블 및 레이블 공출현 패턴의 균형 잡힌 분포를 보장하는 방식으로 시연 예제를 선택합니다. 선택 알고리즘은 이전에 선택된 시연 예제에서 아직 다루지 않은 새로운 레이블이나 레이블 조합을 도입하는 예제를 우선시하여, 탐욕적으로 최대한 유익한 예제 집합을 구성합니다.
3
레이블 언어화
레이블 이름과 함께 자연어 설명이나 정의를 제공하여 프롬프트 내 레이블 정보의 제시 방식을 강화합니다. 이를 통해 모델이 의미적으로 유사한 레이블을 더 잘 구분하고 각 카테고리의 범위를 이해할 수 있게 됩니다. 세 가지 언어화 전략을 비교합니다: (a) 레이블 이름만 제시, (b) 이름 + 레이블 범위를 설명하는 자연어 정의, (c) 이름 + 각 레이블에 대한 예시 문장. 정의 기반 접근법이 일반적으로 가장 좋은 성능을 보이는데, 이는 관련 레이블 간의 의미적 경계를 가장 명확히 제공하기 때문입니다.

전략 간 상호작용 개요

전략타겟 문제메커니즘
프롬프트 재구성단일 레이블 편향명시적 다중 레이블 지시, 구조화된 출력 형식, 전체 레이블 목록 제시
시연 예제 선택레이블 공간 커버리지레이블 및 카디널리티 다양성을 극대화하는 다양성 기반 탐욕적 선택
레이블 언어화레이블 의미 모호성유사 레이블 간 경계를 명확히 하는 자연어 정의

실험 결과

제안된 고도화 프롬프팅 전략을 다양한 다중 레이블 분류 벤치마크에서 평가하고, 여러 LLM 아키텍처에 걸쳐 기본 프롬프팅 베이스라인과 비교하였습니다. 평가 지표로는 micro-F1, macro-F1, subset accuracy를 사용하여 다중 레이블 예측 품질의 다양한 측면을 포착하였습니다.

개별 전략의 효과

전략주요 효과부수적 효과
프롬프트 재구성단일 레이블 편향을 감소시키고, 예측 레이블 수의 평균이 정답에 더 가까워짐더 많은 레이블 출력을 유도하여 재현율 향상
다양성 기반 시연 예제 선택레이블 커버리지 및 공출현 인식 개선으로 무작위 선택 대비 유의미한 성능 향상특정 예제 선택에 대한 민감도를 줄여 실행 간 예측 안정성 향상
레이블 언어화유사 레이블 간 구분력 향상, 레이블 혼동 오류 감소의미적으로 인접한 레이블 쌍에 대한 거짓 양성 감소
통합 프레임워크세 전략을 모두 결합했을 때 최고 성능 달성전략 간 성능 향상이 대체로 가산적

상세 분석

유형별 오류 분석:

  • 누락 레이블 (거짓 음성): 기본 프롬프팅에서 가장 빈번한 오류 유형. 프롬프트 재구성이 다중 레이블 출력을 명시적으로 유도하여 이 오류를 평균 30-40% 감소시킵니다.
  • 레이블 혼동 (거짓 양성): 두 번째로 흔한 오류 유형으로, 모델이 의미적으로 관련되었지만 잘못된 레이블을 예측하는 경우. 레이블 언어화가 이 오류 유형 감소에 가장 효과적입니다.
  • 카디널리티 불일치: 기본 프롬프트는 레이블 수를 과소 예측하는 경향이 있음. 다양성 기반 시연 예제 선택이 모델이 부여해야 할 레이블 수에 대한 기대치를 보정합니다.

의의

본 연구는 체계적인 프롬프트 엔지니어링만으로 다중 레이블 과제에서 LLM과 지도학습 모델 간의 성능 격차를 상당히 줄일 수 있음을 보여주며, 실무자들에게 다음과 같은 시사점을 제공합니다:

In-Context Learning