EN KO
← 전체 논문 목록

대화 맥락 추론 향상을 위한 리즈닝 피드백 기반 학습

The 37th Annual Conference on Human and Cognitive Language Technology (HCLT 2025)
Yuri Son, Taeuk Kim

한줄 요약

외부 모델의 상세한 리즈닝 피드백을 활용하여 학습 데이터를 점진적으로 정제하는 RFL(Reasoning Feedback-based Learning) 프레임워크를 제안하여, 대화 맥락 추론에서 95.04%의 정확도를 달성 — 기준 모델 대비 7.93%p, 표준 미세조정 대비 1.32%p 향상.

배경 및 동기

대화 맥락 추론 — 대화로부터 암묵적 정보, 화자 의도, 상황적 역학을 이해하는 것 — 은 견고한 대화 시스템 구축의 핵심 과제입니다. 거대 언어 모델(LLM)이 대화 이해를 크게 발전시켰으나, 다단계 추론이 필요한 복잡한 사례에서는 여전히 한계를 보입니다.

기존 접근법의 핵심 한계:

  • 어려운 예제에서의 성능 정체: 표준 미세조정 방법은 전반적 정확도를 높이지만, 표면적 패턴 매칭이 실패하는 난이도 높은 추론 사례에서는 성능이 정체됩니다.
  • 제한된 학습 신호: 객관식 질문(MCQ) 미세조정은 모델에게 정답이 무엇인지는 알려주지만, 그런지에 대한 추론 경로는 제공하지 않습니다.
  • 오류 집중 학습의 부재: 기존 학습 방식은 모든 예제를 동등하게 다루며, 모델이 반복적으로 실패하는 가장 어려운 인스턴스에 학습 노력을 집중시키지 못합니다.

이러한 한계를 극복하기 위해 본 연구는 RFL을 제안합니다. RFL은 더 강력한 외부 모델로부터 구조화된 리즈닝 피드백을 생성하여, 대상 모델의 오답이 틀렸는지 명시적으로 설명하고 올바른 추론 경로를 안내합니다.

제안 방법: 리즈닝 피드백 기반 학습 (RFL)

RFL은 외부의 보다 강력한 모델을 활용하여 상세한 리즈닝 피드백을 생성하는 3단계 반복적 프레임워크입니다. 이 피드백을 통해 학습 데이터를 점진적으로 정제하여, 대상 모델이 가장 지속적인 오류를 극복할 수 있도록 합니다.

1
초기 미세조정 및 오류 수집
대상 모델을 표준 MCQ 학습 방식으로 대화 맥락 추론 과제에 대해 미세조정합니다. 학습 후 훈련 세트에서 평가하여 오답 인스턴스 — 표준 학습에도 불구하고 모델이 실패하는 어려운 사례 — 를 수집합니다.
2
리즈닝 피드백 생성
외부의 강력한 모델이 각 오답 인스턴스와 대상 모델의 잘못된 답변을 입력으로 받아 상세한 리즈닝 피드백을 생성합니다. 피드백은 (a) 선택한 답이 왜 틀렸는지, (b) 올바른 추론 과정은 무엇인지, (c) 정답과 그 근거를 포함합니다. 이를 통해 단순한 레이블이 풍부한 설명적 학습 신호로 변환됩니다.
3
점진적 데이터 정제 및 재학습
리즈닝 피드백을 학습 데이터에 반영하여, 어려운 사례의 원본 인스턴스를 대체하거나 보강합니다. 대상 모델은 이 점진적으로 정제된 데이터셋으로 재학습되며, 가장 도전적인 예제에 학습 노력을 집중합니다. 이 과정을 반복하여 점진적 성능 향상을 달성할 수 있습니다.

리즈닝 피드백과 표준 레이블의 차이:

표준 MCQ 미세조정에서 학습 신호는 단순히 정답 레이블(예: "정답: B")입니다. RFL은 이를 세 가지 구성요소를 포함하는 구조화된 추론 과정으로 대체합니다:

  • 오류 진단: 대상 모델의 예측 답변이 왜 틀렸는지에 대한 명시적 설명으로, 잘못된 추론 단계를 정확히 지적합니다.
  • 올바른 추론 경로: 대화 맥락의 단서를 정답에 연결하는 단계별 추론 과정으로, 암묵적 추론 과정을 명시적으로 만듭니다.
  • 근거가 있는 정답: 대화에 근거한 자연어 정당화가 동반된 정답으로, 증거와 결론 사이의 인과적 연결을 강화합니다.

이 풍부한 신호는 각 오류를 표적화된 학습 기회로 변환하여, 모델이 답을 단순히 암기하는 것이 아니라 그 이면의 추론 패턴을 내재화하도록 합니다.

실험 설정

RFL은 대화 맥락 추론 과제에서 평가됩니다. 이 과제는 대화 이해를 객관식 문제로 구성합니다: 대화 이력이 주어지면, 모델은 암묵적 정보, 화자 의도, 상황적 맥락에 대한 올바른 추론을 후보 중에서 선택해야 합니다.

구성 요소세부 사항
과제대화 맥락 추론 (객관식 형식)
대상 모델대화 추론 데이터로 미세조정된 LLM
외부 피드백 모델리즈닝 피드백 생성에 사용되는 대규모 고성능 LLM
평가 지표정확도 (%)
학습 전략반복적: 미세조정 → 오류 수집 → 피드백 생성 → 재학습

핵심 설계 원칙은 점진적 정제 루프입니다: 각 학습 라운드 후 모델이 여전히 틀리는 인스턴스만 외부 모델에 피드백을 요청하여, 계산 자원을 가장 필요한 곳에 집중합니다.

실험 결과

주요 결과

RFL을 기준 모델(미세조정 없음) 및 표준 MCQ 미세조정(리즈닝 피드백 없음)과 비교하였습니다.

방법정확도 (%)기준 모델 대비 향상
기준 모델 (Baseline)87.11
MCQ 미세조정93.72+6.61%p
RFL (제안 방법)95.04+7.93%p

성능 향상의 원인 분석

RFL 성능 향상 분해:

  • 표준 미세조정의 기여 (+6.61%p): MCQ 기반 학습은 학습 가능한 패턴의 대부분을 포착하여, 정확도를 87.11%에서 93.72%로 끌어올립니다. 이는 패턴 매칭으로 충분한 "쉬운" 및 "중간" 난이도 예제를 해결합니다.
  • 리즈닝 피드백의 기여 (+1.32%p): 93.72%에서 95.04%로의 추가 향상은 전적으로 표준 미세조정이 해결하지 못하는 어려운 사례에서 비롯됩니다. 절대값으로는 작지만, 이 향상은 기존 학습에 저항하는 분포의 가장 도전적인 꼬리 부분을 대상으로 하기에 특히 의미가 있습니다.

분석: 오류 범주별 영향

의의

본 연구는 외부 모델의 구조화된 리즈닝 피드백이 대화 이해 향상을 위한 강력한 학습 신호가 될 수 있음을 보여줍니다. 그 기여는 특정 과제를 넘어 확장됩니다:

링크

Dialogue Reasoning