EN KO
← 전체 논문 목록

ESPRESSO: An Effective Approach to Passage Retrieval for High-Quality Conversational Recommender Systems

AAAI 2025
Taeho Kim, Hyeongjun Jang, Juwon Yu, Taeuk Kim, Hyunyoung Lee, Jihui Im, Sang-Wook Kim

한줄 요약

ESPRESSO는 대화형 추천 시스템에서 적응적 아이템 선택과 관련성 기반 그룹와이즈 학습을 도입하여, 8개 경쟁 방법의 최고 성능 대비 Hit@3에서 최대 35.91%의 패시지 검색 정확도 향상을 달성하고, 생성된 추천 응답의 사실성을 크게 개선합니다.

논문 개요
Figure 1. ESPRESSO가 제안하는 검색 증강 CRS 프레임워크. 사용자의 대화(예: 성룡 영화 추천 요청)가 주어지면, 추천 모듈이 아이템(예: "Rumble in the Bronx")을 선택하고, 패시지 검색 모듈이 해당 아이템에 대한 사실적 패시지를 검색하며, 생성 모듈이 이를 기반으로 응답을 생성합니다. 레이블링 모듈은 학습을 위한 유사 관련 패시지 레이블을 자동으로 생성합니다.

배경 및 동기

대화형 추천 시스템(CRS)은 채팅 인터페이스를 통해 사용자가 선호하는 아이템과 그에 대한 설명을 포함하는 맞춤형 추천 응답을 제공합니다. CRS의 구현은 두 가지 핵심 구성 요소로 이루어집니다: (1) 사용자가 선호할 아이템을 예측하는 추천 모듈, (2) 추천 아이템뿐만 아니라 그에 대한 설명을 포함한 추천 응답을 전달하는 생성 모듈. 그러나 언어 모델은 주로 내재된 지식에 의존하여 응답을 생성하기 때문에, CRS는 추천 아이템에 대한 지식이 부족할 때 사실과 다른 설명(즉, 환각 현상)을 생성하기 쉽습니다.

자연스러운 해결 방안은 검색 증강 전략을 활용하는 것입니다: 대화가 주어지면, 먼저 추천 아이템의 특성을 설명하는 패시지를 검색한 후, 이를 기반으로 응답을 생성합니다. 그러나 저자들은 기존 패시지 검색 방법이 CRS에 그대로 적용하기에는 부적절하다고 지적합니다. 이는 기존 방법들이 사용자 선호에 부합하는 패시지를 검색하도록 설계되거나 학습되지 않았기 때문입니다.

CRS에서 패시지 검색을 위한 두 가지 필수 방향:

  • 방향 1 -- 검색을 사용자 선호와 정렬: 패시지 검색 모듈은 추천 모듈이 선택한 아이템을 추가 입력으로 활용해야 합니다. 기존 CRS 방법은 일반적으로 고정된 수의 아이템(예: top-1 아이템만)을 선택합니다. 만약 이 top-1 예측 아이템이 사용자의 실제 선호와 일치하지 않으면, 검색된 모든 패시지가 무관해져 응답 품질이 저하됩니다.
  • 방향 2 -- 유사 관련 레이블로 검색 학습: CRS 데이터셋은 명시적인 패시지 수준의 관련성 레이블을 제공하지 않습니다. 어떤 패시지가 관련되는지를 수동으로 레이블링하는 것은 상당한 인적 비용이 필요하며, 특히 CRS 응답이 긴 설명을 포함하는 경우 더욱 그렇습니다. 따라서 패시지 검색 모듈은 자동 레이블링 모듈이 결정한 유사 관련 패시지를 사용하여 학습해야 합니다.

이 연구의 핵심 통찰은 이 두 방향을 단순히 따르는 것만으로는 충분하지 않다는 것입니다 -- 추천 모듈이 잘못된 아이템을 선택할 수 있고, 레이블링 모듈이 노이즈가 있는 레이블(잘못 레이블된 패시지)을 생성할 수 있습니다. ESPRESSO는 CRS 도메인에서 적응적 아이템 선택관련성 기반 그룹와이즈 학습을 통해 이 두 가지 오류 원인을 모두 해결하는 강건한 방법을 최초로 제안한 연구입니다.

제안 방법

ESPRESSO(Enhanced paSsage retrieval aPpRoach via adaptivE item Selection and relevance-baSed grOupwise learning)는 논문의 Figure 2에 제시된 세 가지 모듈로 구성된 CRS 프레임워크 내에서 동작합니다. 전체 과정은 다음과 같습니다: (1) 추천 모듈이 대화와 프로필을 기반으로 사용자 선호를 예측하고 아이템을 적응적으로 선택, (2) 패시지 검색 모듈이 대화와 선택된 아이템을 기반으로 상위-K 관련 패시지를 검색, (3) 생성 모듈(RALM)이 검색된 패시지에 기반하여 추천 응답을 생성합니다.

1
선호도 추정
대화 D가 주어지면, 추천 모듈은 먼저 BERT 기반 인코더를 사용하여 각 아이템 i에 대한 선호도 점수를 예측합니다. 대화와 사용자 프로필 f(예: 나이, 성별)를 연결하여 BERT를 통해 d차원 표현으로 인코딩합니다. 선호도 점수는 이 표현과 학습 가능한 아이템 임베딩 간의 내적으로 계산됩니다: y_rec_i = w_i * BERT_CLS([D : f]). 이를 통해 예측된 사용자 선호도 순서대로 정렬된 후보 아이템 목록을 얻습니다.
2
적응적 아이템 선택
항상 top-1 예측 아이템만 사용하는 대신, ESPRESSO는 추천 모듈의 신뢰도에 기반하여 가변적인 수의 아이템을 적응적으로 선택합니다. 모든 아이템에 대해 선호도 점수의 softmax로 신뢰도 점수 C(i)를 계산합니다. 신뢰도 내림차순으로 아이템을 선택하며, 누적 신뢰도가 임계값(sigma_conf, 예: 70%)을 초과할 때까지 계속합니다. 예를 들어, top-1 아이템의 신뢰도가 50%이고 top-2가 35%라면, 두 아이템 모두 선택됩니다(누적 85% > 70%). 이를 통해 top-1 예측이 틀린 경우에도 사용자의 실제 선호 아이템이 포함되며, 신뢰도가 충분히 높은 경우에는 단일 아이템만 사용하여 노이즈를 방지합니다.
3
이중 인코더 패시지 검색
대화 D와 선택된 아이템 S를 연결하여 강화된 대화 D_bar = [D : S]를 구성합니다. 두 개의 Transformer 인코더(대화용 E_D, 패시지용 E_P)로 구성된 이중 인코더 구조가 강화된 대화와 코퍼스 C의 각 패시지 p를 d차원 표현으로 인코딩합니다. 검색 점수는 내적 유사도로 계산됩니다: y_ret_p = h_D_bar * (h_p)^T. 가장 높은 검색 점수를 가진 상위-K개의 패시지가 반환됩니다. 기존 방법(예: Contriever, CoT-MAE)의 사전학습된 인코더를 E_D와 E_P의 초기화에 활용할 수 있습니다.
4
유사 관련 패시지 레이블링
CRS 데이터셋에는 명시적인 패시지 수준 레이블이 없으므로, ESPRESSO는 2단계 레이블링 모듈을 통해 학습 레이블을 자동으로 생성합니다. 먼저, 정답 응답 r, 대상 아이템 i_r, 사용자의 마지막 발화 u_T를 연결하여 강화된 응답을 구성합니다: r_bar = [r : i_r : u_T]. 이 강화된 응답을 BM25로 모든 패시지와 비교하여 어휘적 유사성을 포착하고 상위 10개 후보를 선택합니다. 그런 다음 GPT-4o가 이 10개 후보를 더 깊은 의미적 관련성에 기반하여 재순위화하여, 최종 상위-M개의 유사 관련 패시지 Q = [q_1, q_2, ..., q_M] (M < 10)을 확보합니다. 이 2단계 과정은 BM25의 효율성과 대규모 언어 모델의 의미 이해 능력을 결합합니다.
5
관련성 기반 그룹와이즈 학습
표준 대조 학습은 각 유사 관련 패시지를 독립적으로 취급하지만, 불완전한 레이블링 모듈로 인해 일부가 잘못 레이블될 수 있습니다. ESPRESSO는 개별 유사 관련 패시지가 잘못 레이블될 수 있지만, 그룹 내 모든 요소가 무관할 확률은 그룹 크기가 커질수록 기하급수적으로 감소한다는 직관에 기반한 새로운 그룹화 전략으로 이 문제를 해결합니다. 구체적으로, 각 패시지를 자신보다 높은 순위의 모든 패시지와 함께 하위 그룹으로 구성합니다: G_j = [q_1, q_2, ..., q_j]. 각 하위 그룹의 평균 검색 점수가 부정 패시지(하드 네거티브 + 인배치 네거티브)의 점수를 초과하도록 학습합니다. 손실 함수: L = -log sum_{G_j} exp(y_ret_G_j) / (exp(y_ret_G_j) + sum_{z in Z} exp(y_ret_z)). 낮은 순위의 패시지(잘못 레이블될 가능성이 더 높음)는 항상 높은 순위의 더 신뢰할 수 있는 패시지와 함께 그룹화되어 강건한 학습을 보장합니다.
6
검색 증강 응답 생성
상위-K개의 검색된 패시지 R은 검색 증강 언어 모델(RALM)에 입력됩니다. 생성 모듈은 검색된 패시지에 대해 주변화하여 각 토큰을 생성합니다: Pr(y_i | D, p, y_{1:i-1}) = sum_{p in R} Pr_eta(p | D, S) * Pr_theta(y_i | D, p, y_{1:i-1}), 여기서 eta는 ESPRESSO 파라미터, theta는 생성 LM 파라미터입니다. 생성 백본으로 BART-large 또는 LLaMA2를 사용할 수 있어, 소규모 특화 모델과 대규모 LLM 모두 ESPRESSO의 향상된 검색으로부터 혜택을 받을 수 있습니다.

실험 결과

ESPRESSO는 두 개의 CRS 데이터셋인 DuRecDial2.0(이중 언어 병렬 대화를 포함하는 공개 영어 CRS 데이터셋)과 KoRecDial(비공개 비영어 CRS 데이터셋)에서 평가되었습니다. 두 데이터셋 모두 각 응답에 대해 인간이 주석한 관련 지식을 포함하며, 이를 정답 관련 패시지로 사용합니다. 8개의 패시지 검색 베이스라인과 8개의 응답 생성 베이스라인을 대상으로 비교했습니다.

패시지 검색 정확도 (Hit@K)

방법DuRecDial2.0KoRecDial
H@1H@3H@5H@1H@3H@5
BM250.2600.4250.5290.0590.1420.206
DPR0.3840.4850.5380.1270.2770.372
RAG0.1000.1200.1220.0050.0070.007
KERS0.2910.4150.4600.0910.1770.219
DSI0.3760.4530.4840.0590.0910.108
Contriever0.3930.4970.5500.1230.2780.371
RankGPT0.3390.4600.5290.1010.1640.206
CoT-MAE0.4060.5040.5610.1340.2830.392
OURS+DPR0.5140.6750.7250.1530.3140.414
OURS+Contriever0.5200.6850.7350.1410.3130.423
OURS+CoT-MAE0.5230.6850.7380.1540.3150.423

적응적 아이템 선택 분석

저자들은 top-1 예측 아이템이 정답과 일치하는 경우(G=top-1, 테스트 샘플의 79.4%)와 일치하지 않는 경우(G!=top-1, 20.6%)로 나누어 아이템 선택 전략의 효과를 분석합니다.

선택 방법G=top-1G!=top-1전체
S=top-1 (고정)0.8150.0030.648
S=top-N (고정, N=2)0.7490.1600.628
S=top-sigma_conf (적응적, 70%)0.8100.1560.675

top-1 예측이 맞는 경우, 해당 아이템만 사용하면 Hit@3 0.815를 달성하며, 더 많은 아이템을 추가하면 오히려 노이즈가 됩니다. top-1이 틀린 경우, 고정 top-1 선택은 치명적으로 실패하지만(0.003), 풀을 확장하면 도움이 됩니다. 적응적 방법은 두 가지 경우 모두에서 최적에 가까운 정확도를 달성하여, top-1 대비 4.2%, top-N 대비 7.5%의 전체 정확도 향상을 보입니다.

그룹와이즈 학습 전략 비교

유사 관련 패시지 수 M을 1에서 3까지 변화시키며 세 가지 학습 전략을 비교합니다: 표준 대조 학습(CL), 단순 그룹와이즈 학습(GL, 모든 패시지를 단일 그룹으로), 관련성 기반 그룹와이즈 학습(RGL, 중첩 하위 그룹). M > 1일 때, 두 그룹화 방법 모두 CL을 일관되게 능가하여, 그룹화가 잘못된 레이블 노이즈를 완화함을 검증합니다. RGL은 낮은 순위(덜 신뢰할 수 있는) 패시지를 높은 순위(더 신뢰할 수 있는) 패시지와만 그룹화하여 GL을 추가로 능가하며, M=2에서 최고 Hit@3 0.685를 달성합니다.

응답 생성 품질 (BLEU 점수)

방법DuRecDial2.0KoRecDial
BLEU2BLEU3BLEU4BLEU2BLEU3BLEU4
GPT2-base0.0800.0400.0200.0650.0320.018
BART-large0.1320.0830.051---
RAG0.1610.1080.0720.1000.0560.034
UniMIND0.1470.0830.0550.0920.0500.028
LLaMA20.1440.0940.060---
BART(ESPRESSO)0.1970.1370.0930.1230.0730.045
LLaMA2(ESPRESSO)0.2090.1470.103---

의의

대화형 AI가 전자상거래와 콘텐츠 플랫폼에서 점점 더 보편화됨에 따라, 아이템 추천과 함께 정확하고 신뢰할 수 있는 설명을 제공하는 것이 사용자 신뢰에 필수적입니다. ESPRESSO는 다음과 같은 중요한 기여를 합니다:

링크

Information Retrieval Dialogue