EN KO
← 전체 논문 목록

Latent Preference Modeling for Cross-Session Personalized Tool Calling

arXiv 2026
Yejin Yoon*, Minseo Kim*, Taeuk Kim (*: 공동 1저자)

한줄 요약

세션을 넘나드는 개인화된 도구 호출(personalized tool calling)을 위해 265개 다중 세션 대화 / 2,020개 세션 규모의 MPT 벤치마크를 선호 재사용(Recall), 선호 귀납(Induction), 선호 전이(Transfer)의 세 가지 과제로 구성하고, 잠재 선호를 수정 가능한 가설로 다루는 생성–검증–수정(PRefine) 메모리를 제안합니다. PRefine은 전체 히스토리 대비 토큰의 1.24%만 사용하면서 도구 호출 정확도를 일관되게 향상시킵니다.

PRefine의 생성-검증-수정 루프
Figure 1. PRefine은 추상화된 선호를 하나의 메모리로 유지하고, 추론 시점에 대상 도메인 스키마에 맞추어 API 인자로 접지(grounding)하여 세션과 도메인을 넘나드는 개인화된 도구 호출을 가능하게 합니다.

배경 및 동기

LLM 기반 에이전트는 점점 더 외부 도구에 의존하며, 도구는 대부분 완전히 지정된 인자를 요구합니다. 그러나 실제 사용자는 요청을 자주 불완전하게 표현하기 때문에, 누락된 값을 과거 상호작용으로부터 추론해야 합니다. 이는 단순히 유사한 과거 행동을 검색하는 문제를 넘어 암묵적이고 지속적인 제약을 추상화해 여러 맥락과 세션에서 일관되게 적용하는 문제입니다.

기존 개인화 연구는 대체로 사용자 선호가 정적인 프로필이나 명시적 지침으로 주어진다고 가정하거나, 좁은 도메인 내에서 반복되는 명시적 행동으로만 나타난다고 가정합니다. 그러나 현대적 에이전트는 다양한 작업 공간에서 사전 정의된 선호 스펙 없이 동작합니다. 대형 언어 모델은 유사한 과거 행동을 떠올리는 것은 잘하지만, 도메인을 가로지르는 규칙성을 일반화 가능한 선호 가설로 추상화하는 데는 약합니다.

동기 예시: 항공, 식당, 호텔에서 지속적으로 저가 옵션을 선택하는 사용자는 명시적으로 언급하지 않아도 “이코노미 여행 선호”라는 잠재 선호를 드러냅니다. 이 제약은 여러 세션과 도메인에 걸쳐 분산되어 있고, 누적된 증거가 쌓여야만 드러나며, 새로운 행동이 관찰되면 지속적으로 갱신되어야 합니다.

이로부터 두 가지 공개된 질문이 제기됩니다: (i) 이러한 잠재 선호를 어떻게 효율적으로 표현하고 유지할 수 있는가, 그리고 (ii) 그 선호가 도메인과 심지어 서로 다른 API 스키마 간에도 전이될 수 있는가?

제안 방법: PRefine

PRefine은 잠재 선호를 검색해야 할 정적 사실이 아니라 수정 가능한 선호 제약 가설로 취급합니다. 현재까지 관찰된 행동 규칙성의 가장 좋은 추상화 한 줄만 메모리에 유지하고, 새로운 세션이 생길 때마다 생성–검증–수정 루프로 갱신합니다.

1
Generate (생성)
세션 T+1에서 현재 대화, 실행된 API 호출, 이전 메모리 MT를 바탕으로 선호 후보 가설들을 생성합니다. 후보는 단순한 슬롯 수준의 재사용부터 도메인 횡단 행동 신호까지 다양한 추상화 수준을 포함합니다.
2
Verify (검증)
각 가설은 네 가지 기준으로 평가됩니다 — 증거 지지(여러 일관된 상호작용에 기반하는가), 추상화 품질(단일 이벤트나 슬롯 반복을 넘어 일반화되는가), 실행 가능성(향후 API 인자 선택을 의미 있게 편향시킬 수 있는가), 시간적 일관성(최근의 안정적 행동과 양립하는가).
3
Refine (수정)
검증에서 기각된 가설은 검증기의 피드백과 함께 생성기로 되돌아가 수정됩니다. 루프는 최대 3회까지 반복되며(그 이상 반복해도 추가 성능 이득이 없음을 실험적으로 확인), 수용된 가설이 새로운 메모리 MT+1로 저장됩니다.
4
스키마 독립적 메모리
핵심 설계로, 메모리는 특정 API의 슬롯 이름이 아니라 추상적 선호 제약(예: “예산 중심의 상호작용 성향”)만 저장합니다. 구체적 인자로의 접지는 추론 시점에 일어나기 때문에, 한 스키마에서 구축된 메모리가 슬롯 이름이나 인자 구성이 다른 테스트 시점 스키마에도 그대로 적용될 수 있습니다.
5
추론
세션 T+1 추론 단계에서 모델은 현재 쿼리 q, 유지된 메모리 MT, 그리고 대상 도메인의 스키마를 함께 조건으로 사용합니다. 추상 선호는 LLM 추론을 통해 구체적인 API 인자로 접지되며, 선호 표현과 스키마 적응이 한 단계에서 동시에 이루어집니다.

예시로 보는 동작. 세션 1에서 GetMovies(average_rating=6)가 관찰되면, 초기 가설 “중간 평점 영화를 선호”는 지나치게 구체적이어서 기각되고, “영화에 대한 관심이 적음”으로 수정되어 메모리로 채택됩니다. 이후 세션에서 GetRentalCars(car_type=Standard), GetRestaurants(price_range=Cheap)이 관찰되면 생성기는 “도메인 전반에서 경제적이고 단순한 옵션을 선호”라는 도메인 횡단 추상화를 제안하고, 이는 검증을 통과하여 메모리로 유지된 뒤 이후 항공권 예약 등에서 접지됩니다.

MPT 벤치마크

MPT(Multi-Session Personalized Tool Calling)는 세션을 넘나드는 개인화 자체를 평가 대상으로 삼습니다. Schema-Guided Dialogue(SGD)에 다중 세션 그룹화와 수동 선호 어노테이션을 더해 구축되었습니다.

통계량
다중 세션 대화 수265
전체 세션 수2,020
전체 턴 수39,884
대화당 평균 세션 수7.6
세션당 평균 턴 수19.7

MPT는 서로 다른 개인화 능력을 분리 평가하기 위한 세 가지 과제를 정의합니다.

1
Preference Recall — 선호 재사용 (332개)
누락된 인자를 동일 도메인 내 과거의 동일 선택을 그대로 재사용해 채울 수 있는 과제입니다(예: flight_class=Economy를 반복 선택한 경우).
2
Preference Induction — 선호 귀납 (293개)
단순 재사용으로는 해결되지 않는 과제. 서로 다른 작업과 도메인에 분산된 행동 증거를 종합해 잠재 선호를 추론하고, 이를 구체적인 인자 값으로 실체화해야 합니다.
3
Preference Transfer — 선호 전이 (472개)
대상 인자에 대한 도메인 내 증거가 전혀 없는 상황에서, 다른 도메인(예: 식당/호텔에서 관찰된 예산 성향)에서 학습한 잠재 선호를 새 도메인(예: 항공권)에 적용해야 하는 과제입니다.

각 인스턴스는 두 가지 쿼리 유형으로 평가됩니다. 문맥 포함(context-guided) 쿼리는 부분적인 명시 제약을 제공하는 세션 내 대화를 함께 포함하여 부분 지정 상황에서의 선호 기반 인자 완성 능력을 평가하고, 문맥 제거(context-free) 쿼리는 대화 맥락을 모두 제거하여 순수한 선호 모델링 능력만을 분리해 측정합니다. 선호는 58개의 API–인자 쌍을 상위 카테고리(예: 예산price_range=cheap, car_type=Compact, flight_class=Economy; 여행 인원passengers=1 vs. passengers=2-4)로 수동 그룹화하였으며, 19명의 인간 어노테이터가 예산 그룹 89.7%, 여행 그룹 97.4%의 일치도를 보였습니다.

실험 결과

총 8종의 추론 LLM(CodeGemma-7B, Gemma-3-12B, R1-Distill-Llama-8B, R1-Distill-Qwen-7B, GPT-4o-mini, GPT-5-mini, GPT-5, Gemini-3-Flash)을 4종의 메모리 베이스라인(RAG, Mem0, LangMem, PRefine)과 비교하였습니다.

문맥 포함 쿼리 — 베이스 프롬프팅 대비 평균 이득

과제Base P-EMBase OA-F1PRefine ΔP-EMPRefine ΔOA-F1
Preference Recall33.51%54.94%+13.11+11.99
Preference Induction16.89%51.46%+6.88+10.52
Preference Transfer7.81%44.81%+2.87+9.27

문맥 제거 쿼리 — 평균 F1 이득

과제Base F1PRefine ΔF1
Preference Recall33.62%+9.82
Preference Induction13.41%+5.20
Preference Transfer22.25%+3.38

메모리 설계 비교

방법메모리 형태갱신 방식실행 가능성잠재 선호 인지
RAG원시 발화정적 인덱스
Mem0추출된 사실덧붙이기 / 덮어쓰기
LangMem구조화된 사실LLM 재작성
PRefine잠재 제약생성–검증–수정

의의

개인 에이전트는 점차 단발성 도구 호출이 아니라 여러 세션을 거치며 사용자를 얼마나 잘 이해해 가는가로 평가될 것입니다. 이 논문은 효과적인 개인화가 사용자의 선택 그 자체가 아니라 그 선택의 이유를 포착하는 데 달려 있으며, 원시 히스토리보다 짧고 수정 가능한 가설 형태의 메모리가 훨씬 더 확장 가능한 표현임을 보여줍니다.

링크

Dialogue Benchmark