EN KO
← 전체 논문 목록

Superficial Success vs. Internal Breakdown: An Empirical Study of Generalization in Adaptive Multi-Agent Systems

ACL 2026 Findings
Namyoung So*, Seokgyu Jang*, Taeuk Kim (*: 공동 제1저자)

한줄 요약

대표적인 적응형 멀티에이전트 시스템(AFlow, AgentDropout)을 6개 도메인에 걸쳐 실증적으로 분석하여, 학습된 토폴로지가 (i) 분포 밖 도메인으로 일반화되지 않는 토폴로지 과적합(topological overfitting)과 (ii) 정확도는 유지되지만 내부 협업은 이미 붕괴된 환상적 협응(illusory coordination)이라는 두 가지 실패 양상을 보이며, 도메인 전이에서 발생하는 실패의 약 59%가 역할(role)·연결(connection) 관련 붕괴에서 비롯됨을 밝혔다.

도메인 전이 상황에서 표면적 성공과 내부 붕괴가 어긋나는 사례: 법률 도메인에서 학습된 MAS를 과학 문제에 적용할 때 역할 오정렬·태스크 일탈·단계 반복이 발생하지만, 개별 LLM의 힘으로 최종 정답은 유지된다.
Figure 1. 법률 도메인에서 학습된 적응형 MAS를 과학 도메인에 적용한 예시. 에이전트들은 협업 중 다수의 오류(Legal Text Extractor가 물리 문제를 풀고, Verifier가 검증할 대상이 없으며, Holding Selector가 문제를 처음부터 다시 푸는 등)를 일으키지만, 개별 LLM의 능력 덕분에 최종 정답은 유지된다—표면적 정확도가 환상적 협응을 가리고 있는 전형적 사례.

배경 및 동기

적응형 멀티에이전트 시스템(MAS)은 에이전트 집합 A(역할)와 연결 C(통신 토폴로지)를 데이터로부터 함께 학습한다. 일반 목적의 LLM을 기반으로 태스크별 협업 그래프를 최적화해 성능을 끌어올린다는 아이디어는 매력적이지만, 학습이 지극히 좁은 태스크에 맞춰지기 때문에 과연 이 시스템이 일반 목적으로 동작하는지는 불분명하다.

이 문제는 단순한 이론적 관심사가 아니다. 적응형 MAS 구축에는 여러 번의 LLM 호출, 반복적 탐색, 오케스트레이션 비용이 수반되며, 태스크마다 별도의 MAS를 배포한다면 범용 에이전트라는 애초의 목표가 무너진다. 적응형 MAS가 도메인 내에서만 작동한다면, 결국 복잡한 껍질을 쓴 전용 해결사에 불과하다.

핵심 질문: 적응형 MAS가 도메인 간 전이에서 잘 동작할 때, 그 성공은 진정한 집단 지능에서 오는가, 아니면 단지 개별 LLM의 강력한 성능에서 오는가? 본 논문은 후자가 놀랄 만큼 흔함을 보이고, 이를 노출하는 정량적 지표를 제안한다.

연구 설계

1
두 가지 대표 적응형 MAS
AFlow(bottom-up)는 통신 경로를 점진적으로 쌓아 올리며 역할 A와 연결 C를 동시에 최적화한다. AgentDropout(top-down)은 완전 연결 그래프에서 불필요한 연결을 제거해 C만 최적화하며, 역할 AAgentInit으로 사전 결정한다.
2
6개 도메인/추론 유형
CaseHOLD(법률), COM2(추리), MuSiQue(멀티홉 QA), SciBench(과학), TheoremQA(수학), StrategyQA(상식). 기존 관례에 맞춰 학습 인스턴스를 AgentDropout 60개, AFlow 100개로 제한하고, 학습된 토폴로지를 고정한 채 나머지 다섯 도메인에서 OOD 평가를 수행한다. 전체 인스턴스 수를 동일하게 유지하며 6개 도메인을 섞는 다중 도메인 변형도 함께 비교한다.
3
기반 LLM 및 평가자
주 실험은 GPT-oss-20B를 기반 에이전트 LLM으로 사용하며, Qwen3-30B-A3B 결과가 동일한 경향을 부록에서 확인한다. 실패 유형 라벨링을 위한 LLM-as-judge로는 GPT-oss-120B를 활용하고, 모든 수치는 독립적인 3회 실행 평균이다.
4
정성 분석: MAST 분류
실행 로그는 Cemri et al. (2025)의 14개 범주 Multi-Agent System Failure Taxonomy (MAST)로 라벨링된다. 설정당 100개의 로그를 판별해 역할 위반, 의사소통 오류, 태스크 일탈, 단계 반복, 검증 누락 등을 분리한다.
5
정량 분석: 두 가지 새로운 지표
Role Alignment Ri = S1i · (1 − S2i). S1은 에이전트의 역할 프롬프트와 출력 간 코사인 유사도(all-MiniLM-L6-v2 임베딩), S2는 다른 에이전트 출력과의 평균 유사도이며, R이 클수록 각 에이전트가 고유하고 역할에 충실한 기여를 한다는 의미이다. Connection Significance Oi = ∑ αi,ℓ si,ℓ. α는 정적 사전(역할, 질의)과 비교한 softmax 영향력 가중치이고, s ∈ {+1, −1}은 메시지의 유용성에 대한 LLM-as-judge 판단이다. O가 0에 가까우면 메시지가 무시된 상태, O < 0이면 영향은 크지만 해로운 메시지, O > 0이면 영향도 크고 유용한 메시지를 의미한다.

발견 1: 토폴로지 과적합

단일 도메인에서 최적화된 MAS 토폴로지는 분포 변화에 놀라울 만큼 취약하다. CaseHOLD(법률)로 학습된 AgentDropout은 도메인 내 63.5%에서 미학습 5개 도메인 평균 55.78%로 떨어진다. StrategyQA(상식)로 학습된 경우에는 이진(참/거짓) 답변에 맞춰진 토폴로지가 다른 도메인에서는 유효한 답조차 생성하지 못해 법률·추리·과학·수학에서 0.6 / 0.5 / 0.1 / 15.7%로 붕괴한다.

AgentDropout (GPT-oss-20B) — 학습 도메인(행) → 테스트 도메인(열) 정확도

학습 / 테스트법률추리멀티홉과학수학상식
CaseHOLD (법률)63.544.257.441.865.570.0
COM2 (추리)53.447.953.835.854.419.5
MuSiQue (멀티홉)63.249.058.440.165.473.8
SciBench (과학)61.834.254.938.962.847.5
TheoremQA (수학)62.247.257.536.963.875.1
StrategyQA (상식)0.60.541.50.115.772.5
다중 도메인 학습60.246.752.941.164.475.3

전체 학습 인스턴스 수를 동일하게 유지하면서 6개 도메인을 혼합 학습하는 단순한 완화책만으로 대부분의 도메인 내 기준선을 회복하고 최악의 경우들이 눈에 띄게 안정화된다. 이는 일반화 실패가 적응형 MAS의 본질적 한계라기보다는 좁은 학습 범위에서 비롯됨을 시사한다.

발견 2: 환상적 협응

정확도가 그럭저럭 유지되는 경우조차 정성·정량 분석은 “성공”의 근원이 협업이 아님을 드러낸다. 100개 실행 로그에 MAST를 적용한 결과 역할·연결 관련 실패(카테고리 1–6)가 도메인 전이 상의 모든 오류의 약 59%를 차지한다.

도메인 전이 시 실패 유형 분포 (MAST)

실패 유형비율
역할 사양 위반 (Disobey Role Specification)15.22%
검증 누락/오류 (No or Incorrect Verification)10.10%
태스크 일탈 (Task Derailment)8.97%
태스크 사양 위반 (Disobey Task Specification)8.94%
단계 반복 (Step Repetition)8.65%
다른 에이전트 입력 무시 (Ignored Other Agent’s Input)7.21%
기타 MAST 8개 범주40.90%

대표 사례들은 이 양상을 생생히 보여준다. Legal Text Extractor가 Carnot 효율 계산에 뛰어들고(역할 오정렬), Validator가 선행 에이전트 출력을 무시한 채 처음부터 다시 풀며(입력 무시), Answer Synthesizer가 객관식 문항에 “True”로 답하는(태스크 위반) 식이다.

Role Alignment (R) / Connection Significance (O) — AgentDropout

각 값은 행 방향 최댓값으로 정규화되어 도메인 내(대각) 값이 1.00이다. 정규화된 값이 낮을수록, 원시 정확도가 겉보기에 괜찮더라도 환상적 협응이 드러난다.

학습 / 테스트법률 (R / O)추리멀티홉과학수학상식
CaseHOLD (법률)1.00 / 1.000.56 / 0.070.04 / −1.790.22 / −2.070.25 / −1.890.54 / −1.56
COM2 (추리)0.79 / 0.901.00 / 1.000.04 / 0.170.43 / 0.650.47 / 0.580.82 / 0.46
MuSiQue (멀티홉)0.69 / 1.001.00 / 0.960.38 / 0.150.50 / 0.950.58 / 0.800.58 / 0.86
SciBench (과학)0.44 / −0.750.49 / −0.500.04 / −0.571.00 / 1.000.62 / 0.770.46 / −0.07
TheoremQA (수학)0.38 / −0.120.36 / 0.210.04 / −0.070.60 / 1.001.00 / 0.880.32 / 0.48
StrategyQA (상식)1.00 / 0.930.96 / 0.950.07 / 0.170.32 / 1.000.45 / 0.900.95 / 0.81
다중 도메인 학습0.89 / 0.691.00 / 0.990.31 / −0.230.58 / 0.880.62 / 0.850.98 / 1.00

상관 분석 및 소거 실험

구성 요소 교체(component-swap) 소거 실험은 어느 쪽이 과적합되는지를 정확히 짚어낸다. Role-OOD(도메인 내 연결을 유지하고 역할만 OOD로 교체)는 평균 −13.00pp의 정확도 하락을, Connection-OOD(연결만 교체)는 −1.24pp의 하락만을 일으킨다. 즉, 학습된 역할이 학습된 연결보다 훨씬 더 태스크 특화적이다. 다만 MuSiQue(멀티홉)에서는 Connection-OOD만으로도 5.36pp 하락이 발생하여, 멀티홉 추론과 같이 과제 자체가 정보 통합을 요구하는 경우에는 유효한 연결이 특히 중요함을 보여준다.

벤치마크Acc – R (Pearson)Acc – O (Pearson)In-DomainConnection-OODRole-OOD
CaseHOLD−0.0070.000263.5062.88 (−0.62)48.26 (−15.24)
COM2−0.035**0.045***47.9050.68 (+2.78)34.50 (−13.40)
MuSiQue0.0030.123***58.4053.04 (−5.36)48.44 (−9.96)
SciBench0.084***−0.039*38.9038.69 (−0.21)30.29 (−8.61)
TheoremQA0.113***−0.081***63.8061.26 (−2.54)51.64 (−12.16)
StrategyQA−0.096***0.067**72.5071.00 (−1.50)53.89 (−18.61)

의의

본 논문은 적응형 MAS가 “작동한다”는 말의 의미를 다시 묻는다. 시스템이 새 벤치마크에서 경쟁력 있는 수치를 달성하면서도 내부적으로는 단 하나의 강력한 LLM이 짐을 떠맡고 다른 에이전트들은 무관하거나 오히려 해로운 메시지를 쏟아내는 상태로 붕괴할 수 있다. 최종 정답 정확도만을 보상하는 현 벤치마크와 최적화 목표는 이런 상태를 오히려 조장하고 있다.

링크

Safety Reasoning