OMHBench: Benchmarking Balanced and Grounded Omni-Modal Multi-Hop Reasoning
ACL 2026 Findings
Seunghee Kim, Ingyu Bang, Seokgyu Jang, Changhyeon Kim, Sanghwan Bae, Jihun Choi, Richeng Xuan, Taeuk Kim
한줄 요약
텍스트, 이미지, 음성 세 모달리티에 걸친 3-hop 추론을 6,144개의 질문으로 균형 있게 평가하는 벤치마크로, 최첨단 모델조차 음성 모달리티로의 정보 전이에서 비대칭적 옴니모달 그라운딩 문제를 보임을 밝혔습니다.
Figure 1. 기존 벤치마크의 한계: OMU(왼쪽)는 텍스트 맥락이 부족하고 모달리티 지름길이 존재하며, CMR(오른쪽)은 오디오를 제외하고 추론 경로가 불균형합니다. OMHBench는 이 두 가지 한계를 모두 해결합니다.
배경 및 동기
멀티모달 대형 언어 모델(MLLM)이 텍스트, 이미지, 오디오를 동시에 처리할 수 있다고 주장하지만, 두 가지 근본적인 질문이 남아 있습니다: (1) 옴니모달 이해(OMU) 벤치마크가 각 모달리티 없이도 풀 수 있다면, 진정으로 세 모달리티를 모두 평가하는 것인가? (2) 교차 모달 추론(CMR) 벤치마크가 단일 추론 경로에 편향되어 있다면, 추론 능력을 신뢰성 있게 측정할 수 있는가?
기존 평가 프레임워크를 체계적으로 분석한 결과, 두 가지 심각한 결함이 발견되었습니다:
문제 1 — OMU 벤치마크의 모달리티 지름길: 기존 OMU 벤치마크의 약 70-80%의 문항이 특정 모달리티(시각 또는 오디오) 없이도 풀 수 있어, 모델이 진정한 옴니모달 이해를 우회하는 지름길을 사용할 수 있었습니다.
문제 2 — CMR 벤치마크의 경로 불균형: 기존 교차 모달 추론 데이터셋은 추론 경로가 심하게 편향되어 있습니다 (예: MuMuQA는 Image-to-Text 인스턴스만 포함, MMQA는 ~2:1로 Image-to-Text에 편중). 경로를 강제로 균형화하면 일부 모델의 정확도가 최대 18%까지 하락하여, 기존 결과가 경로 편향으로 인해 과대평가되었음을 보여줍니다.
이러한 발견을 바탕으로 OMHBench는 OMU와 CMR 패러다임을 통합하면서 세 가지 요건을 충족합니다: (1) 멀티홉 추론을 강제하여 지름길 방지, (2) 텍스트, 이미지, 음성 세 모달리티 모두 포함, (3) 추론 경로를 명시적으로 제어하여 편향 없는 평가 보장.
Figure 2. OMHBench 태스크 예시: 이미지→텍스트, 이미지→텍스트→오디오 등 다양한 추론 경로를 통해 답을 도출해야 합니다. 속성은 각 모달리티에 고유하지만, 엔티티는 세 테이블 모두에서 공유됩니다.
벤치마크 구축 파이프라인
Figure 5. OMHBench 구축 파이프라인: 구조화된 테이블 트리플렛에서 완전히 다양화된 옴니모달 질문까지, 4단계 과정을 통해 균형 잡힌 벤치마크를 생성합니다.
1
테이블 트리플렛 구성
동일한 엔티티를 공유하되 서로 다른 속성을 가진 3개의 테이블(10개 엔티티 x 3개 속성)로 트리플렛을 구성합니다. 4개의 실세계 도메인을 활용합니다: 금융(23개 기업, 15개 재무 속성), 경제(18개 국가, 세계은행 18개 경제 지표), 기후(20개 도시, 12개 기상 속성), 영양(24개 식품, 19개 영양 속성). 안정적인 시각화를 위해 값 비율을 제한합니다(최대/최소 ≤ 30).
2
멀티홉 QA 생성
8가지 결정적 연산을 사용하여 3-hop 추론 체인을 생성합니다: Lookup(속성값 조회), Comparison(부등식 필터링), Ranking(상위/하위 엔티티 선택), Range(값 구간 선택), Proximity(참조값에 가장 가까운 엔티티 탐색), Retrieval(최종값 추출), Summation, Mean. 33개의 유효한 연산 조합이 도출되며, 두 하위 집합으로 나뉩니다: OMHBench-Connect(3,072개, 엔티티 선택 중심)와 OMHBench-Reasoning(3,072개, 집계 연산 중심). 생성 AI 없이 완전 자동화된 구축 방식을 사용합니다.
3
옴니모달 컨텍스트 생성
각 테이블을 세 모달리티 중 하나로 변환합니다. 이미지: Matplotlib/Seaborn으로 10가지 차트 유형, 20가지 폰트, 20가지 색상 팔레트 사용. 텍스트: 도메인 특화 시나리오(애널리스트 보고서, 뉴스 기사, 회의록)를 3개 LLM(GPT-5.1, Grok-4, Claude Sonnet 4.5)으로 생성하여 언어적 다양성 확보. 음성: Kokoro-82M TTS로 22가지 음성 유형, 27가지 음성 변형, 다화자 대화 형식 적용.
4
추론 경로 다양화
3개 테이블에 대한 모달리티 할당을 순열하여 각 질문을 3! = 6가지 추론 경로(S-I-T, S-T-I, I-S-T, T-S-I, I-T-S, T-I-S)로 생성합니다. 경로당 1,024개의 인스턴스가 균등 분배되며, 동일한 질문-답변 쌍을 유지하면서 모달리티 순서만 변경하여 경로 민감도를 체계적으로 분석할 수 있습니다.
품질 보증: 엔티티명을 알파벳 코드로 익명화하여 파라메트릭 지식 활용을 방지합니다. QA 기반 검증과 LLM 기반 테이블 재구성으로 100% 일관성을 달성했습니다. 다수 LLM을 활용한 질문 재구성은 PAWS 데이터셋보다 높은 어휘 편차를 달성합니다(0.32 vs. 0.13). TTS 품질은 WER: 0.03, CER: 0.02, STOI: 99.2, SI-SDR: 21.0으로 검증되었습니다.
실험 결과
13개 최첨단 모델을 평가했습니다: 상용 6개(Gemini 계열), 오픈소스 7개(Qwen3-Omni, Phi-4 Multimodal, Qwen2.5-Omni, OmniVinci, MiniCPM-o, Omni-AutoThink). 본 논문은 모델이 6가지 경로 변형 모두에서 정답을 맞출 때만 정답으로 인정하는 경로 균형 점수(PBS)를 새로 제안합니다.
OMHBench-Connect (엔티티 선택)
모델
유형
평균 정확도
PBS
경로별 범위
Gemini 3 Flash
상용
78.3%
32.2
60.2% - 98.4%
Gemini 2.5 Pro
상용
72.5%
25.0
50.8% - 96.9%
Gemini 2.5 Flash
상용
53.6%
4.7
21.9% - 85.9%
Qwen3-Omni 30B
오픈소스
46.8%
2.3
16.0% - 77.0%
기타 오픈소스 모델
오픈소스
< 5%
~0
-
OMHBench-Reasoning (집계 연산)
모델
유형
평균 정확도
PBS
경로별 범위
Gemini 3 Flash
상용
49.4%
8.6
40.0% - 58.8%
Gemini 2.5 Pro
상용
48.8%
10.9
41.4% - 53.9%
Qwen3-Omni 30B
오픈소스
15.0%
0.0
2.7% - 28.5%
기타 오픈소스 모델
오픈소스
~0%
0
-
Figure 6. 주요 경향: 상용 모델과 오픈소스 모델 간의 큰 성능 격차, 음성 모달리티의 어려움, 추론 경로 변화에 대한 높은 민감성이 모든 평가 모델에서 확인됩니다.
상용 vs. 오픈소스 격차: Gemini 3 Flash(78.3%)가 최고 오픈소스 모델인 Qwen3-Omni 30B(46.8%)를 Connect에서 크게 앞서며, Reasoning에서는 격차가 더 벌어집니다(49.4% vs. 15.0%)
비대칭적 음성 그라운딩: 음성 으로의 전이(I→S, T→S)가 특히 어려운 반면, 음성 으로부터의 전이는 비교적 안정적입니다. 예를 들어 Qwen3-Omni는 S-T-I에서 77.0%이지만 I-T-S에서는 16.0%에 불과합니다
경로 민감도: 경로 간 정확도 차이가 매우 큽니다 — Qwen3-Omni의 Connect에서 최대 38%, Gemini 3 Flash의 Reasoning에서 25.8% — 이는 단일 경로 평가가 모델 능력을 신뢰성 있게 반영하지 못함을 보여줍니다
연산 난이도: 성능이 점진적으로 하락합니다: Ranking(가장 쉬움) > Comparison > Proximity > Range(가장 어려움). 순위 비교는 잘 수행하지만 구간 제약에는 취약합니다
교차 도메인 격차: Gemini 3 Flash에서 경제학과 영양학 도메인 간 최대 21.8%의 성능 차이가 나타나, 도메인 일반화가 불완전함을 시사합니다
프롬프팅 전략의 한계: Self-Ask, Least-to-Most, Plan-and-Solve 등 고급 프롬프팅 전략이 표준 chain-of-thought 대비 일관된 개선을 보이지 않아, 비대칭 그라운딩이 프롬프팅이 아닌 근본적인 모델 한계임을 시사합니다
왜 중요한가?
OMHBench는 텍스트, 이미지, 음성 간 균형 잡힌 추론을 강제하면서 모달리티 지름길을 제거한 최초의 벤치마크입니다. 핵심 기여는 세 가지입니다:
신뢰할 수 있는 평가: 동일한 Q&A 쌍으로 6가지 추론 경로를 모두 제어함으로써, 기존 벤치마크에서 최대 18%까지 결과를 부풀렸던 경로 편향을 방지합니다
비대칭 그라운딩 진단: 모델이 음성 모달리티 로의 정보 그라운딩에서 체계적으로 취약하며, 때로는 음성 입력이 아예 없는 것처럼 동작하는 현상을 발견했습니다. 이러한 "비대칭 옴니모달 그라운딩"은 프롬프팅 문제가 아닌 근본적인 한계입니다
실행 가능한 개발 방향: 단계별 실패 분석과 연산 수준 성능 분석을 통해 모델이 정확히 어디에서 실패하는지(약한 모델은 초기 추론 단계, 강한 모델은 교차 모달 속성 그라운딩) 파악하여, 차세대 멀티모달 AI 개발의 구체적인 방향을 제시합니다