EN KO
← 전체 논문 목록

OMHBench: Benchmarking Balanced and Grounded Omni-Modal Multi-Hop Reasoning

ACL 2026 Findings
Seunghee Kim, Ingyu Bang, Seokgyu Jang, Changhyeon Kim, Sanghwan Bae, Jihun Choi, Richeng Xuan, Taeuk Kim

한줄 요약

텍스트, 이미지, 음성 세 모달리티에 걸친 3-hop 추론을 6,144개의 질문으로 균형 있게 평가하는 벤치마크로, 최첨단 모델조차 음성 모달리티로의 정보 전이에서 비대칭적 옴니모달 그라운딩 문제를 보임을 밝혔습니다.

OMU와 CMR 벤치마크 비교
Figure 1. 기존 벤치마크의 한계: OMU(왼쪽)는 텍스트 맥락이 부족하고 모달리티 지름길이 존재하며, CMR(오른쪽)은 오디오를 제외하고 추론 경로가 불균형합니다. OMHBench는 이 두 가지 한계를 모두 해결합니다.

배경 및 동기

멀티모달 대형 언어 모델(MLLM)이 텍스트, 이미지, 오디오를 동시에 처리할 수 있다고 주장하지만, 두 가지 근본적인 질문이 남아 있습니다: (1) 옴니모달 이해(OMU) 벤치마크가 각 모달리티 없이도 풀 수 있다면, 진정으로 세 모달리티를 모두 평가하는 것인가? (2) 교차 모달 추론(CMR) 벤치마크가 단일 추론 경로에 편향되어 있다면, 추론 능력을 신뢰성 있게 측정할 수 있는가?

기존 평가 프레임워크를 체계적으로 분석한 결과, 두 가지 심각한 결함이 발견되었습니다:

문제 1 — OMU 벤치마크의 모달리티 지름길: 기존 OMU 벤치마크의 약 70-80%의 문항이 특정 모달리티(시각 또는 오디오) 없이도 풀 수 있어, 모델이 진정한 옴니모달 이해를 우회하는 지름길을 사용할 수 있었습니다.

문제 2 — CMR 벤치마크의 경로 불균형: 기존 교차 모달 추론 데이터셋은 추론 경로가 심하게 편향되어 있습니다 (예: MuMuQA는 Image-to-Text 인스턴스만 포함, MMQA는 ~2:1로 Image-to-Text에 편중). 경로를 강제로 균형화하면 일부 모델의 정확도가 최대 18%까지 하락하여, 기존 결과가 경로 편향으로 인해 과대평가되었음을 보여줍니다.

이러한 발견을 바탕으로 OMHBench는 OMU와 CMR 패러다임을 통합하면서 세 가지 요건을 충족합니다: (1) 멀티홉 추론을 강제하여 지름길 방지, (2) 텍스트, 이미지, 음성 세 모달리티 모두 포함, (3) 추론 경로를 명시적으로 제어하여 편향 없는 평가 보장.

태스크 구성 예시
Figure 2. OMHBench 태스크 예시: 이미지→텍스트, 이미지→텍스트→오디오 등 다양한 추론 경로를 통해 답을 도출해야 합니다. 속성은 각 모달리티에 고유하지만, 엔티티는 세 테이블 모두에서 공유됩니다.

벤치마크 구축 파이프라인

OMHBench 구축 파이프라인
Figure 5. OMHBench 구축 파이프라인: 구조화된 테이블 트리플렛에서 완전히 다양화된 옴니모달 질문까지, 4단계 과정을 통해 균형 잡힌 벤치마크를 생성합니다.
1
테이블 트리플렛 구성
동일한 엔티티를 공유하되 서로 다른 속성을 가진 3개의 테이블(10개 엔티티 x 3개 속성)로 트리플렛을 구성합니다. 4개의 실세계 도메인을 활용합니다: 금융(23개 기업, 15개 재무 속성), 경제(18개 국가, 세계은행 18개 경제 지표), 기후(20개 도시, 12개 기상 속성), 영양(24개 식품, 19개 영양 속성). 안정적인 시각화를 위해 값 비율을 제한합니다(최대/최소 ≤ 30).
2
멀티홉 QA 생성
8가지 결정적 연산을 사용하여 3-hop 추론 체인을 생성합니다: Lookup(속성값 조회), Comparison(부등식 필터링), Ranking(상위/하위 엔티티 선택), Range(값 구간 선택), Proximity(참조값에 가장 가까운 엔티티 탐색), Retrieval(최종값 추출), Summation, Mean. 33개의 유효한 연산 조합이 도출되며, 두 하위 집합으로 나뉩니다: OMHBench-Connect(3,072개, 엔티티 선택 중심)와 OMHBench-Reasoning(3,072개, 집계 연산 중심). 생성 AI 없이 완전 자동화된 구축 방식을 사용합니다.
3
옴니모달 컨텍스트 생성
각 테이블을 세 모달리티 중 하나로 변환합니다. 이미지: Matplotlib/Seaborn으로 10가지 차트 유형, 20가지 폰트, 20가지 색상 팔레트 사용. 텍스트: 도메인 특화 시나리오(애널리스트 보고서, 뉴스 기사, 회의록)를 3개 LLM(GPT-5.1, Grok-4, Claude Sonnet 4.5)으로 생성하여 언어적 다양성 확보. 음성: Kokoro-82M TTS로 22가지 음성 유형, 27가지 음성 변형, 다화자 대화 형식 적용.
4
추론 경로 다양화
3개 테이블에 대한 모달리티 할당을 순열하여 각 질문을 3! = 6가지 추론 경로(S-I-T, S-T-I, I-S-T, T-S-I, I-T-S, T-I-S)로 생성합니다. 경로당 1,024개의 인스턴스가 균등 분배되며, 동일한 질문-답변 쌍을 유지하면서 모달리티 순서만 변경하여 경로 민감도를 체계적으로 분석할 수 있습니다.

품질 보증: 엔티티명을 알파벳 코드로 익명화하여 파라메트릭 지식 활용을 방지합니다. QA 기반 검증과 LLM 기반 테이블 재구성으로 100% 일관성을 달성했습니다. 다수 LLM을 활용한 질문 재구성은 PAWS 데이터셋보다 높은 어휘 편차를 달성합니다(0.32 vs. 0.13). TTS 품질은 WER: 0.03, CER: 0.02, STOI: 99.2, SI-SDR: 21.0으로 검증되었습니다.

실험 결과

13개 최첨단 모델을 평가했습니다: 상용 6개(Gemini 계열), 오픈소스 7개(Qwen3-Omni, Phi-4 Multimodal, Qwen2.5-Omni, OmniVinci, MiniCPM-o, Omni-AutoThink). 본 논문은 모델이 6가지 경로 변형 모두에서 정답을 맞출 때만 정답으로 인정하는 경로 균형 점수(PBS)를 새로 제안합니다.

OMHBench-Connect (엔티티 선택)

모델유형평균 정확도PBS경로별 범위
Gemini 3 Flash상용78.3%32.260.2% - 98.4%
Gemini 2.5 Pro상용72.5%25.050.8% - 96.9%
Gemini 2.5 Flash상용53.6%4.721.9% - 85.9%
Qwen3-Omni 30B오픈소스46.8%2.316.0% - 77.0%
기타 오픈소스 모델오픈소스< 5%~0-

OMHBench-Reasoning (집계 연산)

모델유형평균 정확도PBS경로별 범위
Gemini 3 Flash상용49.4%8.640.0% - 58.8%
Gemini 2.5 Pro상용48.8%10.941.4% - 53.9%
Qwen3-Omni 30B오픈소스15.0%0.02.7% - 28.5%
기타 오픈소스 모델오픈소스~0%0-
주요 경향
Figure 6. 주요 경향: 상용 모델과 오픈소스 모델 간의 큰 성능 격차, 음성 모달리티의 어려움, 추론 경로 변화에 대한 높은 민감성이 모든 평가 모델에서 확인됩니다.

왜 중요한가?

OMHBench는 텍스트, 이미지, 음성 간 균형 잡힌 추론을 강제하면서 모달리티 지름길을 제거한 최초의 벤치마크입니다. 핵심 기여는 세 가지입니다:

링크

Multimodal Benchmark