EN KO
← 전체 논문 목록

OmniACBench: A Benchmark for Evaluating Context-Grounded Acoustic Control in Omni-Modal Models

arXiv 2026
Seunghee Kim, Bumkyu Park, Kyudan Jung, Joosung Lee, Soyoon Kim, Jeonghoon Kim, Taeuk Kim, Hwiyeol Jo

한줄 요약

OmniACBench는 음성 지시, 텍스트 대본, 이미지로 구성된 멀티모달 맥락에서 옴니모달 모델이 발화 속도, 발성, 발음, 감정, 억양, 음색 등 6가지 음향 특성에 맞는 음성을 생성할 수 있는지 평가하는 3,559개 인스턴스 규모의 벤치마크로, 테스트된 8개 모델 모두 인간 수준의 음향 제어에 크게 미치지 못함을 밝혔습니다.

옴니모달 벤치마크 비교
Figure 1. 기존 옴니모달 벤치마크와의 비교: OmniACBench는 멀티모달 맥락에 기반한 음향 제어 능력을 평가하는 최초의 벤치마크입니다.

배경 및 동기

옴니모달 모델은 텍스트, 시각, 오디오 입력을 동시에 처리하고 음성을 생성하는 데 놀라운 진전을 이루었습니다. 그러나 기존 평가 프레임워크(OmniBench, AnyBench 등)는 모델 응답의 텍스트 내용에만 집중해 왔으며, 핵심적인 차원인 음성이 어떻게 들리는가는 무시해 왔습니다. 음성 응답은 언어적 내용과 준언어적 단서를 통해 의미를 전달합니다 -- 같은 문장이라도 톤, 속도, 음성 품질에 따라 위로, 긴박함, 무관심 등을 전달할 수 있습니다.

이 공백은 텍스트 출력 벤치마크에서 높은 점수를 받는 모델이 실제로 상황이 요구할 때 적절하게 말할 수 있는지 체계적으로 평가할 방법이 없음을 의미합니다. 예를 들어, 잠든 아기 이미지를 보여주었을 때 모델이 속삭일 수 있는지, 또는 긴급 상황 이미지를 보여주었을 때 긴박하게 말할 수 있는지 알 수 없습니다.

핵심 질문: 옴니모달 모델이 의미적으로 올바른 음성을 넘어, 시각, 청각, 텍스트 정보를 종합하여 멀티모달 맥락에 맞는 음향적으로 적절한 발화를 생성할 수 있을까요?

저자들은 "맥락 기반 음향 제어(context-grounded acoustic control)"를 텍스트, 시각, 오디오 입력의 조합으로부터 추론된 적절한 음향 특성을 갖춘 음성을 생성하는 능력으로 정의합니다. 이를 평가하기 위해 두 가지 기준 -- 멀티모달 접지 가능성(시각적 장면에서 자연스럽게 추론 가능한 특성)과 평가 다양성(객관적으로 측정 가능한 속성과 지각적으로 추상적인 속성의 혼합) -- 에 따라 선정된 6가지 음향 특성을 대상으로 하는 OmniACBench를 제안합니다.

제안 방법

구축 파이프라인
Figure 2. OmniACBench 구축 파이프라인: 대표적인 예시와 함께 3단계 과정을 보여줍니다.

OmniACBench는 특정 음향 특성 값을 대상으로 하는 트라이모달 테스트 인스턴스(음성 지시 + 텍스트 대본 + 이미지)를 생성하는 엄격한 3단계 파이프라인을 통해 구축됩니다.

1
음향 특성 선정
구체적인 목표값과 함께 6가지 특성을 정의합니다: 발화 속도(빠르게/느리게), 발성(속삭임), 발음(동형이의어 -- 철자는 같지만 발음이 다른 단어), 감정(기쁨, 놀라움, 분노, 혐오, 공포, 슬픔), 글로벌 억양(인도, 영국, 호주), 음색(성인 남성/여성, 노인 남성/여성). 각 목표값에 대해 시각적 개념으로서의 이미지 키워드를 수동으로 선별합니다(예: 빠른 발화 속도를 위한 "긴급 상황", 속삭임을 위한 "잠든 아기").
2
트라이모달 인스턴스 생성
텍스트 대본: 음향 단서를 포함하지 않도록 명시적으로 설계된 LLM 생성 중립 대본 -- 감정, 국적, 성별, 나이에 무관하게 유지됩니다.
음성 지시: 언어적 다양성을 위해 LLM이 패러프레이징한 제어 신호 템플릿(단어 위치 편차 = 0.11, 어휘 편차 = 0.69)을 TTS로 합성합니다.
이미지: 메타 프롬프팅 전략으로 이미지 키워드를 5-8개 요소의 시각적 설명으로 확장한 후 이미지를 생성하며, 직접 키워드 프롬프팅 대비 훨씬 높은 다양성(CLIP 거리 0.124 vs. 0.067; LPIPS 0.466 vs. 0.373)을 달성합니다.
3
2단계 품질 관리
LLM 기반 필터링은 세 가지 기준을 검사합니다: 패러프레이즈의 의미 보존, 텍스트 중립성(목표 음향값을 노출하는 대본 제거), 이미지-키워드 정합성. 이후 인간 검증으로 각 인스턴스를 확인합니다. 3,640개 후보 중 3,586개가 LLM 필터링을 통과하고 3,559개가 인간 검증을 통과했습니다(97.78% 유지율). 음성 품질은 거의 완벽한 수준으로 검증되었습니다: WER = 0.004, CER = 0.001, STOI = 0.994. 최종 데이터셋은 특성당 약 600개의 인스턴스를 포함합니다.

평가 지표는 특성 유형에 따라 구분됩니다. 측정 가능한 특성은 신호 수준 지표를 사용합니다: 발화 속도는 빠르기/느리기 조건 간 분당 단어 수 차이(DWPM), 발음은 음소 오류율(PER), 발성은 유성 프레임 비율(VFR@0.3)로 측정합니다. 추상적 특성은 선별된 데이터셋으로 학습된 WavLM-Large 기반 분류기를 사용하며, 높은 참조 정확도를 달성합니다: 감정 89.43%, 글로벌 억양 97.29%, 음색 96.67%. 의미적 충실도는 Whisper-large-v3 전사를 통한 WER로 측정됩니다.

실험 결과

성능 결과
Figure 3. 전체 평가 지표에 대한 결과: 대부분의 모델이 기준선 성능에 크게 못 미치며, 특히 추상적 음향 속성(감정, 억양)에서 저조합니다.

8개 옴니모달 모델을 평가했습니다: MiniCPM-o 4.5, InteractiveOmni (8B/4B), Qwen3-Omni 30B, Qwen2.5-Omni (7B/3B), Uni-MoE-2.0-Omni, MGM-Omni 7B.

모델의미 WER ↓DWPM ↑발음 PER ↓감정 Acc ↑억양 Acc ↑음색 Acc ↑
Reference0.0565.871.2189.43%97.29%96.67%
MiniCPM-o 4.51.046.425.4621.44%39.34%24.66%
Qwen3-Omni 30B2.14-1.817.4017.09%31.33%25.17%
Qwen2.5-Omni 7B4.150.7610.2719.10%28.96%24.66%

통제된 입력 분해를 통해 식별된 3가지 실패 유형:

Linear probing 시각화
Figure 4. Linear probing 분석: 모델 내부 레이어에서 맥락 관련 정보가 처리되는 방식을 시각화합니다.

맥락 흐름 분석을 통한 아키텍처 인사이트: 은닉 상태의 선형 프로빙 결과, MiniCPM-o 4.5는 언어 모델 백본 전체에서 TTS 디코더까지 음향 맥락 정보를 유지하며 높은 프로빙 정확도를 보여줍니다. 반면 Qwen3-Omni 30B는 "Thinker"(언어 이해) 구성 요소에서는 높은 디코딩 가능성을 보이지만 "Talker"(음성 생성) 구성 요소에서는 랜덤 수준으로 떨어집니다. 이는 언어 이해와 음성 생성 간의 긴밀한 통합이 음향 제어 성능의 핵심 아키텍처 요인임을 시사합니다.

기본 역량 평가: 개별 구성 요소를 분리하여 테스트한 결과, 대본 전용 생성의 WER은 일관되게 낮고(0.09-0.15), 시각 단서 선택 정확도는 92-97%에 달합니다. 병목은 개별 역량이 아니라 이러한 역량들을 맥락 기반의 일관된 음성 생성으로 통합하는 과정에 있습니다.

의의

음성 AI 비서가 일상에 보편화됨에 따라, 음성 생성의 품질은 단어를 맞추는 것을 훨씬 넘어섭니다. "어떻게 말하느냐""무엇을 말하느냐"만큼 중요합니다 -- 의료 비서가 암 진단을 밝은 톤으로 전달하거나, 내비게이션이 긴급 우회를 차분하게 안내하는 상황을 상상해 보십시오. OmniACBench는 세 가지 핵심 기여를 합니다:

링크

Multimodal Benchmark