OmniACBench는 음성 지시, 텍스트 대본, 이미지로 구성된 멀티모달 맥락에서 옴니모달 모델이 발화 속도, 발성, 발음, 감정, 억양, 음색 등 6가지 음향 특성에 맞는 음성을 생성할 수 있는지 평가하는 3,559개 인스턴스 규모의 벤치마크로, 테스트된 8개 모델 모두 인간 수준의 음향 제어에 크게 미치지 못함을 밝혔습니다.
옴니모달 모델은 텍스트, 시각, 오디오 입력을 동시에 처리하고 음성을 생성하는 데 놀라운 진전을 이루었습니다. 그러나 기존 평가 프레임워크(OmniBench, AnyBench 등)는 모델 응답의 텍스트 내용에만 집중해 왔으며, 핵심적인 차원인 음성이 어떻게 들리는가는 무시해 왔습니다. 음성 응답은 언어적 내용과 준언어적 단서를 통해 의미를 전달합니다 -- 같은 문장이라도 톤, 속도, 음성 품질에 따라 위로, 긴박함, 무관심 등을 전달할 수 있습니다.
이 공백은 텍스트 출력 벤치마크에서 높은 점수를 받는 모델이 실제로 상황이 요구할 때 적절하게 말할 수 있는지 체계적으로 평가할 방법이 없음을 의미합니다. 예를 들어, 잠든 아기 이미지를 보여주었을 때 모델이 속삭일 수 있는지, 또는 긴급 상황 이미지를 보여주었을 때 긴박하게 말할 수 있는지 알 수 없습니다.
핵심 질문: 옴니모달 모델이 의미적으로 올바른 음성을 넘어, 시각, 청각, 텍스트 정보를 종합하여 멀티모달 맥락에 맞는 음향적으로 적절한 발화를 생성할 수 있을까요?
저자들은 "맥락 기반 음향 제어(context-grounded acoustic control)"를 텍스트, 시각, 오디오 입력의 조합으로부터 추론된 적절한 음향 특성을 갖춘 음성을 생성하는 능력으로 정의합니다. 이를 평가하기 위해 두 가지 기준 -- 멀티모달 접지 가능성(시각적 장면에서 자연스럽게 추론 가능한 특성)과 평가 다양성(객관적으로 측정 가능한 속성과 지각적으로 추상적인 속성의 혼합) -- 에 따라 선정된 6가지 음향 특성을 대상으로 하는 OmniACBench를 제안합니다.
OmniACBench는 특정 음향 특성 값을 대상으로 하는 트라이모달 테스트 인스턴스(음성 지시 + 텍스트 대본 + 이미지)를 생성하는 엄격한 3단계 파이프라인을 통해 구축됩니다.
평가 지표는 특성 유형에 따라 구분됩니다. 측정 가능한 특성은 신호 수준 지표를 사용합니다: 발화 속도는 빠르기/느리기 조건 간 분당 단어 수 차이(DWPM), 발음은 음소 오류율(PER), 발성은 유성 프레임 비율(VFR@0.3)로 측정합니다. 추상적 특성은 선별된 데이터셋으로 학습된 WavLM-Large 기반 분류기를 사용하며, 높은 참조 정확도를 달성합니다: 감정 89.43%, 글로벌 억양 97.29%, 음색 96.67%. 의미적 충실도는 Whisper-large-v3 전사를 통한 WER로 측정됩니다.
8개 옴니모달 모델을 평가했습니다: MiniCPM-o 4.5, InteractiveOmni (8B/4B), Qwen3-Omni 30B, Qwen2.5-Omni (7B/3B), Uni-MoE-2.0-Omni, MGM-Omni 7B.
| 모델 | 의미 WER ↓ | DWPM ↑ | 발음 PER ↓ | 감정 Acc ↑ | 억양 Acc ↑ | 음색 Acc ↑ |
|---|---|---|---|---|---|---|
| Reference | 0.05 | 65.87 | 1.21 | 89.43% | 97.29% | 96.67% |
| MiniCPM-o 4.5 | 1.04 | 6.42 | 5.46 | 21.44% | 39.34% | 24.66% |
| Qwen3-Omni 30B | 2.14 | -1.81 | 7.40 | 17.09% | 31.33% | 25.17% |
| Qwen2.5-Omni 7B | 4.15 | 0.76 | 10.27 | 19.10% | 28.96% | 24.66% |
통제된 입력 분해를 통해 식별된 3가지 실패 유형:
맥락 흐름 분석을 통한 아키텍처 인사이트: 은닉 상태의 선형 프로빙 결과, MiniCPM-o 4.5는 언어 모델 백본 전체에서 TTS 디코더까지 음향 맥락 정보를 유지하며 높은 프로빙 정확도를 보여줍니다. 반면 Qwen3-Omni 30B는 "Thinker"(언어 이해) 구성 요소에서는 높은 디코딩 가능성을 보이지만 "Talker"(음성 생성) 구성 요소에서는 랜덤 수준으로 떨어집니다. 이는 언어 이해와 음성 생성 간의 긴밀한 통합이 음향 제어 성능의 핵심 아키텍처 요인임을 시사합니다.
기본 역량 평가: 개별 구성 요소를 분리하여 테스트한 결과, 대본 전용 생성의 WER은 일관되게 낮고(0.09-0.15), 시각 단서 선택 정확도는 92-97%에 달합니다. 병목은 개별 역량이 아니라 이러한 역량들을 맥락 기반의 일관된 음성 생성으로 통합하는 과정에 있습니다.
음성 AI 비서가 일상에 보편화됨에 따라, 음성 생성의 품질은 단어를 맞추는 것을 훨씬 넘어섭니다. "어떻게 말하느냐"가 "무엇을 말하느냐"만큼 중요합니다 -- 의료 비서가 암 진단을 밝은 톤으로 전달하거나, 내비게이션이 긴급 우회를 차분하게 안내하는 상황을 상상해 보십시오. OmniACBench는 세 가지 핵심 기여를 합니다: