OmniACBench - HYU NLP Lab

한줄 요약

OmniACBench는 음성 지시, 텍스트 대본, 이미지로 구성된 멀티모달 맥락에서 옴니모달 모델이 발화 속도, 발성, 발음, 감정, 억양, 음색 등 6가지 음향 특성에 맞는 음성을 생성할 수 있는지 평가하는 3,559개 인스턴스 규모의 벤치마크로, 테스트된 8개 모델 모두 인간 수준의 음향 제어에 크게 미치지 못함을 밝혔습니다.

배경 및 동기

옴니모달 모델은 텍스트, 시각, 오디오 입력을 동시에 처리하고 음성을 생성하는 데 놀라운 진전을 이루었습니다. 그러나 기존 평가 프레임워크(OmniBench, AnyBench 등)는 모델 응답의 텍스트 내용에만 집중해 왔으며, 핵심적인 차원인 음성이 어떻게 들리는가는 무시해 왔습니다. 음성 응답은 언어적 내용과 준언어적 단서를 통해 의미를 전달합니다 -- 같은 문장이라도 톤, 속도, 음성 품질에 따라 위로, 긴박함, 무관심 등을 전달할 수 있습니다.

이 공백은 텍스트 출력 벤치마크에서 높은 점수를 받는 모델이 실제로 상황이 요구할 때 적절하게 말할 수 있는지 체계적으로 평가할 방법이 없음을 의미합니다. 예를 들어, 잠든 아기 이미지를 보여주었을 때 모델이 속삭일 수 있는지, 또는 긴급 상황 이미지를 보여주었을 때 긴박하게 말할 수 있는지 알 수 없습니다.

핵심 질문: 옴니모달 모델이 의미적으로 올바른 음성을 넘어, 시각, 청각, 텍스트 정보를 종합하여 멀티모달 맥락에 맞는 음향적으로 적절한 발화를 생성할 수 있을까요?

저자들은 "맥락 기반 음향 제어(context-grounded acoustic control)"를 텍스트, 시각, 오디오 입력의 조합으로부터 추론된 적절한 음향 특성을 갖춘 음성을 생성하는 능력으로 정의합니다. 이를 평가하기 위해 두 가지 기준 -- 멀티모달 접지 가능성(시각적 장면에서 자연스럽게 추론 가능한 특성)과 평가 다양성(객관적으로 측정 가능한 속성과 지각적으로 추상적인 속성의 혼합) -- 에 따라 선정된 6가지 음향 특성을 대상으로 하는 OmniACBench를 제안합니다.

제안 방법

**Figure 2.** OmniACBench 구축 파이프라인: 대표적인 예시와 함께 3단계 과정을 보여줍니다.

OmniACBench는 특정 음향 특성 값을 대상으로 하는 트라이모달 테스트 인스턴스(음성 지시 + 텍스트 대본 + 이미지)를 생성하는 엄격한 3단계 파이프라인을 통해 구축됩니다.

1

음향 특성 선정

구체적인 목표값과 함께 6가지 특성을 정의합니다: 발화 속도(빠르게/느리게), 발성(속삭임), 발음(동형이의어 -- 철자는 같지만 발음이 다른 단어), 감정(기쁨, 놀라움, 분노, 혐오, 공포, 슬픔), 글로벌 억양(인도, 영국, 호주), 음색(성인 남성/여성, 노인 남성/여성). 각 목표값에 대해 시각적 개념으로서의 이미지 키워드를 수동으로 선별합니다(예: 빠른 발화 속도를 위한 "긴급 상황", 속삭임을 위한 "잠든 아기").

2

트라이모달 인스턴스 생성

텍스트 대본: 음향 단서를 포함하지 않도록 명시적으로 설계된 LLM 생성 중립 대본 -- 감정, 국적, 성별, 나이에 무관하게 유지됩니다.
음성 지시: 언어적 다양성을 위해 LLM이 패러프레이징한 제어 신호 템플릿(단어 위치 편차 = 0.11, 어휘 편차 = 0.69)을 TTS로 합성합니다.
이미지: 메타 프롬프팅 전략으로 이미지 키워드를 5-8개 요소의 시각적 설명으로 확장한 후 이미지를 생성하며, 직접 키워드 프롬프팅 대비 훨씬 높은 다양성(CLIP 거리 0.124 vs. 0.067; LPIPS 0.466 vs. 0.373)을 달성합니다.

3

2단계 품질 관리

LLM 기반 필터링은 세 가지 기준을 검사합니다: 패러프레이즈의 의미 보존, 텍스트 중립성(목표 음향값을 노출하는 대본 제거), 이미지-키워드 정합성. 이후 인간 검증으로 각 인스턴스를 확인합니다. 3,640개 후보 중 3,586개가 LLM 필터링을 통과하고 3,559개가 인간 검증을 통과했습니다(97.78% 유지율). 음성 품질은 거의 완벽한 수준으로 검증되었습니다: WER = 0.004, CER = 0.001, STOI = 0.994. 최종 데이터셋은 특성당 약 600개의 인스턴스를 포함합니다.

평가 지표는 특성 유형에 따라 구분됩니다. 측정 가능한 특성은 신호 수준 지표를 사용합니다: 발화 속도는 빠르기/느리기 조건 간 분당 단어 수 차이(DWPM), 발음은 음소 오류율(PER), 발성은 유성 프레임 비율(VFR@0.3)로 측정합니다. 추상적 특성은 선별된 데이터셋으로 학습된 WavLM-Large 기반 분류기를 사용하며, 높은 참조 정확도를 달성합니다: 감정 89.43%, 글로벌 억양 97.29%, 음색 96.67%. 의미적 충실도는 Whisper-large-v3 전사를 통한 WER로 측정됩니다.

실험 결과

성능 결과 — **Figure 3.** 전체 평가 지표에 대한 결과: 대부분의 모델이 기준선 성능에 크게 못 미치며, 특히 추상적 음향 속성(감정, 억양)에서 저조합니다.

8개 옴니모달 모델을 평가했습니다: MiniCPM-o 4.5, InteractiveOmni (8B/4B), Qwen3-Omni 30B, Qwen2.5-Omni (7B/3B), Uni-MoE-2.0-Omni, MGM-Omni 7B.

모델	의미 WER ↓	DWPM ↑	발음 PER ↓	감정 Acc ↑	억양 Acc ↑	음색 Acc ↑
Reference	0.05	65.87	1.21	89.43%	97.29%	96.67%
MiniCPM-o 4.5	1.04	6.42	5.46	21.44%	39.34%	24.66%
Qwen3-Omni 30B	2.14	-1.81	7.40	17.09%	31.33%	25.17%
Qwen2.5-Omni 7B	4.15	0.76	10.27	19.10%	28.96%	24.66%

압도적인 성능 격차: 최고 성능 모델(MiniCPM-o 4.5)조차 발화 속도에서 DWPM 6.42 vs. 참조 65.87, 감정에서 21.44% vs. 89.43%로 각각 약 10배, 4배의 격차를 보입니다.
발화 속도 조절 거의 불가: 대부분의 모델이 DWPM 값이 0에 가까우며(Qwen3-Omni는 -1.81), 맥락에 따른 말하기 속도 조절 능력이 사실상 없음을 나타냅니다.
음색 제어 본질적으로 불가능: 모든 모델이 음색에서 25% 랜덤 기준선 근처에 몰려 있어, 음성 특성(남성/여성, 젊은/노인)을 전혀 조절하지 못합니다.
발성 제어 부재: 모든 모델에서 VFR@0.3 검출률이 거의 0에 가까워 속삭임 음성 생성이 불가능함을 나타냅니다.
감정이 상대적으로 가장 나으나 여전히 제한적: 감정은 추상적 특성 중 가장 나은 상대적 성능을 보이지만, MiniCPM-o 4.5의 21.44%도 6클래스 분류의 16.7% 랜덤 기준선을 약간 상회하는 수준입니다.

통제된 입력 분해를 통해 식별된 3가지 실패 유형:

유형 I -- 직접적 음향 제어 부재: Oracle 조건(명시적 목표값 지정)에서도 성능이 랜덤 수준에 머뭅니다. 음색이 대표적이며, 글로벌 억양과 발성도 MiniCPM-o 4.5를 제외한 대부분의 모델에서 이 패턴을 보입니다.
유형 II -- 암묵적 추론 실패: 모델이 명시적 지시(Oracle)로는 음향 제어를 수행할 수 있지만 맥락에서 올바른 목표를 추론하지 못합니다. Qwen 모델의 발화 속도와 MiniCPM-o 4.5의 발성에서 관찰됩니다 -- Oracle에서는 급격한 성능 향상이 있으나 맥락 기반에서는 개선되지 않습니다.
유형 III -- 멀티모달 그라운딩 실패: 모델이 텍스트화된 맥락에서는 올바르게 추론하지만 정보가 여러 모달리티에 분산되면 실패합니다. MiniCPM-o 4.5의 발화 속도는 텍스트만 사용할 때 강한 성능을 보이지만, 음성 또는 이미지만 사용할 때 크게 저하됩니다.

Linear probing 시각화 — **Figure 4.** Linear probing 분석: 모델 내부 레이어에서 맥락 관련 정보가 처리되는 방식을 시각화합니다.

맥락 흐름 분석을 통한 아키텍처 인사이트: 은닉 상태의 선형 프로빙 결과, MiniCPM-o 4.5는 언어 모델 백본 전체에서 TTS 디코더까지 음향 맥락 정보를 유지하며 높은 프로빙 정확도를 보여줍니다. 반면 Qwen3-Omni 30B는 "Thinker"(언어 이해) 구성 요소에서는 높은 디코딩 가능성을 보이지만 "Talker"(음성 생성) 구성 요소에서는 랜덤 수준으로 떨어집니다. 이는 언어 이해와 음성 생성 간의 긴밀한 통합이 음향 제어 성능의 핵심 아키텍처 요인임을 시사합니다.

기본 역량 평가: 개별 구성 요소를 분리하여 테스트한 결과, 대본 전용 생성의 WER은 일관되게 낮고(0.09-0.15), 시각 단서 선택 정확도는 92-97%에 달합니다. 병목은 개별 역량이 아니라 이러한 역량들을 맥락 기반의 일관된 음성 생성으로 통합하는 과정에 있습니다.

의의

음성 AI 비서가 일상에 보편화됨에 따라, 음성 생성의 품질은 단어를 맞추는 것을 훨씬 넘어섭니다. "어떻게 말하느냐"가 "무엇을 말하느냐"만큼 중요합니다 -- 의료 비서가 암 진단을 밝은 톤으로 전달하거나, 내비게이션이 긴급 우회를 차분하게 안내하는 상황을 상상해 보십시오. OmniACBench는 세 가지 핵심 기여를 합니다:

음향 제어의 최초 체계적 평가: 텍스트 출력 지표를 넘어 모델이 실제로 적절하게 말할 수 있는지 평가함으로써 옴니모달 평가의 중요한 공백을 메웁니다.
실패 모드의 정밀한 진단: 식별된 세 가지 실패 유형(직접 제어, 암묵적 추론, 멀티모달 그라운딩)은 모델 개선을 위한 명확하고 실행 가능한 방향을 제시합니다.
아키텍처 설계 지침: 언어 모델과 TTS의 긴밀한 통합이 음향 제어 성능과 상관관계가 있다는 발견은 차세대 옴니모달 아키텍처를 위한 구체적인 설계 원칙을 제공합니다.

링크

arXiv Paper

OmniACBench: A Benchmark for Evaluating Context-Grounded Acoustic Control in Omni-Modal Models

한줄 요약

배경 및 동기

제안 방법

실험 결과

의의

링크