FCMR은 금융 텍스트 보고서, 테이블, 차트에 걸친 교차 모달 멀티홉 추론을 3단계 난이도(Easy/Medium/Hard)로 평가하는 2,199개 인스턴스 규모의 벤치마크로, 최고 성능 모델(Claude 3.5 Sonnet)조차 3-hop 추론이 필요한 Hard 수준에서 30.4% 정확도에 불과함을 밝혔습니다.
실제 금융 분석은 텍스트 보고서를 읽고, 테이블에서 수치를 확인하며, 차트에서 추세를 파악하는 등 여러 모달리티의 정보를 동시에 통합해야 합니다. 대표적인 교차 모달 멀티홉 추론 벤치마크인 MMQA에는 두 가지 심각한 한계가 있었습니다:
데이터 오염: GPT-4o가 시각적 단서 없이도 MMQA의 가장 어려운 부분에서 43.4%를 달성했습니다 (이미지 포함 시 63.4%). 이는 벤치마크 데이터가 모델 사전학습 코퍼스에 이미 포함되었을 가능성을 시사합니다. Wikipedia 기반 데이터라는 점이 오염 위험을 더욱 가중시킵니다. 반면 FCMR에서는 차트 없는 성능이 14.71%로 떨어져 랜덤 기준선(12.28%)에 근접하여 오염에 대한 강건성이 확인되었습니다.
복잡한 질의의 부재: MMQA에서 세 가지 모달리티(텍스트, 테이블, 이미지)를 모두 활용하는 진정한 3-hop 교차 모달 추론 인스턴스는 전체의 0.8%에 불과합니다. 이는 모델의 심층적 다단계 정보 통합 능력 평가를 심각하게 제한합니다.
FCMR은 금융 공시 자료(SEC EDGAR 10-K 보고서 및 WRDS Compustat 재무제표, 순매출 상위 101개 기업, 2019--2023년 5년간 데이터)를 기반으로 하여 두 문제를 모두 해결하고, Easy(1-hop), Medium(2-hop), Hard(3-hop)의 체계적인 난이도 구분을 제공합니다.
교차 모달 멀티홉 추론 생성기(CMRGen)는 벤치마크 인스턴스를 자동으로 구축하는 3단계 프레임워크입니다. 각 인스턴스는 참/거짓을 판별해야 하는 3개의 진술문으로 구성되며, 0~3개가 정답일 수 있습니다. 총 2,199개 인스턴스: Easy 757개, Medium 728개, Hard 714개입니다.
모든 모델은 제로샷 Chain-of-Thought 설정으로 평가되었으며, 태스크 특화 튜닝 없이 테이블은 JSON 형식으로 제공되었습니다.
| 모델 | Easy | Medium | Hard | 평균 |
|---|---|---|---|---|
| Claude 3.5 Sonnet | 75.43% | 50.82% | 30.39% | 52.21% |
| GPT-4o | 64.20% | 43.70% | 24.37% | 44.09% |
| Gemini 1.5 Pro | 63.01% | 31.18% | 22.27% | 38.82% |
| Gemini 1.5 Flash | 57.33% | 26.65% | 13.43% | 32.80% |
| GPT-4o mini | 49.14% | 21.98% | 13.03% | 28.05% |
| Llama 3.2 90B-Vision | 오픈소스 최고 성능이나 상용 모델에 미치지 못함 | |||
| 랜덤 기준선 | 12.20% | 12.91% | 12.28% | 12.46% |
| 모델 | Easy | Medium | Hard |
|---|---|---|---|
| Claude 3.5 Sonnet + DePlot | 66.84% | 46.15% | 36.13% |
| GPT-4o + DePlot | 68.69% | 49.18% | 32.91% |
DePlot 변환이 두 모델 모두 Hard 수준 성능을 향상시켰습니다(Claude: 30.39% → 36.13%; GPT-4o: 24.37% → 32.91%). 이는 현재 MLLM의 시각적 차트 해석 능력이 아직 불완전함을 시사합니다.
| 난이도 | 텍스트 | 테이블 | 차트 | 총 오류 수 |
|---|---|---|---|---|
| Easy | 4% | 21% | 75% | 24 |
| Medium | 16% | 19% | 65% | 31 |
| Hard | 14% | 32% | 54% | 41 |
| 차트 유형 | Easy | Medium | Hard |
|---|---|---|---|
| 원형(Pie) | 84.31% | N/A | N/A |
| 막대(Bar) | 78.60% | 50.00% | 29.20% |
| 꺾은선(Line) | 74.89% | 52.70% | 39.22% |
| 산점도(Scatter) | 71.01% | 49.79% | 23.44% |
금융은 정확성이 절대적으로 요구되는 분야입니다. AI가 금융 분석을 의미 있게 지원하려면 이질적인 데이터 형식을 신뢰성 있게 통합하고 추론할 수 있어야 하지만, FCMR은 현재 최신 멀티모달 LLM이 이 능력에서 크게 부족함을 보여줍니다. 이 벤치마크의 세 가지 핵심 기여는 다음과 같습니다: (1) 데이터 오염에 대한 강건성(차트 없이는 랜덤 수준의 성능), (2) 최대 3-hop까지의 진정한 멀티홉 교차 모달 추론에 대한 체계적 평가, (3) 질문당 $0.004의 비용으로 확장 가능한 저비용 데이터셋 생성이 가능한 CMRGen 프레임워크 -- 법률, 의학, 공학 등 타 분야로의 확장 가능성도 제시합니다.