EN KO
← 전체 논문 목록

FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning

ACL 2025
Seunghee Kim, Changhyeon Kim, Taeuk Kim

한줄 요약

FCMR은 금융 텍스트 보고서, 테이블, 차트에 걸친 교차 모달 멀티홉 추론을 3단계 난이도(Easy/Medium/Hard)로 평가하는 2,199개 인스턴스 규모의 벤치마크로, 최고 성능 모델(Claude 3.5 Sonnet)조차 3-hop 추론이 필요한 Hard 수준에서 30.4% 정확도에 불과함을 밝혔습니다.

FCMR vs 기존 벤치마크
Figure 1. 기존 벤치마크(MMQA)의 한계: 세 가지 모달리티를 모두 활용하는 인스턴스가 0.8%에 불과합니다. FCMR은 이 문제를 해결하여 진정한 교차 모달 추론을 요구합니다.

배경 및 동기

실제 금융 분석은 텍스트 보고서를 읽고, 테이블에서 수치를 확인하며, 차트에서 추세를 파악하는 등 여러 모달리티의 정보를 동시에 통합해야 합니다. 대표적인 교차 모달 멀티홉 추론 벤치마크인 MMQA에는 두 가지 심각한 한계가 있었습니다:

데이터 오염: GPT-4o가 시각적 단서 없이도 MMQA의 가장 어려운 부분에서 43.4%를 달성했습니다 (이미지 포함 시 63.4%). 이는 벤치마크 데이터가 모델 사전학습 코퍼스에 이미 포함되었을 가능성을 시사합니다. Wikipedia 기반 데이터라는 점이 오염 위험을 더욱 가중시킵니다. 반면 FCMR에서는 차트 없는 성능이 14.71%로 떨어져 랜덤 기준선(12.28%)에 근접하여 오염에 대한 강건성이 확인되었습니다.

복잡한 질의의 부재: MMQA에서 세 가지 모달리티(텍스트, 테이블, 이미지)를 모두 활용하는 진정한 3-hop 교차 모달 추론 인스턴스는 전체의 0.8%에 불과합니다. 이는 모델의 심층적 다단계 정보 통합 능력 평가를 심각하게 제한합니다.

FCMR은 금융 공시 자료(SEC EDGAR 10-K 보고서 및 WRDS Compustat 재무제표, 순매출 상위 101개 기업, 2019--2023년 5년간 데이터)를 기반으로 하여 두 문제를 모두 해결하고, Easy(1-hop), Medium(2-hop), Hard(3-hop)의 체계적인 난이도 구분을 제공합니다.

Hard 수준 예시
Figure 2. Hard 수준 예시: 텍스트에서 기업 정보 파악, 테이블에서 재무 수치 확인, 차트에서 추세 분석의 3-hop 교차 모달 추론이 필요합니다.

제안 방법: CMRGen 파이프라인

교차 모달 멀티홉 추론 생성기(CMRGen)는 벤치마크 인스턴스를 자동으로 구축하는 3단계 프레임워크입니다. 각 인스턴스는 참/거짓을 판별해야 하는 3개의 진술문으로 구성되며, 0~3개가 정답일 수 있습니다. 총 2,199개 인스턴스: Easy 757개, Medium 728개, Hard 714개입니다.

CMRGen 프레임워크
Figure 3. CMRGen 데이터셋 생성 프레임워크: SEC EDGAR 10-K 보고서(텍스트), WRDS Compustat 재무제표(테이블), 합성 차트(이미지)를 결합하여 3단계 난이도의 질문을 자동 생성합니다.
1
입력 데이터 구축
텍스트: 순매출 상위 101개 기업의 SEC EDGAR 10-K 보고서(항목 1, 2, 7, 7A, 8). 테이블: WRDS Compustat 연간 간이 재무제표(전처리 후 70개 컬럼, 2019--2023년). 차트: 테이블 컬럼으로부터 matplotlib, seaborn, plotly를 사용하여 생성한 4가지 유형(꺾은선, 막대, 산점도, 원형) -- 실제 10-K 공시의 정량적 시각화 98%를 커버합니다.
2
진술문 생성
GPT-4o-mini와 5가지 템플릿 유형(사실 확인(FC), 조건부 임계값(CT), 산술(AR), 추세(TR), 순위(RK))을 사용하여 단일 모달리티 1-hop 진술문을 생성합니다. 멀티홉 진술문은 1-hop + 1-hop = 2-hop(Medium), 2-hop + 1-hop = 3-hop(Hard)으로 조합하여 진정한 교차 모달 추론 체인을 보장합니다.
3
패러프레이징 및 필터링
GPT-4o를 이용한 2단계 어휘/구문 패러프레이징 후 Claude 3.5 Sonnet으로 의미 보존을 검증합니다. 품질 지표: 단어 위치 편차(WPD) = 0.2, 어휘 편차(LD) = 0.45로 기존 패러프레이즈 벤치마크(MRPC, PAWS)를 상회합니다. Hard 수준 인스턴스는 추가적인 인간 전문가 검토를 거칩니다. 비용: 질문당 $0.004에 불과합니다.

실험 결과

모든 모델은 제로샷 Chain-of-Thought 설정으로 평가되었으며, 태스크 특화 튜닝 없이 테이블은 JSON 형식으로 제공되었습니다.

주요 MLLM 성능

모델EasyMediumHard평균
Claude 3.5 Sonnet75.43%50.82%30.39%52.21%
GPT-4o64.20%43.70%24.37%44.09%
Gemini 1.5 Pro63.01%31.18%22.27%38.82%
Gemini 1.5 Flash57.33%26.65%13.43%32.80%
GPT-4o mini49.14%21.98%13.03%28.05%
Llama 3.2 90B-Vision오픈소스 최고 성능이나 상용 모델에 미치지 못함
랜덤 기준선12.20%12.91%12.28%12.46%

LLM + DePlot (차트-테이블 변환)

모델EasyMediumHard
Claude 3.5 Sonnet + DePlot66.84%46.15%36.13%
GPT-4o + DePlot68.69%49.18%32.91%

DePlot 변환이 두 모델 모두 Hard 수준 성능을 향상시켰습니다(Claude: 30.39% → 36.13%; GPT-4o: 24.37% → 32.91%). 이는 현재 MLLM의 시각적 차트 해석 능력이 아직 불완전함을 시사합니다.

모달리티별 오류 분석 (Claude 3.5 Sonnet, 90개 진술문)

난이도텍스트테이블차트총 오류 수
Easy4%21%75%24
Medium16%19%65%31
Hard14%32%54%41

차트 유형별 정확도 (Claude 3.5 Sonnet)

차트 유형EasyMediumHard
원형(Pie)84.31%N/AN/A
막대(Bar)78.60%50.00%29.20%
꺾은선(Line)74.89%52.70%39.22%
산점도(Scatter)71.01%49.79%23.44%
세분화된 추론 단계 분석
Figure 5. 세분화된 추론 단계 분석: 정보 검색 단계가 모든 모델에서 주요 실패 지점으로 나타납니다.

의의

금융은 정확성이 절대적으로 요구되는 분야입니다. AI가 금융 분석을 의미 있게 지원하려면 이질적인 데이터 형식을 신뢰성 있게 통합하고 추론할 수 있어야 하지만, FCMR은 현재 최신 멀티모달 LLM이 이 능력에서 크게 부족함을 보여줍니다. 이 벤치마크의 세 가지 핵심 기여는 다음과 같습니다: (1) 데이터 오염에 대한 강건성(차트 없이는 랜덤 수준의 성능), (2) 최대 3-hop까지의 진정한 멀티홉 교차 모달 추론에 대한 체계적 평가, (3) 질문당 $0.004의 비용으로 확장 가능한 저비용 데이터셋 생성이 가능한 CMRGen 프레임워크 -- 법률, 의학, 공학 등 타 분야로의 확장 가능성도 제시합니다.

링크

Multimodal Benchmark