FCMR - HYU NLP Lab

한줄 요약

FCMR은 금융 텍스트 보고서, 테이블, 차트에 걸친 교차 모달 멀티홉 추론을 3단계 난이도(Easy/Medium/Hard)로 평가하는 2,199개 인스턴스 규모의 벤치마크로, 최고 성능 모델(Claude 3.5 Sonnet)조차 3-hop 추론이 필요한 Hard 수준에서 30.4% 정확도에 불과함을 밝혔습니다.

배경 및 동기

실제 금융 분석은 텍스트 보고서를 읽고, 테이블에서 수치를 확인하며, 차트에서 추세를 파악하는 등 여러 모달리티의 정보를 동시에 통합해야 합니다. 대표적인 교차 모달 멀티홉 추론 벤치마크인 MMQA에는 두 가지 심각한 한계가 있었습니다:

데이터 오염: GPT-4o가 시각적 단서 없이도 MMQA의 가장 어려운 부분에서 43.4%를 달성했습니다 (이미지 포함 시 63.4%). 이는 벤치마크 데이터가 모델 사전학습 코퍼스에 이미 포함되었을 가능성을 시사합니다. Wikipedia 기반 데이터라는 점이 오염 위험을 더욱 가중시킵니다. 반면 FCMR에서는 차트 없는 성능이 14.71%로 떨어져 랜덤 기준선(12.28%)에 근접하여 오염에 대한 강건성이 확인되었습니다.

복잡한 질의의 부재: MMQA에서 세 가지 모달리티(텍스트, 테이블, 이미지)를 모두 활용하는 진정한 3-hop 교차 모달 추론 인스턴스는 전체의 0.8%에 불과합니다. 이는 모델의 심층적 다단계 정보 통합 능력 평가를 심각하게 제한합니다.

FCMR은 금융 공시 자료(SEC EDGAR 10-K 보고서 및 WRDS Compustat 재무제표, 순매출 상위 101개 기업, 2019--2023년 5년간 데이터)를 기반으로 하여 두 문제를 모두 해결하고, Easy(1-hop), Medium(2-hop), Hard(3-hop)의 체계적인 난이도 구분을 제공합니다.

제안 방법: CMRGen 파이프라인

교차 모달 멀티홉 추론 생성기(CMRGen)는 벤치마크 인스턴스를 자동으로 구축하는 3단계 프레임워크입니다. 각 인스턴스는 참/거짓을 판별해야 하는 3개의 진술문으로 구성되며, 0~3개가 정답일 수 있습니다. 총 2,199개 인스턴스: Easy 757개, Medium 728개, Hard 714개입니다.

CMRGen 프레임워크 — **Figure 3.** CMRGen 데이터셋 생성 프레임워크: SEC EDGAR 10-K 보고서(텍스트), WRDS Compustat 재무제표(테이블), 합성 차트(이미지)를 결합하여 3단계 난이도의 질문을 자동 생성합니다.

1

입력 데이터 구축

텍스트: 순매출 상위 101개 기업의 SEC EDGAR 10-K 보고서(항목 1, 2, 7, 7A, 8). 테이블: WRDS Compustat 연간 간이 재무제표(전처리 후 70개 컬럼, 2019--2023년). 차트: 테이블 컬럼으로부터 matplotlib, seaborn, plotly를 사용하여 생성한 4가지 유형(꺾은선, 막대, 산점도, 원형) -- 실제 10-K 공시의 정량적 시각화 98%를 커버합니다.

2

진술문 생성

GPT-4o-mini와 5가지 템플릿 유형(사실 확인(FC), 조건부 임계값(CT), 산술(AR), 추세(TR), 순위(RK))을 사용하여 단일 모달리티 1-hop 진술문을 생성합니다. 멀티홉 진술문은 1-hop + 1-hop = 2-hop(Medium), 2-hop + 1-hop = 3-hop(Hard)으로 조합하여 진정한 교차 모달 추론 체인을 보장합니다.

3

패러프레이징 및 필터링

GPT-4o를 이용한 2단계 어휘/구문 패러프레이징 후 Claude 3.5 Sonnet으로 의미 보존을 검증합니다. 품질 지표: 단어 위치 편차(WPD) = 0.2, 어휘 편차(LD) = 0.45로 기존 패러프레이즈 벤치마크(MRPC, PAWS)를 상회합니다. Hard 수준 인스턴스는 추가적인 인간 전문가 검토를 거칩니다. 비용: 질문당 $0.004에 불과합니다.

실험 결과

모든 모델은 제로샷 Chain-of-Thought 설정으로 평가되었으며, 태스크 특화 튜닝 없이 테이블은 JSON 형식으로 제공되었습니다.

주요 MLLM 성능

모델	Easy	Medium	Hard	평균
Claude 3.5 Sonnet	75.43%	50.82%	30.39%	52.21%
GPT-4o	64.20%	43.70%	24.37%	44.09%
Gemini 1.5 Pro	63.01%	31.18%	22.27%	38.82%
Gemini 1.5 Flash	57.33%	26.65%	13.43%	32.80%
GPT-4o mini	49.14%	21.98%	13.03%	28.05%
Llama 3.2 90B-Vision	오픈소스 최고 성능이나 상용 모델에 미치지 못함
랜덤 기준선	12.20%	12.91%	12.28%	12.46%

LLM + DePlot (차트-테이블 변환)

모델	Easy	Medium	Hard
Claude 3.5 Sonnet + DePlot	66.84%	46.15%	36.13%
GPT-4o + DePlot	68.69%	49.18%	32.91%

DePlot 변환이 두 모델 모두 Hard 수준 성능을 향상시켰습니다(Claude: 30.39% → 36.13%; GPT-4o: 24.37% → 32.91%). 이는 현재 MLLM의 시각적 차트 해석 능력이 아직 불완전함을 시사합니다.

모달리티별 오류 분석 (Claude 3.5 Sonnet, 90개 진술문)

난이도	텍스트	테이블	차트	총 오류 수
Easy	4%	21%	75%	24
Medium	16%	19%	65%	31
Hard	14%	32%	54%	41

차트 유형별 정확도 (Claude 3.5 Sonnet)

차트 유형	Easy	Medium	Hard
원형(Pie)	84.31%	N/A	N/A
막대(Bar)	78.60%	50.00%	29.20%
꺾은선(Line)	74.89%	52.70%	39.22%
산점도(Scatter)	71.01%	49.79%	23.44%

**Figure 5.** 세분화된 추론 단계 분석: 정보 검색 단계가 모든 모델에서 주요 실패 지점으로 나타납니다.

성능 한계: 최고 모델(Claude 3.5 Sonnet)조차 Hard에서 30.39%, 전체 평균 52.21%에 불과하여 실제 금융 분석 적용에는 크게 부족
정보 검색이 핵심 병목: 40개 샘플에 대한 4단계(계획, 모달리티 식별, 정보 검색, 정보 추론) 수동 분석 결과, 식별된 모달리티에서 올바른 정보를 추출하지 못하는 것이 가장 빈번한 오류
차트 이해가 가장 취약: Easy 수준에서 오류의 75%, Hard 수준에서 54%가 차트에서 발생. 산점도가 가장 어려운 차트 유형(Hard 정확도 23.44%)으로, 비구조적 표현 때문
보수적 편향: 모든 모델이 불확실한 상황에서 "거짓"으로 기본 판단하는 경향을 보이며, Claude의 Hard 수준 진술문별 정밀도(74.27%)가 재현율(47.99%)을 크게 상회
주요 오류 유형: 추세 평가 오류(35건), 데이터/수치 해석 실수(17건), 순위 판단 오류(16건), 음수 처리 어려움 등
최적화 여지: 모달리티 통합 + 4단계 추론 + Self-Refine 조합으로 Hard 100개 샘플 성능이 32%에서 46%로 향상되나 그 이상은 포화 -- 전용 접근법이 필요. 추론 특화 모델(o1: 43%, Gemini 2.0 Flash Thinking: 39%)도 격차 해소에 실패

의의

금융은 정확성이 절대적으로 요구되는 분야입니다. AI가 금융 분석을 의미 있게 지원하려면 이질적인 데이터 형식을 신뢰성 있게 통합하고 추론할 수 있어야 하지만, FCMR은 현재 최신 멀티모달 LLM이 이 능력에서 크게 부족함을 보여줍니다. 이 벤치마크의 세 가지 핵심 기여는 다음과 같습니다: (1) 데이터 오염에 대한 강건성(차트 없이는 랜덤 수준의 성능), (2) 최대 3-hop까지의 진정한 멀티홉 교차 모달 추론에 대한 체계적 평가, (3) 질문당 $0.004의 비용으로 확장 가능한 저비용 데이터셋 생성이 가능한 CMRGen 프레임워크 -- 법률, 의학, 공학 등 타 분야로의 확장 가능성도 제시합니다.

링크

ACL Anthology arXiv Paper

FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning