EN KO
← 전체 논문 목록

Hybrid-Vector Retrieval for Visually Rich Documents: Combining Single-Vector Efficiency and Multi-Vector Accuracy

ACL 2026 Findings
Juyeon Kim, Geon Lee, Dongwon Choi, Taeuk Kim, Kijung Shin

한줄 요약

HEAVEN은 Visually-Summarized Pages와 쿼리 토큰 필터링을 도입하여 다중 벡터 Recall@1의 99.87%를 유지하면서 쿼리당 연산량을 99.82% 절감하는 2단계 하이브리드 검색 프레임워크로, 시각적으로 풍부한 문서의 대규모 검색을 가능하게 합니다.

HEAVEN의 효율성-정확도 트레이드오프 비교
Figure 1. 단일 벡터 및 다중 벡터 기준 대비 HEAVEN의 효율성-정확도 트레이드오프 비교.

배경 및 동기

표, 차트, 그림, 복잡한 레이아웃이 포함된 시각적으로 풍부한 문서는 법률 검색, 학술 문헌 탐색, 기업 지식 관리의 핵심 자료입니다. 핵심 정보가 텍스트가 아닌 시각적 요소에 담겨 있어 기존 텍스트 기반 검색은 효과적이지 않습니다. 대규모 비전-언어 모델(LVLM)이 OCR 없이 이미지 기반 페이지 인코딩을 가능하게 했지만, 기존 접근법들은 뚜렷한 트레이드오프를 보입니다:

HEAVEN의 핵심 관찰: 두 패러다임 간 성능 차이는 후보 집합이 커질수록 급격히 줄어듭니다. ViMDoc에서 Recall@1 차이는 22.5%이지만, Recall@200에서는 불과 0.63%로 좁혀집니다. 이는 단일 벡터가 넓은 후보 집합을 충분히 확보할 수 있으며, 다중 벡터 재순위화로 정밀하게 보완할 수 있음을 시사합니다.

핵심 통찰: 단일 벡터 검색은 적당한 recall 깊이에서 이미 대부분의 관련 페이지를 포착합니다. 효율적인 단일 벡터 후보 생성과 핵심 쿼리 토큰에 집중하는 다중 벡터 재순위화를 결합하면, 비용의 극히 일부만으로 거의 최적의 정확도를 달성할 수 있습니다.

제안 방법: HEAVEN 프레임워크

HEAVEN(Hybrid-vector retrieval for Efficient and Accurate Visual multi-documENt)은 두 가지 핵심 혁신을 포함하는 2단계 프레임워크입니다: 시각 정보를 보존하면서 인덱스 크기를 줄이는 Visually-Summarized Pages(VS-Pages)와, 불필요한 다중 벡터 연산을 제거하는 POS 기반 쿼리 토큰 필터링입니다.

HEAVEN 파이프라인 개요
Figure 2. HEAVEN 파이프라인 개요: Stage 1에서 VS-Pages 기반 단일 벡터 매칭으로 후보를 검색하고, Stage 2에서 필터링된 쿼리 토큰으로 다중 벡터 재순위화를 수행합니다.
1
Stage 1: VS-Pages 기반 후보 검색
VS-Page 생성: DocLayout-YOLO로 각 문서 페이지의 제목 영역을 추출합니다. 추출된 제목 레이아웃을 그룹화(축소 계수 r = min(15, |D_k|))하고 수직으로 조합하여 여러 원본 페이지의 시각적 내용을 요약하는 합성 VS-Page를 생성합니다. 이를 통해 인덱스 크기를 줄이면서도 유용한 시각 요소를 보존합니다.

후보 스코어링: 모든 VS-Page에 대해 단일 벡터 유사도 S_SV(q, VS) = ⟨E_q, E_VS⟩를 계산합니다. 상위 p1 × 100% 후보(기본 p1 = 0.5)를 유지하고, 구성 페이지로 확장한 뒤 결합 점수 S(q, P) = α · S_SV(q, Γ^{-1}(P)) + (1-α) · S_SV(q, P) (α = 0.1)로 정제하여 상위 K = 200개 페이지를 Stage 2로 전달합니다.
2
Stage 2: 토큰 필터링 기반 다중 벡터 재순위화
핵심 토큰 필터링: NLTK 기반 품사 태깅으로 명사와 고유명사 등 언어적으로 중요한 토큰을 식별합니다. 이들은 전체 쿼리 토큰의 약 30%에 해당하며, 비용이 큰 MaxSim 연산에 이 토큰들만 참여시켜 FLOPs를 약 70% 절감합니다.

재순위화: 필터링된 다중 벡터 스코어링 S_MV(q_key, P) = Σ_i max_j ⟨E_{q_key}^{(i)}, E_P^{(j)}⟩로 K개 후보를 재순위화합니다. 최종 정제 단계에서 S(q, P) = β · S_SV(q, P) + (1-β) · S_MV(q, P) (β = 0.3)로 결합하고, 상위 p2 = 25% 후보에 대해 전체 쿼리 토큰으로 최종 스코어링을 수행합니다.

ViMDoc 벤치마크

본 논문은 시각적으로 풍부한 다중 문서, 긴 문서 검색을 위한 최초의 벤치마크인 ViMDoc을 소개합니다. 기존 VDR 벤치마크는 단일 문서 내 검색으로 제한되거나 짧은 문서만 사용하여, 대규모 문서 컬렉션에서의 검색이라는 현실적인 과제를 충분히 평가하지 못했습니다.

실험 결과

HEAVEN은 Stage 1에 DSE, Stage 2에 ColQwen2.5 모델을 사용합니다. 4개 벤치마크에서 페이지 수준 Recall@{1,3}과 쿼리당 FLOPs로 평가했습니다.

주요 결과 (ColQwen2.5 다중 벡터 기준 대비)

데이터셋방법Recall@1Recall@3FLOPs (B)
ViMDocDSE (단일 벡터)58.0377.080.235
ColQwen2.5 (다중 벡터)71.1386.39407.320
HEAVEN71.0586.410.486
OpenDocVQADSE (단일 벡터)59.3875.820.247
ColQwen2.5 (다중 벡터)72.6386.38482.049
HEAVEN71.5684.530.541
ViDoSeekDSE (단일 벡터)69.5387.130.017
ColQwen2.5 (다중 벡터)75.5791.9441.514
HEAVEN75.0491.330.623
M3DocVQADSE (단일 벡터)55.1471.300.126
ColQwen2.5 (다중 벡터)57.9978.73288.507
HEAVEN59.3178.660.545

효율성 분석 (ViMDoc)

방법지연 시간 (초/쿼리)FLOPs (B)
DSE (단일 벡터)0.1150.235
ColQwen2.5 (다중 벡터)2006.361407.320
HEAVEN2.4120.486

Ablation Study 주요 결과

연구의 의의

법률 검색, 학술 문헌 탐색, 지식 관리를 위해 수백만 건의 시각적으로 풍부한 PDF 문서를 다루는 기업 환경에서, 다중 벡터 검색의 쿼리당 2,000초 이상의 연산 비용은 프로덕션 배포를 사실상 불가능하게 합니다. HEAVEN은 쿼리당 단 2.4초만으로 동등한 정확도를 달성하여 832배의 속도 향상을 제공합니다. 이 프레임워크는 모듈형 설계로, VS-Page 구성과 쿼리 토큰 필터링 기법은 모델에 구애받지 않아 어떤 단일 벡터/다중 벡터 모델 조합에도 적용할 수 있습니다. 또한 도입된 ViMDoc 벤치마크는 여러 개의 긴 시각적 복합 문서에 걸친 검색 시스템의 현실적 평가를 가능하게 하여, 기존 벤치마크가 다루지 못한 중요한 공백을 채웁니다.

링크

Information Retrieval Multimodal