EN KO
← 전체 논문 목록

RAISE: Enhancing Scientific Reasoning in LLMs via Step-by-Step Retrieval

The 5th Workshop on Mathematical Reasoning and AI (MATH-AI) at NeurIPS 2025
Minhae Oh, Jeonghye Kim, Nakyung Lee, Donggeon Seo, Taeuk Kim, Jungwoo Lee

한줄 요약

RAISE는 과학 문제를 하위 질문으로 분해하고, 추론 의도를 반영한 논리 강화 쿼리를 생성하여 오픈 도메인 코퍼스에서 단계별로 관련 문서를 검색하는 3단계 검색 증강 프레임워크로, 대학원 수준의 과학 벤치마크(GPQA, SuperGPQA, MMLU)에서 평균 13%의 성능 향상을 달성합니다.

Step-back, HyDE, RAISE의 쿼리 생성 방법 비교 예시
Figure 2. 동일한 하위 질문에 대한 쿼리 생성 방법(Step-back, HyDE, RAISE) 비교 예시. RAISE가 표면적 도메인 유사성을 넘어 추론 의도를 포착하는 논리 강화 쿼리를 생성하는 방식을 보여줍니다.

배경 및 동기

과학적 추론 과제는 LLM이 전문 용어 및 최신 지식과 함께 긴 추론 사슬을 처리해야 합니다. 이를 위한 두 가지 주요 전략으로 단계적 추론(Chain-of-Thought 분해)과 검색 증강 생성(RAG)이 있습니다. 최근 연구들은 이 둘을 결합하지만, 대부분 단순한 다중 홉 QA를 대상으로 하거나 큐레이션된 태스크 특화 코퍼스를 전제합니다.

기존 RAG 접근법은 전체 문제에서 파생된 단일 쿼리로 문서를 검색하여, 대학원 수준의 과학 문제에 필요한 다단계 논리를 지원하지 못하는 모호하거나 피상적인 내용을 반환하는 경우가 많습니다. 핵심 과제는 복잡한 과학적 추론 문제를 풀 때 각 단계에서 무엇을 검색하고 어떻게 적절한 외부 지식을 가져올 것인가입니다.

핵심 문제: 기존 검색 방법(표준 RAG, HyDE, Step-Back 등)은 논리적 관련성이 아닌 표면적 유사성을 기반으로 문서를 매칭합니다. 검색된 문서는 도메인 키워드를 공유하지만 실제 각 추론 단계를 해결하는 데 필요한 핵심 과학적 메커니즘—반응 메커니즘, 수학적 유도, 물리적 원리 등—이 부족합니다. 추론 맥락이 없는 초기 검색 쿼리도, 노이즈가 많거나 지나치게 구체적인 하위 질문만으로도 효과적인 검색이 어렵습니다.

제안 방법: RAISE

RAISE(Retrieval-Augmented framework for Improving Scientific rEasoning)는 세 단계의 순차적 과정을 수행합니다. Dense Passage Retrieval(DPR)을 사용하여 약 2,100만 개의 Wikipedia 패시지(각 약 100단어)를 검색하며, 태스크 특화 코퍼스가 필요하지 않습니다:

1
문제 분해 (Problem Decomposition)
LLM이 원본 질문을 n개의 하위 질문(r1, ..., rn)과 대응하는 초기 검색 쿼리(q1, ..., qn)로 분해합니다. 이 초기 쿼리는 직접 검색이 아닌 다음 단계의 입력으로 사용됩니다. 이러한 분해를 통해 각 추론 단계가 서로 다른 정보에 접근할 수 있는 구조화된 추론 경로를 형성합니다.
2
논리적 쿼리 생성 (Logical Query Generation)
각 하위 질문에 대해 초기 쿼리 qi와 하위 질문 ri를 재구성 프롬프트를 통해 결합하여 논리 강화 쿼리(qi*)를 생성합니다. 핵심 통찰은 재구성된 쿼리가 사실적 부정확성을 포함하더라도 표면적 키워드가 아닌 근본적인 추론 의도를 포착하기 때문에 논리적으로 관련된 패시지를 검색하는 경향이 있다는 것입니다.
3
논리적 검색 및 답변 구성 (Logical Retrieval & Answer Composition)
각 하위 질문에 대해 L2 정규화된 임베딩의 내적 유사도를 사용하여 DPR로 상위 10개 문서를 검색합니다. 유사도 임계값(GPQA/SuperGPQA/MMLU-Pro: T=0.84, MMLU-STEM: T=0.80)으로 관련성이 낮은 패시지를 필터링합니다. 모델은 필터링된 문서, 원본 질문, 이전의 모든 하위 답변을 사용하여 하위 답변을 생성하고, 최종적으로 모든 하위 답변을 종합하여 최종 답변을 도출합니다.

실험 결과

RAISE는 GPQA Diamond(물리, 생물, 화학 분야의 전문가 작성 대학원 수준 198문항), SuperGPQA(과학 및 공학 분야의 대학원 수준 문항, 다수 난이도), MMLU(대학/전문가 수준 화학 및 생물)에서 평가되었습니다. 주요 LLM은 GPQA에 Mistral Small 3.1-Instruct-2503(24B), SuperGPQA/MMLU에 LLaMA 3.1-8B를 사용했습니다. CoT, CoT+RAG, Least-to-Most, Step-Back, Least-to-Most+RAG, Step-Back+RAG, HyDE 등 7개 베이스라인과 비교합니다.

방법GPQA DiamondSuperGPQA 과학-HardSuperGPQA 과학-MidSuperGPQA 공학-HardMMLU 대학 화학
CoT42.424.5215.086.5349.50
CoT + RAG45.967.5412.567.5443.00
Least-to-Most44.956.0314.5710.0545.40
Step-Back44.445.0315.086.0343.00
Least-to-Most + RAG45.956.0314.578.0446.00
Step-Back + RAG43.435.5315.589.0543.00
HyDE46.467.5413.077.0449.00
RAISE51.0110.0519.6010.5551.00

GPQA Diamond에서의 교차 모델 일반화:

모델CoTHyDERAISE향상
LLaMA 3.1-8B22.2225.7530.30+7.1%
GPT-4o mini40.9138.8947.98+5.6%
Mistral-24B42.4246.4651.01+9.8%

의의

과학적 추론은 도메인 지식과 다단계 논리적 추론을 모두 필요로 하는 LLM의 가장 도전적인 영역 중 하나입니다. RAISE는 단계별 분해와 논리 강화 검색의 결합이 대학원 수준의 과학 문제에서 벤치마크 전반에 걸쳐 평균 13%의 성능 향상을 달성할 수 있음을 보여주며, 추가적인 모델 훈련이나 큐레이션된 도메인 특화 코퍼스 없이도 이를 실현합니다.

이 프레임워크는 실용적이고 범용적입니다: 오픈 도메인 Wikipedia만을 검색 코퍼스로 사용하며, 다양한 모델 규모(8B~24B 파라미터)에서 작동하고, 물리, 화학, 생물, 공학 전반에 걸쳐 일반화됩니다. 검색 쿼리가 표면적 도메인 유사성이 아닌 추론 의도를 포착해야 한다는 핵심 통찰은 과학, 수학 등 복잡한 추론 과제에서 LLM 성능을 향상시키는 유망한 방향을 제시합니다.

링크

Reasoning RAG