RAISE: Enhancing Scientific Reasoning in LLMs via Step-by-Step Retrieval

한줄 요약

RAISE는 과학 문제를 하위 질문으로 분해하고, 각 단계마다 논리 강화 쿼리를 생성하여 오픈 도메인 코퍼스(위키피디아 등)에서 논리적으로 관련된 문서를 검색함으로써, 대학원 수준 과학 벤치마크에서 최고 기준선 대비 평균 약 13%의 성능 향상을 달성합니다.

배경 및 동기

            LLM의 과학적 추론에는 긴 논리 체인의 추론과 도메인 특화 지식이 동시에 필요합니다. 기존 접근법은 크게 두 가지 -- 단계적 추론(Chain-of-Thought 등)과 검색 증강 생성(RAG) -- 으로 나뉘지만, 이 둘을 효과적으로 결합하는 것은 여전히 어려운 문제입니다. 기존 RAG는 표면적 유사성에 기반하여 문서를 검색하므로, 각 추론 단계에 논리적으로 필요한 지식을 놓치는 경우가 빈번합니다.
        

RAISE의 핵심 통찰은 과학 문제의 서로 다른 추론 단계가 서로 다른 외부 지식을 필요로 하며, 이를 단일 쿼리로 한 번에 검색하는 것은 불가능하다는 점입니다. 예를 들어, 대학원 수준의 화학 문제를 풀려면 반응 메커니즘에 대한 지식과 열역학 원리에 대한 지식이 각각 별도로 필요할 수 있습니다. 또한 단순히 도메인이 유사한 문서를 검색하는 것으로는 부족하며, 검색된 내용이 각 추론 단계를 진행하는 데 필요한 구체적인 논리적 연결(과학적 메커니즘, 방정식, 원리 등)을 포함해야 합니다.

기존 분해 기반 RAG 방법인 Least-to-Most 프롬프팅은 하위 질문 텍스트를 그대로 쿼리로 사용하고, Step-Back 프롬프팅은 지나치게 일반적인 쿼리로 추상화하며, HyDE는 가상의 답변을 생성하여 환각을 유발할 수 있습니다. RAISE는 추론 의도와 논리적 구조를 모두 포착하는 쿼리 재구성을 통해 이러한 한계를 극복하며, 특정 과제에 특화된 데이터베이스가 아닌 위키피디아와 같은 오픈 도메인 코퍼스에서의 검색을 가능하게 합니다.

제안 방법

1

문제 분해 (Problem Decomposition)

LLM이 원래의 과학 문제를 하위 질문과 초기 검색 쿼리의 쌍 {(r_i, q_i)}ⁿ_i=1으로 분해합니다. 각 하위 질문 r_i는 특정 추론 단계를 포착하고, 초기 쿼리 q_i는 해당 단계에 맞는 검색 핸들을 제공합니다. 이 쌍들은 직접 검색에 사용되지 않고, 다음 단계의 구조화된 입력으로 활용되어 전체 프로세스를 안내합니다.

2

논리적 쿼리 생성 (Logical Query Generation)

초기 쿼리 q_i만으로는 추론 맥락이 부족하고, 하위 질문만으로는 노이즈가 많을 수 있습니다. RAISE는 LLM을 통해 두 요소를 결합하여 각 초기 쿼리를 논리 강화 쿼리 q_i*로 재구성합니다. 재구성된 쿼리는 추론 의도를 포착하고 관련 지식 검색에 필요한 논리적 구조를 인코딩합니다. 흥미롭게도, 재구성된 쿼리에 사실적 오류가 포함되더라도 논리적으로 관련성 있고 올바른 추론 경로를 지원하는 문서를 검색하는 경향이 있습니다.

3

논리적 검색 및 단계별 답변 (Logical Retrieval & Step-by-Step Answering)

각 하위 질문에 대해 DPR 검색기를 사용하여 오픈 도메인 코퍼스(2,100만 개의 위키피디아 패시지)에서 외부 지식 D_i를 검색하며, 유사도 임계값 T를 적용하여 관련 없는 문서를 필터링합니다. 모델은 D_i, 원래 질문, 이전 하위 답변을 조건으로 하위 답변 a_i를 생성합니다. 모든 하위 질문이 답변된 후, LLM이 하위 답변들을 종합하여 최종 답변을 도출합니다. 분해, 쿼리 재구성, 하위 답변 생성, 최종 종합의 네 가지 전용 프롬프트가 전체 과정을 제어합니다.

실험 결과

RAISE는 세 가지 과학적 추론 벤치마크에서 오픈 도메인 위키피디아 검색(2,100만 패시지, DPR 검색기, 쿼리당 상위 10개 문서)을 사용하여 평가되었습니다. 기준선으로는 Chain-of-Thought(CoT), CoT+RAG, Least-to-Most, Step-Back, 각각의 RAG 변형, HyDE가 사용되었습니다.

벤치마크	최고 기준선	RAISE	향상률
GPQA Diamond (198문항)	46.46 (HyDE)	51.01	+9.8%
SuperGPQA Science-Hard	7.54 (CoT+RAG)	10.05	+33.3%
SuperGPQA Science-Mid	15.58 (Step-Back)	19.60	+25.8%
SuperGPQA Eng-Hard	10.05 (L2M)	10.55	+5.0%
MMLU Prof. Chemistry	25.44 (Direct)	28.36	+11.5%
MMLU Prof. Biology	58.02 (L2M+RAG)	59.27	+2.2%
MMLU College Chemistry	49.50 (Direct)	51.00	+3.0%

난이도에 걸친 일관적 향상: RAISE는 최고 기준선 대비 평균 약 13%의 성능 향상을 달성합니다. 특히 가장 어려운 부분집합에서 최대 +33.3%(SuperGPQA Science-Hard)의 큰 향상을 보입니다.
모델 간 일반화: GPQA에서 LLaMA 3.1-8B (30.30 vs. 28.28), GPT-4o mini (47.98 vs. 42.42), Mistral 24B (51.01 vs. 46.46) 등 세 가지 규모의 LLM에서 모두 성능 향상이 확인되었습니다.
문제 분해의 중요성: 문제 분해를 생략한 RAISE-Direct 변형에서 유의미한 성능 저하가 관찰되어, 단계별 맞춤 검색이 단일 쿼리 방식보다 우수함을 확인하였습니다.
최고 수준의 논리적 관련성: LLM 기반 평가와 인간 평가(화학 박사과정/교수진 포함)에서 RAISE가 모든 기준선 대비 무관한 문서를 가장 적게 검색하고, 논리적으로 관련된 문서의 비율이 가장 높음을 확인하였습니다.

의의

RAISE는 과학 문제의 서로 다른 추론 단계가 서로 다른 외부 지식을 필요로 하며, 문제를 분해한 후 각 단계에 대해 논리 강화 증거를 검색하는 것이 단일 쿼리 검색보다 근본적으로 더 효과적임을 보여줍니다. 기존 방법들이 특정 과제에 맞춘 큐레이션된 코퍼스에 의존하는 것과 달리, RAISE는 위키피디아와 같은 오픈 도메인 소스에서 작동하여 범용성이 높습니다. 모델 규모(8B~24B), 난이도(학부~대학원), 과학 분야(물리학, 화학, 생물학, 공학) 전반에 걸쳐 일반화되며, 교육, 연구 보조, 자동화된 과학적 발견 등 정밀한 다단계 추론이 필요한 모든 영역에 적용 가능한 실용적 패러다임을 제시합니다.

링크

arXiv Paper