RAISE - HYU NLP Lab

한줄 요약

RAISE는 과학 문제를 하위 질문으로 분해하고, 추론 의도를 반영한 논리 강화 쿼리를 생성하여 오픈 도메인 코퍼스에서 단계별로 관련 문서를 검색하는 3단계 검색 증강 프레임워크로, 대학원 수준의 과학 벤치마크(GPQA, SuperGPQA, MMLU)에서 평균 13%의 성능 향상을 달성합니다.

배경 및 동기

과학적 추론 과제는 LLM이 전문 용어 및 최신 지식과 함께 긴 추론 사슬을 처리해야 합니다. 이를 위한 두 가지 주요 전략으로 단계적 추론(Chain-of-Thought 분해)과 검색 증강 생성(RAG)이 있습니다. 최근 연구들은 이 둘을 결합하지만, 대부분 단순한 다중 홉 QA를 대상으로 하거나 큐레이션된 태스크 특화 코퍼스를 전제합니다.

기존 RAG 접근법은 전체 문제에서 파생된 단일 쿼리로 문서를 검색하여, 대학원 수준의 과학 문제에 필요한 다단계 논리를 지원하지 못하는 모호하거나 피상적인 내용을 반환하는 경우가 많습니다. 핵심 과제는 복잡한 과학적 추론 문제를 풀 때 각 단계에서 무엇을 검색하고 어떻게 적절한 외부 지식을 가져올 것인가입니다.

핵심 문제: 기존 검색 방법(표준 RAG, HyDE, Step-Back 등)은 논리적 관련성이 아닌 표면적 유사성을 기반으로 문서를 매칭합니다. 검색된 문서는 도메인 키워드를 공유하지만 실제 각 추론 단계를 해결하는 데 필요한 핵심 과학적 메커니즘—반응 메커니즘, 수학적 유도, 물리적 원리 등—이 부족합니다. 추론 맥락이 없는 초기 검색 쿼리도, 노이즈가 많거나 지나치게 구체적인 하위 질문만으로도 효과적인 검색이 어렵습니다.

제안 방법: RAISE

RAISE(Retrieval-Augmented framework for Improving Scientific rEasoning)는 세 단계의 순차적 과정을 수행합니다. Dense Passage Retrieval(DPR)을 사용하여 약 2,100만 개의 Wikipedia 패시지(각 약 100단어)를 검색하며, 태스크 특화 코퍼스가 필요하지 않습니다:

1

문제 분해 (Problem Decomposition)

LLM이 원본 질문을 n개의 하위 질문(r₁, ..., r_n)과 대응하는 초기 검색 쿼리(q₁, ..., q_n)로 분해합니다. 이 초기 쿼리는 직접 검색이 아닌 다음 단계의 입력으로 사용됩니다. 이러한 분해를 통해 각 추론 단계가 서로 다른 정보에 접근할 수 있는 구조화된 추론 경로를 형성합니다.

2

논리적 쿼리 생성 (Logical Query Generation)

각 하위 질문에 대해 초기 쿼리 q_i와 하위 질문 r_i를 재구성 프롬프트를 통해 결합하여 논리 강화 쿼리(q_i*)를 생성합니다. 핵심 통찰은 재구성된 쿼리가 사실적 부정확성을 포함하더라도 표면적 키워드가 아닌 근본적인 추론 의도를 포착하기 때문에 논리적으로 관련된 패시지를 검색하는 경향이 있다는 것입니다.

3

논리적 검색 및 답변 구성 (Logical Retrieval & Answer Composition)

각 하위 질문에 대해 L2 정규화된 임베딩의 내적 유사도를 사용하여 DPR로 상위 10개 문서를 검색합니다. 유사도 임계값(GPQA/SuperGPQA/MMLU-Pro: T=0.84, MMLU-STEM: T=0.80)으로 관련성이 낮은 패시지를 필터링합니다. 모델은 필터링된 문서, 원본 질문, 이전의 모든 하위 답변을 사용하여 하위 답변을 생성하고, 최종적으로 모든 하위 답변을 종합하여 최종 답변을 도출합니다.

실험 결과

RAISE는 GPQA Diamond(물리, 생물, 화학 분야의 전문가 작성 대학원 수준 198문항), SuperGPQA(과학 및 공학 분야의 대학원 수준 문항, 다수 난이도), MMLU(대학/전문가 수준 화학 및 생물)에서 평가되었습니다. 주요 LLM은 GPQA에 Mistral Small 3.1-Instruct-2503(24B), SuperGPQA/MMLU에 LLaMA 3.1-8B를 사용했습니다. CoT, CoT+RAG, Least-to-Most, Step-Back, Least-to-Most+RAG, Step-Back+RAG, HyDE 등 7개 베이스라인과 비교합니다.

방법	GPQA Diamond	SuperGPQA 과학-Hard	SuperGPQA 과학-Mid	SuperGPQA 공학-Hard	MMLU 대학 화학
CoT	42.42	4.52	15.08	6.53	49.50
CoT + RAG	45.96	7.54	12.56	7.54	43.00
Least-to-Most	44.95	6.03	14.57	10.05	45.40
Step-Back	44.44	5.03	15.08	6.03	43.00
Least-to-Most + RAG	45.95	6.03	14.57	8.04	46.00
Step-Back + RAG	43.43	5.53	15.58	9.05	43.00
HyDE	46.46	7.54	13.07	7.04	49.00
RAISE	51.01	10.05	19.60	10.55	51.00

GPQA Diamond에서의 교차 모델 일반화:

모델	CoT	HyDE	RAISE	향상
LLaMA 3.1-8B	22.22	25.75	30.30	+7.1%
GPT-4o mini	40.91	38.89	47.98	+5.6%
Mistral-24B	42.42	46.46	51.01	+9.8%

GPQA Diamond: RAISE는 51.01%를 달성하여 최고 베이스라인(HyDE 46.46%) 대비 +9.8% 상대적 향상 (Mistral-24B 기준)
SuperGPQA Science-Hard: 10.05% 정확도, 최고 베이스라인(CoT+RAG 및 HyDE 7.54%) 대비 +33.3% 상대적 향상
SuperGPQA Science-Middle: 19.60%, 최고 베이스라인(Step-Back+RAG 15.58%) 대비 +25.8% 상대적 향상
MMLU 대학 화학: 51.00%, CoT(49.50%) 및 HyDE(49.00%) 등 모든 베이스라인을 상회
절제 실험 (RAISE-Direct): 문제 분해 단계를 제거하고 전체 질문에서 직접 논리적 쿼리를 생성하면 일관되게 성능이 하락하여, 단계별 분해가 검색을 안내하는 데 핵심적임을 확인
검색 품질: LLM-as-a-judge 평가(GPT-4o mini의 4단계 논리적 관련성 점수)와 박사 과정 학생 및 화학 교수진의 인간 평가 모두에서 RAISE가 모든 방법 중 무관한 문서가 가장 적고 논리적으로 관련된 패시지 비율이 가장 높음을 확인
일반화: 세 가지 모델 패밀리(LLaMA-8B, GPT-4o mini, Mistral-24B)에서 일관된 향상을 보여, 프레임워크가 모델에 구애받지 않음을 입증

의의

과학적 추론은 도메인 지식과 다단계 논리적 추론을 모두 필요로 하는 LLM의 가장 도전적인 영역 중 하나입니다. RAISE는 단계별 분해와 논리 강화 검색의 결합이 대학원 수준의 과학 문제에서 벤치마크 전반에 걸쳐 평균 13%의 성능 향상을 달성할 수 있음을 보여주며, 추가적인 모델 훈련이나 큐레이션된 도메인 특화 코퍼스 없이도 이를 실현합니다.

이 프레임워크는 실용적이고 범용적입니다: 오픈 도메인 Wikipedia만을 검색 코퍼스로 사용하며, 다양한 모델 규모(8B~24B 파라미터)에서 작동하고, 물리, 화학, 생물, 공학 전반에 걸쳐 일반화됩니다. 검색 쿼리가 표면적 도메인 유사성이 아닌 추론 의도를 포착해야 한다는 핵심 통찰은 과학, 수학 등 복잡한 추론 과제에서 LLM 성능을 향상시키는 유망한 방향을 제시합니다.

링크

arXiv 논문

RAISE: Enhancing Scientific Reasoning in LLMs via Step-by-Step Retrieval

한줄 요약

배경 및 동기

제안 방법: RAISE

실험 결과

의의

링크