RAISE는 과학 문제를 하위 질문으로 분해하고, 추론 의도를 반영한 논리 강화 쿼리를 생성하여 오픈 도메인 코퍼스에서 단계별로 관련 문서를 검색하는 3단계 검색 증강 프레임워크로, 대학원 수준의 과학 벤치마크(GPQA, SuperGPQA, MMLU)에서 평균 13%의 성능 향상을 달성합니다.
과학적 추론 과제는 LLM이 전문 용어 및 최신 지식과 함께 긴 추론 사슬을 처리해야 합니다. 이를 위한 두 가지 주요 전략으로 단계적 추론(Chain-of-Thought 분해)과 검색 증강 생성(RAG)이 있습니다. 최근 연구들은 이 둘을 결합하지만, 대부분 단순한 다중 홉 QA를 대상으로 하거나 큐레이션된 태스크 특화 코퍼스를 전제합니다.
기존 RAG 접근법은 전체 문제에서 파생된 단일 쿼리로 문서를 검색하여, 대학원 수준의 과학 문제에 필요한 다단계 논리를 지원하지 못하는 모호하거나 피상적인 내용을 반환하는 경우가 많습니다. 핵심 과제는 복잡한 과학적 추론 문제를 풀 때 각 단계에서 무엇을 검색하고 어떻게 적절한 외부 지식을 가져올 것인가입니다.
핵심 문제: 기존 검색 방법(표준 RAG, HyDE, Step-Back 등)은 논리적 관련성이 아닌 표면적 유사성을 기반으로 문서를 매칭합니다. 검색된 문서는 도메인 키워드를 공유하지만 실제 각 추론 단계를 해결하는 데 필요한 핵심 과학적 메커니즘—반응 메커니즘, 수학적 유도, 물리적 원리 등—이 부족합니다. 추론 맥락이 없는 초기 검색 쿼리도, 노이즈가 많거나 지나치게 구체적인 하위 질문만으로도 효과적인 검색이 어렵습니다.
RAISE(Retrieval-Augmented framework for Improving Scientific rEasoning)는 세 단계의 순차적 과정을 수행합니다. Dense Passage Retrieval(DPR)을 사용하여 약 2,100만 개의 Wikipedia 패시지(각 약 100단어)를 검색하며, 태스크 특화 코퍼스가 필요하지 않습니다:
RAISE는 GPQA Diamond(물리, 생물, 화학 분야의 전문가 작성 대학원 수준 198문항), SuperGPQA(과학 및 공학 분야의 대학원 수준 문항, 다수 난이도), MMLU(대학/전문가 수준 화학 및 생물)에서 평가되었습니다. 주요 LLM은 GPQA에 Mistral Small 3.1-Instruct-2503(24B), SuperGPQA/MMLU에 LLaMA 3.1-8B를 사용했습니다. CoT, CoT+RAG, Least-to-Most, Step-Back, Least-to-Most+RAG, Step-Back+RAG, HyDE 등 7개 베이스라인과 비교합니다.
| 방법 | GPQA Diamond | SuperGPQA 과학-Hard | SuperGPQA 과학-Mid | SuperGPQA 공학-Hard | MMLU 대학 화학 |
|---|---|---|---|---|---|
| CoT | 42.42 | 4.52 | 15.08 | 6.53 | 49.50 |
| CoT + RAG | 45.96 | 7.54 | 12.56 | 7.54 | 43.00 |
| Least-to-Most | 44.95 | 6.03 | 14.57 | 10.05 | 45.40 |
| Step-Back | 44.44 | 5.03 | 15.08 | 6.03 | 43.00 |
| Least-to-Most + RAG | 45.95 | 6.03 | 14.57 | 8.04 | 46.00 |
| Step-Back + RAG | 43.43 | 5.53 | 15.58 | 9.05 | 43.00 |
| HyDE | 46.46 | 7.54 | 13.07 | 7.04 | 49.00 |
| RAISE | 51.01 | 10.05 | 19.60 | 10.55 | 51.00 |
GPQA Diamond에서의 교차 모델 일반화:
| 모델 | CoT | HyDE | RAISE | 향상 |
|---|---|---|---|---|
| LLaMA 3.1-8B | 22.22 | 25.75 | 30.30 | +7.1% |
| GPT-4o mini | 40.91 | 38.89 | 47.98 | +5.6% |
| Mistral-24B | 42.42 | 46.46 | 51.01 | +9.8% |
과학적 추론은 도메인 지식과 다단계 논리적 추론을 모두 필요로 하는 LLM의 가장 도전적인 영역 중 하나입니다. RAISE는 단계별 분해와 논리 강화 검색의 결합이 대학원 수준의 과학 문제에서 벤치마크 전반에 걸쳐 평균 13%의 성능 향상을 달성할 수 있음을 보여주며, 추가적인 모델 훈련이나 큐레이션된 도메인 특화 코퍼스 없이도 이를 실현합니다.
이 프레임워크는 실용적이고 범용적입니다: 오픈 도메인 Wikipedia만을 검색 코퍼스로 사용하며, 다양한 모델 규모(8B~24B 파라미터)에서 작동하고, 물리, 화학, 생물, 공학 전반에 걸쳐 일반화됩니다. 검색 쿼리가 표면적 도메인 유사성이 아닌 추론 의도를 포착해야 한다는 핵심 통찰은 과학, 수학 등 복잡한 추론 과제에서 LLM 성능을 향상시키는 유망한 방향을 제시합니다.