EN KO
← 전체 논문 목록

ENGinius: A Bilingual LLM Optimized for Plant Construction Engineering

ACL 2025 Industry
Wooseong Lee, Minseo Kim, Taeil Hur, Gyeong Hwan Jang, Woncheol Lee, Maro Na, Taeuk Kim

한줄 요약

ENGinius는 플랜트 건설 엔지니어링(PCE)을 위해 특별히 설계된 최초의 대규모 언어 모델로, SOLAR-10.7B 기반의 4단계 이중 언어 학습 파이프라인과 16.5B 토큰의 도메인 데이터를 활용하여, Professional Engineer 벤치마크에서 67.5%를 달성해 GPT-4(64.0%)를 능가하고 KOPIA에서 58.91점으로 모든 베이스라인을 3-17% 상회합니다.

일반 LLM과 ENGinius 비교
Figure 1. 일반 LLM(위)은 도메인 특화 용어와 지식에 어려움을 겪습니다 -- 예를 들어, ChatGPT는 "NGS"를 "Natural Gas System" 대신 "Next-Generation Sequencing"으로 잘못 해석합니다. ENGinius(아래)는 PCE 특화 약어를 정확히 처리하고 최적화된 응답을 제공합니다.

배경 및 동기

최근 대규모 언어 모델의 발전은 다양한 산업 분야에서 프로세스 자동화 및 최적화의 잠재력으로 주목받고 있습니다. 그러나 정유공장, 발전소, 화학 시설, 대규모 인프라를 아우르는 플랜트 건설 엔지니어링(PCE)에서의 LLM 도입은 고도로 전문화된 산업 특성과 도메인 특화 학습 및 평가를 위한 자원 부족으로 인해 매우 제한적인 상황입니다.

플랜트 건설 엔지니어링의 핵심 과제:

  • 고도로 전문화된 도메인: PCE는 기계, 전기, 배관, 토목, 건축, 계장 분야에 걸친 복잡한 기술 용어를 포함하며, 범용 LLM은 이를 정확히 처리하지 못합니다. 예를 들어, ChatGPT의 PCE 특화 약어 인식 정확도는 48.4-55.6%에 불과한 반면, 의학/금융/법률 용어는 86-100%를 기록합니다.
  • 학습 자원 부족: 의학이나 법학과 달리, PCE에는 LLM 학습을 위한 공개 도메인 특화 코퍼스나 명령어 데이터셋이 사실상 존재하지 않습니다. 권위 있는 정보는 전문 기관의 저작권 보호를 받으며 구독 기반 텍스트 검색 서비스를 통해서만 접근 가능합니다.
  • 평가 벤치마크 부재: 본 연구 이전에는 플랜트 건설 작업에 대한 LLM 성능을 평가하기 위한 벤치마크가 전무하여 도메인 역량 측정이 불가능했습니다.
  • 이중 언어 요구사항: 한국 엔지니어링 기업은 글로벌하게 운영되며, 기술 문서, 사양서, 국제 협업을 위한 원활한 한국어-영어 커뮤니케이션이 필수적입니다. 도메인 특화 언어는 다국어 또는 코드 스위칭 환경에서 자주 사용됩니다.

ENGinius는 도메인 데이터 구축(16.5B 토큰)을 위한 체계적 절차, SOLAR-10.7B를 14.4B 파라미터로 확장하는 다단계 모델 학습 파이프라인, 그리고 플랜트 건설 엔지니어링 도메인에 특화된 최초의 벤치마크(KOPIA 및 PE)를 제시함으로써 이러한 모든 과제를 해결합니다.

제안 방법: 4단계 학습 파이프라인

ENGinius 학습 절차
Figure 2. ENGinius 학습 절차: (1) SOLAR-10.7B를 WECHSEL과 LLaMA PRO로 14.4B로 확장 (ENGinius-BasePT), (2) PCE 코퍼스에 대한 도메인 적응 사전학습 (ENGinius-PlantPT), (3) ENGine-QA를 활용한 명령어 튜닝 (ENGinius-PlantFT), (4) DPO 정렬을 거쳐 최종 ENGinius-14.4B를 생성합니다.

ENGinius는 SOLAR-10.7B -- Llama-2 13B, Mistral 7B 등을 평가한 후 모델 크기와 다국어 적응성의 최적 균형을 기준으로 선택 -- 을 도메인 특화 이중 언어 모델로 변환하는 4단계 학습 파이프라인을 사용하여 최종적으로 ENGinius-14.4B를 생성합니다.

1
이중 언어 기본 모델 확장 (WECHSEL + LLaMA PRO)
SOLAR-10.7B의 어휘와 아키텍처를 한국어 처리 능력에 맞게 확장합니다. WECHSEL은 의미적으로 유사한 영어 토큰의 임베딩을 활용하여 새로운 한국어 토큰을 통합하고, LLaMA PRO는 트랜스포머 블록을 추가하여 10.7B에서 14.4B 파라미터로 확장하면서 기존 영어 능력을 유지합니다. 한국어-영어 이중 언어 코퍼스에서의 지속적 사전학습을 통해 ENGinius-BasePT를 생성하며, 한국어 벤치마크에서 78.09점(SOLAR-10.7B의 59.57 대비)을 달성하면서도 영어 성능을 유지합니다.
2
도메인 적응 사전학습 (DAPT)
ENGinius-BasePT를 165억 토큰 규모의 큐레이션된 PCE 문서 코퍼스에서 지속적으로 사전학습합니다. 이 코퍼스는 플랜트 저널(775만 토큰), 토목/건축/전기/기계/배관/HVAC 분야 도서(각 8,900만-1억7,300만 토큰), 플랜트 상업 자료(1,420만 토큰), 규정 및 표준 핸드북(4,140만 토큰), 국가직무능력표준(1억6,050만 토큰), 뉴스 기사(15.2억 토큰), 연구 논문(55.3억 토큰), 플랜트 기사(88.7억 토큰) 등 영어 및/또는 한국어 자료로 구성됩니다. 이를 통해 KOPIA와 PE 벤치마크 모두에서 ENGinius-BasePT를 일관되게 능가하는 ENGinius-PlantPT를 생성합니다.
3
ENGine-QA를 활용한 명령어 튜닝
도메인 적응된 모델을 6가지 과제 유형을 아우르는 93,662개의 명령어-응답 쌍으로 구성된 ENGine-QA로 미세 조정합니다. ENG-TIPS 포럼 토론 기반 Plant Expert QA(한국어 58,834개 + 영어 29,417개), Plant Discipline Classification(595개 EN/KO), Plant Multiple Choice(1,002개 KO), Plant Terminology Dictionaries(3,276개 EN), Deviation Report Generation(538개 EN/KO)을 포함합니다. 일반적 유창성을 위해 한국어로 번역된 Alpaca-GPT4 데이터셋을 보충하여 ENGinius-PlantFT를 생성합니다.
4
DPO 정렬
Direct Preference Optimization (DPO)을 적용하여 ENG-TIPS의 Q&A를 활용하고 질문당 GPT-4o와 Mixture-of-Experts 프롬프팅을 통해 두 가지 대안 응답을 생성합니다. 기계, 배관, 전기, 건축 분야의 3명의 시니어 전문가가 응답 쌍을 평가하고 선호도 점수를 부여하여 "선택(Chosen)" 또는 "거부(Rejected)"로 레이블링합니다. 이를 통해 전문가 기대에 부합하는 답변을 생성하도록 학습된 최종 ENGinius-14.4B를 완성합니다.

도메인 특화 벤치마크: KOPIA와 PE

본 논문은 플랜트 건설 엔지니어링을 위한 최초의 평가 도구인 두 가지 객관식 문항(MCQ) 벤치마크를 도입합니다:

  • KOPIA 벤치마크 (한국어): 한국플랜트산업협회(KOPIA)와 협력하여 개발되었습니다. 기계 및 배관 엔지니어링을 다루며, 용어, 기술 표준, 공정 지식에 관한 1,000개의 전문가 검증 시험 문항으로 구성됩니다. 공개 배포가 계획되어 있습니다.
  • Professional Engineer (PE) 벤치마크 (영어): 실제 PE 자격시험을 기반으로 하며, PE Code(코드 지식), PE Calculation(고급 엔지니어링 계산), PE General(개념적 이해) 세 범주에 걸친 80개 문항으로 구성됩니다. 약 65점이 일반적으로 합격 기준으로 간주됩니다.

실험 결과

저자들은 LLM-as-a-judge 프레임워크(LLaMA3-70B를 판정 모델로 사용)를 활용하여 모델당 20회의 독립 실행을 수행하고 상위 5개 결과의 평균으로 최종 점수를 산출합니다.

KOPIA 벤치마크 (한국어, 플랜트 엔지니어링)

모델기계배관평균ENGinius 대비 차이
Gemma2-9B-it58.6459.3957.89-2.13 (-3.6%)
Orion-14B-Chat51.9652.3251.61-8.41 (-15.0%)
SOLAR-10.7B50.6553.1348.17-10.12 (-17.2%)
ENGinius-14.4B60.7762.6358.91-

Professional Engineer (PE) 벤치마크 (영어)

모델PE CodePE CalPE General평균ENGinius 대비 차이
Orion-14B-Chat41.3320.0052.2636.50-31.0 (-45.9%)
GPT-3.5-turbo60.0047.0645.1648.75-18.75 (-27.8%)
Gemma2-9B-it72.0034.7159.9951.50-16.0 (-23.7%)
SOLAR-10.7B72.0040.5954.8352.00-15.5 (-23.0%)
GPT-466.6752.9474.8464.00-3.5 (-5.2%)
ENGinius-14.4B10046.4774.8467.5-

실제 산업 적용

ENGinius는 주요 기업에서 실제 PCE 워크플로우에 활발히 배포되어 실질적인 산업적 영향을 입증하고 있습니다:

의의

ENGinius는 경제적으로 중요하지만 NLP 연구에서 기술적으로 미개척된 분야인 플랜트 건설 엔지니어링 산업에 대규모 언어 모델의 역량을 도입하는 선구적 시도입니다. 그 기여는 단일 모델을 넘어 확장됩니다:

링크

Domain LLM Multilingual