EN KO
← 전체 논문 목록

Subgraph-Aware Training of Language Models for Knowledge Graph Completion Using Structure-Aware Contrastive Learning

WWW 2025
Youmin Ko, Hyemin Yang, Taeuk Kim, Hyunjoon Kim

한줄 요약

FLAME은 동결된 LLM의 중간 레이어에서 맥락 인식 은닉 상태를 추출하고 경량 분류기를 학습하여, 서브그래프 기반 엔티티 설명과 슬라이스 상호정보량 분석을 통해 파인튜닝 수준의 지식그래프 완성 성능을 188배의 메모리 효율과 26배의 속도 향상으로 달성합니다.

FLAME의 전체 아키텍처: 동결된 LLM을 활용한 트리플 분류 프로빙 방법
Figure 1. FLAME의 트리플 분류 전체 아키텍처. 양성 및 음성 샘플 쌍을 구성한 후, 동결된 언어 모델의 중간 레이어를 프로빙하여 KGC 태스크를 위한 은닉 상태를 획득합니다. 엔티티 설명은 서브그래프 엔티티 설명 생성기에 의해 생성되며, 전체 아키텍처에서 훈련이 필요한 유일한 구성 요소는 은닉 상태를 분류하는 데이터 효율적 분류기입니다.

배경 및 동기

지식그래프 완성(KGC) -- 지식그래프에서 누락된 링크를 예측하는 과제 -- 은 Freebase, WordNet, UMLS와 같은 대규모 지식 베이스를 유지하고 확장하는 데 필수적입니다. 전통적인 구조적 임베딩 방법(예: TransE, DistMult, ComplEx, RotatE)은 엔티티와 관계의 벡터 표현을 학습하지만, 그래프 토폴로지에만 의존하기 때문에 연결이 적은 희소 엔티티에서 어려움을 겪습니다. 최근 대규모 언어 모델(LLM)의 풍부한 의미 이해 능력과 백과사전적 세계 지식(Wikipedia, CommonCrawl 등에서의 사전학습을 통해 습득)을 활용하려는 시도가 있지만, 이는 근본적인 트레이드오프를 야기합니다.

LLM 기반 KGC의 핵심 딜레마:

  • 파인튜닝은 효과적이지만 비용이 높음: KG-LLAMA와 같은 방법은 우수한 KGC 성능을 달성하지만, 14.68 GB의 GPU 메모리와 83시간의 학습 시간이 필요하여 많은 연구 그룹과 실제 배포 환경에서 감당하기 어렵습니다.
  • 파인튜닝 없는 접근은 저렴하지만 성능이 매우 낮음: 동결된 LLM에 직접 프롬프팅하면 놀랍도록 저조한 결과를 보입니다 -- 동결된 LLaMA-7B는 FB13 트리플 분류에서 9.1%의 정확도(사실상 무작위 수준)를 기록하며, 인컨텍스트 학습(ICL)을 적용해도 50.1%에 그쳐 파인튜닝된 KG-LLAMA의 89.2%에 크게 못 미칩니다.
  • LLM과 KG 간의 의미적 격차: 구조화된 트리플(예: (아인슈타인, 출생지, 울름))은 LLM이 사전학습된 자연어 분포와 크게 벗어나며, 원시 트리플을 직접 연결하면 오히려 성능이 하락할 수 있습니다.
  • 과제 지식이 어디에 있는지 불명확: 동결된 LLM의 어떤 중간 레이어가 KGC에 가장 관련된 정보를 인코딩하는지 알려져 있지 않습니다. 상위 레이어는 환각 효과로 성능이 저하되고, 하위 레이어는 추상화 수준이 부족하여, 원리적 선택 기준 없이는 특징 추출이 추측에 의존하게 됩니다.

FLAME은 이 네 가지 문제를 모두 해결합니다: (1) 로컬 서브그래프 이웃 정보로부터 자연어 엔티티 설명을 생성하여 의미적 격차를 해소하고, (2) 동결된 LLM의 중간 레이어를 프로빙하여 KGC 관련 표현을 추출하며, (3) 슬라이스 상호정보량을 사용하여 최적의 레이어를 식별하고, (4) 경량 분류기만 학습하여 LLM을 완전히 동결된 상태로 유지합니다. 핵심 통찰은 동결된 LLM이 이미 일반적인 지식그래프에 대한 KGC에 충분한 백과사전적 지식을 보유하고 있으며, 문제는 비용이 큰 파라미터 업데이트가 아닌 적절한 표현 추출을 통해 이 지식을 해제하는 것이라는 점입니다.

제안 방법: FLAME 프레임워크

FLAME (Frozen LLM Approach for KGC with Model-Friendly Entity Descriptions)은 기본 모델의 파라미터 업데이트 없이 동결된 언어 모델에서 지식그래프 완성 능력을 추출하는 세 가지 핵심 구성 요소로 이루어져 있습니다.

FLAME에서 사용되는 트리플 분류 프롬프트 템플릿
Figure 2. 트리플 분류를 위한 프롬프트 템플릿. 양성 및 음성 트리플 쌍을 엔티티 설명과 함께 구조화하여 동결된 LLM의 내부 분류 메커니즘을 활성화합니다.
1
서브그래프 엔티티 설명 생성기
각 트리플의 엔티티 e에 대해 두 가지 방식으로 텍스트 설명 D(e)를 생성합니다. 구조적 언어화(Tri)는 로컬 서브그래프의 1-홉 트리플을 직접 텍스트로 연결합니다(예: "아인슈타인은 울름에서 태어났다. 아인슈타인은 프린스턴에서 근무했다."). 그러나 이 원시 트리플 형식은 사전학습 분포와 괴리가 있어 오히려 모델을 오도할 수 있습니다. 모델 친화적 서사(GPT)는 GPT-3.5-turbo를 활용한 인컨텍스트 학습으로 이러한 구조적 트리플을 유창한 자연어로 변환하여 LLM의 사전학습 코퍼스와 의미적으로 정렬된 설명을 생성합니다. 이 연결 단계가 매우 중요합니다: Tri 접근법은 FB13에서 0.847(설명 없는 기준선 0.851보다 오히려 낮음)인 반면, GPT 생성 서사는 0.890으로 6.7% 향상됩니다. 다만 UMLS 생의학 데이터셋은 예외적으로, 도메인 특화 엔티티 이름이 이미 LLM의 내부 표현과 잘 정렬되어 있어 생성된 설명이 불필요합니다.
2
SMI 기반 레이어 선택을 통한 동결 LLM 프로빙
파인튜닝 대신, 양성 및 음성 트리플 쌍으로 구성된 과제 특화 프롬프트를 사용하여 동결된 LLM의 중간 레이어에서 마지막 토큰 위치의 맥락 인식 은닉 상태를 추출합니다. 핵심 질문은: 어떤 레이어를 프로빙할 것인가? 슬라이스 상호정보량(SMI) -- 레이블과 표현의 무작위 1차원 투영 간 상호정보량의 기댓값 -- 이 원리적 답을 제시합니다. SMI 분석 결과, 중간 레이어(LLaMA-7B의 경우 약 16번째 레이어)가 최적이며, 상위 레이어는 환각 효과로 성능이 저하되고 하위 레이어는 추상화 수준이 부족한 것으로 나타났습니다. 모델 친화적 설명이 SMI 값을 34.1% 향상시켜 효과적인 의미 정렬을 이론적으로 확인합니다. 이 패턴은 LLaMA, Mistral, Gemma 등 다양한 모델 아키텍처에서 일관되게 나타납니다.
3
데이터 효율적 KGC 분류기
경량 분류기가 추출된 은닉 상태 표현에 대해 학습되어 트리플 분류를 수행하며, 유효한 트리플과 무효한 트리플을 구별합니다. 본 논문에서는 로지스틱 회귀, SVM, MLP의 세 가지 분류기 아키텍처를 평가하며, MLP가 가장 우수한 성능(FB13: 0.851, WN11: 0.874, FB15K-237N: 0.679)을 달성합니다. 분류기만 학습되므로(LLM은 학습되지 않음) 최소한의 연산만 필요합니다 -- 파인튜닝의 14.68 GB 대비 0.078 GB의 GPU 메모리만 사용합니다. 이 방법은 Mistral, Gemma, Qwen2.5를 포함한 다양한 LLM 아키텍처에 걸쳐 일반화됩니다.
GPT-3.5-turbo를 활용한 엔티티 설명 생성 프롬프트 템플릿
Figure 3. GPT-3.5-turbo를 활용한 모델 친화적 엔티티 설명 생성 프롬프트 템플릿. 1-홉 서브그래프 트리플을 인컨텍스트 학습을 통해 유창한 자연어 서사로 변환합니다.

실험 결과

FLAME은 트리플 분류, 관계 예측, 엔티티 예측 과제를 포괄하는 6개의 벤치마크 데이터셋에서 평가되었습니다. 데이터셋은 FB13, WN11, FB15K-237N, WN18RR(Freebase 및 WordNet 기반), UMLS(생의학 도메인), YAGO3-10(100만 개 이상의 학습 트리플을 가진 대규모 데이터)을 포함합니다. 기준선은 구조적 방법(TransE, DistMult, ComplEx, RotatE)과 LLM 기반 접근법(KG-BERT, KG-T5, KG-LLAMA 및 다양한 프롬프팅 전략의 동결 모델)을 모두 포함합니다.

트리플 분류 정확도

방법FB13WN11FB15K-237NWN18RRUMLS
LLaMA-7B (동결, 프롬프트 없음)0.091--------
LLaMA-7B-ICL (동결, 인컨텍스트)0.501--------
KG-LLAMA-7B (파인튜닝, 전체 데이터)0.8920.9550.7480.9210.858
FLAME w/ MLP만 (설명 없음)0.8510.8740.679----
FLAME w/ 비생성 설명 (3k 샘플)0.901--0.7380.9340.862
FLAME w/ GPT 설명 (3k 샘플)0.9120.9170.7260.9240.860
FLAME w/ GPT 설명 (전체 데이터)0.9250.9370.7440.9380.866

효율성 비교 (WN11, 전체 데이터셋)

지표KG-LLAMA (파인튜닝)FLAME (동결)개선폭
학습 GPU 메모리14.68 GB0.078 GB188배 감소
학습 시간83시간33분150배 단축
총 소요 시간 (추론 포함)85시간 50분2시간 44분 + 15초26.11배 가속

관계 및 엔티티 예측 (Hits@1)

과제방법Hits@1학습 데이터
관계 예측ChatGLM-6B (동결)0.0658--
관계 예측KG-LLAMA-7B0.7028전체 (1.08M)
관계 예측FLAME w/ GPT0.70156,996 (0.6%)
엔티티 예측KG-LLAMA-7B0.2415전체
엔티티 예측FLAME w/ GPT0.249510k
LLaMA 및 Mistral 모델에서의 레이어별 성능 분석
Figure 4. LLaMA 및 Mistral 모델에서의 레이어별 성능 분석. 중간 레이어(약 16번째)가 일관되게 얕은 레이어와 깊은 레이어 모두를 능가합니다. 상위 레이어는 환각 효과로 성능이 저하되고, 하위 레이어는 KGC 과제를 위한 추상화 수준이 부족합니다.
학습 데이터셋 크기가 KGC 성능에 미치는 영향
Figure 5. 데이터 효율성 분석: 학습 데이터 크기가 트리플 분류 정확도에 미치는 영향. FLAME은 FB13에서 학습 데이터의 0.06%만으로 전체 성능의 98.3%, FB15K-237N에서 0.57%로 99.6%, WN18RR에서 0.46%로 98.8%를 달성합니다.

분류기 아키텍처 비교 (Ablation)

분류기FB13WN11FB15K-237N
로지스틱 회귀0.8370.8570.665
SVM0.8420.8620.671
MLP0.8510.8740.679

모델 간 범용성 분석 (7B 모델, Ablation)

모델설명 유형FB13WN11
LLaMA-7BGPT 서사0.8900.892
Mistral-7BGPT 서사0.8750.912
Gemma-7BGPT 서사----

엔티티 설명은 모든 테스트된 아키텍처에서 일관되게 4.5-6.2%의 향상을 제공하여, LLaMA에 특화된 것이 아닌 모델에 구애받지 않는 접근법임을 확인합니다.

은닉 상태의 PCA 시각화: 클래스 분리 가능성 확인
Figure 6. FB13 테스트셋에서 GPT 설명을 사용한 FLAME의 16번째 레이어 은닉 상태의 PCA 시각화(3D 투영). 양성(유효) 트리플과 음성(무효) 트리플이 표현 공간에서 명확하게 분리되는 클러스터를 형성하여, 프로빙된 은닉 상태가 KGC에 유의미한 구조적 정보를 인코딩함을 보여줍니다.

의의

FLAME은 동결된 LLM이 구조 인식 설명으로 적절히 프로빙될 때 KGC 과제에 충분한 지식을 이미 인코딩하고 있음을 보여주며, 파인튜닝이 필수적이라는 가정에 근본적으로 도전합니다. 본 논문은 실용적, 이론적 기여를 모두 제공하며 분야에 광범위한 함의를 가집니다.

핵심 기여: FLAME은 동결된 LLM과 파인튜닝된 LLM 간의 KGC 성능 격차가 지식 부재가 아닌 표현 정렬 문제임을 확립합니다 -- 구조화된 KG 트리플이 LLM이 학습된 자연어 분포와 일치하지 않는 것이 원인입니다. 모델 친화적 엔티티 설명과 원리적 레이어 선택을 통해 이 정렬 문제를 해결함으로써, 동결된 LLM이 파인튜닝된 모델의 성능을 달성하거나 초월할 수 있습니다.

한계 및 향후 연구 방향

링크

Knowledge Graph Representation Learning