VLM 기반 트리플 생성, 게이트 융합을 활용한 대조 검색, LLM 기반 재순위화의 3단계 프레임워크를 통해 지식그래프 트리플을 멀티모달 엔티티 링킹에 체계적으로 통합하여, 세 가지 벤치마크에서 HITS@1 기준 최대 19.13% 성능 향상을 달성한 연구입니다.
Figure 1. KGMEL을 활용한 멀티모달 엔티티 링킹(MEL) 예시. KGMEL은 멘션에 대한 트리플을 생성하여 지식 베이스(KB)의 지식그래프(KG) 트리플과 매칭합니다. 파란색과 노란색 화살표는 각각 시각적, 텍스트 컨텍스트에서 도출된 트리플을 가리킵니다.
배경 및 동기
엔티티 링킹(EL)은 텍스트 내의 멘션을 지식 베이스의 해당 엔티티에 연결하는 과제로, 시맨틱 검색, 질의응답, 지식 기반 대화 등 다양한 응용을 가능하게 합니다. 최근 멀티모달 엔티티 링킹(MEL) 연구에서 텍스트와 이미지를 결합하면 모호성을 줄이고 정확도를 높일 수 있음이 밝혀졌으나, 대부분의 기존 MEL 방법은 지식그래프(KG) 트리플에 담긴 풍부한 구조적 정보를 활용하지 못하고 있습니다. KG 트리플은 간결한 텍스트 설명보다 수 배 이상 풍부한 정보원입니다.
기존 MEL 방법의 핵심 한계:
표면적 단서에 대한 의존: 기존 접근법은 주로 텍스트 및 시각적 유사성에 의존하며, 엔티티가 시각적 또는 텍스트적으로 유사한 경우 구별이 어렵습니다. 예를 들어, 외모와 설명이 유사한 두 농구 선수를 구별하려면 더 깊은 구조적 지식이 필요합니다.
미활용된 KG 구조: Wikidata 같은 지식 베이스에서 엔티티는 평균 수백 개의 트리플을 보유하고 있어 단일 텍스트 설명보다 훨씬 풍부하지만, 이 구조적 정보는 MEL 연구에서 거의 활용되지 않았습니다.
의미적 가교 가능성: 트리플 임베딩은 잠재 공간에서 멀리 떨어진 멘션-엔티티 텍스트 임베딩을 가깝게 만들 수 있어, 표면적 특징만으로는 제공할 수 없는 의미적 가교 역할을 합니다. BERT 임베딩의 t-SNE 시각화가 이 가교 효과를 실증적으로 확인합니다.
종단간 KG 통합 부재: 기존 연구 중 MEL 파이프라인의 모든 단계(생성, 검색, 재순위화)에 걸쳐 KG 트리플을 체계적으로 활용한 사례는 없었습니다.
KG 강화 MEL의 두 가지 핵심 과제:
멘션에 고유 트리플 부재: 지식 베이스의 엔티티와 달리, 자연어 텍스트에 등장하는 멘션은 구조화된 트리플 표현을 갖고 있지 않습니다. KG 기반 매칭이 가능하려면 이 비대칭성을 해소해야 합니다.
엔티티의 노이즈 트리플: 각 엔티티는 수백 개의 KG 트리플을 가질 수 있으며, 그 중 상당수는 특정 멘션과 무관합니다. 모든 트리플을 무차별적으로 사용하면 성능이 오히려 저하될 수 있습니다.
KGMEL은 (1) VLM을 활용하여 멀티모달 컨텍스트로부터 멘션 트리플을 생성하고, (2) 의미적 필터링을 통해 가장 관련성 높은 엔티티 트리플만 선별하여 매칭 및 재순위화에 활용함으로써 두 가지 과제를 모두 해결합니다.
제안 방법: 3단계 KG 강화 프레임워크
Figure 3. KGMEL 개요. 프레임워크는 세 단계로 구성됩니다: (1) 생성: VLM을 사용하여 멘션에 대한 트리플 생성. (2) 검색: 텍스트, 시각, 트리플 기반 임베딩을 통합한 결합 임베딩으로 K개의 후보를 검색. (3) 재순위화: 관련 없는 KG 트리플을 필터링한 후 LLM을 사용하여 최적 매칭 엔티티를 결정.
1
트리플 생성 (VLM 기반)
비전-언어 모델(GPT-4o-mini)이 각 멘션의 텍스트와 시각적 맥락을 구조화된 3단계 프롬프트로 분석합니다: (1) NER 범주를 통한 엔티티 유형 식별, (2) 간결한 엔티티 설명 생성, (3) (머리, 관계, 꼬리) 형태의 구조화된 트리플 생성. 지식 베이스 내 빈도와 의미적 관련성을 기반으로 20개의 관계 유형이 엄선됩니다: instance of, subclass of, part of, has characteristic, field of work, occupation, sex or gender, country of citizenship, position held, religion or worldview, member of, owner of, country, capital, continent, located in, industry, participant, genre, named after. VLM은 이미지에서 시각적 단서(예: "직업: 농구 선수")와 텍스트에서 문맥적 단서(예: "출연작: Thunderstruck")를 모두 추출하여 Tm = VLM(Ptriple(tm, vm))로 형식화합니다.
2
후보 엔티티 검색 (게이트 융합 대조 학습)
인코딩: 동결된 CLIP이 텍스트와 이미지를 d' 차원 임베딩으로 인코딩합니다. 트리플의 관계와 꼬리는 각각 행렬 Rm과 Om으로 인코딩된 후, 잔차 연결이 포함된 MLP로 결합됩니다: Z̃m = Om + MLP([Om || Rm]). 이를 통해 꼬리 엔티티 정보가 보존됩니다.
이중 교차 주의: 각 트리플의 텍스트 및 시각 모달리티에 대한 관련성 점수를 계산합니다: sm = Softmax((β · Z̃m · TmT + (1-β) · Z̃m · VmT) / τatt), β=0.5로 모달리티 균형을 맞추고 τatt=0.1을 온도 파라미터로 사용합니다. Top-p 선택(p ∈ {3, 5})으로 가장 관련성 높은 트리플만 유지하여 노이즈를 제거합니다.
게이트 융합: 학습된 시그모이드 게이트가 세 모달리티 임베딩을 결합합니다: Xm = gT · WT · Tm + gV · WV · Vm + WZ · Zm, 여기서 gT = σ(WT(g) · Tm + bT(g))로 각 모달리티를 적응적으로 가중합니다.
학습: 세 가지 대조 손실로 학습합니다: (1) 멘션-엔티티 손실 LME로 멘션과 정답 엔티티를 정렬, (2) 멘션-멘션 손실 LMM으로 서로 다른 멘션을 분리, (3) 엔티티-엔티티 손실 LEE로 서로 다른 엔티티를 분리합니다. L = LME + λMM · LMM + λEE · LEE로 결합하며, λMM = λEE = 0.1, 대조 온도 τcl = 0.1입니다. 내적 유사도로 Top-K=16개의 후보를 검색합니다.
3
엔티티 재순위화 (트리플 필터링 기반 LLM)
의미적 트리플 필터링 단계에서 각 후보 엔티티의 KG 트리플 중 멘션 트리플과의 유사도를 계산하여 상위 n개(n ∈ {10, 15})의 가장 관련성 높은 관계와 꼬리를 식별합니다: Te(filt) = {(e,r,o) ∈ Te | r ∈ R(C(m), Tm) ∧ o ∈ O(C(m), Tm)}. 이 필터링은 LLM을 오도할 수 있는 노이즈 트리플을 제거합니다. 이후 GPT-3.5-turbo가 구조화된 단계별 프롬프트를 통해 제로샷 재순위화를 수행합니다: (1) 각 후보에 대한 증거로서 지지 트리플 식별, (2) 필터링된 후보 중 가장 적합한 엔티티 결정. 최종 선택은 em* = LLM(Prerank(tm, Tm, {te, Te(filt)}e ∈ C(m)))입니다.
실험 결과
KGMEL은 Wikidata를 지식 베이스로 사용하여 세 가지 MEL 벤치마크에서 평가되었으며, 결과는 3회 실행의 평균으로 보고됩니다. 모든 데이터셋에서 최고 성능의 HITS@1을 달성했습니다.
데이터셋 통계
통계
WikiDiverse
RichpediaMEL
WikiMEL
문장 수
7,405
17,724
22,070
멘션 수
15,093
17,805
25,846
KG 트리플 수
60.8M
32.8M
65.1M
후보 엔티티 수
132,460
160,935
109,976
전체 엔티티 수
776,407
831,737
761,343
관계 유형 수
1,322
1,288
1,289
주요 결과 (HITS@1)
방법
WikiDiverse
RichpediaMEL
WikiMEL
M3EL
74.06
--
--
IIER
--
84.63
--
OT-MEL
--
--
88.97
KGMEL (검색만)
82.12
76.40
87.29
KGMEL (검색 + 재순위화)
88.23
85.21
90.58
확장 지표
데이터셋
지표
검색
+ 재순위화
WikiDiverse
HITS@3
90.28
92.82
HITS@5
92.07
93.61
MRR
86.00
90.84
RichpediaMEL
HITS@3
85.92
89.85
HITS@5
88.82
91.32
MRR
80.94
88.08
WikiMEL
HITS@3
92.47
95.18
HITS@5
93.94
95.87
MRR
89.99
93.04
트리플 생성 VLM 비교 (재순위화 후 HITS@1)
VLM 모델
WikiDiverse
RichpediaMEL
WikiMEL
LLaVA-1.6-7B (오픈소스)
86.43
81.94
86.22
LLaVA-1.6-13B (오픈소스)
85.94
83.26
85.96
GPT-4o-mini (상용)
88.23
85.21
90.58
절제 연구 (평균 HITS@1 하락폭)
제거된 구성 요소
평균 HITS@1 하락
해석
이미지 임베딩 제거 (V)
-5.54%
시각 모달리티가 가장 영향력 있는 단일 구성 요소
트리플 임베딩 제거 (Z)
-1.62%
KG 트리플이 의미 있는 보완적 신호 제공
게이트 융합 레이어 제거
-1.29%
적응적 게이팅이 단순 연결/합산보다 우수
사례 연구: KG 트리플을 통한 엔티티 구별
텍스트와 이미지 맥락 모두에서 농구 선수를 언급하는 멘션을 예로 들면, KGMEL은 이미지에서 "직업: 농구 선수", 텍스트에서 "출연작: Thunderstruck" 등의 트리플을 생성합니다. 이렇게 생성된 트리플은 Wikidata의 정답 엔티티 KG 트리플과 정합되어, 텍스트나 이미지 특징만으로는 여러 유사 엔티티가 매칭될 수 있는 상황에서도 정확한 구별을 가능하게 합니다. 트리플 기반 의미적 가교는 시각적 외형이나 텍스트 설명은 유사하지만 구조적 관계 속성이 다른 엔티티에 특히 효과적입니다.
최대 19.13% 성능 향상: WikiDiverse에서 기존 최고 성능(M3EL) 대비 14.17%의 HITS@1 향상을 달성하여, KG 구조가 텍스트 및 이미지 신호를 강력하게 보완함을 입증했습니다.
재순위화의 큰 효과: 재순위화 단계가 WikiDiverse에서 6.11%, RichpediaMEL에서 8.81%, WikiMEL에서 3.29%의 HITS@1 향상을 가져왔으며, 검색 정확도가 낮은 경우 더 큰 개선을 보였습니다.
이미지 임베딩의 높은 중요성: 이미지 임베딩 제거 시 가장 큰 성능 하락(-5.54%)이 발생하여, MEL에서 시각 정보의 중요성을 확인했습니다. 이미지가 텍스트에 없는 보완적 정체성 단서를 제공하기 때문입니다.
다양한 VLM에 대한 강건성: 오픈소스 LLaVA-1.6-7B(WikiDiverse에서 86.43)부터 GPT-4o-mini(88.23)까지 다양한 모델에서 작동하며, 소규모 오픈소스 VLM도 유용한 트리플을 생성할 수 있음을 보여주었습니다. GPT-4o-mini가 전반적으로 최고 성능을 보였습니다.
의미적 가교로서의 KG 트리플: 트리플 임베딩이 잠재 공간에서 멀리 떨어진 멘션-엔티티 텍스트 임베딩을 가깝게 만들어, 표면적 단서가 모호한 경우 보완적 신호를 제공합니다. BERT 임베딩의 t-SNE 시각화가 이 가교 효과를 실증적으로 확인합니다.
대규모 KG 활용: 데이터셋당 3,280만~6,510만 개의 트리플과 수십만 개의 엔티티를 포함하는 지식 베이스에서 효과적으로 작동하여, 실제 규모의 지식 베이스에 대한 확장성을 입증했습니다.
트리플 필터링의 필수성: LLM 재순위화 전 엔티티 트리플의 의미적 필터링은 언어 모델을 오도할 수 있는 노이즈 관계를 제거하여, 정확도와 계산 효율성을 모두 향상시킵니다.
의의
엔티티 링킹은 정보 검색, 질의응답, 지식 기반 대화 시스템의 기초 과제입니다. KGMEL은 네 가지 핵심 기여를 통해 최신 기술 수준을 발전시킵니다:
MEL 최초의 종단간 KG 통합: 생성, 검색, 재순위화의 세 단계 모두에 KG 트리플을 통합하여, 구조적 지식이 텍스트 및 이미지 특징만 사용하는 방법 대비 실질적이고 일관된 성능 향상을 제공함을 보여주었습니다. 기존 연구 중 MEL 파이프라인 전체에 걸쳐 KG 정보를 체계적으로 활용한 사례는 없었습니다.
실용적이고 유연한 설계: 7B 오픈소스 LLaVA부터 상용 GPT-4o-mini까지 다양한 VLM과 호환되며, 과제 특화 미세조정 없이 제로샷 LLM 재순위화를 활용하여 다양한 배포 환경과 예산에 적응 가능합니다.
독창적인 기술 구성 요소: 트리플 노이즈 제거를 위한 top-p 선택이 포함된 이중 교차 주의 메커니즘, 적응적 모달리티 가중을 위한 게이트 융합 레이어, 재순위화 전 의미적 트리플 필터링은 절제 연구에서 확인된 바와 같이 각각 독립적으로 효과적인 기술적 혁신입니다.
새로운 연구 방향: 엔티티의 풍부한 KG 구조(데이터셋당 3,280만~6,510만 개의 트리플, 평균 수백 개의 트리플)가 멀티모달 NLP에서 크게 미활용된 자원임을 입증하여, 시각 질의응답, 멀티모달 지식 베이스 구축, 교차 모달 검색 등 관련 과제에서도 KG 강화 방법의 가능성을 열었습니다.