EN KO
← 전체 논문 목록

거대 언어 모델 관용구 처리의 역전의 저주 현상 탐구

Korea Software Congress 2025 (KSC 2025)
Jisu Kim, Taeuk Kim

한줄 요약

다국어 관용구를 대상으로 거대 언어 모델의 역전의 저주 현상을 체계적으로 평가한 연구 — 관용구의 앞부분에서 뒷부분을 완성할 수 있지만 뒷부분에서 앞부분을 복원하는 데는 일관되게 실패하여, 자기회귀 모델이 암기된 언어 표현을 방향성 있게 저장한다는 근본적 한계를 밝힙니다.

배경 및 동기

역전의 저주(Reversal Curse)는 거대 언어 모델에서 최근 밝혀진 현상으로, 모델이 "A는 B이다"를 학습했을 때 "B는 A이다"를 안정적으로 추론하지 못하는 문제입니다. 이 현상은 사실적 지식(예: "톰 크루즈의 어머니는 메리 리 사우스" vs. "메리 리 사우스의 아들은 톰 크루즈")에서 입증되었으나, 언어적 지식 — 특히 관용구 처리 — 에서의 발현은 탐구되지 않았습니다.

관용구가 독특한 시험대인 이유:

  • 고정 표현: 관용구는 하나의 단위로 암기되는 표현(예: "빈대 잡으려다 초가삼간 태운다", "break the ice")으로, 검색이 합성적 추론이 아닌 순차적 기억에 의존합니다.
  • 비합성적 의미: 관용구의 의미는 구성 요소로부터 도출할 수 없어, 모델이 양방향 연상을 저장하는지 아니면 단순히 좌-우 방향 시퀀스만 저장하는지를 보다 순수하게 검증할 수 있습니다.
  • 범언어적 보편성: 관용구는 모든 언어에 다양한 구조적 특성을 가지고 존재하여, 영어 중심 연구를 넘어 역전의 저주의 범언어적 조사가 가능합니다.
  • 기존 연구의 공백: 기존 역전의 저주 연구는 사실적 삼중항(개체-관계-개체)에만 집중하여, 사전학습 과정에서 저장된 언어적 지식으로 현상이 확장되는지는 미해결 문제로 남아있었습니다.

본 논문은 간단하지만 근본적인 질문을 던집니다: LLM이 "빈대 잡으려다 ___"를 "초가삼간 태운다"로 완성할 수 있다면, "___ 초가삼간 태운다"가 주어졌을 때 "빈대 잡으려다"를 복원할 수 있는가? 이에 대한 답은 자기회귀 모델이 암기된 언어 패턴을 어떻게 부호화하는지에 대한 깊은 통찰을 제공합니다.

역전의 저주: 사실에서 언어로의 확장

원래의 역전의 저주 현상은 사실적 지식 영역에서 입증되었습니다. 본 연구는 조사를 전혀 다른 유형의 저장된 지식 — 언어적 패턴 — 으로 확장합니다:

측면사실적 역전의 저주관용구 역전의 저주 (본 연구)
지식 유형세계 지식 (개체 관계)언어적 지식 (고정 표현)
예시"톰 크루즈의 어머니는 ___" vs. "메리 리 사우스의 아들은 ___""빈대 잡으려다 ___" vs. "___ 초가삼간 태운다"
저장 메커니즘사실 암기시퀀스 암기
합성적?부분적 (개체-관계 합성 가능)아니오 (관용구 의미는 비합성적)
범언어적?영어 중심 연구다국어 평가

제안 방법

본 연구는 관용구 처리에서의 역전의 저주를 측정하기 위한 통제된 실험 프레임워크를 설계하며, 세 가지 핵심 구성 요소로 이루어져 있습니다:

1
양방향 관용구 과제 설계
두 가지 상보적 평가 과제를 구성합니다: 모델이 관용구의 앞부분을 받아 나머지를 예측하는 순방향 완성과, 뒷부분을 받아 앞부분을 복원하는 역방향 검색입니다. 이 대칭적 과제들의 성능을 비교함으로써 방향성 비대칭(즉, 역전의 저주)의 정도를 정밀하게 정량화할 수 있습니다. 과제 설계는 두 방향 모두 동일한 기저 지식을 필요로 하도록 보장하며 — 검색 방향만 다릅니다.
2
다국어 관용구 데이터셋 구축
다양한 언어군과 관용구 구조의 다양성을 보장하며 여러 언어의 관용구 데이터셋을 수집합니다. 각 관용구는 자연스러운 경계에서 분할되어 순방향 및 역방향 테스트 쌍을 생성합니다. 이러한 범언어적 설계를 통해 역전의 저주가 자기회귀 모델의 보편적 특성인지, 어순이나 형태론적 복잡성 등 언어 특성에 따라 다른지를 판별할 수 있습니다. 다양한 유형론적 프로필을 포괄하는 언어가 선택되어 단일 언어를 넘어서는 견고한 증거를 제공합니다.
3
다중 모델 체계적 평가
일관된 조건 하에서 여러 LLM 아키텍처를 평가하고, 모델 크기 및 계열, 학습 코퍼스에서의 관용구 빈도, 관용구의 구조적 특성(길이, 합성성), 언어별 효과 등 다양한 차원에서 분석합니다. 이러한 체계적 접근을 통해 언어적 지식에서 역전의 저주를 유발하거나 완화하는 요인을 분리합니다.

통제된 실험 설계:

실험 프레임워크는 방향성 편향을 교란 요인으로부터 분리하기 위해 정밀하게 설계되었습니다:

  • 같은 지식, 다른 방향: 순방향과 역방향 과제는 동일한 관용구를 테스트하므로, 성능 차이는 지식 부족이 아닌 방향성 편향에 기인합니다.
  • 자연스러운 분할점: 관용구는 절이나 구 사이 등 언어적으로 자연스러운 경계에서 분할되어, 인위적 분할로 인한 아티팩트를 방지합니다.
  • 통제된 프롬프팅: 두 과제 모두 병렬적 프롬프트 구조를 사용하여, 성능 차이가 프롬프트 엔지니어링 효과가 아닌 역전의 저주를 반영하도록 합니다.

실험 결과

실험은 평가된 모든 모델과 언어에 걸쳐 일관되고 유의미한 방향성 비대칭을 보여줍니다:

순방향 vs. 역방향 성능

요인순방향 완성역방향 검색비대칭 정도
전체 (전체 모델, 전체 언어)높은 정확도상당히 낮음일관된 격차
고빈도 관용구매우 높음다소 낮음감소하나 존재
저빈도 관용구보통매우 낮음큰 격차
짧은/정형화된 관용구높음보통작은 격차
긴/불투명한 관용구보통매우 낮음가장 큰 격차

주요 발견

의의

본 연구는 거대 언어 모델의 지식 표현 이해에 다음과 같은 중요한 기여를 합니다:

근본적 통찰: 관용구에서의 역전의 저주는 과제 특이적 한계를 넘어 보다 깊은 사실을 드러냅니다: 자기회귀 모델은 고도로 암기된 시퀀스에 대해서도 토큰 간 대칭적 연상을 형성하지 않습니다. 이는 LLM의 지식 저장 방식에 대한 이해에 심대한 함의를 가집니다. 이 모델들이 관용구를 "안다"고 보이지만, 그 지식은 근본적으로 방향적입니다 — 암기된 시퀀스를 순방향으로 순회할 수 있지만 임의의 위치에서 유연하게 접근할 수 없으며, 이는 진정한 양방향 이해가 표준 자기회귀 패러다임을 넘어선 아키텍처적 혁신을 필요로 할 수 있음을 시사합니다.

Reasoning Multilingual