EN KO
← 전체 논문 목록

대규모 언어 모델의 지식 삭제 연구 동향

정보과학회지, Vol. 43, Issue 11, pp. 72-78
Uiji Hwang, Taeuk Kim

한줄 요약

대규모 언어 모델을 위한 기계 삭제 기법을 파라미터 수준, 그래디언트 기반, 입력 수준의 세 가지 패러다임으로 체계적으로 분류하고, 각 방법론의 효과와 한계를 비판적으로 분석하며, 국소성 가정의 문제점, 확장성 장벽, 삭제-보존 트레이드오프 등 핵심 미해결 과제를 제시하는 서베이 논문입니다.

배경 및 동기

대규모 언어 모델(LLM)은 학습 과정에서 개인정보, 저작권 보호 콘텐츠, 잠재적으로 유해한 지식을 포함한 방대한 정보를 기억합니다. EU의 GDPR "잊힐 권리" 등 규제 요구사항의 강화와 AI 안전성에 대한 관심 증가로 인해, 학습된 모델에서 특정 지식을 선택적으로 제거하는 기계 삭제(machine unlearning)가 중요한 연구 과제로 부상하고 있습니다.

LLM에서 기계 삭제가 특히 어려운 이유:

  • 규모로 인한 재학습 불가: 수십억 개의 파라미터와 수조 개의 토큰으로 구성된 학습 데이터를 고려하면, 특정 데이터를 제외한 전체 재학습은 수백만 달러의 비용과 수 주의 GPU 시간이 소요되어 현실적으로 불가능합니다.
  • 분산된 지식 표현: 전통적인 데이터베이스에서 레코드를 개별 삭제할 수 있는 것과 달리, LLM의 지식은 수백만 개의 파라미터에 분산되고 얽혀 있어 외과적 제거가 극히 어렵습니다.
  • 치명적 망각(catastrophic forgetting) 위험: 대상 지식을 제거하기 위해 파라미터를 무분별하게 수정하면 모델의 일반적인 능력까지 저하되는 현상이 발생하며, 이는 지속 학습(continual learning)에서의 치명적 망각과 유사합니다.
  • 검증의 어려움: 삭제 후에도 지식이 진정으로 제거되었는지 아니면 단지 억제되었는지 확인하기 어려우며, 적대적 프롬프팅을 통해 "삭제된" 정보가 복구되는 경우가 빈번합니다.

이러한 과제들로 인해 2023–2025년에만 수십 편의 새로운 방법론이 제안되며 연구가 급속히 성장하고 있습니다. 그러나 통합된 분류 체계와 체계적인 비교가 부족한 상황입니다. 본 서베이는 이러한 공백을 메우고, 국내 연구 커뮤니티에 LLM 기계 삭제 분야의 체계적인 개관을 제공하기 위해 방법론 유형, 삭제 대상, 평가 방법에 따라 문헌을 정리합니다.

서베이 구조: 세 가지 패러다임 분류체계

본 서베이는 LLM을 위한 기계 삭제 문헌을 세 가지 주요 패러다임으로 정리하며, 각 패러다임의 메커니즘, 장점, 한계를 분석합니다:

1
파라미터 수준 방법
모델의 파라미터 내에서 특정 지식을 국소화(localize)한 후 해당 파라미터를 직접 수정하거나 삭제하는 방법입니다. 기법으로는 지식 뉴런 식별(특정 사실에 활성화되는 뉴런을 귀인 방법으로 탐지), 순위-1 모델 편집(ROME, MEMIT), 타겟 가중치 마스킹 등이 있습니다. 개념적으로는 우아하지만, 지식이 국소적으로 저장된다는 가정에 의존하며 — 이 가정은 사실적 지식이 레이어와 어텐션 헤드에 걸쳐 분산된다는 실증적 증거에 의해 점차 도전받고 있습니다.
2
그래디언트 기반 방법
최적화 기반 전략을 사용하여 대상 지식의 학습을 "역전"시키는 방법입니다. 가장 일반적인 접근은 삭제 대상 데이터에 대한 그래디언트 상승(gradient ascent)(잊어야 할 데이터의 손실을 최대화)이며, 일반 능력을 보존하기 위해 보존 데이터셋에 대한 그래디언트 하강과 결합됩니다. 변형으로는 특정 예측에 가장 큰 영향을 미치는 학습 데이터를 추정하는 영향 함수 기반 접근법, 비대상 데이터에서 원본 모델과의 근접성을 제약하는 KL-발산 기반 정규화 등이 있습니다. 파라미터 수준 방법보다 유연하지만 학습 안정성과 하이퍼파라미터 민감도에 과제가 있습니다.
3
입력 수준 방법
모델 파라미터를 수정하지 않고 입력 또는 추론 단계에서 작동하는 방법입니다. 프롬프트 기반 억제(모델이 특정 지식의 생성을 거부하도록 시스템 프롬프트나 인컨텍스트 지시를 설계), 검색 증강 필터링(생성 시 출력을 가로채어 필터링), 표현 공학(추론 중 내부 활성화를 대상 지식에서 멀어지도록 조향) 등이 포함됩니다. 가볍고 가역적이지만 기저 지식이 모델 파라미터에 그대로 인코딩되어 있어 일반적으로 삭제 보장이 약합니다.

세 가지 패러다임의 비교 분석

측면파라미터 수준그래디언트 기반입력 수준
메커니즘특정 파라미터를 국소화 후 편집학습된 지식을 최적화로 역전추론 시 필터링/조향
모델 수정타겟 가중치 변경파인튜닝을 통한 전역 가중치 갱신가중치 변경 없음
삭제 강도국소화된 사실에 대해 높음높지만 가변적낮음 (표면적 억제)
유용성 보존국소성이 성립하면 양호보통 (부수적 피해 위험)우수 (모델 불변)
적대적 강건성약함 (간접 프로빙으로 복구 가능)보통약함 (지식이 가중치에 잔존)
확장성분산 지식에 대해 도전적대규모에서 계산 비용 높음가볍고 확장 가능
가역성비가역적비가역적완전히 가역적
대표 방법ROME, MEMIT, Knowledge NeuronsGradient Ascent, Influence Functions, KL-RegPrompt Engineering, Representation Engineering

삭제 대상의 구분

본 서베이는 제거 대상에 따라 방법론을 추가로 구분합니다:

평가의 세 가지 차원

본 서베이는 삭제 방법을 평가하는 세 가지 핵심 차원을 식별합니다:

차원측정 내용주요 메트릭
삭제 효과대상 지식이 얼마나 완전히 제거되었는지삭제 대상 정확도, 멤버십 추론 공격 저항성, 추출 가능성
유용성 보존삭제 후 모델의 일반 능력이 얼마나 유지되는지보존 대상 정확도, 하류 작업 성능(MMLU, TruthfulQA), 퍼플렉시티
적대적 강건성"삭제된" 지식이 적대적 수단으로 복구될 수 있는지탈옥 성공률, 패러프레이즈 질의 정확도, 다중 턴 추출 공격

주요 발견

서베이가 제시하는 미해결 연구 방향:

  • 하이브리드 접근: 파라미터 수준의 정밀성, 그래디언트 기반의 범위, 입력 수준의 안전망을 결합하여 다층적이고 강건한 삭제를 달성하는 방법론의 개발.
  • 삭제를 고려한 사전학습: 모듈형 지식 저장이나 인수분해된 표현 등, 향후 지식 제거를 용이하게 하는 모델 아키텍처 및 학습 절차의 설계.
  • 형식적 검증: 차분 프라이버시 보장과 유사하게, 대상 지식이 증명 가능하게 제거되었음을 수학적으로 보장하는 프레임워크의 개발.
  • 지속적 삭제 벤치마크: 시간에 걸쳐 여러 지식 단위를 순차적으로 제거하는 과정을 테스트하고, 누적 성능 저하와 상호작용 효과를 측정하는 평가 프로토콜의 구축.
  • 교차 언어 삭제: 한 언어로 표현된 지식이 번역이나 다국어 표현을 통해 지속될 수 있는 문제를 해결하여, 모든 언어적 표현에 걸친 삭제를 보장하는 방법론의 연구.

의의

LLM이 상업 및 공공 부문 애플리케이션에 대규모로 배포됨에 따라, 특정 지식을 제거하는 능력은 규제 준수, 사용자 프라이버시, AI 안전성을 위해 필수적입니다. 본 서베이는 다음과 같은 주요 기여를 합니다:

Unlearning Safety