대규모 언어 모델의 지식 삭제 연구 동향

한줄 요약

대규모 언어 모델을 위한 기계 삭제 기법을 파라미터 수준, 그래디언트 기반, 입력 수준의 세 가지 패러다임으로 체계적으로 분류하고, 각 방법론의 효과와 한계를 비판적으로 분석하며, 국소성 가정의 문제점, 확장성 장벽, 삭제-보존 트레이드오프 등 핵심 미해결 과제를 제시하는 서베이 논문입니다.

배경 및 동기

대규모 언어 모델(LLM)은 학습 과정에서 개인정보, 저작권 보호 콘텐츠, 잠재적으로 유해한 지식을 포함한 방대한 정보를 기억합니다. EU의 GDPR "잊힐 권리" 등 규제 요구사항의 강화와 AI 안전성에 대한 관심 증가로 인해, 학습된 모델에서 특정 지식을 선택적으로 제거하는 기계 삭제(machine unlearning)가 중요한 연구 과제로 부상하고 있습니다.

LLM에서 기계 삭제가 특히 어려운 이유:

규모로 인한 재학습 불가: 수십억 개의 파라미터와 수조 개의 토큰으로 구성된 학습 데이터를 고려하면, 특정 데이터를 제외한 전체 재학습은 수백만 달러의 비용과 수 주의 GPU 시간이 소요되어 현실적으로 불가능합니다.
분산된 지식 표현: 전통적인 데이터베이스에서 레코드를 개별 삭제할 수 있는 것과 달리, LLM의 지식은 수백만 개의 파라미터에 분산되고 얽혀 있어 외과적 제거가 극히 어렵습니다.
치명적 망각(catastrophic forgetting) 위험: 대상 지식을 제거하기 위해 파라미터를 무분별하게 수정하면 모델의 일반적인 능력까지 저하되는 현상이 발생하며, 이는 지속 학습(continual learning)에서의 치명적 망각과 유사합니다.
검증의 어려움: 삭제 후에도 지식이 진정으로 제거되었는지 아니면 단지 억제되었는지 확인하기 어려우며, 적대적 프롬프팅을 통해 "삭제된" 정보가 복구되는 경우가 빈번합니다.

이러한 과제들로 인해 2023–2025년에만 수십 편의 새로운 방법론이 제안되며 연구가 급속히 성장하고 있습니다. 그러나 통합된 분류 체계와 체계적인 비교가 부족한 상황입니다. 본 서베이는 이러한 공백을 메우고, 국내 연구 커뮤니티에 LLM 기계 삭제 분야의 체계적인 개관을 제공하기 위해 방법론 유형, 삭제 대상, 평가 방법에 따라 문헌을 정리합니다.

서베이 구조: 세 가지 패러다임 분류체계

본 서베이는 LLM을 위한 기계 삭제 문헌을 세 가지 주요 패러다임으로 정리하며, 각 패러다임의 메커니즘, 장점, 한계를 분석합니다:

파라미터 수준 방법

모델의 파라미터 내에서 특정 지식을 국소화(localize)한 후 해당 파라미터를 직접 수정하거나 삭제하는 방법입니다. 기법으로는 지식 뉴런 식별(특정 사실에 활성화되는 뉴런을 귀인 방법으로 탐지), 순위-1 모델 편집(ROME, MEMIT), 타겟 가중치 마스킹 등이 있습니다. 개념적으로는 우아하지만, 지식이 국소적으로 저장된다는 가정에 의존하며 — 이 가정은 사실적 지식이 레이어와 어텐션 헤드에 걸쳐 분산된다는 실증적 증거에 의해 점차 도전받고 있습니다.

그래디언트 기반 방법

최적화 기반 전략을 사용하여 대상 지식의 학습을 "역전"시키는 방법입니다. 가장 일반적인 접근은 삭제 대상 데이터에 대한 그래디언트 상승(gradient ascent)(잊어야 할 데이터의 손실을 최대화)이며, 일반 능력을 보존하기 위해 보존 데이터셋에 대한 그래디언트 하강과 결합됩니다. 변형으로는 특정 예측에 가장 큰 영향을 미치는 학습 데이터를 추정하는 영향 함수 기반 접근법, 비대상 데이터에서 원본 모델과의 근접성을 제약하는 KL-발산 기반 정규화 등이 있습니다. 파라미터 수준 방법보다 유연하지만 학습 안정성과 하이퍼파라미터 민감도에 과제가 있습니다.

입력 수준 방법

모델 파라미터를 수정하지 않고 입력 또는 추론 단계에서 작동하는 방법입니다. 프롬프트 기반 억제(모델이 특정 지식의 생성을 거부하도록 시스템 프롬프트나 인컨텍스트 지시를 설계), 검색 증강 필터링(생성 시 출력을 가로채어 필터링), 표현 공학(추론 중 내부 활성화를 대상 지식에서 멀어지도록 조향) 등이 포함됩니다. 가볍고 가역적이지만 기저 지식이 모델 파라미터에 그대로 인코딩되어 있어 일반적으로 삭제 보장이 약합니다.

세 가지 패러다임의 비교 분석

측면	파라미터 수준	그래디언트 기반	입력 수준
메커니즘	특정 파라미터를 국소화 후 편집	학습된 지식을 최적화로 역전	추론 시 필터링/조향
모델 수정	타겟 가중치 변경	파인튜닝을 통한 전역 가중치 갱신	가중치 변경 없음
삭제 강도	국소화된 사실에 대해 높음	높지만 가변적	낮음 (표면적 억제)
유용성 보존	국소성이 성립하면 양호	보통 (부수적 피해 위험)	우수 (모델 불변)
적대적 강건성	약함 (간접 프로빙으로 복구 가능)	보통	약함 (지식이 가중치에 잔존)
확장성	분산 지식에 대해 도전적	대규모에서 계산 비용 높음	가볍고 확장 가능
가역성	비가역적	비가역적	완전히 가역적
대표 방법	ROME, MEMIT, Knowledge Neurons	Gradient Ascent, Influence Functions, KL-Reg	Prompt Engineering, Representation Engineering

삭제 대상의 구분

본 서베이는 제거 대상에 따라 방법론을 추가로 구분합니다:

사실적 지식 제거: 특정 사실(예: "인물 X는 도시 Y에서 태어났다")을 관련되지만 비대상인 지식을 유지하면서 삭제 — TOFU, CounterFact 등 현재 벤치마크에서 가장 많이 연구되는 설정입니다.
개인정보 삭제: 모델이 학습 데이터에서 그대로 기억한 이름, 주소, 전화번호 등 개인식별정보(PII)를 제거하며, GDPR 제17조 준수가 주요 동기입니다.
유해 콘텐츠 억제: 생화학 무기 합성 지침, 사이버 공격 코드, 불법 행위에 대한 상세한 안내 등 위험한 콘텐츠를 생성하는 모델의 능력을 제거하며, AI 안전성 연구의 핵심 초점입니다.
저작권 침해 자료 제거: 모델이 그대로 재현할 수 있는 책 구절, 가사, 독점 코드 등 기억된 저작권 텍스트를 제거하며, 생성형 AI를 둘러싼 법적 우려에 대응합니다.

평가의 세 가지 차원

본 서베이는 삭제 방법을 평가하는 세 가지 핵심 차원을 식별합니다:

차원	측정 내용	주요 메트릭
삭제 효과	대상 지식이 얼마나 완전히 제거되었는지	삭제 대상 정확도, 멤버십 추론 공격 저항성, 추출 가능성
유용성 보존	삭제 후 모델의 일반 능력이 얼마나 유지되는지	보존 대상 정확도, 하류 작업 성능(MMLU, TruthfulQA), 퍼플렉시티
적대적 강건성	"삭제된" 지식이 적대적 수단으로 복구될 수 있는지	탈옥 성공률, 패러프레이즈 질의 정확도, 다중 턴 추출 공격

주요 발견

만능 해법의 부재: 모든 환경에서 일반 모델 성능을 유지하면서 완전한 지식 제거를 일관되게 달성하는 단일 삭제 방법은 아직 없습니다. 파라미터 수준 방법은 타겟 제거에 강하지만 분산된 지식의 불완전한 삭제 문제가 있고, 그래디언트 기반 방법은 더 넓은 범위를 다루지만 모델 불안정성 위험이 있으며, 입력 수준 방법은 비파괴적이지만 표면적 억제에 그칩니다.
국소성 가정의 재검토: 지식이 특정 파라미터에 국소화되어 있다고 가정하는 방법은 종종 강건한 삭제에 실패합니다. LLM의 지식은 레이어와 구성요소에 걸쳐 분산되는 경향이 있으며, 식별된 지식 뉴런을 "삭제"한 후에도 간접적 프롬프팅이나 다른 레이어의 프로빙을 통해 대상 정보가 복구되는 경우가 많습니다 — 이는 본 연구실의 연구("Does Localization Inform Unlearning?", EMNLP 2025)에서도 입증된 바 있습니다.
심각한 평가 공백: 현재의 평가 프로토콜은 불충분합니다 — 표준 프로빙에서는 "잊은 것"처럼 보이나 적대적 프롬프팅, 재구성된 질의, 다중 턴 대화에서는 여전히 지식이 드러납니다. 많은 기존 방법이 좁은 벤치마크에서는 성공을 보고하지만 패러프레이즈 질의, 간접 추론 체인, 레드팀 공격을 포함하는 보다 엄격한 평가에서는 실패합니다.
규모에 따른 과제: 모델 규모가 커질수록 삭제 난이도가 증가하며, 소규모 모델(예: 7B 파라미터)에서 효과적인 방법이 대규모 모델(예: 70B 이상)로 항상 이전되지는 않습니다. 대규모 모델은 더 큰 지식 중복성을 보여 동일한 사실이 여러 경로로 인코딩될 수 있어 완전한 제거가 더욱 어렵습니다.
삭제와 보존의 트레이드오프: 대상 지식을 철저히 제거하는 것과 모델의 전반적인 언어 이해 및 생성 능력을 유지하는 것 사이에 지속적인 긴장 관계가 존재합니다. 공격적 삭제(예: 높은 학습률의 그래디언트 상승)는 더 나은 삭제를 달성하지만 관련 없는 능력에 더 큰 부수적 피해를 야기하며, 보수적 접근은 유용성을 보존하지만 대상 지식이 부분적으로 남게 됩니다.
시간적, 순차적 과제: 대부분의 방법은 단일 배치의 지식을 제거하는 일회성 삭제에서 평가되지만, 실제 배포 환경에서는 시간에 걸쳐 여러 제거 요청을 처리하는 순차적 삭제(sequential unlearning)가 필요합니다. 반복적인 삭제 연산이 모델 품질에 미치는 누적 효과는 아직 충분히 연구되지 않았습니다.

서베이가 제시하는 미해결 연구 방향:

하이브리드 접근: 파라미터 수준의 정밀성, 그래디언트 기반의 범위, 입력 수준의 안전망을 결합하여 다층적이고 강건한 삭제를 달성하는 방법론의 개발.
삭제를 고려한 사전학습: 모듈형 지식 저장이나 인수분해된 표현 등, 향후 지식 제거를 용이하게 하는 모델 아키텍처 및 학습 절차의 설계.
형식적 검증: 차분 프라이버시 보장과 유사하게, 대상 지식이 증명 가능하게 제거되었음을 수학적으로 보장하는 프레임워크의 개발.
지속적 삭제 벤치마크: 시간에 걸쳐 여러 지식 단위를 순차적으로 제거하는 과정을 테스트하고, 누적 성능 저하와 상호작용 효과를 측정하는 평가 프로토콜의 구축.
교차 언어 삭제: 한 언어로 표현된 지식이 번역이나 다국어 표현을 통해 지속될 수 있는 문제를 해결하여, 모든 언어적 표현에 걸친 삭제를 보장하는 방법론의 연구.

의의

LLM이 상업 및 공공 부문 애플리케이션에 대규모로 배포됨에 따라, 특정 지식을 제거하는 능력은 규제 준수, 사용자 프라이버시, AI 안전성을 위해 필수적입니다. 본 서베이는 다음과 같은 주요 기여를 합니다:

연구자를 위한 체계적 진입점: 명확한 세 가지 패러다임 분류체계(파라미터 수준, 그래디언트 기반, 입력 수준)와 방법론의 체계적 비교를 제공함으로써, 특히 국내 NLP 연구 커뮤니티의 연구자들이 분야의 전체 지형을 빠르게 파악하고 유망한 연구 방향을 식별할 수 있도록 합니다.
국소성 가정에 대한 비판적 분석: 많은 삭제 방법의 기반이 되는 광범위한 가정(지식이 국소적으로 저장됨)이 실증적으로 의문시됨을 강조하여, 분산된 지식 표현을 고려하는 방법론으로 연구의 관심을 전환합니다.
평가 사각지대의 식별: 현재 평가 프로토콜의 공백을 체계적으로 정리하여, 삭제 효과를 평가하는 보다 엄격하고 적대적으로 강건한 벤치마크의 개발을 촉진합니다.
실증 연구와의 연결: 본 서베이는 동일 연구실의 실증적 연구("Does Localization Inform Unlearning?", EMNLP 2025)를 보완하며, 파라미터 국소성이 효과적인 삭제에 신뢰할 만한 지표가 되지 않는다는 통제된 실험적 증거를 여기서 검토한 보다 넓은 이론적, 방법론적 지형 속에 위치시킵니다.

Unlearning Safety