Localization & Unlearning

한줄 요약

"특정 파라미터를 찾아 수정하면 원치 않는 지식을 효과적으로 제거할 수 있다"는 통념을 통제된 실험을 통해 엄밀하게 검증하고, 이 가정이 성립하지 않음을 보여줍니다.

배경 및 동기

대규모 언어 모델은 사전학습 과정에서 유해한 편향, 민감한 개인정보, 저작권이 있는 콘텐츠를 불가피하게 학습합니다. EU의 GDPR "잊힐 권리" 등 규제가 강화됨에 따라, 학습된 모델에서 특정 지식을 선택적으로 제거하는 지식 언러닝(knowledge unlearning)이 핵심 연구 과제로 부상하고 있습니다. 최근의 언러닝 방법들은 국소화(localization) 기반 전략을 채택합니다: 먼저 대상 지식을 "저장"하는 특정 파라미터 영역(주로 MLP value 벡터)을 식별한 후, 해당 영역에만 파라미터 업데이트를 제한하여 일반적인 능력은 보존하면서 지식을 제거하는 방식입니다.

검증 대상 핵심 가정: 특정 지식이 식별 가능한 파라미터 부분집합에 "국소적으로" 저장되어 있으므로, 해당 파라미터를 찾아 수정하면 효과적인 언러닝이 가능하다. 그러나 기존 평가는 신뢰하기 어려운 표면적 지표에 의존하고 있으며, 국소화 정확도와 언러닝 효과 사이의 인과적 연결은 한 번도 엄밀하게 검증된 적이 없습니다.

본 논문은 교란 요인 -- 특히 국소화 방법 자체의 정확도 -- 을 제거한 통제된 실험 프레임워크를 설계하여, 파라미터 국소성이 실제로 효과적인 지식 제거를 의미하는지 직접 검증합니다. 실험 결과는 국소화 기반 언러닝 접근법의 근본적 가정에 정면으로 도전합니다.

제안 방법: 통제된 실험 프레임워크

핵심 기여는 대상 지식을 저장하는 정답 파라미터 영역(ground-truth parameter region)을 설계상 알 수 있는 통제된 환경을 구축하여, 국소화 정확도를 교란 요인에서 제거한 것입니다:

1

보존 데이터만으로 파인튜닝

사전학습된 모델 θ_p에서 출발하여 보존 세트(retain set)만으로 파인튜닝하여 θ_r을 얻습니다. 이 모델은 삭제 대상 데이터를 한 번도 본 적이 없는 골드 스탠다드 참조 모델입니다.

2

통제된 지식 주입

θ_r을 삭제 세트(forget set)로 학습시키되, 파라미터 업데이트를 무작위로 선택된 MLP value 벡터의 10%(대상 영역 V_tgt)에만 제한하여 "오염된" 모델 θ_o를 생성합니다. 설계상 V_tgt가 삭제 대상 지식을 인코딩하는 정확한 파라미터 집합입니다.

3

Oracle vs. Random 비교

두 가지 시나리오에서 언러닝 방법을 적용합니다: Oracle(실제 지식 영역 V_tgt에 업데이트 제한)과 Random(동일 크기의 무작위 대안 영역 V_rdm에 업데이트 제한). 국소성이 중요하다면 Oracle이 Random을 유의미하게 앞서야 합니다.

추가로, 기존 국소화 방법 3가지 -- Activations, MemFlex, WAGLE -- 를 4가지 언러닝 알고리즘(WGA, NPO, DPO, RMU) 하에서 무작위 파라미터 선택과 비교합니다.

실험 결과

실험은 TOFU 벤치마크(가상 저자에 대한 4,000개 합성 QA 쌍; 10% 삭제 세트, 90% 보존 세트)에서 LLaMA-3.1-8B-Instruct와 OLMo2-7B-Instruct를 사용하여 수행됩니다. 평가 지표로는 Exact Strength(ES), Forget Strength(FS = 1 − ES_forget), Retain Strength(RS = ES_retain), AUES(FS-RS 곡선 아래 면적), MU95(모델 유틸리티 95%에서의 삭제 품질)를 사용합니다.

국소화 방법 vs. 무작위 선택 (LLaMA-3.1-8B)

방법	AUES ↑	MU95 ↑
Random (무작위)	0.529	-14.87
Activations	0.522	-16.84
MemFlex	0.491	-15.97
WAGLE	0.525	-16.61

무작위 파라미터 선택이 모든 전용 국소화 방법을 두 지표 모두에서 상회했습니다.

Oracle vs. Random -- 통제 실험 (LLaMA-3.1-8B)

언러닝 방법	AUES (Random)	AUES (Oracle)	Δ	p-value
WGA	0.586	0.593	0.018	0.61
NPO	0.625	0.619	0.011	0.71
DPO	0.497	0.492	0.007	0.66
RMU	0.506	0.502	0.017	0.37

통계적으로 유의미한 차이 없음: 모든 p-value가 0.3을 초과하여, 실제 지식 영역(Oracle)이 임의 영역(Random)에 비해 의미 있는 이점을 제공하지 않음을 보여줍니다
Random이 오히려 우세: NPO, DPO, RMU에서 Random 시나리오가 Oracle보다 높은 AUES를 기록하여 국소성 가정에 직접적으로 반하는 결과를 보였습니다
국소화 방법이 무작위보다 낮은 성능: LLaMA-3.1-8B에서 세 가지 국소화 방법(Activations, MemFlex, WAGLE) 모두 무작위 파라미터 선택보다 낮은 점수를 기록했습니다
유연한 파라미터 적응: L2 최소화 분석 결과, 무작위 파라미터 영역을 업데이트하더라도 실제 지식 영역을 업데이트한 것과 비슷한 수준으로 대상 MLP 출력을 재현할 수 있어, 다양한 파라미터 구성이 언러닝 목표를 달성할 수 있음을 시사합니다

Oracle과 Random 시나리오의 레이어별 비교 — **Figure 1.** Oracle과 Random 시나리오 비교: 각 레이어에서의 MLP 출력 L2 최소화 결과. 무작위 파라미터 영역을 조정하더라도 실제 지식 영역과 비슷한 수준으로 MLP 출력을 재현할 수 있어, 유연한 파라미터 적응이 가능함을 보여줍니다.

의의

본 연구는 언러닝 연구 커뮤니티에 핵심적인 메시지를 전달합니다: "지식이 어디에 저장되어 있는지 안다"고 해서 "효과적으로 잊게 할 수 있는 것은 아닙니다." 널리 채택된 국소화 기반 패러다임은 검증되지 않은 가정에 기반하고 있으며, 본 논문은 정답 파라미터 영역을 알 수 있는 통제된 실험을 통해 이 가정을 최초로 엄밀하게 검증하고 반박합니다.

실질적 시사점도 큽니다. GDPR의 "잊힐 권리" 등 AI 규제가 모델 제공자에게 실제 법적 의무를 부과함에 따라, 실제로 작동하는 언러닝 방법이 필요합니다. 다양한 파라미터 구성이 동등한 언러닝 성능을 달성할 수 있음을 보여줌으로써, 저자들은 향후 연구가 엄격한 파라미터 국소성에서 벗어나 다양한 모델 영역에 걸친 유연한 파라미터 적응(flexible parameter adaptation) 전략을 탐색해야 한다고 제안합니다. 이러한 발견은 더 강건하고 신뢰할 수 있는 언러닝 접근법 개발의 기반을 제공합니다.

링크

ACL Anthology arXiv Paper

Does Localization Inform Unlearning? A Rigorous Examination of Local Parameter Attribution for Knowledge Unlearning in Language Models