"특정 파라미터를 찾아 수정하면 원치 않는 지식을 효과적으로 제거할 수 있다"는 통념을 통제된 실험을 통해 엄밀하게 검증하고, 이 가정이 성립하지 않음을 보여줍니다.
대규모 언어 모델은 사전학습 과정에서 유해한 편향, 민감한 개인정보, 저작권이 있는 콘텐츠를 불가피하게 학습합니다. EU의 GDPR "잊힐 권리" 등 규제가 강화됨에 따라, 학습된 모델에서 특정 지식을 선택적으로 제거하는 지식 언러닝(knowledge unlearning)이 핵심 연구 과제로 부상하고 있습니다. 최근의 언러닝 방법들은 국소화(localization) 기반 전략을 채택합니다: 먼저 대상 지식을 "저장"하는 특정 파라미터 영역(주로 MLP value 벡터)을 식별한 후, 해당 영역에만 파라미터 업데이트를 제한하여 일반적인 능력은 보존하면서 지식을 제거하는 방식입니다.
검증 대상 핵심 가정: 특정 지식이 식별 가능한 파라미터 부분집합에 "국소적으로" 저장되어 있으므로, 해당 파라미터를 찾아 수정하면 효과적인 언러닝이 가능하다. 그러나 기존 평가는 신뢰하기 어려운 표면적 지표에 의존하고 있으며, 국소화 정확도와 언러닝 효과 사이의 인과적 연결은 한 번도 엄밀하게 검증된 적이 없습니다.
본 논문은 교란 요인 -- 특히 국소화 방법 자체의 정확도 -- 을 제거한 통제된 실험 프레임워크를 설계하여, 파라미터 국소성이 실제로 효과적인 지식 제거를 의미하는지 직접 검증합니다. 실험 결과는 국소화 기반 언러닝 접근법의 근본적 가정에 정면으로 도전합니다.
핵심 기여는 대상 지식을 저장하는 정답 파라미터 영역(ground-truth parameter region)을 설계상 알 수 있는 통제된 환경을 구축하여, 국소화 정확도를 교란 요인에서 제거한 것입니다:
추가로, 기존 국소화 방법 3가지 -- Activations, MemFlex, WAGLE -- 를 4가지 언러닝 알고리즘(WGA, NPO, DPO, RMU) 하에서 무작위 파라미터 선택과 비교합니다.
실험은 TOFU 벤치마크(가상 저자에 대한 4,000개 합성 QA 쌍; 10% 삭제 세트, 90% 보존 세트)에서 LLaMA-3.1-8B-Instruct와 OLMo2-7B-Instruct를 사용하여 수행됩니다. 평가 지표로는 Exact Strength(ES), Forget Strength(FS = 1 − ESforget), Retain Strength(RS = ESretain), AUES(FS-RS 곡선 아래 면적), MU95(모델 유틸리티 95%에서의 삭제 품질)를 사용합니다.
| 방법 | AUES ↑ | MU95 ↑ |
|---|---|---|
| Random (무작위) | 0.529 | -14.87 |
| Activations | 0.522 | -16.84 |
| MemFlex | 0.491 | -15.97 |
| WAGLE | 0.525 | -16.61 |
무작위 파라미터 선택이 모든 전용 국소화 방법을 두 지표 모두에서 상회했습니다.
| 언러닝 방법 | AUES (Random) | AUES (Oracle) | Δ | p-value |
|---|---|---|---|---|
| WGA | 0.586 | 0.593 | 0.018 | 0.61 |
| NPO | 0.625 | 0.619 | 0.011 | 0.71 |
| DPO | 0.497 | 0.492 | 0.007 | 0.66 |
| RMU | 0.506 | 0.502 | 0.017 | 0.37 |
본 연구는 언러닝 연구 커뮤니티에 핵심적인 메시지를 전달합니다: "지식이 어디에 저장되어 있는지 안다"고 해서 "효과적으로 잊게 할 수 있는 것은 아닙니다." 널리 채택된 국소화 기반 패러다임은 검증되지 않은 가정에 기반하고 있으며, 본 논문은 정답 파라미터 영역을 알 수 있는 통제된 실험을 통해 이 가정을 최초로 엄밀하게 검증하고 반박합니다.
실질적 시사점도 큽니다. GDPR의 "잊힐 권리" 등 AI 규제가 모델 제공자에게 실제 법적 의무를 부과함에 따라, 실제로 작동하는 언러닝 방법이 필요합니다. 다양한 파라미터 구성이 동등한 언러닝 성능을 달성할 수 있음을 보여줌으로써, 저자들은 향후 연구가 엄격한 파라미터 국소성에서 벗어나 다양한 모델 영역에 걸친 유연한 파라미터 적응(flexible parameter adaptation) 전략을 탐색해야 한다고 제안합니다. 이러한 발견은 더 강건하고 신뢰할 수 있는 언러닝 접근법 개발의 기반을 제공합니다.