한줄 요약
한국어 구어 전용 다중 의도 감지 데이터셋을 최초로 구축하고 다양한 모델을 벤치마킹하여, 연결어미와 조사 생략 등 한국어 고유의 언어적 특성이 다중 의도 감지를 영어보다 현저히 어렵게 만든다는 사실을 실증적으로 밝힌 연구.
배경 및 동기
실제 대화 시스템에서 사용자는 하나의 발화에 여러 의도를 함께 표현하는 경우가 빈번합니다. 예를 들어, 날씨를 물으면서 동시에 근처 맛집을 추천해 달라고 요청하는 식입니다. 다중 의도 감지(MID)는 영어를 중심으로 활발히 연구되어 왔으나, 한국어는 근본적으로 다른 언어적 특성을 지니고 있어 기존 영어 데이터셋의 번역이나 영어 중심 모델의 단순 적용으로는 해결할 수 없습니다.
한국어 다중 의도 감지가 특히 어려운 이유:
- 교착어적 형태론: 한국어는 어간에 접미사를 붙여 문법 관계를 표현하므로, 영어의 분석적 구조에 비해 토큰 수준에서 의도 경계를 분리하기가 훨씬 어렵습니다.
- 연결어미: 한국어 화자는 -고(그리고), -(으)면서(동시에), -(으)니까(이유) 등의 연결어미를 사용하여 여러 의도를 하나의 문장으로 융합하며, 이는 명시적 구분자 없이 의도 전환을 일으킵니다.
- 주제/주어 조사 생략: 구어체 한국어에서는 -은/는(주제), -이/가(주어) 등의 조사가 빈번히 생략되어, 별개의 의도 절을 구분하는 통사적 단서가 사라집니다.
- 한국어 MID 자원의 부재: 기존 다중 의도 데이터셋(MixATIS, MixSNIPS)은 전부 영어 기반이며, 직접 번역으로는 자연스러운 한국어 다중 의도 발화 패턴을 포착할 수 없습니다.
이러한 요인들로 인해, 한국어 사용자가 "내일 날씨 확인해주고 근처 식당도 예약해줘"와 같이 말할 때, 의도 경계는 별개의 절이 아닌 형태소 접미사를 통해 인코딩됩니다. 이는 기존 영어 MID 모델이 처리하도록 설계되지 않은 패턴입니다.
한국어 다중 의도의 구체적 사례
| 현상 | 한국어 예시 | 영어 대응 | 난이도 요인 |
| 연결어미 (-고) | "내일 날씨 알려주고 맛집도 추천해줘" | "Tell me the weather and recommend a restaurant" | 의도 경계가 접미사에 숨겨짐 |
| 동시 (-면서) | "음악 틀어주면서 알람 설정해줘" | "Play music while setting an alarm" | 시간적 중첩이 의도 분리를 모호하게 함 |
| 주제 조사 생략 | "날씨 어때 식당 예약해줘" | "How's the weather, book a restaurant" | 의도 간 통사적 표지 부재 |
| 경어법 변이 | "날씨 알려주세요" vs. "날씨 알려줘" | 동일 의도, 다른 격식 | 표면적 변이가 분류기를 혼란시킴 |
제안 방법
본 연구는 한국어 고유의 다중 의도 데이터셋 구축, 한국어 언어 관습에 맞는 의도 주석 가이드라인 설계, 그리고 전통적 모델과 사전학습 언어 모델의 벤치마킹이라는 세 단계 접근법을 제안합니다. 이 방법론은 번역 부산물이 아닌 언어적으로 진정성 있는 데이터셋을 생성하여, 한국어 고유의 MID 과제를 실질적으로 측정하는 벤치마크를 보장하도록 설계되었습니다.
1
한국어 다중 의도 데이터셋 구축
기존 영어 MID 데이터셋을 번역하는 대신, 자연스러운 한국어 구어 패턴을 반영하여 발화를 처음부터 구성합니다. 다중 의도 발화는 실제 한국어 연결 구조를 활용하여 단일 의도 템플릿을 조합하는 방식으로 생성됩니다. 데이터셋은 날씨, 교통, 식당, 일정 등 다양한 도메인에 걸친 의도 조합을 포괄하며, 의도 혼합 패턴이 실제 한국어 대화 행태를 반영하도록 설계되었습니다.
2
한국어 특화 언어학적 주석 설계
주석 가이드라인을 한국어 고유 현상에 맞게 조정합니다. 발화 구조에 영향을 미치는 경어법(해요체 vs. 합쇼체), 주어가 완전히 생략되는 영조응(zero-anaphora), 그리고 연결어미가 하나의 복합 의도와 진정한 다중 의도 사이의 모호성을 만드는 경우를 처리합니다. 주석자들은 통사적 등위접속(하나의 의도에 여러 행위)과 진정한 다중 의도 발화를 구분하도록 훈련됩니다.
3
모델 벤치마킹 및 분석
한국어 MID 데이터셋에서 BERT 기반 분류기(KR-BERT, KoBERT), 시퀀스 수준 다중 레이블 분류, 토큰 수준 의도 경계 감지 등 다양한 모델 아키텍처를 평가합니다. 정확 일치 정확도(모든 의도 정확히 식별)와 부분 일치 지표(개별 의도에 대한 F1 점수) 모두를 사용하여 모델 능력의 전체 그림을 파악합니다. 오류 분석을 통해 한국어 특유의 실패 유형을 체계적으로 분류합니다.
실험 결과
벤치마크 실험을 통해 한국어 다중 의도 감지와 유사한 영어 과제 사이에 일관되고 유의미한 성능 차이가 확인되었으며, 모델 용량이나 데이터셋 크기가 아닌 언어 특화 과제가 주요 병목임이 입증되었습니다.
오류 분석 요약: 모델 실패 사례를 체계적으로 분류한 결과, 각각 특정 한국어 언어 현상과 연결된 세 가지 주요 오류 유형이 발견되었습니다:
- 의도 병합 (가장 빈번): 모델이 두 개의 별개 의도를 하나의 복합 의도로 처리하며, 주로 명시적 구분 없이 절을 연결하는 연결어미에 의해 유발됩니다.
- 의도 누락: 모델이 여러 의도 중 하나만 감지하며, 주로 주제/주어 조사가 생략되었을 때 후반 의도를 놓치는 경향을 보입니다. 모델이 발화를 하나의 확장된 요청으로 해석하기 때문입니다.
- 의도 분리: 덜 빈번하지만 주목할 만한 유형으로, 모델이 하나의 복합 의도를 여러 의도로 잘못 분리하며, 주로 하나의 요청 내에서 경어법 활용이 만들어내는 표면적 변이에 의해 유발됩니다.
주요 발견
| 발견 | 세부 내용 |
| 한국어 vs. 영어 난이도 | 한국어 사전학습 인코더를 사용하더라도, 한국어 MID에서 훈련된 모델은 영어 MID 벤치마크 대비 현저히 낮은 정확 일치 정확도를 보임 |
| 암시적 의도 혼합 | 연결어미(-고, -(으)면서)를 통해 의도를 합친 발화가 가장 어려운 범주이며, 가장 큰 정확도 하락을 보임 |
| 주어 생략의 영향 | 주제/주어 조사가 생략된 발화에서 모델이 의도 수를 잘못 파악하며, 주로 과소 예측하는 경향 |
| 경어법 변이 | 동일한 의도 내용에 대한 서로 다른 경어 수준이 표면적 변이를 만들어 분류기를 혼란시킴 |
- 연결어미가 주요 오류 원인: 영어의 "and"나 "also"와 같은 명시적 접속사 대신 한국어 연결어미를 통해 의도가 합쳐질 때, 모델이 의도 경계를 감지하지 못하고 두 의도를 하나로 처리하는 경우가 빈번했습니다.
- 한국어 사전학습 모델이 다국어 모델보다 우수: 한국어 코퍼스로 사전학습된 모델(KR-BERT, KoBERT)이 다국어 BERT 변형 모델보다 일관되게 높은 성능을 보여, 언어 특화 사전학습의 중요성을 확인했습니다.
- 다중 레이블 분류가 시퀀스 레이블링보다 효과적: MID를 전체 발화에 대한 다중 레이블 분류 문제로 접근하는 것이 토큰 수준 의도 경계 감지보다 효과적인 것으로 나타났으며, 이는 한국어에서 의도 경계가 위치적으로 분리되기보다 형태소적으로 인코딩되기 때문으로 분석됩니다.
- 의도 수 증가에 따른 성능 저하: 발화당 의도 수가 2개에서 3개 이상으로 증가할수록 정확도가 급격히 하락하여, 모델이 복잡한 한국어 발화에서 다수의 중첩된 의도 신호에 대한 민감도를 유지하는 데 어려움을 겪음을 보여줍니다.
의의
본 연구는 한국어 구어에 대한 다중 의도 감지를 최초로 체계적으로 연구함으로써 한국어 대화 이해 연구의 중요한 공백을 메웁니다. 한국어 대화형 AI 제품(음성 비서, 고객 서비스 챗봇, 스마트홈 컨트롤러)이 성숙해짐에 따라, 다중 의도 발화를 처리하는 능력은 사용자 만족을 위해 더 이상 선택이 아닌 필수가 되었습니다. 핵심 기여는 세 가지입니다:
- 최초의 한국어 MID 벤치마크: 번역된 영어 데이터의 한계 없이 진정한 한국어 다중 의도 발화 패턴을 포착하는 전용 데이터셋을 연구 커뮤니티에 제공합니다.
- 언어 특화 설계 원칙 제시: 영어 MID 방법론을 한국어에 단순 적용하는 것이 불충분함을 실증적으로 증명하고, 강건한 한국어 의도 감지를 위해 반드시 해결해야 할 구체적 언어 현상(연결어미, 조사 생략, 경어법 변이)을 식별합니다.
- 한국어 대화형 AI에 대한 실질적 시사점: 한국어 음성 비서와 챗봇이 보편화됨에 따라, 다중 의도 발화를 정확히 처리하는 능력은 자연스러운 사용자 상호작용에 필수적입니다. 본 연구는 이 역량을 발전시키는 데 필요한 평가 프레임워크와 기준 모델을 함께 제공합니다.
본 논문은 KCC 2024에서 우수논문상을 수상하며, 한국어 자연어처리 커뮤니티에서의 중요성을 인정받았습니다.
Dialogue
Multilingual