한국어 의미역 결정 모형을 통한 텍스트 내 서사 구조 분석 방법

한줄 요약

자동 의미역 결정(SRL)을 한국어 텍스트에 적용하여 "누가 누구에게 무엇을 했는가"라는 서사 구조를 대규모로 추출하고 정량적으로 분석하는 학제 간 프레임워크를 제안하며, 이민 및 노동 분쟁 등을 다룬 뉴스 말뭉치에 대한 사회학적 사례 연구를 통해 그 유용성을 입증합니다.

배경 및 동기

서사 분석은 개인, 조직, 사회가 이야기를 통해 어떻게 의미를 구성하는지를 이해하기 위한 사회학의 핵심 방법론입니다. 사회과학의 "서사적 전환(narrative turn)" 이후, 학자들은 텍스트에서 행위자, 행위, 대상을 수작업으로 식별하여 서사를 분석해 왔으며, 이는 구조적 서사학(Propp, Greimas)에 뿌리를 두고 Franzosi 등의 사회학자가 주어-동사-목적어(SVO) 삼중체를 서사의 최소 단위로 형식화한 전통에 기반합니다. 그러나 전통적인 서사 분석은 숙련된 연구자의 정독에 의존하기 때문에 분석 가능한 말뭉치의 규모가 크게 제한됩니다.

본 연구가 해결하는 핵심 과제:

확장성 한계: 수작업 서사 분석은 수십~수백 편의 문서만 처리할 수 있으나, 사회학적 연구 질문은 수천~수만 편의 텍스트(예: 수년간의 이민 정책 또는 노동 분쟁 관련 뉴스 보도) 분석을 요구하는 경우가 많습니다.
한국어 고유의 언어적 과제: 한국어의 교착어적 형태론(예: "정부에서는"이라는 하나의 어절에 주어+주제 표지+출처 조사가 결합), 유연한 어순(SOV이나 빈번한 어순 전환), 광범위한 논항 생략(절의 30-50%에서 주어/목적어 생략)으로 인해 영어 중심 NLP 파이프라인을 그대로 적용하기 어렵습니다.
학문 간 연결의 필요성: NLP 연구자는 PropBank 형식의 논항 라벨링을 이용한 SRL 시스템을 개발하고 사회학자는 SVO 삼중체를 이용한 서사 분석을 수행하지만, SRL의 술어-논항 구조를 사회학적 서사 요소에 체계적으로 대응시키는 프레임워크가 부재했습니다.
재현 가능성: 질적 서사 코딩은 본질적으로 주관적이며, 인간 주석자 간 코딩 일치도가 보통 수준에 머무르는 경우가 많습니다. 전산적 접근법은 대규모 말뭉치에 대해 재현 가능하고 일관된 추출을 제공합니다.

의미역 결정(SRL)은 문장에서 "누가 누구에게 무엇을 언제, 어디서, 어떻게 했는가"를 식별하는 과제로, 사회학적 서사 분석의 자연스러운 전산적 대응물입니다. 양쪽 모두 문장을 구조화된 행위자-행위-대상 관계로 분해합니다. 본 학제 간 연구는 사회학자(권은랑, 강정한)와 NLP 연구자(송준모, 서동건, 이강민, 김태욱)의 협력을 통해 SRL 출력에서 Franzosi 방식의 서사 구조로의 매핑을 체계화하여, 전통적으로 수작업에 의존했던 사회학적 방법론을 자동화합니다.

제안 방법

본 프레임워크는 원시 한국어 텍스트에서 정량적 서사 분석까지 4단계로 구성됩니다:

한국어 SRL 파이프라인

딥러닝 기반 의미역 결정 시스템이 다단계 파이프라인을 통해 한국어 텍스트를 처리합니다. 먼저, 형태소 분석을 통해 각 어절을 형태소로 분리하여 내용어와 문법적 조사(이/가, 을/를, 에게) 및 어미를 구분합니다 — 한국어 격조사가 의미역을 직접 부호화하므로 이 과정이 핵심적입니다. 다음으로, 술어 식별을 수행하여 용언 술어(예: "발표하다", "비판하다")와 한국어 뉴스에서 사건 앵커로 자주 사용되는 명사화 술어(예: "발표", "비판")를 모두 탐지합니다. 마지막으로, 논항 추출을 통해 각 술어의 논항에 PropBank 형식의 라벨(ARG0: 행위자, ARG1: 대상, ARG2: 도구/수혜자, ARGM-TMP: 시간, ARGM-LOC: 장소, ARGM-CAU: 원인)을 부여하여 구조화된 술어-논항 튜플을 생성합니다.

SRL-서사 매핑

SRL 출력을 Franzosi의 SVO 프레임워크에 맞춘 사회학적 서사 요소로 변환하는 형식적 매핑을 정의합니다. 핵심 매핑은: ARG0 → 주어/행위자(누가 행위를 수행하는가), 술어 → 동사/행위(무엇을 하는가), ARG1 → 목적어/대상(누가/무엇이 영향을 받는가)입니다. 추가 논항은 서사 맥락을 풍부하게 합니다: ARG2는 도구/수혜자, ARGM-LOC는 배경, ARGM-TMP는 시간적 기준점, ARGM-CAU는 원인/동기에 대응합니다. 예를 들어, "정부가 이민자에게 새로운 정책을 발표했다"에서 시스템은 행위자=정부, 행위=발표하다, 대상=정책, 수혜자=이민자를 추출합니다.

집계 및 정량화

개별 문장 수준의 서사 사건을 세 가지 상호보완적 분석 방법으로 문서 및 말뭉치 수준으로 집계합니다. 빈도 분석은 말뭉치 전반의 행위자, 행위, 행위자-행위-대상 삼중체의 분포를 산출합니다. 서사 네트워크 구축은 행위자/행위를 노드로, 가중 간선으로 연관 강도를 표현하는 공출현 그래프를 만들어 지배적 서사 구조의 시각화를 가능하게 합니다. 역할 분포 분석은 특정 행위자(예: "정부", "시민", "기업")가 행위 주체(ARG0) 위치와 피행위자(ARG1) 위치에 얼마나 자주 출현하는지를 추적하여 미디어 묘사의 체계적 비대칭을 드러냅니다.

사회학적 사례 연구 적용

한국어 뉴스 말뭉치에 프레임워크를 적용하여 실질적 유용성을 입증합니다. 이민, 노동, 사회 정책 등의 주제에서 다양한 행위자(정부 기관, 시민 단체, 기업, 개인 시민)가 관련 행위와 대상을 통해 어떻게 묘사되는지를 분석합니다. 행위자-행위 분포와 서사 네트워크를 분석함으로써 미디어 프레이밍의 체계적 패턴 — 예를 들어, 어떤 행위자가 일관되게 변화의 주체로 묘사되고, 어떤 행위자가 수동적 수혜자로 묘사되는지 — 을 밝힙니다.

SRL-서사 매핑 대응표

SRL 라벨	서사 요소	사회학적 역할	예시 (한국어)
ARG0	주어 / 행위자	행위를 수행하는 주체	정부 (government)
술어	동사 / 행위	수행되는 행위	발표하다 (to announce)
ARG1	목적어 / 대상	영향을 받는 대상	정책 (policy)
ARG2	도구 / 수혜자	수단 또는 수혜자	이민자 (immigrants)
ARGM-TMP	시간적 기준점	사건의 시점	어제 (yesterday)
ARGM-LOC	배경	사건의 장소	국회에서 (at the National Assembly)
ARGM-CAU	원인 / 동기	사건의 원인	인구 감소로 (due to population decline)

실험 결과

본 프레임워크는 정량적(SRL 시스템 정확도) 및 정성적(서사 분석 유용성) 측면에서 모두 검증되었습니다:

SRL 시스템 성능

평가 항목	설명	핵심 고려사항
술어 식별	한국어 문장에서 용언 및 명사화 술어의 정확한 탐지	"발표하다"(용언)와 "발표"(명사형) 모두 사건 앵커로 처리
논항 추출	핵심 논항(ARG0, ARG1) 및 수식어의 올바른 식별 및 라벨링	격조사(이/가 vs. 을/를 vs. 에게)를 분석하여 역할 할당을 결정
논항 생략 처리	주어/목적어 생략 상황에서도 견고한 성능 유지	절의 30-50%에서 주어 또는 목적어가 생략되는 한국어에 필수적
형태소 처리	교착어적 어절을 의미 있는 논항 단위로 올바르게 분리	하나의 어절 내에서 내용 형태소와 문법 조사를 분리

서사 분석 주요 결과

입증된 핵심 분석 차원:

행위자 빈도 순위: 말뭉치 전반에서 가장 빈번하게 언급되는 행위자를 식별하여 미디어 서사에서 누구의 목소리가 지배적인지를 드러냄
행위 동사 군집화: 의미적으로 관련된 행위(예: "비판하다/비난하다/반대하다" vs. "지지하다/지원하다/옹호하다")의 군집화를 통해 서사적 어조를 특성화
행위 주체성 비대칭 탐지: 특정 행위자가 행위 주체(ARG0)와 피행위자(ARG1)로 출현하는 빈도를 측정하여 체계적 묘사 편향을 노출
서사 네트워크 위상: 행위자-행위 네트워크의 밀도, 중심성, 커뮤니티 구조를 분석하여 서사적 연합과 대립 구도를 식별

전문가 분석과의 일관성: 자동 추출된 서사 구조가 숙련된 사회학자의 수작업 코딩 결과와 잘 부합하여 SRL-서사 매핑의 타당성을 검증하고, 전산적 추출이 사회학적으로 의미 있는 패턴을 보존함을 입증
규모의 이점 입증: 수작업으로 수주~수개월이 소요되는 코딩 작업을 수분 내에 수천 편의 문서에 적용하여 기존에는 불가능했던 말뭉치 수준의 서사 분석을 실현 — 분석 범위를 수백 편에서 수만 편으로 확장
행위자-행위 패턴 발견: 정량적 집계를 통해 다양한 행위자가 어떻게 묘사되는지의 체계적 패턴을 드러냄 — 예를 들어, 정부 행위자는 "발표하다", "규제하다", "시행하다" 등의 행위 동사와 함께 행위 주체 위치에 불균형적으로 출현하는 반면, 시민 집단은 "영향을 받다", "부담을 지다" 등의 행위의 대상으로 더 빈번하게 배치됨
시간에 따른 서사 추적: 서사 구조가 시간에 따라 어떻게 변화하는지를 추적할 수 있어, 다양한 시기에 걸친 지배적 서사의 변화와 행위자 묘사의 변동을 드러냄 — 예를 들어, 이민 관련 프레이밍이 연도별로 경제 담론에서 안보 담론으로 전환되는 양상
한국어 특화 견고성: 논항 생략, 유연한 어순, 복잡한 형태소 교착 등의 과제에도 불구하고 의미 있는 서사 추출 품질을 유지하여 영어 중심 접근법을 넘어서는 SRL 기반 서사 분석의 가능성을 입증

의의

본 연구는 전산 언어학과 사회학의 교차점에서 진정한 학제 간 기여를 이루며, 양 분야에 다음과 같은 함의를 지닙니다:

사회과학의 새로운 방법론: 사회학자에게 분석적 엄밀성을 유지하면서 수천 편의 텍스트를 처리할 수 있는 재현 가능하고 확장 가능한 서사 분석 도구를 제공하여, 전례 없는 규모의 정량적 서사 연구의 길을 엽니다. 이는 Franzosi 등이 전산 서사 분석에서 지적한 오래된 병목을 직접 해결합니다.
NLP의 실세계 응용: NLP 연구자에게 표준 벤치마크를 넘어서는 의미역 결정의 설득력 있는 응용 사례를 보여주며, SRL 출력이 사회과학이라는 NLP의 영향력이 제한적이었던 도메인의 분석 요구를 직접 충족할 수 있음을 입증합니다.
한국어 NLP 발전: 영어 대비 사회과학적 텍스트 분석을 위한 전산 도구가 현저히 부족했던 한국어 연구의 중요한 공백을 메웁니다. 한국어 고유의 과제(교착, 논항 생략, SOV 어순)를 해결함으로써 한국어 전산 사회과학의 기반을 확립합니다.
학제 간 가교: 한국사회학(KCI 등재 학술지, Vol. 59, No. 3)에 게재됨으로써 사회과학 독자에게 전산 NLP 방법론을 소개하고, 두 분야 간 공유 어휘와 방법론을 확립하며, NLP 도구가 사회학적 연구 프레임워크 내에서 엄밀하게 적용될 수 있음을 입증합니다.
일반화 가능한 프레임워크: SRL-서사 매핑은 뉴스 분석에 국한되지 않으며, 문학 텍스트, 정치 연설, 법률 문서, 판결문, 국회 속기록 등 한국어의 다양한 서사 풍부 말뭉치로 확장 가능하고, 일본어, 터키어 등 다른 교착어에도 적용 가능성이 있습니다.

링크

KCI Portal

Parsing & Syntax Multilingual