EN KO
← 전체 논문 목록

한국어 의미역 결정 모형을 통한 텍스트 내 서사 구조 분석 방법

한국사회학, 2025, Vol. 59, no. 3, pp. 101-146
Eun Rang Kwon, Junmo Song, Donggeon Seo, Kangmin Lee, Taeuk Kim, Jeong-Han Kang

한줄 요약

자동 의미역 결정(SRL)을 한국어 텍스트에 적용하여 "누가 누구에게 무엇을 했는가"라는 서사 구조를 대규모로 추출하고 정량적으로 분석하는 학제 간 프레임워크를 제안하며, 이민 및 노동 분쟁 등을 다룬 뉴스 말뭉치에 대한 사회학적 사례 연구를 통해 그 유용성을 입증합니다.

배경 및 동기

서사 분석은 개인, 조직, 사회가 이야기를 통해 어떻게 의미를 구성하는지를 이해하기 위한 사회학의 핵심 방법론입니다. 사회과학의 "서사적 전환(narrative turn)" 이후, 학자들은 텍스트에서 행위자, 행위, 대상을 수작업으로 식별하여 서사를 분석해 왔으며, 이는 구조적 서사학(Propp, Greimas)에 뿌리를 두고 Franzosi 등의 사회학자가 주어-동사-목적어(SVO) 삼중체를 서사의 최소 단위로 형식화한 전통에 기반합니다. 그러나 전통적인 서사 분석은 숙련된 연구자의 정독에 의존하기 때문에 분석 가능한 말뭉치의 규모가 크게 제한됩니다.

본 연구가 해결하는 핵심 과제:

  • 확장성 한계: 수작업 서사 분석은 수십~수백 편의 문서만 처리할 수 있으나, 사회학적 연구 질문은 수천~수만 편의 텍스트(예: 수년간의 이민 정책 또는 노동 분쟁 관련 뉴스 보도) 분석을 요구하는 경우가 많습니다.
  • 한국어 고유의 언어적 과제: 한국어의 교착어적 형태론(예: "정부에서는"이라는 하나의 어절에 주어+주제 표지+출처 조사가 결합), 유연한 어순(SOV이나 빈번한 어순 전환), 광범위한 논항 생략(절의 30-50%에서 주어/목적어 생략)으로 인해 영어 중심 NLP 파이프라인을 그대로 적용하기 어렵습니다.
  • 학문 간 연결의 필요성: NLP 연구자는 PropBank 형식의 논항 라벨링을 이용한 SRL 시스템을 개발하고 사회학자는 SVO 삼중체를 이용한 서사 분석을 수행하지만, SRL의 술어-논항 구조를 사회학적 서사 요소에 체계적으로 대응시키는 프레임워크가 부재했습니다.
  • 재현 가능성: 질적 서사 코딩은 본질적으로 주관적이며, 인간 주석자 간 코딩 일치도가 보통 수준에 머무르는 경우가 많습니다. 전산적 접근법은 대규모 말뭉치에 대해 재현 가능하고 일관된 추출을 제공합니다.

의미역 결정(SRL)은 문장에서 "누가 누구에게 무엇을 언제, 어디서, 어떻게 했는가"를 식별하는 과제로, 사회학적 서사 분석의 자연스러운 전산적 대응물입니다. 양쪽 모두 문장을 구조화된 행위자-행위-대상 관계로 분해합니다. 본 학제 간 연구는 사회학자(권은랑, 강정한)와 NLP 연구자(송준모, 서동건, 이강민, 김태욱)의 협력을 통해 SRL 출력에서 Franzosi 방식의 서사 구조로의 매핑을 체계화하여, 전통적으로 수작업에 의존했던 사회학적 방법론을 자동화합니다.

제안 방법

본 프레임워크는 원시 한국어 텍스트에서 정량적 서사 분석까지 4단계로 구성됩니다:

1
한국어 SRL 파이프라인
딥러닝 기반 의미역 결정 시스템이 다단계 파이프라인을 통해 한국어 텍스트를 처리합니다. 먼저, 형태소 분석을 통해 각 어절을 형태소로 분리하여 내용어와 문법적 조사(이/가, 을/를, 에게) 및 어미를 구분합니다 — 한국어 격조사가 의미역을 직접 부호화하므로 이 과정이 핵심적입니다. 다음으로, 술어 식별을 수행하여 용언 술어(예: "발표하다", "비판하다")와 한국어 뉴스에서 사건 앵커로 자주 사용되는 명사화 술어(예: "발표", "비판")를 모두 탐지합니다. 마지막으로, 논항 추출을 통해 각 술어의 논항에 PropBank 형식의 라벨(ARG0: 행위자, ARG1: 대상, ARG2: 도구/수혜자, ARGM-TMP: 시간, ARGM-LOC: 장소, ARGM-CAU: 원인)을 부여하여 구조화된 술어-논항 튜플을 생성합니다.
2
SRL-서사 매핑
SRL 출력을 Franzosi의 SVO 프레임워크에 맞춘 사회학적 서사 요소로 변환하는 형식적 매핑을 정의합니다. 핵심 매핑은: ARG0 → 주어/행위자(누가 행위를 수행하는가), 술어 → 동사/행위(무엇을 하는가), ARG1 → 목적어/대상(누가/무엇이 영향을 받는가)입니다. 추가 논항은 서사 맥락을 풍부하게 합니다: ARG2는 도구/수혜자, ARGM-LOC는 배경, ARGM-TMP는 시간적 기준점, ARGM-CAU는 원인/동기에 대응합니다. 예를 들어, "정부가 이민자에게 새로운 정책을 발표했다"에서 시스템은 행위자=정부, 행위=발표하다, 대상=정책, 수혜자=이민자를 추출합니다.
3
집계 및 정량화
개별 문장 수준의 서사 사건을 세 가지 상호보완적 분석 방법으로 문서 및 말뭉치 수준으로 집계합니다. 빈도 분석은 말뭉치 전반의 행위자, 행위, 행위자-행위-대상 삼중체의 분포를 산출합니다. 서사 네트워크 구축은 행위자/행위를 노드로, 가중 간선으로 연관 강도를 표현하는 공출현 그래프를 만들어 지배적 서사 구조의 시각화를 가능하게 합니다. 역할 분포 분석은 특정 행위자(예: "정부", "시민", "기업")가 행위 주체(ARG0) 위치와 피행위자(ARG1) 위치에 얼마나 자주 출현하는지를 추적하여 미디어 묘사의 체계적 비대칭을 드러냅니다.
4
사회학적 사례 연구 적용
한국어 뉴스 말뭉치에 프레임워크를 적용하여 실질적 유용성을 입증합니다. 이민, 노동, 사회 정책 등의 주제에서 다양한 행위자(정부 기관, 시민 단체, 기업, 개인 시민)가 관련 행위와 대상을 통해 어떻게 묘사되는지를 분석합니다. 행위자-행위 분포와 서사 네트워크를 분석함으로써 미디어 프레이밍의 체계적 패턴 — 예를 들어, 어떤 행위자가 일관되게 변화의 주체로 묘사되고, 어떤 행위자가 수동적 수혜자로 묘사되는지 — 을 밝힙니다.

SRL-서사 매핑 대응표

SRL 라벨서사 요소사회학적 역할예시 (한국어)
ARG0주어 / 행위자행위를 수행하는 주체정부 (government)
술어동사 / 행위수행되는 행위발표하다 (to announce)
ARG1목적어 / 대상영향을 받는 대상정책 (policy)
ARG2도구 / 수혜자수단 또는 수혜자이민자 (immigrants)
ARGM-TMP시간적 기준점사건의 시점어제 (yesterday)
ARGM-LOC배경사건의 장소국회에서 (at the National Assembly)
ARGM-CAU원인 / 동기사건의 원인인구 감소로 (due to population decline)

실험 결과

본 프레임워크는 정량적(SRL 시스템 정확도) 및 정성적(서사 분석 유용성) 측면에서 모두 검증되었습니다:

SRL 시스템 성능

평가 항목설명핵심 고려사항
술어 식별한국어 문장에서 용언 및 명사화 술어의 정확한 탐지"발표하다"(용언)와 "발표"(명사형) 모두 사건 앵커로 처리
논항 추출핵심 논항(ARG0, ARG1) 및 수식어의 올바른 식별 및 라벨링격조사(이/가 vs. 을/를 vs. 에게)를 분석하여 역할 할당을 결정
논항 생략 처리주어/목적어 생략 상황에서도 견고한 성능 유지절의 30-50%에서 주어 또는 목적어가 생략되는 한국어에 필수적
형태소 처리교착어적 어절을 의미 있는 논항 단위로 올바르게 분리하나의 어절 내에서 내용 형태소와 문법 조사를 분리

서사 분석 주요 결과

입증된 핵심 분석 차원:

  • 행위자 빈도 순위: 말뭉치 전반에서 가장 빈번하게 언급되는 행위자를 식별하여 미디어 서사에서 누구의 목소리가 지배적인지를 드러냄
  • 행위 동사 군집화: 의미적으로 관련된 행위(예: "비판하다/비난하다/반대하다" vs. "지지하다/지원하다/옹호하다")의 군집화를 통해 서사적 어조를 특성화
  • 행위 주체성 비대칭 탐지: 특정 행위자가 행위 주체(ARG0)와 피행위자(ARG1)로 출현하는 빈도를 측정하여 체계적 묘사 편향을 노출
  • 서사 네트워크 위상: 행위자-행위 네트워크의 밀도, 중심성, 커뮤니티 구조를 분석하여 서사적 연합과 대립 구도를 식별

의의

본 연구는 전산 언어학과 사회학의 교차점에서 진정한 학제 간 기여를 이루며, 양 분야에 다음과 같은 함의를 지닙니다:

링크

Parsing & Syntax Multilingual