EN KO
← 전체 논문 목록

한국어 표 설명 능력 향상을 위한 전처리 및 학습 방법론 탐구

The 36th Annual Conference on Human and Cognitive Language Technology (HCLT 2024) 최우수논문상
Changhyeon Kim, Seunghee Kim, Taeuk Kim

한줄 요약

4가지 표 직렬화 형식을 비교하고 4가지 합성 보조 과제를 설계하여, Pandas DataFrame 전처리가 한국어 표 셀 설명 생성에서 기준 대비 19.6% 성능 향상과 토큰 비용 절감을 동시에 달성함을 보인 연구.

배경 및 동기

표는 구조화된 데이터를 정리하는 가장 보편적인 형식 중 하나이지만, 특정 표 셀에 대한 자연어 설명을 자동으로 생성하는 것은 언어 모델에게 여전히 어려운 과제입니다 — 특히 자원과 벤치마크가 부족한 한국어에서는 더욱 그렇습니다. 표와 대상 셀이 주어졌을 때, 해당 셀 값이 행, 열, 그리고 표 전체 맥락에서 무엇을 의미하는지 유창한 한국어 문장으로 설명하는 것이 목표입니다.

핵심 과제:

  • 직렬화 모호성: 표를 언어 모델에 입력하려면 텍스트로 변환해야 하지만, Markdown, HTML, DataFrame, JSON 등 형식에 따라 구조적 단서의 전달 방식이 크게 달라지며, 한국어에 대한 체계적 비교 연구가 부재합니다.
  • 구조 이해 부족: 모델이 셀을 해당 열 헤더나 행 맥락과 정확히 연결하지 못해, 사실과 맞지 않거나 의미가 통하지 않는 설명을 생성하는 경우가 빈번합니다.
  • 토큰 효율성: HTML과 같은 장황한 형식은 구조적 명확성의 향상 없이 많은 토큰을 소비하여, 학습과 추론 모두에서 계산 비용을 증가시킵니다.
  • 한국어 표 데이터 부족: 대부분의 표 이해 연구가 영어를 대상으로 하며, 한국어 전용 학습 데이터와 평가 벤치마크가 매우 제한적입니다.

본 논문은 이러한 과제들을 해결하기 위해 직렬화 형식의 통제된 비교와 합성 데이터 기반의 목표 지향적 보조 학습 과제를 제안하여, 처음부터 표 이해 능력을 체계적으로 구축합니다.

제안 방법

본 연구의 접근법은 두 가지 핵심 구성요소로 이루어집니다: (1) 최적의 표-텍스트 직렬화 형식 탐색, (2) 표 구조 이해를 점진적으로 학습시키는 합성 데이터 기반 보조 과제 설계.

전체 파이프라인: 학습 절차는 2단계 커리큘럼을 따릅니다. 먼저, 합성 보조 과제로 모델을 학습시켜 기초적인 표 이해 능력을 구축합니다(구조적 기반 학습). 이후, 사전 학습된 모델을 표 셀 설명 생성이라는 최종 과제에 맞춰 미세 조정합니다. 이러한 커리큘럼 접근법은 모델이 복잡한 생성 목표를 시도하기 전에 구조적 이해를 먼저 습득하도록 보장합니다.

표 직렬화 형식

표를 언어 모델이 처리할 수 있는 텍스트 문자열로 변환하는 4가지 형식을 비교합니다:

형식특징인코딩 예시토큰 효율성
Markdown파이프(|)로 구분된 열과 헤더 구분선| Col1 | Col2 |\n|---|---|\n| val | val |보통
HTML<table>/<tr>/<td> 마크업으로 구조 보존<table><tr><td>val</td>...</tr></table>낮음 (장황한 태그)
Pandas DataFrame인덱스 기반 행/열 표현과 정렬된 간격  Col1  Col2\n0  val   val높음
JSON행 단위 중첩된 키-값 쌍[{"Col1":"val","Col2":"val"}]보통

DataFrame 형식의 핵심적인 장점은, 공백 정렬 레이아웃이 열 정렬을 자연스럽게 보존하여, 명시적인 구조 마크업 없이도 모델이 셀 값을 해당 헤더와 쉽게 연결할 수 있다는 점입니다.

보조 학습 과제

특정 표 이해 능력을 구축하기 위해 4가지 보조 과제를 설계하며, 각각 자동 생성된 합성 데이터셋으로 뒷받침됩니다. 이 과제들은 국소적인 셀 수준 이해에서 전체 표 수준 이해로 점진적으로 확장되는 커리큘럼을 형성합니다:

1
HPOS — 셀 위치 인식
표와 대상 셀 값이 주어졌을 때, 모델이 해당 셀의 정확한 행과 열 위치를 식별해야 합니다. 이를 통해 모델은 셀 값을 표 내 구조적 좌표에 매핑하는 능력을 학습합니다. 핵심 능력: 셀 수준 위치 파악, 좌표 매핑.
2
HROW — 행 정보 인식
표와 특정 행 인덱스가 주어졌을 때, 모델이 해당 행의 모든 셀 값을 나열해야 합니다. 이 과제는 직렬화된 표에서 수평(행 수준) 정보를 정확히 파싱하고 추출하는 능력을 훈련합니다. 핵심 능력: 행 수준 파싱, 수평 탐색.
3
HCOL — 열 정보 인식
표와 특정 열 헤더가 주어졌을 때, 모델이 해당 열의 모든 값을 추출해야 합니다. 이를 통해 수직(열 수준) 관계를 파악하는 능력을 구축하며, 셀을 올바른 열 헤더와 연결하는 데 핵심적입니다. 핵심 능력: 열 수준 파싱, 헤더-값 연결.
4
CRCR — 표 구조 재배치
모델이 표를 한 직렬화 형식에서 다른 형식으로 변환합니다 (예: Markdown에서 DataFrame). 충실한 형식 변환을 위해 모든 셀, 행, 열 관계를 정확히 파싱해야 하므로 표의 전체 구조에 대한 깊은 이해를 촉진합니다. 핵심 능력: 전체적 구조 이해, 형식 비의존적 표 표현.

합성 데이터 생성: 모든 보조 과제 데이터셋은 기존 표로부터 자동으로 구축되며, 수동 주석 작업이 필요 없습니다. 각 표에 대해 대상 셀(HPOS), 행 인덱스(HROW), 열 헤더(HCOL), 원본/대상 형식 쌍(CRCR)을 변경하여 다수의 학습 인스턴스를 생성합니다. 이를 통해 새로운 도메인과 언어로의 확장이 용이합니다.

실험 설정

실험은 직렬화 형식 선택과 보조 과제 학습이 한국어 표 셀 설명 생성이라는 하류 과제에 미치는 기여를 분리하여 측정하도록 설계되었습니다.

구성요소세부사항
목표 과제한국어 표 셀 설명 생성 — 강조된 셀을 맥락에 맞게 유창한 한국어 문장으로 설명
직렬화 형식Markdown (기준), HTML, Pandas DataFrame, JSON
보조 과제HPOS (셀 위치), HROW (행 정보), HCOL (열 정보), CRCR (형식 변환)
학습 전략2단계 커리큘럼: 보조 과제 사전 학습 후 목표 과제 미세 조정
평가형식별, 보조 과제 조합별 설명 품질 비교

실험 결과

실험은 직렬화 형식 선택과 보조 과제 학습이 한국어 표 셀 설명 생성 품질에 미치는 영향을 평가합니다.

직렬화 형식별 성능

형식상대 성능토큰 수구조적 명확성
Baseline (Markdown)기준높음보통 — 파이프 구분자에 의존
HTML기준 이하최다높은 마크업 오버헤드가 내용을 가림
JSON기준 이상보통명시적 키-값 쌍이 헤더 연결을 보조
Pandas DataFrame+19.6% 향상최소자연스러운 정렬이 열 구조를 보존

보조 과제의 효과

보조 과제 기여도 분석

보조 과제 조합습득되는 핵심 능력기여 수준
HPOS 단독셀-좌표 매핑높음
HCOL 단독열 헤더-값 연결높음
HROW 단독행 수준 맥락 추출보통
CRCR 단독전체적 구조 이해보통
4가지 모두 결합완전한 구조적 기반최고

핵심 발견

의의

본 연구는 구조화된 데이터가 비즈니스 및 공공 분야에서 점점 더 중요해지는 시점에서, 한국어 표 이해 시스템 구축을 위한 실용적이고 구체적인 가이드라인을 제공합니다. 기여는 세 가지로 요약됩니다:

실무적 시사점: 한국어 표-텍스트 시스템을 구축하는 실무자에게 본 논문은 명확한 레시피를 제공합니다: 토큰 효율성과 구조적 명확성의 최적 균형을 위해 표를 Pandas DataFrame으로 직렬화하고, 목표 과제 미세 조정 전에 자동 생성된 합성 데이터로 HPOS/HROW/HCOL/CRCR 보조 과제 커리큘럼을 사전 학습하십시오.

본 논문은 HCLT 2024 최우수논문상을 수상하였으며 (학술대회 논문집 pp. 635–640 게재), 아직 충분히 탐구되지 않았지만 실용적으로 중요한 한국어 NLP 영역에 대한 기여를 인정받았습니다.

링크

Multilingual