4가지 표 직렬화 형식을 비교하고 4가지 합성 보조 과제를 설계하여, Pandas DataFrame 전처리가 한국어 표 셀 설명 생성에서 기준 대비 19.6% 성능 향상과 토큰 비용 절감을 동시에 달성함을 보인 연구.
표는 구조화된 데이터를 정리하는 가장 보편적인 형식 중 하나이지만, 특정 표 셀에 대한 자연어 설명을 자동으로 생성하는 것은 언어 모델에게 여전히 어려운 과제입니다 — 특히 자원과 벤치마크가 부족한 한국어에서는 더욱 그렇습니다. 표와 대상 셀이 주어졌을 때, 해당 셀 값이 행, 열, 그리고 표 전체 맥락에서 무엇을 의미하는지 유창한 한국어 문장으로 설명하는 것이 목표입니다.
핵심 과제:
본 논문은 이러한 과제들을 해결하기 위해 직렬화 형식의 통제된 비교와 합성 데이터 기반의 목표 지향적 보조 학습 과제를 제안하여, 처음부터 표 이해 능력을 체계적으로 구축합니다.
본 연구의 접근법은 두 가지 핵심 구성요소로 이루어집니다: (1) 최적의 표-텍스트 직렬화 형식 탐색, (2) 표 구조 이해를 점진적으로 학습시키는 합성 데이터 기반 보조 과제 설계.
전체 파이프라인: 학습 절차는 2단계 커리큘럼을 따릅니다. 먼저, 합성 보조 과제로 모델을 학습시켜 기초적인 표 이해 능력을 구축합니다(구조적 기반 학습). 이후, 사전 학습된 모델을 표 셀 설명 생성이라는 최종 과제에 맞춰 미세 조정합니다. 이러한 커리큘럼 접근법은 모델이 복잡한 생성 목표를 시도하기 전에 구조적 이해를 먼저 습득하도록 보장합니다.
표를 언어 모델이 처리할 수 있는 텍스트 문자열로 변환하는 4가지 형식을 비교합니다:
| 형식 | 특징 | 인코딩 예시 | 토큰 효율성 |
|---|---|---|---|
| Markdown | 파이프(|)로 구분된 열과 헤더 구분선 | | Col1 | Col2 |\n|---|---|\n| val | val | | 보통 |
| HTML | <table>/<tr>/<td> 마크업으로 구조 보존 | <table><tr><td>val</td>...</tr></table> | 낮음 (장황한 태그) |
| Pandas DataFrame | 인덱스 기반 행/열 표현과 정렬된 간격 | Col1 Col2\n0 val val | 높음 |
| JSON | 행 단위 중첩된 키-값 쌍 | [{"Col1":"val","Col2":"val"}] | 보통 |
DataFrame 형식의 핵심적인 장점은, 공백 정렬 레이아웃이 열 정렬을 자연스럽게 보존하여, 명시적인 구조 마크업 없이도 모델이 셀 값을 해당 헤더와 쉽게 연결할 수 있다는 점입니다.
특정 표 이해 능력을 구축하기 위해 4가지 보조 과제를 설계하며, 각각 자동 생성된 합성 데이터셋으로 뒷받침됩니다. 이 과제들은 국소적인 셀 수준 이해에서 전체 표 수준 이해로 점진적으로 확장되는 커리큘럼을 형성합니다:
합성 데이터 생성: 모든 보조 과제 데이터셋은 기존 표로부터 자동으로 구축되며, 수동 주석 작업이 필요 없습니다. 각 표에 대해 대상 셀(HPOS), 행 인덱스(HROW), 열 헤더(HCOL), 원본/대상 형식 쌍(CRCR)을 변경하여 다수의 학습 인스턴스를 생성합니다. 이를 통해 새로운 도메인과 언어로의 확장이 용이합니다.
실험은 직렬화 형식 선택과 보조 과제 학습이 한국어 표 셀 설명 생성이라는 하류 과제에 미치는 기여를 분리하여 측정하도록 설계되었습니다.
| 구성요소 | 세부사항 |
|---|---|
| 목표 과제 | 한국어 표 셀 설명 생성 — 강조된 셀을 맥락에 맞게 유창한 한국어 문장으로 설명 |
| 직렬화 형식 | Markdown (기준), HTML, Pandas DataFrame, JSON |
| 보조 과제 | HPOS (셀 위치), HROW (행 정보), HCOL (열 정보), CRCR (형식 변환) |
| 학습 전략 | 2단계 커리큘럼: 보조 과제 사전 학습 후 목표 과제 미세 조정 |
| 평가 | 형식별, 보조 과제 조합별 설명 품질 비교 |
실험은 직렬화 형식 선택과 보조 과제 학습이 한국어 표 셀 설명 생성 품질에 미치는 영향을 평가합니다.
| 형식 | 상대 성능 | 토큰 수 | 구조적 명확성 |
|---|---|---|---|
| Baseline (Markdown) | 기준 | 높음 | 보통 — 파이프 구분자에 의존 |
| HTML | 기준 이하 | 최다 | 높은 마크업 오버헤드가 내용을 가림 |
| JSON | 기준 이상 | 보통 | 명시적 키-값 쌍이 헤더 연결을 보조 |
| Pandas DataFrame | +19.6% 향상 | 최소 | 자연스러운 정렬이 열 구조를 보존 |
| 보조 과제 조합 | 습득되는 핵심 능력 | 기여 수준 |
|---|---|---|
| HPOS 단독 | 셀-좌표 매핑 | 높음 |
| HCOL 단독 | 열 헤더-값 연결 | 높음 |
| HROW 단독 | 행 수준 맥락 추출 | 보통 |
| CRCR 단독 | 전체적 구조 이해 | 보통 |
| 4가지 모두 결합 | 완전한 구조적 기반 | 최고 |
본 연구는 구조화된 데이터가 비즈니스 및 공공 분야에서 점점 더 중요해지는 시점에서, 한국어 표 이해 시스템 구축을 위한 실용적이고 구체적인 가이드라인을 제공합니다. 기여는 세 가지로 요약됩니다:
실무적 시사점: 한국어 표-텍스트 시스템을 구축하는 실무자에게 본 논문은 명확한 레시피를 제공합니다: 토큰 효율성과 구조적 명확성의 최적 균형을 위해 표를 Pandas DataFrame으로 직렬화하고, 목표 과제 미세 조정 전에 자동 생성된 합성 데이터로 HPOS/HROW/HCOL/CRCR 보조 과제 커리큘럼을 사전 학습하십시오.
본 논문은 HCLT 2024 최우수논문상을 수상하였으며 (학술대회 논문집 pp. 635–640 게재), 아직 충분히 탐구되지 않았지만 실용적으로 중요한 한국어 NLP 영역에 대한 기여를 인정받았습니다.