Development and Evaluation of a Dual-Expertise, Utterance-Level Framework for LLM-Based Science Classroom Discourse Analysis

한줄 요약

과학교육 교수진과 현직 중학교 과학교사가 공동으로 설계한 이중 전문성(dual-expertise) 발화 단위 LLM 코딩 프레임워크. 20개 주제 범주, 137개 수업 용어 글로서리로 운영화하며, 한국 중학교 실수업 68개 차시(8,651개 발화)로 검증하였다. 프롬프팅과 파인튜닝 패러다임을 모두 비교한 결과, 평정(rating) 과제에서 가중 F1 84.59%, 주제(theme) 과제에서 52.01%를 달성하였다.

배경 및 동기

기존의 자동 교실담화 분석 도구(CLASS, MQI, NCTE 등)는 차시 전체를 거시적으로 평가하기 위해 설계되어, 교사가 실제로 활용 가능한 형성적 피드백에 필요한 발화 단위 분석에는 부적합하다. 또 LLM 응용 연구도 수학과 영어과에 집중되어 있어, 본질적으로 학제적이며 한 교사가 자신의 전공이 아닌 영역까지 가르치는 일이 잦은 과학 수업 담화는 거의 다루어지지 않았다.

이러한 공백을 메우기 위해 두 가지 동기가 작동한다. 첫째, 7–15분 단위의 고정 분절보다 술어 단위(predicate-level) 발화가 LLM 입력에 더 적합하지만, 실제 K–12 과학 수업 담화의 모든 수업 차원을 포괄하는 LLM-친화적 코딩 체계는 아직 존재하지 않았다. 둘째, 전사 자료에서 도출되는 평정과 주제는 학문적 이론(과학교육 교수진)과 교실 현장성(경험 많은 교사) 모두를 충족할 때에야 교육학적으로 의미 있다.

연구 질문. (RQ1) 과학교육 영역 지식을 LLM 기반 코딩 프레임워크에 어떻게 체계적으로 통합할 수 있는가? (RQ2) 실제 과학 교실 데이터에서 도출된 평정·주제 범주 예측에서 LLM 아키텍처와 설정들은 어떻게 비교되는가?

데이터셋

한국의 중학교 과학교사 12명(여 9명, 남 3명)이 2024년 2학기에 녹화한 68개 수업 차시로 구성된다. 각 교사는 본인의 전공과 비전공 과학 영역에서 약 45분 길이의 강의식 수업을 최소 3차시 이상 녹화하였다.

과목	차시 수	코딩된 발화 수	평균 평정 (SD)
물리	15 (22.1%)	2,001	3.025 (0.263)
화학	15 (22.1%)	2,636	2.989 (0.408)
생명과학	21 (30.9%)	1,500	3.130 (0.363)
지구과학	17 (25.0%)	2,514	3.144 (0.444)
전체	68	고유 발화 8,651개	—

한 발화가 여러 주제에 걸치는 경우(이중 769개, 삼중 8개)를 분리하면 분석용 데이터셋은 9,436개의 주제–발화 인스턴스이며, 주제와 평정으로 동시 층화하여 8:1:1로 7,549 / 943 / 944 (학습/검증/평가)로 분할한다. 차시의 45.59%는 교사 본인의 전공 과목, 54.41%는 비전공 과목으로, 한국 중학교 과학 수업의 학제적 현실을 반영한다.

이중 전문성 코딩 프레임워크

1

술어 단위 청킹(Predicate-Level Chunking)

문장 단위와 단락 단위를 비교한 끝에, 분석 단위로 술어 단위 청킹을 채택하였다. 이는 LLM 모델링에 가장 적합한 세분성을 제공하면서 교사 발화의 분포적 변동성(긴 발화 vs. 단어 수준 발화)과 STT 분절 잡음을 함께 흡수한다. 청킹 자체는 과학교육 교수진이 직접 수행하고, 코딩은 코더가 책임진다.

2

137개 용어 글로서리, 20개 주제 범주

초기 수집된 678개 용어를 4명의 과학교육 교수와 1명의 교육평가 교수가 다단계로 정련하여 최종적으로 137개 수업 용어로 통합하였다. 주제 1: 교수 실천(Teaching Practices)은 17개 범주, 123개 용어(예: 과학 지식의 잠정성, 과학기술 발전 설명 등). 주제 2: 학급 운영(Classroom Management)은 3개 범주, 14개 용어(예: 과제 제시, 교과서 읽기, 차시 마무리). 글로서리 개발은 과학교육 분야의 RTOP, ISIOP 관찰 프로토콜의 영향을 받았다.

3

1–5점 품질 평정

각 청킹된 발화에 1–5점을 부여한다(1: 오개념을 유발하는 심각한 내용·운영 오류, 2: 경미한 오류, 3: 보통, 4: 효과적, 5: 모범적). 한국 교실의 높은 기본 실천 수준을 반영해 전체의 86.7%가 3점이며 1, 5점은 각각 0.5% 미만 — 모델링 측면에서는 의미 있는 클래스 불균형이 발생한다.

4

이중 전문성 코딩 절차

각 과목 팀은 과학교육 교수 1명과 경험 많은 교사 코더 2명으로 구성된다. 교수가 전사 자료를 분절하고, 두 코더가 최신 글로서리를 참조해 독립적으로 평정·코딩한 뒤 합치 회의를 통해 조정한다. 총 코더 8명(교수 경력 6–22년)과 과학교육 교수 4명이 참여하였다. 합의가 어려울 때 교수의 한 표는 코더의 표와 동등한 가중치를 가지며, 이는 교사들의 현장 전문성이 정당하게 반영되도록 한다.

5

평정자 일치도

1–5 평정의 가중 정확도·정밀도·재현율·F1은 모든 과목에서 0.9 이상이었다. 20개 주제 범주에서는 생명과학이 가장 낮은 0.709–0.713, 물리가 0.808–0.973, 화학과 지구과학은 0.90을 상회하였다. 기존 NCTE 연구의 일반적 범위(κ ≈ 0.3–0.4 ~ ICC ≈ 0.8–0.9)와 비교해 매우 높은 일치도이다.

LLM 방법론

두 가지 과제가 평가된다: 평정 예측(1–5점 순서형)과 주제 예측(20개 범주 분류).

프롬프팅(GPT-5-mini). 다섯 가지 전략 비교: 기본(Default), (a) 맥락 증강(평정용 5턴, 주제용 10턴 선행 발화), (b) 시연 선택(Qwen3-Embedding-8B 기반 검색 증강 few-shot; 평정 K=7, 주제 K=12), (c) Chain-of-Thought, (d) 하위범주 프롬프팅(주제별 정의 + 하위 라벨 제공) 및 그 조합.
인코더 파인튜닝. klue/roberta-large 위에 [CLS] 표상에 대한 2층 MLP 헤드를 얹고 종단(end-to-end) 파인튜닝(AdamW, lr=2e−5, batch=256, 최대 30 epochs). 손실 함수는 KL 발산이며, 평정에는 순서형 평활화(정답 ±1로 질량 분산), 주제에는 라벨 평활화 일핫(label-smoothed one-hot)을 사용한다.
디코더 파인튜닝. google/gemma-3-12b-it를 모든 매개변수 풀파인튜닝(최대 6 epochs, batch=8–16, lr∈{1e−5, 1e−6, 1e−7}). 클래스 불균형 대응 4종 비교: cross-entropy, weighted CE, focal loss, 다수 클래스를 평정 500 / 주제 700개로 줄이는 undersampling.
양방향 디코더. 인코더로 변환된 디코더 gte-Qwen2-7B-instruct를 동일한 4종 손실 설정으로 학습(batch=128, weight decay=0.01, 최대 30 epochs).
하드웨어. NVIDIA H200 GPU 2장(각 141GB VRAM).

결과: 평정 예측

1–5점 순서형 평정 과제에서는 파인튜닝이 프롬프팅을 명확히 앞선다. 양방향 디코더에 cross-entropy를 사용한 모델이 가중 F1에서 최고치를, 인코더(KL)는 정확도에서 최고치를 기록하였다.

패러다임	방법	정확도(%)	가중 정밀도	가중 재현율	가중 F1
프롬프팅	Default	60.06	81.36	60.06	68.34
프롬프팅	시연 선택 (b)	69.28	81.98	69.28	74.54
프롬프팅	Chain-of-Thought (c)	64.62	83.75	64.62	71.15
프롬프팅	a + b + c	47.78	84.20	47.78	57.49
파인튜닝	Encoder (KL-div)	88.24	77.95	88.24	82.78
파인튜닝	Decoder (CE)	88.12	77.83	88.12	82.66
파인튜닝	Bidirectional Decoder (CE)	87.92	83.50	87.92	84.59

시연 선택이 단일 프롬프팅 기법 중 가장 효과적이다. 의미적으로 유사한 few-shot 예시 노출만으로 평정 정확도가 60.06% → 69.28%로 상승한다 — CoT나 단순 맥락 추가보다 효과가 크다.
맥락만 단순 추가하면 오히려 해롭다. 가공되지 않은 선행 발화(맥락 증강 단독)는 정확도를 36.86%까지 떨어뜨려, 의미 안내 없는 대화 이력은 신호보다 잡음으로 작동함을 시사한다.
여기서는 Cross-entropy가 불균형 대응 손실보다 낫다. 가중 CE, focal, undersampling 모두 디코더와 양방향 디코더에서 plain CE에 미치지 못하는데, 이는 다수 클래스인 평정 3점이 한국 교실의 실제 수업 품질 분포를 진정으로 반영하기 때문이다.

결과: 주제 예측

20개 전문가 정의 범주에 걸친 주제 예측은 더 어렵고, 프롬프팅과 파인튜닝의 격차가 좁혀진다. 최적 프롬프팅 구성(a + b + c + d)은 가중 F1 52.01%로 최고 파인튜닝 모델과 사실상 비등하다.

패러다임	방법	정확도(%)	가중 정밀도	가중 재현율	가중 F1
프롬프팅	Default	27.22	33.42	27.22	28.92
프롬프팅	Chain-of-Thought (c)	47.99	50.64	47.99	48.00
프롬프팅	a + b + c + d	52.22	54.65	52.22	52.01
파인튜닝	Encoder (KL-div)	53.18	51.58	53.18	51.63
파인튜닝	Decoder (Undersampling)	49.79	55.66	49.79	50.37
파인튜닝	Bidirectional Decoder (Weighted CE)	53.92	52.47	53.92	51.93

프롬프팅 전략은 누적적으로 효과적이다(a + b + c + d > b + c + d > b + d > CoT 단독). 평정 예측에서 단순 결합이 오히려 해로웠던 양상과 달리, 주제 예측에서는 모든 전략이 보완적으로 작동한다.
하위범주 프롬프팅이 효과적이다. 각 주제의 하위 라벨을 함께 제시하면 20-way 분류의 결정 경계가 더 선명해진다.
최적 프롬프팅된 GPT-5-mini가 파인튜닝 모델과 가중 F1에서 동등하다(52.01% vs. 인코더 51.63%, 양방향 디코더 51.93%). 다만 파인튜닝이 전반적으로 더 안정적이며 특히 소수 주제에서 강점을 가진다.
다섯 개 범주 — 문제 식별, 결론 도출, 미디어 활용, 수업 전략, 학생 의사소통 — 가 각각 전체 입력의 1% 미만이며, 추가적인 교사 주석이 가장 가치 있는 영역을 가리킨다.

의의

본 연구는 과학 교실 담화를 위해 처음으로 설계된 발화 단위 LLM 코딩 프레임워크를 제시한다. 검증된 관찰 프로토콜(RTOP, ISIOP)에 이론적으로 정박하면서도, LLM이 가장 잘 다루는 술어 단위 입력에 정합한다. 방법론적으로는, 이론적으로 잘 다듬어진 글로서리가 뒷받침될 때 LLM이 세분화된 전문가 정의 수업 범주와도 유의미하게 상호작용할 수 있음을 보였다. 또한 과학교육 교수진과 경험 많은 교사를 모델 설계 단계에서부터 통합한 이중 전문성 접근이 해석 가능성과 교육학적 적합성을 동시에 강화함을 입증하였다.

도메인 커버리지: 중학교 과학 4개 영역(물리·화학·생명·지구) 전부를 단일한 20범주, 137용어 체계로 다룬 최초의 프레임워크.
순서형 평정에서는 파인튜닝이 우위(Bidirectional Decoder CE: 가중 F1 84.59%)이지만, 주제 예측에서는 잘 설계된 프롬프팅이 파인튜닝과 동급(52.01% vs. 51.93%)으로, 라벨 자원이 제한된 환경에서 실용적 대안을 제공한다.
교사 전문성 개발을 위한 형성적 피드백: 발화 단위 초점은 RTOP/ISIOP가 수업 행위를 운영화하는 방식과 일치하며, 교사 자기 성찰을 위한 실행 가능하고 이론적으로 근거 있는 피드백을 가능케 한다.
공개 자원: 137개 용어 글로서리는 요청 시 제공되며, 다른 언어와 교육 시스템에서의 재현·검증을 지원한다.

링크

ACM DL DOI