KICE 이독성 지수
자동측정 프로그램 개발

KICE 이독성 지수
자동측정
프로그램 개발

• 글·박태준 KICE 연구위원

박태준
KICE 연구위원

영어교육(영어평가)을 전공 하였고 국가수준 교과교육과정 및 교육평가 연구를 수행하였으며 최근에는 교육용 텍스트의 이독성 수준을 자동으로 측정하는 프로그램 개발 관련 연구 등을 수행하고 있다.

본 원고는 ‘박태준, 박은아, 류수경, 한정아, 최소영, 변태진 (2022). KICE 이독성 지수 자동측정 프로그램 개발연구. 한국교육과정평가원 연구보고 RRC 2022-9’를 재구성한 것임.

들어가는 말 

교육용 텍스트의 수준을 나타내는 다양한 개념 중에서 ‘이독성’은 글을 읽고 이해하기 쉬운 정도를 의미하며, 텍스트의 ‘난도’ 혹은 ‘복잡성’과 같은 개념과 유사한 의미로 사용된다. ‘이독성 지수’란 텍스트의 이독성을 적정 학년 수준 등으로 수치화한 값을 의미한다. 텍스트의 읽고 이해하기 쉬운 정도를 이독성 지수로 표현하면 교육용 텍스트를 수준별로 등급화 할 수 있기 때문에 교육 현장에서 교수·학습의 목적과 수준에 적합한 교육용 텍스트를 선별하기가 용이해진다. 따라서 좀 더 효율적이고 생산적인 교육이 가능해질 것으로 기대한다. 교육용 텍스트에 대한 이독성 지수 개발, 나아가 이독성 지수 측정을 자동화하는 프로그램 개발은 다음과 같은 점에서 필요하다.
첫째, 교육용 텍스트 수준과 학생의 읽기 수준의 간극 해소를 통한 맞춤형 교육을 지원하기 위해서 필요하다. 학습자의 읽기 수준에 적합한 텍스트를 제공하여 맞춤형 교육을 지원함으로써, 기초학력 보장 지원뿐 아니라 평상시 교과 교육에서의 학습 결손을 폭넓게 예방하여 전반적인 교육의 질 향상을 도모하는 데 기여할 수 있다.
둘째, 교육 현장에서의 실용적 요구에 주목하여, 맞춤형 교육을 위한 교육과정 및 교과용 도서 개발을 위한 참조 지표를 제공하기 위해서 필요하다. 학생의 읽기 수준 차이를 고려하며 맞춤형 교육을 지향하는 교과용 도서의 개발, 단위학교 교수·학습 및 평가 자료 개발 등의 과정에서 교육용 텍스트의 이독성 수준에 대한 정보가 요구된다.
셋째, 이독성 측정 도구에 대한 접근성 및 활용 편이성 제고를 위해서는 자동측정 프로그램이 필요하다. 이독성 측정이 교육 현장에서 실질적으로 널리 활용되기 위해서는 이독성을 산출하기 위한 공식의 개발에만 머물러서는 안 되며, 이독성 측정 과정을 자동화한 프로그램의 개발이 필수적으로 요구된다. 이에 한국교육과정평가원에서는 초등학교부터 고등학교급 수준에 해당하는 교육용 텍스트의 이독성을 자동으로 측정하는 프로그램을 총 3개년에 걸쳐 개발하기 위한 연구를 수행하였다. 아래에서 1차 연도 연구의 결과를 요약적으로 제시하고자 한다.

교육용 텍스트 데이터베이스 구축 

이독성 측정 대상으로써의 교육용 텍스트를 충분히 확보하고 대표성을 가지도록 선별하는 것과 텍스트에 대한 메타정보를 구축하는 것은 KICE 이독성 지수 측정을 위한 가장 기초적이며 근본적인 자료를 마련하는 과정이라는 점에서 매우 중요하다. 특히 교육용 텍스트 데이터베이스는 연구 목적으로든 상업적 목적으로든 공개되어 있는 자료가 없다는 현실을 고려할 때, 본 연구에서 구축하는 교육용 텍스트 데이터베이스는 이독성 자동측정 프로그램 개발을 위한 주요한 토대가 된다. 따라서 본 연구는 교육용 텍스트 데이터베이스 구축을 위한 조건과 자동측정 프로그램의 설계를 위해 요구되는 텍스트의 규모를 파악하여 교과 텍스트(국어과, 사회과, 과학과)를 적절히 선별하고 텍스트 데이터베이스에 포함되는 메타정보를 설정하였다. 텍스트 데이터베이스 구축은 [그림 1]과 같은 절차에 의해 진행되었다. 초ㆍ중학교 국어과, 사회과, 과학과 교사 총 35명으로 구성된 워킹그룹이 해당 학교급 및 교과의 교과서 원문을 수집하여 텍스트를 선정하고 메타정보를 구성하여 텍스트 데이터베이스를 구축하였다.

[그림 1] 텍스트 데이터베이스 구축 절차

또한 텍스트 데이터베이스에 포함되는 텍스트의 이독성 수준을 설정하기 위해 교과 교육 전문가(교사) 평정 및 학생 대상의 평가를 실시하였다. 즉, 교과 교육 전문가인 교사들이 이독성 평가 준거표를 활용하여 각 텍스트의 적정 이독성 수준을 질적으로 평정하고, 이와 같은 교사의 평정 결과가 학생 입장에서 체감하는 텍스트의 이독성 수준을 적절하게 반영하고 있는지 검증하기 위해 각 학교급의 대표 학년 학생이 응시한 이독성 검사 결과를 비교 분석하였다. 아래 [그림 2]는 본 연구에서 수집된 교육용 텍스트의 주제 분야별 분포를 보여준다.

[그림 2] 국어·사회·과학과 텍스트 주제 분야 분포

어휘 등급화 데이터베이스 구축 

이독성 지수 산출 시 충분한 규모의 어휘를 수준별로 적절하게 등급화하는 것은 이독성 지수의 정확도 향상에 중요한 역할을 한다. 그러나 등급별 어휘 목록의 구축은 개별 어휘 각각을 양적·질적 양면에서 검토해야 하는 수고로움으로 인해 축적된 연구가 많지 않은 편이다. 특히 외국어로써의 한국어 교육과 같이 유창성 향상을 위한 학습 목표와 어휘 난도의 위계가 비교적 명료한 학문 분야를 제외하고, 모어 화자를 상정하고 연구된 어휘 목록은 그 수가 더욱 적다. 이에 본 연구는 KICE 이독성 지수 측정의 정확도를 높이기 위해 범교과적 교육용 어휘 등급화 데이터베이스를 새롭게 구축하였다. 1차 연도 연구에서는 기존에 개발되어 있는 여러 다양한 어휘 목록 중 초등학교급·중학교급 수준의 어휘를 충분히 수집하고 언어정보학 전문 연구기관과의 협업을 통해 대규모 말뭉치로부터의 정량적 및 정성적 세부 정보를 구축하였다. 이로써 향후 사용자가 이독성 수준을 측정하고자 하는 텍스트를 본 연구에서 개발될 이독성 자동측정 프로그램에 입력하여 측정을 실행하고자 할 때 측정 불가한 어휘가 최소화되도록 하였다. 또한 본 연구에서 구축한 어휘 등급화 데이터베이스의 등급별 분포가 타당한지를 검증하기 위해 기존의 다른 대규모 말뭉치에서 추출한 어휘와의 위계 상관분석을 실시하였다.

KICE 이독성 지수 자동측정 프로그램 설계 방향 설정

1차 연도 연구에서는 이독성 지수 자동측정 프로그램의 설계 방향을 설정하고 향후 개발 방안을 탐색하였다. 이독성 지수 자동측정 프로그램 개발을 위한 첫 번째 절차는 텍스트의 이독성 수준을 예측하기 위해 사용할 언어 요인들(linguistic features)을 결정하는 것이다. 텍스트의 이독성 수준을 예측하기 위해 사용될 언어 요인이 결정되면 이독성 자동측정 프로그램 개발을 위한 목적으로 구축된 교육용 텍스트 데이터베이스에 저장된 학습 데이터로부터 텍스트 전처리, 언어 분석을 통해 언어 요인을 추출하는 과정을 거친다. 이때 ‘학습 데이터’란 전문가에 의해 이독성 수준(적정 학년)이 사전에 부여된 텍스트를 의미한다. 학습 데이터가 준비되면 자동측정 프로그램에서 사용할 이독성 산출 모델을 선정한 뒤 컴퓨터가 이 모델을 학습하는 단계로 들어간다. 마지막으로 개발된 이독성 자동측정 프로그램의 성능을 평가하고 결과를 분석하는 단계로 프로그램 개발이 진행된다. 이독성 자동측정 프로그램 개발을 위한 절차를 시각화하면 아래의 [그림 3]과 같다.

[그림 3] 이독성 자동측정 프로그램 개발 절차

본 연구에서는 이독성 자동측정 프로그램에 대한 접근성과 활용 편이성을 높이기 위해 웹 기반의 텍스트 분석 시스템을 구축하는 것으로 프로그램 설계 방향을 설정하였다, 아래의 [그림 4]는 본 연구에서 개발될 이독성 자동측정 프로그램의 전체 개요도이다.

[그림 4] 이독성 자동측정 프로그램 개요

위의 [그림 4]에 제시된 이독성 자동 측정 프로그램의 전체적인 처리 흐름은 다음과 같다.
첫째, 사용자는 웹페이지 형태로 제공되는 텍스트 분석 시스템의 인터페이스를 통해 텍스트를 입력한다.
둘째, 텍스트 분석 시스템은 입력 텍스트의 언어 요인을 추출한다.
셋째, 추출된 언어 요인에 근거하여 이독성 자동측정 프로그램이 이독성 지수를 측정한다.
넷째, 추출된 언어 요인과 예측된 이독성 지수를 웹페이지의 인터페이스를 통해 사용자에게 제공한다. 사용자가 분석을 요청한 텍스트와 분석 결과는 내부 데이터베이스에 저장된다.
이처럼 사용자는 인터페이스를 통해 텍스트를 입력하고 예측된 이독성 점수를 확인할 수 있으며, 텍스트로부터 추출된 언어 요인과 해당 값, 그리고 텍스트에 사용된 단어들의 어휘 등급을 살펴볼 수 있다. 인터페이스는 이독성 지수에 따른 언어 요인의 분포와 언어 요인에 따른 이독성 지수의 분포도 제공하고 있어, 이독성 지수와 언어 요인 간의 상관관계를 쉽게 파악할 수 있다.

맺음말

본 연구는 초등학교부터 고등학교에 재학 중인 학생들의 읽기 능력 수준에 따라 교수학습용 텍스트를 수준별로 제공하는 맞춤형 학습을 지원하기 위해 교육용 텍스트의 이독성 측정을 자동화하는 프로그램을 개발하는 연구로 진행되었다. 본 프로그램을 통해 학생들의 수준에 맞는 적절한 읽기 텍스트를 제공함으로써 학생들에게 흥미와 동기를 부여하고 읽기라는 활동 자체가 즐거움이 될 수 있기를 희망한다.

참고문헌
박태준, 박은아, 류수경, 한정아, 최소영, 변태진 (2022). KICE 이독성 지수 자동측정 프로그램 설계 및 개발 연구(I). 한국교육과정평가원 연구보고 RRC 2022-9