인공지능(AI) 기반의 자동채점 및
피드백 시스템 구축을 위한 준비와 향후 과제

인공지능(AI) 기반의 자동채점 및
피드백 시스템 구축을 위한 준비와 향후 과제

• 글·박종임 KICE 연구위원

박종임
KICE 연구위원

작문교육을 전공, 현재 교육평가본부 한국어 자동채점 연구 팀장을 비롯하여 2022개정 국어과 교육과정, 학생 평가 및 학교생활기록부 관련 연구에 참여하고 있다. 특히 우리나라 작문교육을 개선하고 글쓰기 평가를 활성화하기 위한 측면에 관심을 갖고 관련 연구를 수행하고 있다.

이 원고는 한국교육과정평가원의 기본 연구 과제인 박종임 외(2022) ‘컴퓨터 기반 서·논술형 평가를 위한 자동채점 방안 설계 (Ⅰ)’ 연구의 일부를 요약 정리한 것임.

Ⅰ. 관련 현안 및 연구의 목적

오늘날 우리나라의 교육은 매우 다양한 변화의 필요성에 직면해 있다. 학생평가 방식에서도 과거 교과의 지식 및 개념을 암기하고 회상하는 것을 넘어서, 다양한 정보를 비교·분석·활용하여 문제를 해결하고, 이를 자신의 언어로 직접 구성하여 작성하거나 발표할 수 있는 서·논술형 평가로의 전환기를 준비하고 있다. 선택형 및 단답형 중심의 현행 평가 체제에 익숙한 학생들이 서·논술형 응답을 생성하는 능력을 기르기 위해서는 학습 과정에서 학생의 성취 수준에 대한 진단이 다양한 서·논술형 문항을통해 이루어지고, 서·논술형 응답을 즉각적으로 분석하고 채점하여 맞춤형 피드백이 제공되어야 한다. 그러나 교사가 직접 서·논술형 응답을 채점하고 피드백하는 것은 많은 시간과 노력이 필요하다.
또한 교육부는 2025년부터 인공지능 기반 디지털 교과서 플랫폼을 운영, 학생 개별 맞춤형 학습을 지원하고 인공지능 기술을 활용하여 수업과 평가를 혁신하고자 하는 정책을 추진하고 있다. 이러한 인공지능 기반의 맞춤형 학습 코스웨어를 구현하기 위해서는 학생이 작성한 응답에 대해 즉각적인 진단과 피드백을 제공하는 기술이 중요하다. 이 때문에 현재 사용되고 있는 맞춤형 학습 시스템들은 주로즉각적인 채점이 가능한 선택형·단답형 문항을 활용하여 학생의 성취 수준을 진단하고 있다. 그러나 학생 개별 맞춤형 학습을 제공하기 위한 방안이 오히려 학생평가 방식을 선택형, 단답형으로 제한할 수 있다는 우려가 있다. 이에 ‘디지털 기반 교육혁신’이라는 정책을 안정적으로 도입하면서도 서·논술형 평가를 활성화하기 위해서는 다문장으로 작성된 한국어 응답에 대한 인공지능 기반의 자동채점 및 피드백 기술이 필수적으로 요구된다.

Ⅱ. 인공지능 기반의 자동채점 및 피드백 시스템 개발을 위한 준비

1. 교육적 해석 및 피드백 연계 가능성을 고려한 자동채점 알고리듬 탐색
글쓰기 자동채점 시스템은 인간이 글을 채점하는 인지 과정을 그대로 모방하는 방식이 아니라, 인간 채점자의 채점 결과만을 모방하는 방식이라고 할 수 있다. 자동채점 시스템들은 채점자의 채점 결과를 모방하기 위해 다양한 접근 방법을 사용하고 있다. 공통적으로는 답안이나 글에 대하여 자연어처리(Natural Language Processing, NLP)를 통해 도출할 수 있는 다양한 특성을 추출하고, 이러한 특성과 채점 점수 간의 관련성을 나타내는 최적의 모델을 추정한 후, 이를 근거로 나머지 응답들을 기계적으로 채점하는 절차들을 포함하고 있다. 자동채점은 통계 기반의 회귀분석, 머신러닝, 인공지능 기반의 딥러닝에 이르기까지 다양하게 발전해 왔다. 기술만을 고려하면 자동채점에서 딥러닝 알고리듬을 적용하는 것이 당연해 보이나, 교육 목적의 자동채점 분야에서 딥러닝 알고리듬을 적용하기 위해서는 자동채점 결과에 대한 ‘해석 가능성’을 따져봐야 한다. 교육 목적으로 이루어지는 자동채점은 채점의 근거가 분명해야 하고, 채점 결과에 대한 해석이 가능해야 추후 피드백까지 연결이 가능하다.
그러나 딥러닝 자동채점은 채점 과정에서 블랙박스와 같은 은닉층(hidden layer)을 활용하기 때문에 응답의 어떠한 특성이 채점에 영향을 미쳤는지를 판단하는 것이 불가능하므로 자동채점 결과를 교육적으로 해석하고 피드백하는 것에 제한이 있다. 또한 전통적인 머신러닝 방법과 비교할 때 딥러닝 방법은 대규모의 인공지능 학습용 데이터가 필요하다. 따라서 대규모의 서·논술형 응답 데이터가 구축되어 있지 않은 현시점에서 무턱대고 딥러닝 기반의 자동채점 방법으로 접근하는 것은 한계가 있다.

2. 해석 가능한 인공지능 자동채점을 위한 채점자질(scoring feature) 탐색
앞서 서술하였듯이 딥러닝 기반의 자동채점은 채점 결과를 교육적으로 해석하고 피드백하는 것에 제한이 있고, 대규모의 학습용 데이터가 구축되지 않은 상황에서 적용하는 것이 어렵기 때문에 본원에서는 딥러닝보다는 전통적인 머신러닝 기반의 자동채점을 우선적으로 연구하고 있다.
인공지능 기반의 한국어 자동채점은 글에서 추출 가능한 채점자질을 활용하여 점수와 채점자질 간의 관계를 설명할 수 있는 채점 모델을 생성하고, 이를 바탕으로 새로운 글의 점수를 예측하는 방식이다. 이때 채점자질은 ‘비정형 데이터인 글에 대한 특징을 정형화하여 표현할 수 있는 변수’를 의미한다. 머신러닝 기반의 자동채점은 인간에 의해 사전(事前) 정의된 채점자질(scoring feature)을 활용하는 방법이고, 딥러닝 기반의 자동채점은 인간이 정해주는 채점자질없이 방대한 데이터에서 점수와 관련이 있는 특징을 기계가 직접 찾아서 활용하는 방법이다. 그런데 딥러닝 자동채점은 이 과정에서 기계가 활용한 채점자질이 무엇인지를 명확하게 출력하지 못한다는 제한점이 있는 것이다. 따라서 점수나 등급 예측에 활용된 변수가 무엇인지를 설명하고 이를 토대로 교육적 피드백을 제공하기 위해서는 인간에 의해정의된 채점자질을 사용해야 한다.
영어권 글쓰기 자동채점 시스템에서 사용하고 있는 채점자질들의 사례는 다음 <표 1>과 같다. 이들 시스템에서 사용된 채점자질로는 간단한 채점자질(단어 길이, 문장 길이 등)에서부터 좀 더 복잡한 채점자질(이독성, 문법 오류 등)에 이르기까지 다양하다.

이러한 채점자질은 사전에 설계되어야 하는데 채점자질을 설계한다는 것은 학생이 작성한 응답에서 기계가 초점을 두어야 할 특징이 무엇인지를 미리 설정해주는 과정이다. 따라서 채점자질을 설계하는 것은 각 교과나 문항별로, 응답에 나타나는 어떠한 특성에 의해서 점수를 예측할 수 있는가를 탐색하는 과정이고, 어떠한 채점자질을 선택하고 어떻게 활용할지를 설계하는 과정은 자동채점 모델 개발에 있어서 매우 중요한 과정이다.

Ⅲ. 인공지능 기반의 자동채점 및 피드백 기술이 가져올 교실 현장의 변화

본원에서 연구 중인 한국어 자동채점은 충분한 데이터가 구축되고 채점 모델이 정교화된 이후에는 대단위 평가에서도 활용이 가능하겠지만 단기적으로는 학생들의 맞춤형 학습 및 교사의 채점 지원 시스템으로 활용하는 것을 목표로 하고 있다.
교실 현장에서 학생들의 글쓰기를 반복적으로 학습시키기 위해서는 교사가 한 명 한 명의 글을 채점하고 피드백해야 하는 어려움이 있다. 이러한 상황에서 자동채점 및 피드백 기술은 다양한 이점이 있다. 학생 입장에서는 자신의 수준에 맞춰서 글쓰기를 반복적으로 연습하고 즉각적인 피드백을 받을 수 있으며 이를 토대로 자신이 쓴 글을 수정할 수 있는 기회를 더 많이 가질 수 있다. 교사 입장에서도 채점과 피드백에 들이는 업무량을 줄일 수 있고, 자동채점으로 생성된 정보를 활용하여 학생에게 보다 심층적인 피드백을 제공하는 데에 집중할 수 있다.

[그림 1] ETS e-rater 피드백 화면

출처: https://criterion.ets.org/Content/Student_Guide_To_Improving_Writing.pdf (2023.10.5. 검색)

예를 들어, [그림 1]은 미국의 대입 시험과 영어 시험을 주관하고 있는 ETS사의 e-rater 기술을 글쓰기 첨삭에 활용하는 Criterion이라는 시스템의 화면 일부이다. 글쓰기 첨삭을 위해서 ‘문법’, ‘언어 사용’, ‘구두법’, ‘문체’, ‘조직 및 내용 전개’ 등의 요소별로 첨삭 피드백을 제공한다. [그림 1]에서는 ‘구두법(mechanics)’ 범주 중에서 ‘축약형 기호(Apostrophe)’ 사용과 관련한 부분을 체크하면 해당 부분에 대해 오류를 표시해 준다. 또한 ‘문체’와 같은 요소에 대해서는 기계가 상당히 추상적인 피드백을 제공할 것으로 예상되나 Criterion에서는 ‘문장이 지나치게 짧은 경우’를 체크해 주고, 이 경우 이들 문장을 ‘접속사’를 활용하여 하나의 문장으로 통합할 것을 피드백하거나 ‘문장이 지나치게 긴 경우’에는 문장의 명료성을 위해 문장을 분할할 것을 제안하면서 상당히 구체적인 피드백을 제공하고 있다.
물론 현행의 자동채점 시스템들이 이러한 계량적 정보에만 치중해 있다는 비판을 받기는 하나, 이러한 계량적 정보는 기계가 인간보다 빠르고 정확하게 진단할 수 있는 영역이고, 계량적 정보 중심의 피드백을 기계가 먼저 제공해 주면 교사는 기계가 파악하기 어려운 내용 중심의 피드백에 집중할 수 있다. 이처럼 한국어 자동채점 및 피드백 기술이 개발되면 위에서 제시한 Criterion 시스템과 같이 교실 현장에서 글쓰기 학습이나 서·논술형 문항을 활용한 평가가 보다 활성화될 수 있을 것이다.

Ⅳ. 자동채점 및 피드백 기술 개발을 위한 향후 과제

자동채점 시스템은 기계가 처음부터 스스로 채점하는 방식이 아니다. 사람이 채점한 결과를 활용하여 기계가 학습하고, 그 학습 결과를 반영하여 ‘채점 알고리듬’과 같은 일종의 규칙을 만든 다음, 이에 근거해서 새로운 응답의 점수를 예측하는 방식이다. 그러므로 자동채점 기술을 개발하기 위해서는 기계가 알고리듬 구축 시 학습할 수 있는 인공지능 학습용 데이터가 먼저 구축되어야 한다. 학습용 데이터는 모든 인공지능 기술 개발의 핵심적인 자원이라고 할 수 있다. 이처럼 인공지능 학습용 데이터는 자동채점 알고리듬 개발의 시작점이 되므로 매우 정교하고 타당한 과정으로 구축되어야 한다.
학습용 데이터를 구축하는 과정에서는 몇 가지 고려할 점이 있다. 기계가 다양한 수준의 응답에 대해서 적절한 점수를 예측하기 위해서는 다양한 ‘수준’에 해당하는 응답 데이터가 구축되어야 한다. 만약 그렇지 않고 학습용 데이터 자체가 특정 점수대에 편중되어 있다면 나머지 점수대에 대해서는 예측 성능이 떨어지기 때문이다. 그러므로 학습용 데이터를 구축할 때는 실제 학생들로부터 데이터를 수집하는 것 외에도 특정 점수대의 글을 수집하기 위해서 별도의 계획을 수립할 필요가 있다. 이렇듯 추후 연구에서는 인공지능 학습용 데이터가 가져야 하는 최적의 특성이 무엇인지를 분석하여 본원만의 인공지능 학습용 데이터베이스를 구축하는 연구가 필요하다.
이 과정에서 교육부나 과학기술정보통신부 등의 유관 부처, 한국교육학술정보원, 한국지능정보사회진흥원과 같은 유관기관과의 협력 체제를 마련할 필요가 있다.
인공지능 학습용 데이터가 최대한 빠른 시일 내에 정교하게 구축된다면, 향후에는 자동채점 및 피드백 기술이 디지털 환경에서의 교실 현장을 변화시키는 원동력이 될 수 있으리라고 기대한다.