컴퓨터 기반 국가수준 학업성취도
평가도입을 위한 검사 설계 방안1)
● 글·서민희 KICE 부연구위원
서민희 부연구위원
KICE 교육평가본부
교육측정 및 평가를 전공했으며, 그 동안 2015 개정교육과정 적용에 따른 국가수준 학업성취도 평가결 과표 개선, 혁신학교 성과 분석, 고등학교 성취평가제 운영 모니터링 및 안착화 방안 연구를 수행하 였다. 현재 IEA 국제 비교 연구, KICE 교육지표 구성 방안 연구를 수행하고 있다.
1) 이 글은 서민희, 김미림, 김완수, 이소라, 한정아, 김성훈, 서영숙(2020). 컴퓨터 기반 국가수준 학업성취도 평가 도입을 위한 검사 설계 방안의 일부 내용을 요약·재구성하여 작성한 것임을 밝혀둔다.
2) 교육부. (2020.2.). 2020년 국가수준 학업성취도 평가 기본 계획. 교육부 교육기회보장과.
들어가는 말
세계 각국에서는 우수한 인적 자원 확보를 통한 국가경쟁력 강화에 주력하는 가운데 학교 교육의 질을 체계적으로 점검하고 관리하기 위한 국가 차원에서의 교육성과 측정 및 책무성 점검 시스템을 구축하여 운영하고 있다. 그 대표적인 사례로 국가수준 학업성취도 평가를 들 수 있는데 우리나라는 2002년을 기점으로 국가수준 학업성취도 평가를 체계적으로 시행해오고 있다.
최근 변화하는 교육환경을 반영하고 4차 산업혁명 및 지식정보시대를 대비하여 다수의 교육선진국 또는 국제 수준의 평가 기관에서는 학업성취도 평가를 시작한 초창기 평가체제에서 벗어나 혁신적인 방법으로 전환을 시도하거나 이미 전환하여 시행하고 있다. PISA나 TIMSS와 같은 국제 학업성취도 평가의 경우, 21세기 교육환경 변화를 예측하고 이에대처하고자 10여 년 전부터 컴퓨터 기반 평가에 관한 연구를 실시하였고, 노트북이나 태블릿과 같은 스마트 기기를 이용한 평가 체제를 구축하였다. 해외 국가수준 학업성취도 평가의 경우, 프랑스와 미국은 각각 2016년과 2017년에 디지털기반 평가로 전환하였고, 호주는 2018년부터 컴퓨터 적응형 검사로 시행해오고 있으며, 캐나다는 2019년부터 컴퓨터 기반 검사로 전환하였다.
우리나라 역시 국가수준 학업성취도 평가 개선 방안의 하나로 2022년부터 컴퓨터 기반 학업성취도 평가를 도입하는 계획을 발표2) 하였다. 국가수준 학업성취도 평가에 있어서 컴퓨터 기반 검사의 도입은 온라인 교육이 대중화된 사회·교육적 환경에서 온라인이나 컴퓨터 기반의 기술을 적용하여 학업성취도 평가의 질적 개선 및 체제 진화를 가져올 수 있을 뿐 아니라 학교교육활동의 많은 부분이 디지털화되어가는 시점에서 교수학습평가의 온라인 연계 측면에서도 매우 고무적인 결정이라 할 수 있다. 더욱이 2020년 들어서 전 세계적으로 유례 없는 코로나19 팬데믹을 경험하면서 학교교육은 온라인 학습과 원격교육에 대한 의존도가 매우 높아졌다. 이에 포스트 코로나 시대를 대비하여 장기적인 관점에서 컴퓨터 기반 학업성취도 평가 체제를 설계하는 것이 매우 중요하고 필수적인 시점이라 할 수 있다.
따라서 이 연구는 첫째, 단기적 관점에서 2022년 컴퓨터 기반 학업성취도 평가의 도입에 있어 타당하고 신뢰로운 결과를 산출하기 위한 검사 설계 방안과 둘째, 중·장기적 관점에서 컴퓨터 기반 학업성취도 평가의 발전된 형태로 적응형 검사를 도입하기 위한 가능성을 탐색하는 데 그 목적이 있다.
컴퓨터 기반 검사 유형
컴퓨터 기반 검사(Computer-Based Test; 이하 CBT)는 일반적으로 컴퓨터를 이용한 검사를 뜻하지만 구체적인 정의는 문맥에 따라 달라질 수 있다. 첫째, CBT는 지필 검사(Paper-Based Test; 이하 PBT)에 대응되는 의미로서, 컴퓨터를 활용하는 모든 검사를 포괄하는 의미로 사용될 수 있다. 둘째, CBT는 컴퓨터 기반 적응형 검사(Computerized Adaptive Testing; 이하 CAT)에 대응되는 의미로서 학생 능력에 따라 난이도 수준이 다른 문항이 제시되는 CAT와 달리 모든 학생에게 동일한 검사를 단지 컴퓨터를 사용하여 시행하는 검사를 지칭하기도 한다. 이 연구에서 의미하는 ‘컴퓨터 기반 검사’는 첫 번째의 경우로 사용되었으며, 이하에서 상세하게 기술될 컴퓨터 기반 선형 검사 (Computerized Linear Testing), CAT, 컴퓨터 기반 단계형 적응형 검사(MultiStage Testing; 이하 MST)를 모두 포함하는 포괄적 개념이라 할 수 있다.
CBT는 문항이 제시되는 순서 및 검사 구성의 유연성에 따라 크게 선형 검사와 적응형 검사(CAT)로 구분된다(Yan, Lewis, & von Davier, 2014). 선형 검사는 검사를 치르는 모든 학생들이 같은 순서대로 제시된 모든 문항을 푸는 것이고, 적응형 검사는 학생이 이전 단계에서 응답한 결과에 따라 학생의 능력 수준에 보다 가까운 수준의 난이도를 가진 문항을 선정하여 제시하는 형태이다. 선형 검사는 검사를 구성하는 시점에 따라 일반적 선형 검사와 즉석 구성형 선형 검사(Linear On the Fly Testing; 이하 LOFT)로 세분할 수 있다. 아래에서는 LOFT와 CAT, 그리고 CAT의 특수한 형태인 MST에 대한 자세한 설명이 제공된다.
[그림 1] 컴퓨터 기반 검사의 분류
컴퓨터 기반 학업성취도 평가 설계의 측정학적 쟁점
1) 검사지 유형 및 문항 수
컴퓨터 기반 대규모 평가 사례와 요구 분석 결과에 따라 일정한 기간을 두어 표집학교의 여건에 맞게 시행일을 선택하여 시행하는 방안을 고려할 수 있다. 일정한 기간에 학업성취도 평가가 시행된다면 문항 노출과 측정의 안정성을 반영하여 적절한 검사지 유형 및 문항 수가 산출되어야 한다. 이에 모의실험 연구를 통해 안정적인 점수 산출이 가능한 범위 내에서 검사 유형수를 증가 시킴으로써 유연한 시행 내에서의 문항 노출 최소화를 도모하는 한편, 평가의 타당도 제고를 위해 학업성취도평가가 측정하고 있는 성취기준 수를 확보할 수 있는 방안을 모색하였다. 모의실험 연구 결과, 한 유형 당 응시하는 피험자 수가 1,000명 이상이고 연도 간 동등화를 위한 가교문항 수가 8문항 이상일 경우 측정의 안정성이 담보되는 것으로 나타났다. 이러한 결과를 바탕으로컴퓨터 기반 검사 시스템 도입기를 위해서는 현행 4종에 1종을 추가한 5종의 검사 유형(총 40문항)을 사용하는 검사 구성(안)을 제안하였고, 컴퓨터 기반 검사 시스템 안정기를 위해서는 그간 축적된 문항을 활용한 검사 구성이 가능하다는 전제 하에 10종의 검사 유형(총 65문항)을 사용하는 검사 구성(안)을 제안하였다.
2) 문항 배점과 점수화 모형
컴퓨터 기반 검사의 도입으로 인해 기존 지필평가에서 다룰 수 없는 새로운 문항 유형들이 개발되면서 일부 유형들, 예를 들면 드래그앤드롭형이나 피험자가 과제를 수행하는 활동형 문항들은 다양한 배점이 고려되고 있다. 차등배점은 개별 문항 점수에 대한 정보를 피험자가 알 수 있어야 장점으로 작용하지만 현행 학업성취도 평가에서는 문항 당 배점을 공개하지 않는다. 또한 배점 그 자체로서 얼마나 검사 타당도를 높이는지에 대해서는 부정적인 결과를 드러낸 연구가 있다. 이에 선다형 문항의 균등배점과 차등배점이 측정의 신뢰도에 미치는 영향력을 검증하기 위한 모의실험을 수행한 결과, 차등배점보다 균등배점 상황에서 성취수준의 분류일치도가 높게 나타났다. 또한 국외 컴퓨터 기반 학업성취도 평가 사례에서 공통적으로 사용하고 있는 문항반응 이론을 적용하여 점수를 산출한다면 문항의 차등배점을 반영하지 않아도 균등배점 상황에서 문항의 고유 특성에 따라 가중치를 부여하기 때문에 배점에 대한 배점의 타당성에 대한 논란을 해소할 수 있다. 따라서 이 연구에서는 향후 컴퓨터 기반 검사 설계 시 문항반응이론을 적용할 것을 제안하였다.
3) 초기 점수 산출의 안정성
현행의 지필평가체제에서 학생용 평가결과표가 제공 되는 시기에 대한 불만이 많아 지속적으로 개선되어 왔지만, 여전히 평가 시행 후 2개월이라는 시간이 지나 평가 결과가 제공된다. 이 시기에는 이미 학생들이 평가에 대한 관심과 기억이 매우 낮아져 평가 결과에 대한 유용성이 낮다. 또한 컴퓨터 기반 검사를 도입함에 있어 학교 현장에서는 즉각적 결과 산출에 대한 요구가 높은 것으로 나타났다. 이에 컴퓨터 기반 검사 시행 시 가교문항과 자동채점이 가능한 문항들을 이용하여 즉각적 결과를 산출할 때 측정의 정확성 검증을 위한 모의실험을 수행하였다. 그 결과 6개 내외의 가교문항을 문항 정보함수를 활용하여 선정하고, 피험자 수는 검사 유형 당 1,000명이 확보될 때 즉각적 점수 산출이 가능하다고 볼 수 있으나 현 학업성취도 평가 문항난이도의 분포를 고려할 때 1수준과 2수준의 학생들을 변별하는 기능이 부족한 것으로 나타났다. 따라서 즉각적 점수 산출이 가능하기 위해서는 1수준과 2수준에 적합한 한문장 문항이 더 많이 확보되어야 함을 시사하였다.
컴퓨터 적응형 검사의 적용 가능성 탐색
학업성취도 평가에서 컴퓨터 기반 검사를 도입할 때 첫 단계에서는 선형 검사를 적용한 후 2~3년의 도입기를 거쳐 안정기로 접어들 때 적응형 검사 도입을 고려할 수 있다. 컴퓨터 적응형 검사는 학생의 능력 수준을 고려한 문항이 제시되기 때문에 측정학적 관점뿐만 아니라 학생의 수험에 대한 부담이 낮고 동기 유발과 성취에 대한 경험이 높아져 학생의 심리학적 관점에서도 매우 긍정적인 효과가 있다. 이를 위해 현재 적응형 검사로 시행하고 있는 대규모 평가의 설계를 분석하고 모의실험을 통하여 첫째, 선형 검사와 적응형 검사 간 측정의 정확성을 비교하였으며 둘째, 단계적 적응형 검사(MST)의 기본 설계라 할 수 있는 단계 구성 방안을 탐색하였다.
먼저 2단계 MST 설계를 적용하여 학업성취도 평가의 특성을 반영한 컴퓨터 적응형 검사를 구현했을 때, 동일한 검사 길이를 갖는 전통적인 선형 검사와 비교한 결과 적응형 검사에서 측정의 정확성이 더 높게 나타났다. 다음으로 2단계 MST 설계에서는 1단계에서 피험자의 능력 수준을 잘 파악하지 못했을 때 이후 단계에서 이를 회복할 수 없다는 한계를 고려하여 단계 수를 하나 더 추가한 3단계 MST 설계를 고안하였다. 각 단계의 구조가 몇 개의 수준으로 구분되는가에 따라 문항 개발 및 검사 구성에 대한 부담이 크게 영향을 미치기 때문에 3단계 MST 설계의 경우에는 2단계에서 2수준, 3단계에서 3수준인 1-2-3 설계와 2, 3단계가 모두 3수준인 1-3-3 설계를 비교하였다. 분석 결과, 측정의 정확성 측면에서는 2단계 및 3단계 MST 설계가 유사하게 기능하는 것으로 나타났다. 최종 단계에서 학생의 능력 수준에 적합한 난이도의 문항 배정 비율을 비교했을 때 1-2-3 MST 설계([그림 2] 참조)에서 정분류율이 제일 높게 나타났다. 일반적으로 소검사 수가 많을수록 측정의 정확성 및 분류의 정확성이 더 높을 것으로 예상할 수 있으나, 본 연구 결과를 통해 1-2-3 MST 설계와 같이 소검사 수가 적은 설계에서도 소검사의 난이도 분포조정을 통해 자신의 능력 수준에 맞는 소검사가 잘 할당되도록 검사를 구성할 수 있음을 살펴볼 수 있었다.
[그림 2] 단계별 소검사 수에 따른 3단계 MST 설계
나오는 말
이 연구에서는 학업성취도 평가의 현행 지필평가에서컴퓨터 기반 평가 체제로의 전환을 대비하여 2022년 도입될 컴퓨터 기반 학업성취도 평가의 측정학적 쟁점 사항 들을 검증하고 장기적 관점에서 컴퓨터 기반 적응형 검사를 도입하기 위하여 적응형 검사의 정확성과 효율성을 검증하였다. 이 연구에서는 컴퓨터 기반 평가 체제의 성공적인 도입과 안정적 시행의 기반을 마련하기 위하여 2022년 LOFT 체제의 학업성취도 평가 도입 및 이와 연계한 수시평가 시스템의 구축과 점진적 발전 방안으로 MST 도입을 제안하였다. 향후 5년 내 컴퓨터 기반 검사 체제가 안정적으로 구축되면 학업성취도 평가의 기출 문항들을 활용하여 학교 또는 학급 수준에서 개별 학생의 성취수준 진단이나 교수·학습의 일환으로 수시평가 체제를 구축할 수 있을 것이다.
국가수준 학업성취도 평가는 현재와 같이 표집평가로 학생들의 성취도 파악, 추이 분석, 교육과정 점검 및 개선을 위한 자료 제공 등 교육 책무성 점검과 데이터에 근거한 정책 수립과 중앙청의 지원 및 자원 배분 분야를 선정하기 위한 정보 수집을지속적으로 운영되어야 할 것이다. 반면, 수시평가는 학업성취도 평가의 질 높은 문항들을 활용하고 새로운 문항들을 지속적으로 개발하여 개별 학생의 능력수준을 반영한 난이도를 가진 적응형 검사 제공으로 학생들의 심리적 부담감 없이 자율적으로 성취수준을 확인할 수 있도록 제공할 수 있을 것이다. 나아가 다양한 교과에 대한 문항 확보가 가능하다면 새로운 학년 또는 학기에 진단평가로 활용 가능하고, 선택 과목에 있어서 학생들의 선수 역량에 대한 판단 자료로도 활용할 수 있을 것이다.