교육 데이터 개방 및 활용 활성화 방안 1)

● 글·최인봉 KICE 연구위원

최인봉 연구위원
KICE 교육평가본부

국가수준 학업성취도 평가 연구, 학업성취도 평가 정보 서비스 시스템 구축 및 운영, 교육 빅데이터 구축 및 활용 방안 연구 등을 수행해 왔다. 현재는 국가수준 학업성취도 평가 결과를 활용한 교과별 학업성취 유형 분석 및 맞춤형 피드백 제공 방안 연구를 수행하고 있다.

1) 본 원고는 최인봉 외(2021)의 일부 내용을 재구성하여 작성한 것임.

들어가는 말

최근에는 데이터가 폭발적으로 증가하는 ‘데이터 과잉’ 시대가 되면서 빅데이터를 넘어 ‘딥(deep) 데이터’의 수집과 활용에 대한 관심도 높아지고 있는 추세이다. 이는 쉽게 수집할 수 있거나 오류나 허위 정보가 섞인 빅데이터보다 양적으로는 많지 않지만 구체적인 정보가 담기고 정확성까지 담보된 정형화된 데이터, 다시 말해서 수집하는 데이터의 양보다 질을 강조하는 동향으로 볼 수 있다. 따라서 다양하고 복잡한 교육 문제에 대한 올바른 해석과 의사결정을 위해서는 양질의 데이터 확보가 담보되어야 한다.
그러나 교육 데이터는 민감한 개인정보가 많고 이를 활용하기 위한 법적인 제약이 따를 뿐만 아니라 정보 공개로 인한 사회적 영향력이 큰 교육 데이터의 특성을 고려한다면 데이터 공개와 활용은 소극적일 수밖에 없다. 본고에서는 교육 데이터의 활용 조사를 통해 데이터 활용에 장애가 되는 요인을 진단하고 이를 활성화하기 위한 방안을 알아보고자 한다.

교육 데이터 개방 현황

각 교육 유관기관에서는 기관 설립 목적에 부합하면서 정부 및 지자체의 교육 정책 수립을 위한 기초 자료를 제공하기 위하여 교육과 관련한 다양한 데이터를 수집·분석하고 있으나 기관 내에서 생성한 자료로만 분석하는 것은 한계가 있다.
그러나 교육 유관기관에서 수합·보유하고 있는 다양한 데이터를 서로 연계하여 분석할 수 있다면 지금까지 접근할 수 없었던 많은 분석을 통해 의미 있는 정책적 시사점을 도출할 수 있을 것이다. 교육 유관기관에서 수집·보유하고 있는 데이터는 다음과 같다.

<표 1> 교육 유관기관 보유 데이터 현황

이외에도 서울, 부산, 대구, 경기, 전남, 전북 교육청에서는 초·중·고 학생들의 지적·정의적·신체적 성장 및 발달과 관련된 종단 데이터를 수집하고 있다. <표 1>을 살펴보면, 학생 및 학교 식별정보를 공개하지 않거나 공개하더라도 개별 학생을 식별할 수 있는 공통키를 포함하고 있지 않아 개인 및 학교 수준에서의 기관 간 데이터 연계 분석에 제한이 있는 것을 알 수 있다. 또한 학교, 학급, 이름 정보를 활용하여 연계하는 방법을 고려해 볼 수 있으나 이러한 방식은 동명이인이 많을 경우 데이터 손실이 많고, 시간이 많이 소요되는 문제가 있다. 따라서 개인 정보에 대한 민감도를 최소화하면서 효율성도 높일 수 있는 공통 ID 발굴 방안에 대해 검토할 필요가 있다.

교육 데이터 활용 상의 문제점 진단

교육 데이터의 실제 활용 경험에 기초한 활용상의 문제점을 진단하기 위해 교수 25명, 교육 유관기관 13명, 시도교육청 10명을 대상으로 교육 데이터 사용자 입장에서의 의견을 조사하였다. 전문가가 실제 교육 데이터를 활용한 경험에 비추어 만족도를 평가(5점 척도(매우 만족=5, 만족=4, 보통=3, 불만족=2, 매우 불만족=1))한 결과는 다음과 같다.
교육 데이터 활용에 대한 전반적인 만족도는 ‘보통’ 이상이라고 응답한 비율이 95.6%로 나타났다. 이를 구체적으로 살펴보면 ‘데이터 활용 및 분석 지원’에 대한 평균이 3.30으로 만족도가 가장 낮은 것으로 나타났으며, ‘데이터 요청 및 제공 절차’에서의 불만족 비율이 15.2%로 가장 높게 나타났다. 한편 본 조사에서 교육 데이터의 활용에 대한 만족도가 떨어지는 이유로 전문가들은 다음과 같은 사항을 지적하였다. 첫째, 교육 데이터를 획득하는 과정이 복잡하거나 접근 경로가 명확히 공개되지 않아 수행하고자 하는 연구에 필요한 데이터에 대한 접근성이 떨어졌다는 것이다. 둘째, 제한적인 경로를 통해 교육 데이터를 제공받은 경우에도 개인정보보호법으로 인해 실제 연구자에게 공개되는 데이터의 종류나 내용의 공개범위가 제한적이어서 필요한 연구 결과를 도출해 내는 데 제대로 활용하지 못하는 경우를 언급하였다. 이뿐 아니라 제공된 데이터에 최신 자료가 업데이트되어 있지 않거나 분류나 기록상의 오류로 인해 신뢰도가 떨어지는 경우가 발생하여 연구자가 계획한 연구 목적에 맞게 데이터를 활용하는 데 제한이 있었다. 셋째, 데이터가 원자료 형태로 제공되지 않아 직접 조작 및 활용이 어려우며 데이터 수집 과정에 대한 구체적인 정보가 제공되지 않거나 데이터 성격에 맞는 분석 방법에 대한 안내가 되어있지 않아 필요한 데이터를 직접 활용하는 과정에서 어려움을 겪을 수 있음을 지적하였다.
이상의 내용을 요약하자면, 교육 데이터 활용의 장애요인으로 기관별 데이터 산재, 연계 자료 활용 불가능, 데이터 요청 과정의 복잡성, 데이터 활용 관련 안내 및 정보 부족, 제한적인 데이터만 제공되는 점 등을 들었다.

교육 데이터 활용 활성화 방안

앞서 제시한 문제를 해결하기 위한 교육 데이터 활용 활성화 방안에 대해서 다양한 의견이 도출되었다. 첫째, 데이터 확보 과정에서 경험하는 불만족 사항을 해결하기 위해 종합적으로 운영이 가능한 통합 플랫폼을 구축하고 데이터 관리를 위한 전문 인력 확충을 통한 주기적인 모니터링이 필요하다. 이를 위한 구체적인 방안으로 데이터 요청 창구의 일원화를 통해 이용자들의 데이터 요청 절차를 간소화하고 제공 과정의 편의성을 강화할 필요가 있다. 데이터 수집 계획 단계부터 활용까지 데이터 제공자와 이용자 간의 협의체를 통해 상호 필요한 정보를 공유하며 교육 데이터 이용자 대상을 확보하는 방안이 필요하다. 또한, 데이터 획득 과정에서 이용자에게 제공되는 안내와 데이터 활용에 대한 홍보 부족으로 인해 필요한 정보를 충분히 얻거나 활용하지 못하는 제한점을 해결하기 위해 데이터 사용 메뉴얼을 제공하여 데이터 웹사이트 상에서 이용자가 직접 다운 가능케 할 필요가 있다.
둘째, 데이터 활용 과정에서 개선이 필요한 부분은 자료 활용 모델 구축을 통해 데이터 분류체계를 표준화하여 데이터 제공 시 원자료 형태로 공개함으로써 이용자가 활용 가능한 데이터로 재구조화 할 수 있도록 하고, 제공되는 정보 수준을 명확히 하여 필요한 데이터를 제대로 추출할 수 있도록 하는 것이 필요하다. 또한, 데이터 관리를 위한 전문 인력을 배치함으로써 최신 자료의 업데이트, 제공되는 데이터의 품질관리와 신뢰도 확보, 그리고 타 기관 데이터와의 연계 제공을 통해 활용도를 높일 필요가 있다.
마지막으로 데이터 활용 활성화 방안을 위한 기관의 노력으로 중앙 컨트롤 타워를 구축하여 전문 인력이 관리하는 통합 플랫폼 구축을 통해 데이터 제공 절차를 간소화하고, 연계된 데이터를 손쉽게 얻음으로써 연구 방향을 확대하고 다양한 분야의 융합적 연구가 가능하도록 해야 할 필요가 있다. 또한, 신뢰도가 높은 최신 데이터를 확보함으로써 연구자들이 다양한 교육정책과 현안에 맞게 필요한 연구를 수행하도록 지원하여 한국교육 발전에 기여하는 실질적인 연구가 가능하도록 해야 할 것이다.

<표 2> 교육 데이터 활용 만족도(N=46)

맺음말

교육 데이터의 활용은 교육정책 연구와 행정 혁신을 위해서 매우 중요하다. 교육 수요를 정확하게 파악하고 정확한 정책적 대안을 도출해 내기 위해서는 다양한 데이터의 결합을 통한 정책 개발 체제를 구축하는 한편 데이터 결합과 개방으로 인해 파생될 수 있는 위험성에 대해서도 안전망을 구축해야 한다. 또한 교육 데이터의 활용성을 높이기 위해서는 기관별로 독자적으로 데이터를 수집하여 제공하는 현재의 체제를 개선하여 교육 전반에 대한 종합적이고 거시적 관점에서 데이터 활용 계획을 수립하고, 중장기적 교육목표와 교육 패러다임의 변화를 반영하여 체계적으로 교육 관련 데이터를 수집·분석·제공·관리할 수 있는 체계를 구축하는 것이 매우 중요한 과제라고 할 수 있다.
교육부는 데이터 환경의 변화에 적극적으로 대응하고 데이터를 활용한 교육행정의 과학화를 추진하기 위해 2020년 업무 계획에 ‘데이터 기반 교육정책 추진’을 핵심 사업으로 포함시켰다. 이는 새 정부 국정과제인 ‘국정운영의 과학화’와도 직결된다. 그 일환으로 교육 데이터 통합서비스인 ‘교육정보통계시스템(EDS)’를 구축하여 서비스를 제공함으로써 교육 행정 업무 경감에 기여하는 동시에 다양한 연구 데이터로 제공되어 교육 연구 및 정책 개발에 활용하도록 하고 있다. 또한 「가명·익명정보 처리 가이드라인」을 배포하고 학생 개인 정보를 활용하여 생산과 출처가 다른 데이터를 결합하여 활용할 수 있는 근거를 마련하였고, 2021년 신설된 ‘교육빅데이터위원회’를 중심으로 데이터 거버넌스 체계와 기능, 개방 대상 데이터의 범위와 수준, 데이터 분류 체계 등에 대한 논의를 시작하고 있으며 교육 공공데이터 분석 활용 대회를 추진하는 등 다양한 방식으로 데이터 활용 활성화를 위한 정책을 적극적으로 추진하고 있다. 이러한 노력들이 데이터 활용의 편의성을 증진시키고 교육정책이 더욱 체계적으로 추진될 수 있는 기반이 될 것이다. 가까운 시일 내에 미래 세대를 위해 필요한 교육정책을 적시에 추진할 수 있는 ‘데이터 활용 환경’이 조성되기를 희망한다.

참고문헌

  • 최인봉, 시기자, 박상복, 김준엽. (2021). 교육 빅데이터 구축 및 활용 방안 –국가수준 학업성취도 평가 자료를 중심으로-. 한국교육과정평가원 연구보고 RRE 2021-3.