77-교육기획 1

빅데이터 기반 학습분석학:
AI 시대 교육정책방향을 중심으로

● 글. 조일현 이화여자대학교 교육공학과 교수 / 에듀테크융합연구소 소장 / 인재개발원 원장

학습분석학에 대한 교육 커뮤니티의 관심이 커지고 있다. 본고에서는 학습분석학 연구를 수행하고 있는 교육공학자로 서 ‘학습’이라는 적용 관점에서 빅데이터와 학습분석학에 대해 개념적으로 개괄하고, 빅데이터 학습분석학이 교수학습에 어 떻게 기여할 수 있는지, 교수체제설계와는 어떤 관련이 있는지 를 살펴본 후 관련 정책 수립 방향을 제언하고자 한다.

학습분석학은 학습과 학습이 일어나는 환경에 대한 이해와 그 최적화를 위해 학습자와 그들의 맥락에 대한 데이터를 측 정-수집-분석 및 보고하는 활동으로 정의된다. 이 정의에 나 타난 학습분석학의 특성은 세 가지이다. 첫째, 학습자와 학습 맥락에 관한 기록으로서 빅데이터를 필요로 한다. 둘째, 교수 체제설계적 처방의 제시를 목적으로 삼는다. 셋째, 빅데이터 를 분석하여 최적의 처방을 제시하기 위해서는 테크놀로지 기 반 환경이 필수적이다.

빅데이터

빅데이터의 본질은 다양성(variety), 속도(velocity), 그리고 진실성(veracity) 등 3가지 특징에 있다. 크기(volume)는 3가 지 조건이 충족될 때 나타나는 결과로서 ‘빅데이터’의 정의적 특성은 아니라고 생각한다. 빅데이터의 본질은 ‘크기’가 아니라 학습자와 학습 맥락이라는 ‘출처’이다.
첫째, 빅데이터는 종류가 다양해야 한다. 위치데이터, 생리 반응데이터, 학습 행동 로그, 교수자-학습자 사회적 상호작 용 네트워크 데이터, 노트기록과 질의응답 텍스트 데이터 등 수집 방법, 수집 시점과 빈도, 변수 척도 등에서 각각 다른 ‘지 저분한’ 데이터를 모두 포함한 소위 멀티모달 데이터일 때 다 양성 조건이 충족된다. 둘째, 빅데이터는 측정-분석-피드백 등 전체 과정에 걸리는 시간 속도가 빨라야 한다. 과거에도 고 성능 컴퓨터로 빠른 ‘분석’은 가능했다. 문제는 측정-피드백은 사람에 의해 노동집약적으로 이뤄졌기 때문에 결과적으로 오 래 걸린다는 점이다. 실시간성-적시성은 정보 가치의 증가를 의미한다. 셋째, 빅데이터는 객관적이고 정확해야 한다. 인간 이 개입해서 수집하는 데이터는 객관성을 기하기 어렵다. 365 일 24시간 지치지 않는 기계는 측정 주파수가 높아 측정 신뢰 도에서도 인간의 추종을 불허한다.
이 세 가지 조건이 충족되기 위해서는 센서, RFID, IoT, 클 라우드 테크놀로지가 필요하다. 사물인터넷과 센서는 학습자 가 언제 어디에서 어떤 디바이스로 무슨 콘텐츠를 학습해도 다양한 측정데이터를 만들어낸다. 클라우드는 이러한 다양한 데이터를 모아 분석 서버로 전달한다. 그 결과 축적된 데이터 는 결과적으로 매우 커질 개연성이 있다. 여기까지가 빅데이터 의 일반적인 특성이다.
교수학습 상황에서는 어떤 빅데이터가 만들어질 수 있는지 예를 들어 보겠다. 먼저 학습자 개인별-상황별 시계열 데이 터 확보가 가능하다. 센서 종류에 따라 1초에 수백, 수천 번의 측정이 이루어진다. 가용한 센서는 동작, 시선, 바이오, 위치 등 측정 영역별로 그 종류가 수십 가지에 달한다. 디바이스와 의 클릭, 터치, 스와이프 등 수십 가지 컴퓨터-인간 상호작용 행동도 로그 형태로 기록된다. 콘텐츠 메타정보와 결합하면, 반응과 행동이 일어난 그 순간, 특정 학습자가 어떤 콘텐츠의 몇 페이지를 보고 있었는지, 그 페이지 내에서 어느 부분을 주 목하고 있었는지를 연결시켜 데이터를 구할 수 있다. 그렇다면 이런 데이터로부터 어떤 유용한 정보를 얻을 수 있을까? 이 질문은 통계학자가 답을 내놓을 수 있는 성질의 것이 아니다.

학습분석학 수행 절차

학습분석학의 수행 절차는 1) 문제 인식, 2) 관찰 및 측정, 3) 데이터 수집과 정리, 4) 통계 분석, 5) 인과관계 추론, 6) 처방책(解, 솔루션) 개발, 7) 처방 실행 및 모니터링, 8) 평가와 피드백 등 8 단계로 구성된다.
첫째, 문제인식은 문제를 감지하고 As-Is/To-Be의 격차로 정의하는 것이다. As-Is는 실현된 상태로서 객관적 관찰이 가능하다. To-Be는 추구하는 상태로서 주관적 기대이다. 결국 양 항의 격차인 문제는 ‘주관적’일 수밖에 없다.
둘째, 관찰과 측정이다. 일단 문제가 인식되면 관찰이 시작 된다. 관찰에는 직접 관찰과 간접 관찰이 있다. 직접 관찰은 당사자가 육안 또는 도구를 활용하여 문제 현상을 살피는 것이다. 도구를 통한 간접 관찰은 현상을 줌인하는 현미경적 미시 관찰, 줌아웃 하는 망원경적 거시 관찰로 나뉜다. 육안으로 학습자 B를 관찰할 수도 있고 인터뷰지, 설문지, 발화 스크립트, 트위터 멘션, 생체센서를 활용하여 미시적으로 들여다 볼 수도 있고, 학생기록부나 사회연결망 분석을 통해 시공간 적으로 거시적 관찰을 할 수도 있다. 여기에서 중요한 것은 모든 관찰과 측정값, 즉 데이터가 문제를 어떻게 인식하고 정의 했는지, 어떤 측정 도구를 선택했는지에 따라 달라진다는 점이다. 앞선 사례에서 학생 B를 맞춤형 수업을 지향하는 교사 D와 평균 상향을 추구하는 교사 D 중 누가 관찰하는가에 따라 그 결과가 달라질 것임은 자명하다. 제 눈에 안경인 셈이다.
또 어떤 측정도구를 사용하는지에 따라 분석 결과가 달라진다. 논문을 쓰고 지도해 본 교육공학자라면 하나의 구인을 측정하는 방법(질적-양적, 인적-기계적, 간섭적-비간섭적, 자기보고형-관찰자 보고형 등)만 해도 수십 가지에 달한다는 것을 잘 알 것이다. 교수학습 현상의 전모를 파악하기 위해서는 다양한 관점과 측정 방법, 그 귀결로서의 측정 데이터를 통합 해야 한다. 교수학습 현상은 코끼리에 비해 비할 바 없이 복잡 하다. 이것이 빅데이터의 다양성과 분석학의 지능화가 필요한 이유이다.
셋째, 데이터의 수집과 정리이다. 관심 대상 현상이 복잡한 만큼 그로부터 수집되는 데이터의 다양성과 크기가 증가한다. 그 수집과 처리의 속도가 늦어지면 적시에 처방을 가할 수 없게 된다. 따라서 학습분석학이 빅데이터를 분석하기 위해서는 특별한 방법이 필요하다. 연구 경험에 따르면 데이터 수집에서 논문 완성에 이르는 전 과정 중 약 70~80%의 시간이 데이터 수집과 전처리에 소요된다. 데이터 수집을 위해서는 기술적 작업 외에 법적, 윤리적 측면도 고려해야 한다.
넷째, 통계 분석이다. 이 단계에서는 컴퓨터와 분석알고리즘, 그리고 통계학자와 컴퓨터공학자의 역할이 빛을 발한다. 학습분석학 맥락에서 통계 (인공지능 알고리즘도 결국 통계학의 일부) 분석 시 고려해야 할 점은 두 가지이다. 첫째, 예측변수(X)별 준거변수(Y) 설명 정도를 양적으로 표현할 수 있는 분석 모형이 유용하다. 처방을 내리기 위해서는 어떤 X가 Y를 유의미하게 설명하는지도 중요하지만, 그 크기를 비교할 수 있어야 처방 우선순위 결정에 도움을 받을 수 있다. 다중회귀분석에서 X의 표준화 회귀계수(베타)가 그 예이다. 뉴럴네트워크 등 인기 있는 인공지능 알고리즘은 대부분 블랙박스 모형으로서 X별 설명량 정보를 제공하지 않는다. 예측도 잘하지만 매개변수 크기 정보도 제공하는 랜덤포레스트 모형이 학습분석학 연구에서 자주 사용되는 이유이다.

다섯째, 인과관계 추론이다. 전술했듯이 상관관계는 알고리즘이 할 수 있지만 그중에서 원인과 결과를 골라내기 위해서는 영역 지식, 특히 암묵지를 필요로 한다. 나아가 처치 수준의 결정도 기계에 맡길 수 없는 중요한 지식-경험 기반 고려 사항이다. 처방을 위한 인과관계 분석에서 인간 연구자의 판단이 필요한 이유는 인과관계의 다중성과 무한소급성 두 가지 때문이다. 다중성은 인과관계의 폭에, 무한소급성은 깊이에 관한 것이다. 인과관계의 다중성은 교육공학 연구자들에게 익숙한 다중회귀모형의 구조에 잘 나타나 있다. 하나의 결과(Y)에 여러 원인(Xi)들이 직접 효과, 매개 효과, 조절 효과 등 다양한 형태로 복잡한 인과 구조를 형성한다. 따라서 선택을 위해 우선순위 설정이 필요한데 이는 효율성·적합성·실행가능성 등 계산으로 설정할 수 없는 준거를 요구한다. 인과관계 무한소급성은 어떤 원인도 궁극의 원인이 될 수 없고, 원인과 결과는 서로 꼬리를 물며 무한히 연속된다는 인식론적 문제이다. 컴퓨터는 당초 ‘적당한 판단’을 할 수 없기에 인과 관계 추론과 선택은 인간의 암묵지와 사회적 타협의 몫으로 남는다.
여섯째, 처방책의 개발 또는 선택이다. 지능형 교수학습 촉진을 위한 처방안은 종류, 정도(dosage), 그리고 시점으로 구성된다. Y에 영향을 미치는 X의 리스트를 찾고(유형), 어떤 X들을 어떤 비율로 조합할 것인지를 결정하고(정도, 결합), 언제 처방할 것인지(순서)의 결정이 필요하다. 이를 위해 활용될 수 있는 분석 기법으로서, 처방 종류 선택은 랜덤포레스트, 선택된 처방 종류별 조합 비율은 역치추정, 처방 순서는 사전순서화(lexicographical ordering) 알고리즘이 유용하다. 인과관계성과 처방효과성은 Y=f(X), X=f(T)로 함수로 표현된다. 여기에서 유념할 것은 Y=f(X)에서 X가 처방가능한 (treatable) 변수 Xt (학습전략, 동기 등)와 처방불가능 변수 Xnt (성별, 전공 등)로 나뉜다는 점이다. Xt와 Xnt 모두 Y에 인과적 영향을 주지만, Xt 만이 처방이 가능하다. Xnt는 조작은 불가능하지만 조절변수로서 고려해야 한다. 양적 분석 결과를 참고하여 처방안을 만드는 영역 지식은 이미 교육공학 분야 내에 축적되어 있다.
일곱째, 처방을 실행하고 반응을 모니터링 하는 과정이 뒤따른다. 의사가 환자의 유병 상태를 인지하고 처방전을 제시한 후 경과를 보아가면서 투여량을 조정하거나 심지어 처방 전략을 변경하는 경우에 해당한다. 이를 위해 시계열 데이터의 활용이 필요하다. 학습자의 학습 상태를 지속적으로 모니터링 하기 위해서는 직관적인 대시보드가 필요하다.
여덟째, 평가와 피드백이다. 이 지점에서 문제해결을 위한 의사결정 정보를 적시에 제공하는 것이 분석학의 목적이라는 점을 상기하자. 평가의 1차적 기준은 문제해결에 미친 효과성이다. 2차적 기준은 의사결정자이자 분석학의 소비자인 문제 해결 당사자의 사용성과 만족도이다. 3차적 기준은 통계적 및 공학적 성능이다. 4차적 기준은 비용 절감 효과이다.

학습분석학과 교수체제설계

교수체제설계란 교수를 하나의 체제(system)로 보고 교수의 효과를 높이기 위하여 필요한 교수체제 구성요소들(강사, 학습자, 학습내용, 교수방법 및 매체, 학습환경 등)이 유기적으로 결합되어 교수의 효과성, 효율성, 매력성을 추구하는 일련의 체계적 또는 체제적 과정을 말한다. 학습분석학은 교수체제설계를 위한 절차적 원리인 ADDIE의 양쪽 끝단인 ‘분석’ 및 ‘평가’와 밀접하게 관련되어 있다. ADDIE 모형의 첫 번째 단계인 분석은 교수설계의 체제성을 제공하는 핵심 역할을 수행한다. 분석을 통해 학습 목표, 내용, 학습자 특성, 학습 환경 특성에 대한 데이터를 수집하고 이를 분석함으로써 이후에 이뤄지는 설계-개발-실행-평가 단계별 의사결정에 필요한 정보가 제공된다. 마지막 단계인 평가는 분석한 내용이 실제로 실현되었는지 비교하고 그 결과를 바탕으로 차기 분석의 적합도를 높이는 단계이다. 즉, 분석과 평가는 동전의 양면처럼 긴밀하게 연결되어 있다. 분석결과를 기준으로 평가하고, 평가 결과는 수업의 수정-보완을 위해 차기 교수설계 시 분석 단계로 환류된다. 빅데이터 기반 학습분석학은 오늘날 교육 커뮤니티에 회자되는 또 다른 키워드인 에듀테크와도 긴밀하게 연관되어 있다. 지난 3차 산업혁명 시대의 에듀테크는 콘텐츠를 학습자에게 전달하는 공급자 중심의 ‘제시(presentation) 테크놀로지’, 사람-콘텐츠, 사람-사람 간의 몰입과 참여를 촉진하는 ‘상호작용(interaction) 테크놀로지’ 중심으로 발전해 왔다. 4차 산업혁명 시대에는 학습자의 적응형 학습을 지능적으로 촉진하는 수요자 중심의 ‘분석(analysis) 테크놀로지’ 와 개인별-상황별 적응형 수업을 창발하는 ‘설계(design) 테크놀로지’로 그 비중이 전환될 것이다. 앞으로도 VR, AR, 메타버스 등 다양한 제시 테크놀로지가 출현하여 학습적 자극원의 실재감, 충실도를 높여줄 것이다. 이 제시 테크놀로지는 그것과 상호작용하는 학습자 행동과 반응 빅데이터를 받아 분석하여 피드백해주는 학습분석학과 제시 테크놀로지의 교수학습적 형성평가 및 수정보완을 통해 진화해 갈 수 있다. 즉 학습분석학은 메타적 에듀테크로서 다양한 제시 테크놀로지, 상호작용 테크놀로지, 설계 테크놀로지로 구성된 융합에듀테크의 두뇌 역할을 수행할 것이다.

제언

학습분석학의 적용을 위해 두 가지를 제언하고자 한다. 첫째, 기술결정론(technological determinism)에 반하여 인간성을 옹호해야 한다. 기술결정론은 인공지능이 부각되면서 자기결정적·자기발생적·자기확장적인 힘으로까지 확장되는 듯하다. 맹목할 수 있는 능력은 기계에 대해 인간의 우위를 부여하는 결정적 경쟁우위 요인이다. 기계는 본능적 유인가를 가질 수도, 주어진 목표 없이 기능할 수도 없다. 그렇기 때문에 ‘결정되어지는 존재’일 뿐, ‘결정하고 결과에 책임지는 주체’ 가 될 수 없다. 테크놀로지는 물신숭배의 대상이 아니며 인간성의 옹호를 위한 도구일 뿐이다. 계산은 사유를, 논리는 본능을, 성능은 책임을 대체할 수 없다. 따라서 학습분석학은 강한 지능을 지닌 인간의 깊은 성찰과 사유를 위해 분주한 약한 인공지능이어야만 한다. 둘째, 개인정보의 보호와 공정거래를 위한 제도와 문화의 정착이다. 개인 정보는 보호의 대상이자 가치 창출의 원천 자원이다. 학습분석학은 이 두 가지 관점을 모두 수용해야 한다. 개인 정보는 보호되어야 한다. 학습적 수월성도 중요하지만 개인 프라이버시를 해치면서 추구될 수는 없다. 개인 정보의 가치는 최대한 널리 활용되어야 한다. 이 두 가지 가치를 상호배타적인 것으로 보는 보수적 관점은, 이제 공정 거래를 통한 정보적 호혜성의 극대화라는 진보적 관점으로 바뀌어야 한다.

조일현 이화여자대학교 교육공학과 교수

교육공학을 전공했으며, 에듀테크/빅데이터 기반 교수학습환경의 설계-개발-평가 분야에 관심을 집중하고 있다. 현재는 이화여자대학교 인재개발원장과 에듀테크융합연구소장으로 역임 중이며, 「에듀테크 기반 모듈형 K-PBL 교수학습모형개발」, 「빅데이터 기반 VR 교육훈련 평가」 연구를 수행 중에 있다.