논문/Knowledge Tracing

[논문] Knowledge Tracing: A Survey (2023)

guungyul 2025. 1. 6. 19:15

https://dl.acm.org/doi/full/10.1145/3569576

온라인 학습 플랫폼이 보편화되면서 선생뿐만 아닌 기계가 학생들의 지식을 추적하고 학습 경험을 조정할 필요가 생겼습니다. 이는 Knowledge Tracing (KT) 문제로 정의됩니다. 본 논문에서는 KT 기법의 포괄적인 조사 결과를 보여줍니다. 특히 초기 KT 기법들부터 deep learning을 사용하는 state-of-the-art 기법들을 소개하고 각 모델의 이론적 배경과 benchmark 데이터셋의 특징들을 강조합니다. 또 연관된 기법들의 주요한 구현 차이점을 요약합니다. 마지막으로 현재 KT 기법들의 연구 공백과 가능한 미래 연구 방향을 제시합니다.

 

본 포스트에는 논문의 모든 내용이 포함되어 있지 않습니다.

 

 

1 Introduction

Knowledge Tracing 문제란

  • 학생의 학습 정도를 학생과 교육 자료의 상호작용으로부터 알아내는 것
  • 학생의 지식 주순을 나타내고 정의하는 것이 목표

위 그림은 한 학생이 문제 $ \{q_1, q_2, q_3, q_4\} $를 푸는 과정을 나타낸다.

Intelligent Tutoring Systems (ITSs)는 학생의 상호작용에 따라 스킬 $ \{k_1, k_2, k_3, k_4 \} $에 대한 지식 수준을 예측하게 된다.

문제점 및 고려사항:

  • 각 문제를 푸는데 하나 이상의 skill이 필요할 수 있음
    • 위 그림에서 $q_2$를 푸는데에 스킬 $ k_1 $과 $k_3$이 모두 필요
  • 각 skill 간 의존도는 KT 기법에서 중요한 요소
    • 위 그림 Dependency Graph에서 $ k_1$와 $k_4$는 $k_2$를 얻기 위한 선행 조건
  • 각 skill에 대한 학생의 망각은 지식 소멸로 이어짐
    • 위 그림에서 $k_1$은 가장 잘 기억되는 반면 $k_2$는 가장 쉽게 잊혀짐

 

초기 모델

  • Bayesian inference approach

기계 학습 기반 모델

  • Factor analysis에 기반
    • 학생 관련 요소: 사전 학생 지식, 학습 속도
    • 문제 관련 요소: 문제 친밀도, 이전 문제 풀이 수
    • 학습 환경 관련 요소

Deep learning 기반 모델

  • Deep Knowledge Tracing (DKT)
  • 여러 관점에서의 deep learning KT 모델 연구 개발됨:
    • Memory structures: Memory-augmented neural network에서 영감
    • Attention mechanisms: Transformer 구조에서 영감
    • Graph representation learning: 그래프 학습 기술에서 영감
    • Textual features: 문제의 text를 활용해 필요한 스킬, 난이도, 관계 등을 포착
    • Forgetting features: 학생의 망각을 고려

 

1.1 Contributions

본 논문은 전통적인 기계학습 관점부터 최신 deep learning 관점의 KT 기법들을 비교하고 요약한다

  • KT의 주요 category 기법들을 비교
    • 모델 디자인, 지식 수준 표현 방법, 문제와 스킬간 관계에 사용된 가정, 학생 망각 요소 등
  • 각 category의 KT 기법들의 순차적인 발전 과정 요약
  • 널리 사용되는 KT 데이터셋 특징 요약 및 주요 KT 기법들 성능 비교
  • 아직 연구되지 않은 KT 응용 분야 제시

 

1.2 Survey Methodology

---

1.3 Scope and Structue

---

 

 

 

2 Categorization of Knowledge Tracing Models

2.1 Traditional Knowledge Tracing Models

---

2.2 Deep Learning Knowledge Tracing Models

2.2.1 Sequence Modeling for Knowledge Tracing

Terms

  • 모든 문제 셋: $ Q = \{q_1, \ldots, q_{|Q|}\} $
  • 상호작용 sequence: $ X = \langle x_1, x_2, \ldots, x_{t-1} \rangle $
  • i 번째 상호작용: $ x_i = (q_i, y_i) $
  • i 번째 문제 정오답: $ y_i \in \{0, 1\} $

정의

  • 상호작용 X가 주어졌을 때 KT는 time step t의 새로운 문제인 $q_t$를 학생이 맞출 확률 $ p_t = P(y_t = 1 \mid q_t, X) $를 예측한다

모델

  • Deep Knowledge Tracing (DKT)가 이 분야에 첫 모델
    • Recurrent Neural Network (RNN)과 Long Short Term Memory (LSTM)을 사용
    • 한계점
      • 학생의 지식 수준 $h_t$에서 하나의 스킬만 고려
      • 여러 스킬들 사이에 관계를 고려하지 않음
      • 모든 문제들이 서로 동등하게 연관되어있다 가정
  • Extended-Deep Knowledge Tracing
    • 기존 DKT에서 추가 요소:
      • 학생 사전 지식, 응답률, 응답 시간
      • 문제 정보, 난이도, 스킬 계층도, 스킬 연관성
  • DKT+
    • 기존 DKT loss function에서 두개의 regularization term 추가
      • 답안 입력 재구성 능력 향상
      • 비슷한 skill을 사용하는 문제에 대한 불안정한 답안 예측 감소
  • Deep KnowledgeTracing with Dynamic Student Classification (DKT-DSC)
    • K-means를 사용해 학생들을 skill들에 대한 성과에 기반한 그룹으로 분류
    • 성과가 바뀔때 동적으로 업데이트

 

2.2.2 Memory-Augmented Knowledge Tracing Models

DKT 모델에 external memory sturcuture을 추가한 모델

 

Key-Value Memory Network(KVMN)을 사용해 학생 지식 수준을 나타낸다.

  • Key matrix: 스킬을 나타냄
  • Value matrix: 각 스킬에 대한 학생 숙련도를 나타냄

 

모델

  • Dynamic Key-Value Memory Network (DKVMN)
    • Static한 key matrix와 dynamic한 value matrix를 사용
      • Value matrix에서 문제 $q_t$에 대한 학생의 지식 수준 검색
      • 문제 $q_t$에 대한 정확도를 검색된 지식 수준을 활용해 예측
      • $q_t$를 품으로써 얻는 지식을 value matrix에 업데이트
    • 한계점
      • 과거 문제들의 풀면서 얻은 skill이 현재 문제를 풀면서 얻은 skill과 연관이 없을 수 있음
  • Sequential Key-Value Memory Networks (SKVMN)
    • DKVMN의 한계점을 해결하기 위해 변경된 LSTM Hop-LSTM을 사용
    • 연속된 문제들간 sequential dependency를 포착할 수 있음
      • 연관된 문제들에 대한 학생의 지식 수준만을 업데이트 할 수 있음

 

2.2.3 Attentive Knowledge Tracing Models

Transformer 구조와 attention 기법을 활용한 KT 모델

 

주요 아이디어

  • 상호작용의 순차적인 문제들의 attention weight를 다음 주어진 문제를 정확히 예측하기 위한 확률을 나타내도록 학습
  • DKT 알고리즘의 모든 순차적인 문제들에 동일한 중요도를 부여하는 한계를 극복

모델

  • Self-Attentive Knowledge Tracing (SAKT)
    • Attention 기법을 사용한 첫번째 논문
    • 기존 Transformer 논문에서 제시된 scaled dot-product와 multi-head attention을 사용
  • Attentive Knowledge Tracing (AKT)
    • Monotonic attention 기법 사용
      • 시간적 거리가 먼 문제의 attention weight를 exponential decay rate를 활용해 조절
        • 시간에 따른 학생의 망각을 고려
      • Rasch model을 활용해 각 문제가 각 개념의 지식 구성요소에서 얼마나 떨어져있는지 나타냄
  • Separated Self-AttentIve Neural Knowledge Tracing (SAINT)
    • Encoder-decoder 모델과 scaled dot-product attention 기법을 활용
      • 학생의 순차적인 상호작용을 두가지로 분리
        1. Qeustion embedding sequence - encoder input으로 사용
        2. Response embedding sequence - decoder input으로 사용
      • Encoder와 decoder는 기존 Transformer 구조와 동일
    • SAINT+
      • Embedding sequence에 두가지 요소를 추가로 고려
        • Elapsed time: 학생이 문제를 푸는데 걸린 시간
        • Lag time: 두 연속된 학습 사이 시간
  • RKT
    • SAKT, SAINT와 비슷하게 기존 Transformer 구조를 사용
    • Attention weight를 결합할 때 relation coefficients를 사용
      • Relation coefficients는 다음 두가지 요소로 계산:
        1. Exercise relation modeling
          • 문제의 text 정보를 활용해 과거 상호작용한 문제간 관계를 예측
        2. Foregetting behavior modeling
          • 시간에 따라 망각하는 학생의 특성을 모델링
  • CKT
    • Attention을 1-D convolution network를 활용해 결합
    • 학생 개개인의 skill을 다음 두가지로 나타냄:
      1. 연관성있는 과거 수행 능력
        • 최신 문제와 각각의 이전 문제 사이 masked-attention을 사용
      2. 개념에 대한 전체적인 수행 능력
        • 각 개념에서 맞춘 문제 비율 사용
    • Linear gating 기법을 통해 개별적인 feature를 결합하고 정답률을 예측
    • 1-D convolution을 통해 최종 representation을 추출
  • CoKT
    • 추천 시스템의 collaborative filetering 아이디어 사용
    • Intra-state (문제 풀이 기록)과 inter-state (동료 학생의 지식 수준)을 융합해 예측
      • String-encoded 문제 풀이 기록을 BM25 함수를 활용해 동료 학생 간 유사도 점수를 계산
      • 비슷한 동료 학생 간 inter-state를 나타내는 embedding vector를 multi-head self-attention 기법을 통해 project
    • 학생의 과거 문제 풀이 기록도 비슷한 방법을 통해 embed
    • 최종적으로 intra-state와 inter-state를 결합해 정답률 예측

 

2.2.4 Graph-Based Knowledge Tracing Models

KT 작업에는 다양한 관계 구조가 존재

  • Skill 간 유사도, 의존도, 문제와 스킬 대응 관계 등

Graph Neural Network (GNN)을 사용해 이런 관계를 효과적으로 나타냄

 

모델

  • Graph-based Knowledge Tracing (GKT)
    • Node: Skill
    • Edge: Skill 간 의존도
    • KT 문제를 시계열 노드 수준 분류 (time series node-level classification) 문제로 바꾸어 message-passing GNN 기법으로 풀이
    • 그래프 생성 기법 두가지:
      • Statistics-based 접근
      • Learning-based 접근
  • Graph-based Interaction Knowledge Tracing (GIKT)
    • 문제와 skill 사이 관계를 그래프로 나타내고 유의미한 embedding을 학습하는 방식
    • GKT와 차이점
      • GKT는 한 문제가 하나의 skill에 대응한다 가정
      • GIKT는 하나의 skill이 하나 이상의 문제와 연관있다 가정
    • GNN을 사용해 문제들과 skill들의 embedding을 축적
    • 상호작용 sequence의 각 문제 embedding을 RNN 모델로 보내 최종 학생 정오답을 예측
  • Structure-based Knowledge Tracing (SKT)
    • Skill들 사이에 여러 관계를 포착하기 위해 디자인됨
      • 유사 (similarity) 관계, 선수 (prerequisites) 관계
    • GKT와 유사점 / 차이점
      • 유사점
        • 한 문제가 한 skill에 대응한다 가정
      • 차이점
        • skill 간 하나의 관계만 포착하는 GKT와 다르게 SKT는 여러 관계를 포착
        • 그래프 데이터를 요약할 때 시간적, 공간적 영향을 고려
    • 최종적으로 embedding들을 결합해 RNN 모델로 보내 학생 정오답을 예측
  • Pre-training Embeddings via Bipartite Graph (PEBG)
    • 사전 학습된 exercise embedding을 활용해 KT 정확도를 높이는 기법 제시
    • KT 작업에서 존재하는 relation들:
      • Exercise-skill 관계, exercise 간 유사도, skill 유사도
    • 모든 relation을 exercise embedding에 나타내기 위해 exercise 난이도와 함께 bipartite 그래프를 사용

 

2.2.5 Text-Aware Knowledge Tracing Models

이제까지의 모델들은 학생과 문제의 상호작용만을 고려한다.

Text-aware  KT 모델들은 문제의 textual feature들을 사용해 KT 성능을 높이고자 한다.

 

모델

  • Exercise-Enhanced Recurrent Neural Network (EERNN)
    • Bi-directional LSTM을 활용해 각 문제의 텍스트에서 representation을 추출
    • 추출된 representation을 이전에 답한 문제들의 representation과 결합해 또다른 LSTM 모델로 학생의 지식 수준 추적
    • 두개의 변형된 모델이 존재:
      • EERNNM
        • Markov property가 성립한다 가정
          • 가장 최신에 관측된 학생 지식 수준만 학생의 정오답률에 영향을 준다 가정
      • EERNNA
        • 이전 모든 지식 수준이 모두 영향을 준다 가정
          • Attention 기법을 통해 이전 수준도 모두 결합
    • 추가 발전된 모델: Masked language model (MLM)
      • 문제 representation을 학습하기 위해 pre-training을 사용해 성능 향상
  • Exercise-Aware Knowledge Tracing (EKT)
    • EERNN 모델에 여러 skill 정보를 통합
      • EERNN과 차이점
        • 지식 수준을 나타내기 위해 vector가 아닌 matrix를 사용
        • 일련의 상호작용으로 학생이 여러 skill을 숙달하는데 각 문제가 어느정도로 영향을 미치는지 memory network를 사용해 수량화
  • Adaptable Knowledge Tracing (AdaptKT)
    • 학습된 KT 모델을 다른 domain으로 옮기면서 성능을 유지시키는 방법 제시
    • 서로 다른 두 도메인 문제들로 학습된 deep auto-encoder 구조를 활용해 문제 embedding을 학습
    • KT 모델을 기존 도메인으로 학습시키면서 두 도메인의 지식 수준의 mean discrepancy가 최소화되도록 정량화
  • Relation-Aware Self-Attention for Knowledge Tracing (RKT)
  • Hierarchical Graph Knowledge Tracing (HGKT)

 

2.2.6 Forgetting-Aware Knowledge Tracing Models

학생의 지식 수준을 추정하는데 망각은 중요한 요소이다.

이런 망각의 영향을 고려한 모델들은 다음과 같다:

  • Deep Knowledge Tracing (DKT) + Forgetting
    • DKT에 forgetting feature를 더한 모델
    • Forgetting features: 
      • 현재 시점까지 학생이 답한 같은 skill을 사용하는 문제 수
      • 같은 skill을 사용하는 문제를 답하고 지난 시간
      • Skill 상관 없이 가장 최근에 문제를 답하고 지난 시간
  • Knowledge Proficiency Tracing (KPT)
    • Probabilistic matrix factorization 모델
    • 두가지 사전 정보에 의거:
      • Question priors: 문제와 skill 사이에 관계를 나타내도록 전문가가 마킹한 Q-matrix
      • Student priors: 시간에 따라 변하는 학생 지식 수준을 learning curve와 forgetting curve 이론을 사용해 포착
        • Learning / forgetting 요소는 다음 두가지 요소에 의해 영향을 받는다 가정
          • 더 많은 연습을 할수록 더 높은 지식 수준을 얻는다
          • 시간이 더 많이 지날수록 지식을 망각한다
    • 예측 성능을 향상시킨 Exercise-correlated Knowledge Proficiency Tracing (EKPT)가 존재
  • HawkesKT
    • Skill 숙련도는 같은 skill을 다루는 이전 문제와 상호작용 뿐만 아니라 다른 skill을 다루는 문제에도 영향을 받는다 가정 (cross-effect)
    • 다른 과거 상호작용에 의한 cross-effect는 서로 다른 스킬의 숙련 서로 다른 시간전 변화를 가진다 가정
  • Deep Graph Memory Network (DGMN)
    • Forgetting-aware KT와 그래프를 합친 모델
    • Skill space에서의 망각 모델링이 목표
      • Skill간 관계를 포착하기 위해 지식 수준 memory를 사용한 동적 그래프를 생성
      • 일련의 상호작용이 주어지면 attention 기법을 통해 문제를 관련된 skill에 연결
      • Forgetting feature를 계산
      • 문제 embedding, skill graph embedding, forgetting feature를 gating 기법을 활용해 융합
      • Gating 출력은 다음 문제를 맞출 활률을 예측하는데 사용
  • Learning Process-consistent Knowledge Tracing (LPKT)
    • 정답 예측을 하면서 학생의 learning gain 고려
    • Learning gain 정의
      • 마지막으로 답한 문제 이후 변화한 지식 수준과 문제를 답한 시간 간격을 embedding 으로 나타냄
    • LPKT 모델은 3개의 sequential memory cell로 구성되어 있음:
      • Learning progress gate: 가장 최근에 답한 문제의 embedding을 문제 tag를 고려해 project
      • Forgetting gate: 최근 두 learning progress embedding을 받아 forgetting effect를 고려한 출력 project
      • Prediction cell: 두 gate의 출력을 사용해 문제 정오답 확률을 예측

 

2.2.7 Discussion

Deep learning KT 모델의 주요한 요소들:

  • Knowledge state
    • 학생의 지식 수준을 하나의 skill 또는 여러 skill들을 통해 나타내짐
    • Deep learning KT 모델의 주요한 트렌드는 복잡하게 얽힌 skill들에 의해 동적으로 변화하는 지식 수준을 나타내는 기법 개발
  • Skill dependencies
    • 각 문제는 하나 또는 그 이상의 skill과 연관되어 있다고 가정
      • 사전 지식을 제공함
    • Deep learning KT 모델들의 주요한 도전은 skill들 간 의존성을 파악하는 것
      • 크게 두가지 방법 존재:
        • Attention 기법을 사용해 문제와 필요한 skill 간 관계를 학습
        • Graph-based 학습을 통해 skill 간 관계나 문제와 필요한 skill간 관계를 학습
  • Feature augmentation
    • 망각을 모델링한 feature와 문제 text를 모델링한 textual feature를 사용해 모델 성능을 향상
    • 추가적인 요소를 모델링함으로써 모델 정확도 향상 가능
    • 하지만 항상 추가적인 요소가 존재하는 것은 아님

 

 

 

3 Knowledge Tracing Datasets

---

 

3.7 Considerations

Table 7은 binary classification 모델 성능을 보여준다.

  • AUC는 KT 모델이 얼마나 정오답을 잘 구분하는지 보여줌
    • 0 - 1: 0.5는 무작위 추측, 1은 완벽한 classifier를 나타냄

모델 성능 비교시 주의사항

  • 실험 설정이 표준화되어있지 않기 때문에 직접적인 비교가 어려움
    • 중복된 상호작용 데이터를 삭제하지 않았다면 더 좋은 결과가 나왔을 수 있음
    • 각 데이터셋의 attribute에 대한 명시적인 설명이 없음
      • 각 실험에서 서로 다르게 해석되었을 수 있음
    • Noise 데이터나 잘못된 데이터의 정제 여부에 따라 성능 차이가 있을 수 있음
      • Algebra 2006 - 2007에는 timestamp 오류가 있어 다른 두 Algebra 데이터 셋에 비해 성능이 낮음을 확인함
    • 같은 데이터 셋을 썻음에도 불구하고 사용한 skill 수를 다르게 보고한 경우 다수 존재
  • 데이터셋이 특정 과목, 특정 나라에서 생성되어 다양성이 부족함
  • Benchmark 데이터셋은 수년에 걸쳐 업데이트 되기 때문에 특정 KT 모델들 실험에서 어느 버전을 썼는지 알 수 없음

 

 

 

4 Knowledge Tracing Applications

4.1 Educational Recommender Systems

  • 목표
    • KT 모델을 활용해 학생 지식 수준을 파악
    • 지식 수준에 기반해 학습 자료를 추천
  • 예시
    • 그래프 기반 추천
      • Predicting learners need for recommendation using dynamic graphbased knowledge tracing
      • 학생들을 지식 수준에 기반해 그룹으로 분류하고 각 그룹에 가장 적절한 문제를 제공 
        • 강사가 특정 knowledge component (KC)를 선택
        • 모델이 과거 기록에 기반해 동적 지식 그래프를 생성
          • Node: 학생 지식 vector
          • Edge: 선택된 KC 주변의 숙련 수준 유사도
        • 그래프들은 node group으로 cluster 되고 각 그룹에 공유되는 embedding이 GNN을 사용해 만들어짐
        • Embedding은 최종 문제 추천에 사용
    • KT 모델로 계산된 보상 신호에 따라 문제를 추천하면 reinforcement learning recommender
      • Learning path recommendation based on knowledge tracing model and reinforcement learning
    • 교육 학습용 비디오 추천 모델
      • Exploring multiobjective exercise recommendations in online education systems

 

---

 

 

 

5 Knowledge Tracing Future Research Directions

---

 

 

 

6 Conclusion

본 논문에서는 knowledge tracing에 대한 포괄적인 조사를 제공한다.