A knowledge tracing prediction model for learning trajectories

Yifei ZHANG; Jiajin ZHANG; Kaijun GUAN; Yuxue ZHANG

doi:10.3969/j.issn.2095-1248.2024.03.009

Journal of Shenyang Aerospace University >

2024 , Vol. 41 >Issue 3: 61 - 70

DOI: https://doi.org/10.3969/j.issn.2095-1248.2024.03.009

Information Science and Engineering

A knowledge tracing prediction model for learning trajectories

Yifei ZHANG ,
Jiajin ZHANG ,
Kaijun GUAN ,
Yuxue ZHANG

Expand

College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China

Received date: 2024-02-15

Online published: 2024-08-30

Fold

Abstract

Based on the transformer architecture，a knowledge tracing prediction model for learning trajectory was proposed， which solved the following problems in the field of knowledge tracing using the transformer architecture： the model lacked the learning of knowledge point information； the attention scores in the self-attention mechanism showed a long-tail distribution and required square computatio-nal overhead； the prediction strategy of the model lacked consideration of learners’ability. In the data preprocessing stage， LTKT used the knowledge integration mechanism in the field of education to integrate multiple knowledge points involved in the subject， and the integrated knowledge formed was used as input to the model along with other learning trajectory information； LTKT introduced a sparse self-attention mechanism according to the characteristics of the long-tail distribution of attention scores into the encoder and decoder structure， and embedded a position encoding containing absolute distance and relative distance in it， so that the deep attention mechanism could also learn the position relationship between topics. In the prediction strategy， LTKT used the bilinear layer to fuse the learning ability features extracted by the learning ability extraction module and the output of the decoder to comprehensively predict the student's answer performance at the next moment. Experiments were carried out on two real large public datasets， and compared with other excellent models. The results show that LTKT has significantly improved the AUC.

Key words： knowledge tracing; deep learning; sparse self-attention mechanism; forecasting strategy; integration knowledge

Cite this article

Yifei ZHANG , Jiajin ZHANG , Kaijun GUAN , Yuxue ZHANG . A knowledge tracing prediction model for learning trajectories[J]. Journal of Shenyang Aerospace University, 2024 , 41(3) : 61 -70 . DOI: 10.3969/j.issn.2095-1248.2024.03.009

随着智慧教育的发展，国家智慧教育平台等在线教辅系统逐步兴起，其适用范围覆盖了中小学和高校。起初，此类平台主要将视频课程发布到平台，只是便于学生学习和巩固知识点；其后，平台开始增设诸多辅助教学和管理的功能，例如课堂随测、课后作业、签到、课堂提问等。学生在完成相应的学习内容期间，会留下丰富的答题信息等各类学习过程数据，使用知识追踪方法可以对学生的学习轨迹进行建模，诊断学生知识水平的变化情况、预测学生未来的学习表现^［1］。知识追踪的预测结果可应用到众多教育领域，包括智能学习推荐、自动学习干预及学习者画像等，可辅助智慧教育环境的构建，促进学生更好地完成学习任务。因此知识追踪成为智慧教育发展中的重要环节^［2］。

早期的知识追踪主要以贝叶斯概率模型为主，随着深度学习的发展，使用循环神经网络构建知识追踪模型，模型准确性有了显著提升，逐渐成为知识追踪的主流。由于梯度消失或梯度爆炸等问题，循环神经网络在捕捉长期依赖性方面效果不佳，因此将transformer引入到知识追踪领域。transformer利用自注意力机制，同时考虑序列中的所有位置，可更好地捕捉长距离依赖关系。

随着教育信息化建设的不断深入，各平台所积累的学生学习记录日益详尽，时间跨度不断扩展。本文基于transformer架构对此类丰富多样的学习历程进行深入探究，将transformer迁移到知识追踪领域，将一条交互信息对应到输入序列中的一个标记（Token）。而题目与知识点之间一般都存在一对多的关系，即一个题目包含多个知识点，且每个题目对应的知识点数目不尽相同，输入形式上的不匹配限制了基于transformer的知识追踪模型对知识点信息的学习。随着序列长度的增长，自注意力机制中注意力分数的计算开销出现二次增加，并呈现长尾分布的现象，即注意力被分散到大量相关度低的试题。学生在答题过程中产生的各种信息都会隐含着学生的学习能力，学习能力的强弱影响答题时的决策，而隐含信息未被充分提取和利用。

综上，本文提出面向学习轨迹的知识追踪预测模型，主要创新和贡献如下：

（1）在数据预处理阶段，引入教育学领域的融通机制，将题目包含的多个互相独立的知识点进行融会贯通，所形成的融通知识和其他交互信息一同传递到模型中。

（2）在编码器解码器结构中，根据注意力呈现长尾分布的特点，引入稀疏自注意力机制并在其中嵌入包含绝对距离和相对距离的位置编码，将注意力集中于相似性更高的试题，同时使模型中深层结构同样接收到位置信息，并进一步降低自注意力机制计算的复杂度。

（3）在预测策略方面，构建学习能力提取模块，通过挖掘数据中的隐含信息，揭示学习能力的潜在表达方式。将提取到的学习能力特征作用于预测层，使用双线性层综合预测回答下一题目的正确性。

1 相关工作

1.1 知识追踪

知识追踪任务是根据学生的学习轨迹进行建模，评估学生的知识掌握水平并预测学生未来的答题表现。现有的知识追踪模型主要分为传统知识追踪模型和深度知识追踪模型两类。

传统知识追踪模型中最经典的是Corbett等^［3］提出的贝叶斯知识追踪（Bayesian knowledge tracing，BKT）模型。BKT将学生对每个题目知识点的掌握情况表示为一个二元变量，学生的知识水平标识为“掌握”或“未掌握”，采用隐形马尔科夫建模方法，将学生答题正确性作为观测序列，将学生知识水平作为隐藏状态，更新学生的知识水平进而预测学生答题的正确性，因此BKT的建模过程具有很好的解释性。但是BKT也具有一些不足之处：BKT假设学生不会发生遗忘现象，学生对知识点的掌握情况只会由“未掌握”转变为“掌握”，即学生在整个学习期间保持相同的学习能力。

由于深度神经网络具有强大的特征提取能力，研究人员开始使用深度学习中的网络结构对学生的历史答题信息进行建模。最初Piech等^［4］利用循环神经网络构建深度知识追踪（deep knowledge tracing，DKT）模型。DKT将学生的历史答题表现定义为

{x 1, x 2, …, x t}

，通过独热编码将

x t

转化为向量输入到模型中，计算隐藏状态

{h 1, h 2, …, h t}

以表示学生的知识水平，模型的输出序列定义为

{y 1, y 2, …, y t}

，表示学生在每一时刻答题正确的概率值。DKT在通用性和准确性上较传统模型有了很大的提升，但是DKT也存在不足之处，DKT模型仅仅依赖于习题涉及的知识点和答题的准确性，忽略了教育平台收集到的其他特征信息，而RNN结构存在梯度消失或梯度爆炸问题。

后续的研究中，Zhang等^［5］受键-值记忆网络启发，用键矩阵表示知识概念，动态的值矩阵用于储存和更新相应概念的掌握水平，相较于DKT中使用的隐藏层表示学生的知识状态更具可解释性。Pandey等^［6］使用缩放点积注意力机制替代了DKT中的循环神经网络，提高模型处理长序列的能力。Nakagawa等^［7］应用图神经网络构建知识追踪模型，知识点作为图的节点，边用来表示知识点之间的关联关系，将知识追踪问题重新表述为时间序列节点级分类问题。Lee等^［8］基于BERT架构构建知识追踪模型，将单调卷积多头注意力的权重作为遗忘因素的数值表示，并根据经典测试理论的嵌入策略提高模型的可解释性。王璨等^［9］基于时间卷积网络建立知识追踪模型，随着感受野的增大，模型可以更好地捕捉学生学习轨迹中的长期依赖关系。

1.2 融通机制

融通理念在教育领域已经获得广泛认可，主要解决分科教育的隔阂问题，鼓励学生以更全面的方式思考问题，培养学生的创造性思维和解决问题的能力^［10］。学科间的融通涉及不同学科的知识、概念和方法的相互结合，解决复杂的问题和挑战。在教学实践中，单一学科内很多知识点之间往往不是相互独立的，通常都会存在一定的内在联系，在拟定一个题目时，教师通常会考虑题目所涉及的知识点及它们之间的联系。一个好的题目应该能够涵盖多个相关的知识点，并且这些知识点之间的联系应促进学生对这些知识的全面理解。此外，不同题目涵盖的知识点数量各异，这种多对一的输入形式是知识追踪建模任务的难点。将涉及的多个知识点融合成新的融通知识，统一表示知识点信息，可以有效解决这一问题。

1.3 稀疏自注意力机制

在此之前已有学者将transformer^［11］架构迁移到知识追踪任务^［12-14］。transformer的预测准确性主要源于在编码器中使用自注意力机制，计算输入序列中每个题目和序列中其他题目的相关性，再根据题目之间的相关性更新输入序列中每个题目对于当前题目的作用程度、自主学习题目与题目之间的关系，这也是编码器的主要目的。在解码器结构中，根据解码器输入的历史答题正确性信息和编码器学习到的题目间的关系，自主学习题目信息和作答情况之间的关系，进而预测下一时刻的作答情况。

先前的一些研究揭示了自注意力的分布具有潜在的稀疏性^［15］。为解决这一问题，Zhou等^［16］提出一种稀疏自注意力机制，其方法不需要计算全部位置之间的相似度。其实现依据是

K

与少量对注意力有贡献的

q

来计算注意力分数。用得到的注意力分数更新对应的

v

，其余部分

v

不进行自注意力的计算，而是替换为对应的均值。稀疏注意力机制不仅可以捕捉到序列中更为重要的信息，也将计算复杂度由

O (L 2)

降低至

O (L l n L)

。

2 模型设计

在线教辅平台的广泛应用积累了大量的真实数据。为更好地建模长序列数据并提高模型性能，对比了知识追踪主流的网络结构。在此基础上，本文基于transformer架构提出面向学习轨迹的知识追踪预测模型（LTKT），模型结构如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 LTKT模型结构图

2.1 问题定义

学习轨迹指学生使用在线教辅系统进行交互产生的交互信息，本文将学生的学习轨迹分为两类：一类是题目信息，是题目本身所固有的信息；另一类是答题过程信息，是学生在完成题目过程中产生的信息；此外将答题正确性信息作为标签。题目信息

M

包含题目集

Q

、知识点集

P

、能力类别集

S

和难度集

D

。题目q_i （

q i ∈ Q

）涉及一个或多个知识点，并属于一种能力类别，能力类别指题目所锻炼的某种能力，比如题目

q 1

锻炼学生短文填空能力。学生答题产生的时间信息包含答题花费时间

a t

和答题间隔时间

i t

。答题动作信息指查看上一题解析动作，学生在回答习题

q i

前是否查看了

q i - 1

的解析。答题正确性信息指学生回答客观题目

q i

所对应的答题结果，用一个二元组表示r

r ∈ 0,1

。

学生的学习轨迹表示为

X = (x 1, x 2, …, x t)

，知识追踪任务的目标则表示为

P = r t + 1 = 1 | X t, M t + 1

，即给定学生的学习轨迹

X

和下一时刻所要回答的题目信息

M t + 1

，模型可预测下一时刻学生回答正确的概率

P

。

2.2 模型设计

2.2.1 输入模块

将题目信息传入编码器，提取学习题目间的关联关系；将答题过程信息和标签输入解码器，进行动态预测；将题目信息和答题结果传入学习能力提取模块，发掘信息中隐含的学习能力状态。

学习轨迹传递到模型中，需要将离散的数据通过词嵌入转化为固定维度的嵌入向量。由于每个题目包含数目不等的多个知识点，知识点的嵌入方式没有一个确切的方法，导致以往应用transformer的知识追踪模型没有将知识点信息嵌入到模型中。如将知识点分隔为多个维度，在缺失的位置用“0”填充，可将知识点信息输入到模型中，但这种操作会导致数据产生稀疏性。于是本文提出在数据预处理过程，将多个知识点进行融会贯通，形成的融通知识作为模型的一个学习维度，其构造如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 融通知识的构造图解

首先将知识点映射为高维的知识向量，构造知识向量表，每个知识点经过映射后仍然具有唯一性，如式（1）所示。

T = {v 1, v 2, . . ., v j, . . ., v n}, v j = E m b e d d i n g (p j)

（1）

从题目角度出发，题目和知识点的关系是一对多的，且每个题目包含的知识点个数也有所不同。根据题目对应的知识点索引找到对应的知识向量进行加和运算，在每个向量维度上对多个知识点的信息进行融合，融合后的知识向量表示原有的多个知识点的信息。再进行主特征提取，保留高维知识向量的主要信息，又将高维的知识向量降维至单一的知识点数值，但知识点数值的分布区间较小且数值以小数形式呈现。为此，使用最小值-最大值归一化方法将题目编号的数值区间映射到知识点数值，知识点便由整数表示。题目的多知识点融通处理计算公式如式（2）所示。

c o u n t i = P C A (v s u m i), v s u m i = ∑ m = 1 k i v j i

（2）

n o r m c o u n t i = c o u n t i - m i n (C o u n t) m a x (C o u n t) - m i n (C o u n t) (b - a) + a

（3）

式中：

k i

为题目

q i

包含的知识点数目；

c o u n t i

为

q i

的所有知识向量经过加和运算与

P C A

主特征提取到的知识点数值；

C o u n t

为所有题目经处理后的集合（

c o u n t i ∈ C o u n t

）；

a

为题目编号的数值下限；

b

为题目编号的数值上限。

在数据预处理阶段将多个知识点信息融通为一个新的知识点。知识点信息同其他输入信息共同使用词嵌入的方式转化为嵌入向量，传递到模型中。

2.2.2 编码器与解码器模块

编码器与解码器模块由图1中的编码器和解码器组成。在编码器中，输入的题目信息以残差连接方式经过稀疏自注意力机制后进行加和运算与层归一化得到题目之间的内在关联，其后传递给Conv1D网络进行特征提取，这样的结构称为稀疏自注意力层。编码器中往往堆叠多个层结构，将题目信息映射到更抽象的表示空间，使模型更好地捕捉题目间的复杂关联。题目信息经编码器得到的输出作为

q o u t

和

k o u t

。注意力层的计算公式为

O a t t n = L N (i n p u t + S S A (i n p u t))

（4）

O l a y e r = L N (O a t t n + C o n v 1 D (O a t t n))

（5）

式中：

L N

为层归一化计算；

S S A

为稀疏自注意力计算；

C o n v 1 D

为一维卷积特征提取。

解码器由稀疏自注意力机制和传统的交叉自注意力机制构成。答题过程信息经稀疏自注意力机制得到输出

v o u t

，交叉自注意力机制使用传统的完全自注意力机制对

q o u t

、

k o u t

和

v o u t

进行自注意力计算，建立题目信息与答题过程信息之间的联系。

为进一步提升模型对序列信息的建模性能，本文在稀疏注意力机制中嵌入了包含绝对距离和相对距离的位置编码^［17］。绝对位置表示每个题目在序列中的绝对位置关系，如序列中的第一个题目、第二个题目。相对位置表示序列中题目间的位置差，如序列中第

i

个题目与第

j

个题目之间的距离，相对距离越大就表示两个题目之间的间隔越大。相对距离信息有助于模型判定序列中哪些题目对给定题目更重要。以往的位置编码仅表示了序列中不同位置的绝对距离，而忽略其间的相对距离，即表示出题目的先后顺序，没有体现序列中任意两个题目之间的相对距离。此外，以往的位置编码是同输入向量进行加和运算后传递到网络中的，随着网络深度的加深，经过多个注意力层后位置信息会有所损失。将位置编码直接嵌入到稀疏自注意力模块中，即使在网络末端的自注意力模块也会学习到题目间的位置关系。

由于稀疏自注意力机制中只有部分显著的

q

与

K

矩阵进行注意力分数计算，在维度和位置含义上都不满足嵌入条件。为此找到稀疏的

q i

和对应的索引如式（6）所示。

{q i, i} = m a x i, c (q i K ¯ T d - 1 L Q ∑ i = 1 L Q q i K ¯ d T)

（6）

式中

K ¯ ∈ R c × d

，由

K

中随机选取的

c

个

k j

组成。第一项为

q i

与

K ¯

的注意力分数，第二项为

Q

与 K 的注意力分数均值，相减后选取

Q

中最大的

c

个

q i

和对应索引值。

根据索引值截取对应位置的位置编码与稀疏注意力分数求和，对未来时刻的答题信息进行归一化为注意力权重，进而更新V。

A (q i, K, V) = s o f t m a x (f i l l m a s k (q i K T d + p o s i)) V

（7）

其中函数

f i l l m a s k

将上三角的数值填充为一个接近0的极小值，确保模型只关注当前和之前时刻的信息，以及对未来的信息未知。

模型在处理当前时刻的题目信息时，受稀疏自注意力的影响，更关注与当前题目最为密切的题目，并从中寻找题目之间的关联，进而对当前题目的掌握程度进行预测。如以往回答相似题目时都回答正确，可能对于这类题型的解题方法掌握较好、知识点运用熟练，在未来回答相似题目时，回答正确的概率也会较大。

2.2.3 学习能力提取模块与预测模块

学习能力提取模块如图1中的LAEM所示。题目信息与答题产生的信息被映射为高维向量后作为LAEM的输入序列，通过3层Conv1D卷积提取学习能力特征，每层的卷积核将输出通道数减半，将学习能力特征的维度进行压缩，压缩后的向量维度为原来的1/8。

每条输入序列的信息由同一个学生的学习轨迹组成，从卷积层得到的学习能力特征进行均值处理，每条序列对应得到当前学生的学习能力特征。经全连接层的维度对齐后，将捕获的学生能力特征同解码器的输出传递到预测模块，使用双线性层进行交互融合的特征提取，进而实现更为精准的预测。

3 实验

为评估本文提出的面向学习轨迹的知识追踪预测模型的有效性，在知识追踪任务中被广泛使用的大型真实数据集上进行实验，并与其他先进知识追踪模型进行比较，进行消融实验以验证本文方法的有效性。通过可视化实验阐明稀疏自注意力的作用效果。

3.1 数据集

EdNet^［18］是Santa系统收集到的真实数据集，系统辅助超78万用户进行托业考试的在线练习，整合了超过9 500条的学习交互记录，是知识追踪任务公开基准数据集中用户数目最多的。

Riiid2020是教育领域目前最新、最大的公开数据集，拥有近亿条交互信息，包含观看课程视频和完成试题两部分交互内容。

两个数据集中的数据类别存在一定差异，Riiid2020相对于EdNet丰富了动作信息，因此在模型输入上存在细微的差距。经过数据预处理后，EdNet的输入特征包含题目ID、技能类别ID、题目难度、融通知识、两次连续交互之间的间隔时间和答题花费时间；Riiid2020增加了动作信息，即是否查看了上一题目的正确解析。同时Riiid2020中的用户数量是EdNet的一半，在交互数量大致相同的情况下，每个学生的平均练习交互次数是EdNet的两倍，更有利于捕捉长期特征。数据集的详细信息如表1所示。

表1 数据集详细信息

数据信息	Riiid2020	EdNet
交互信息	99 271 300	95 293 926
学生	393 656	784 309
习题	13 523	18 143
知识点	127	189

3.2 实验设置

本文的实验在一台CPU为12th Gen Intel（R） Core（TM） i7-12700F处理器、GPU为NVIDIA GeForce RTX 3070的主机上进行训练，实验环境为PyTorch1.12.0，对于超参数的设置如表2所示。实验使用特征曲线下面积（AUC）作为性能指标，其取值范围在0到1之间。AUC越接近1，表示分类器的性能越好，能够更好地区分正例和负例，该指标同时也被广泛用于许多其他KT研究。

表2 实验超参数设置

参数	Riiid2020	EdNet
Embedding_dim	256	256
Model_dim	256	256
Head_num	8	8
Encoder_num	2	2
Decoder_num	2	2
Encoder_layer	2	2
Seq_len	100	100
Batch_size	64	64
Learning_rate	0.000 5	0.000 5
Sampling_factor	5	5

3.3 对比实验

DKT^［4］：DKT中学生的知识状态由LSTM的隐藏向量表示。

DKVMN^［5］：DKVMN利用键矩阵和值矩阵，分别存储每个问题的知识概念和每个学生对相应概念的掌握程度。

SAKT^［6］：SAKT使用transformer的编码器模块取代了DKT的LSTM模块。

SAINT^［12］：SAINT将transformer架构迁移到知识追踪任务中，完整的编码器解码器结构提高了预测精度。

SAINT+^［19］：在SAINT基础上丰富了输入信息，增加了两个时间维度。

AKT^［19］：AKT考虑到学习过程中不可忽略的遗忘行为，利用单调注意机制来追踪学生的知识状态。

LANA^［14］：LANA使用完整的transformer架构，增加了遗忘模块和表现模块，还在此基础上提出了针对不同水平学生的分层次训练。

为验证LTKT模型的预测性能，在EdNet和Riiid2020这两个数据集上与上述优秀的模型进行比较。DKT与DKVMN是较为经典的知识追踪模型，SAKT、AKT都使用注意力机制，SAINT、SAINT+和LANA则是使用完整的transform架构以及自注意力机制。实验中将数据集中的70%做为训练集，20%做为验证集，10%做为测试集，结果如表3所示。

表3 AUC值的对比实验结果 (%)

模型	EdNet	Riiid2020
DKT	76.38	—
DKVMN	76.68	—
SAKT	76.63	78.32
SAINT	78.16	—
AKT	—	79.01
SAINT+	79.13	79.56
LANA	80.59	80.56
LTKT	84.37	84.48

从表3中可知，在EdNet和Riiid2020数据集中，LTKT分别比之前的方法提高3.78%和3.92%，验证了本文提出的LTKT模型预测性能。

3.4 消融实验

为验证本文提出方法的有效性，在Riiid2020数据集进行消融实验。将基于transformer的知识追踪模型作为基础模型，用base表示；在输入中丰富融通知识的方法，用KI表示；在模型中进行学习能力提取并作用于预测层的方法，用LAE表示；将传统自注意力机制替换为嵌入位置编码的稀疏自注意力机制方法，用SA表示，消融结果如表4所示。

表4 消融实验结果 (%)

方法	AUC	增长量
Base	78.63	—
Base+KI	79.76	1.13
Base+LAE	80.51	1.88
Base+SA	81.26	2.63
Base+KI+LAE	80.67	2.04
Base+KI+SA	82.53	3.90
Base+LAE+SA	84.10	5.47
Base+KI+LAE+SA	84.48	5.85

表4显示，在Riiid数据集中，Base的AUC为78.63%，单独增加KI、LAE和SA改进方法都会给模型带来性能指标提升。

单独增加KI方法使得AUC指标提升了1.13%，表明模型可以有效学习到融通知识的信息，并结合知识点信息进行预测。单独增加LAE使AUC提升1.88%，在预测层结合模块提取到的学习能力特征进行预测可提升预测的准确性。单独增加SA的提升效果较好，AUC提升了2.63%，表明SA使模型更好地学习题目之间的相关性，关注序列中更为重要的部分，模型学习当前题目的信息时会参考其他相关程度高的题目的做题表现，例如学生完成其他相似的题目都为正确，表明学生对当前题目的解题方法较为熟练，对知识点的掌握程度较好，在未来的学习过程中遇到有相似解题方法的题目或含有相同知识点的题目时有很大概率回答正确。

由于模型以transformer为基础架构，其主要使用自注意力机制实现预测，因此对自注意力机制进行有效的改进会显著提升模型性能。在使用SA改进方法的基础上使用KI或LAE都会带来更大的增益效果，模型在预测准确性上分别进一步提升了1.27%和2.84%。最后，通过将所有改进方法结合在一起，KI+LAE+SA（LTKT）实现了84.48%的AUC，在Base基础上提升了5.85%，验证了本文提出方法的有效性。

3.5 可视化

由于自注意力机制中的注意力分数存在长尾分布现象，本文将编码器结构中的自注意力分数的分布情况进行了统计，如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 自注意力分数分布图

由图3可知，在自注意力机制中的

Q

与

K

进行点积对计算时，只有在极少数位置得到较大的注意力分数，少量位置得到0.05以下的注意力分数，而绝大多数位置的注意力分数接近0。在更新

V

时，较大注意力分数使

V

值产生显著的变化，较小的注意力分数对

V

的更新效果较小，却产生了较大的计算开销。

V

值更新后的可视化结果如图4所示。

显示原图|下载原图ZIP|生成PPT

图4 自注意力分数更新的 $V$ 值

图4中横向表示题目序列的长度，纵向表示单个自注意力头所要关注的32维向量。在更新后的

V

值中，每个维度对应值的范围大致相同，这表示在大多数情况下，每个维度的值更新幅度是相近的。序列中部分位置呈现出更显著的变化，这是由于这部分位置的题目信息特别突出或与其他位置的相关性较强，模型更关注位置的题目信息，使这些位置上的注意力分数较高，对应维度的值更新较显著。

稀疏自注意力方法生成的注意力分数更新

V

值的可视化结果如图5所示。模型选择部分显著的

q i

进行注意力分数计算，这使得模型更加关注这些位置的题目信息。选择的

q i

位置更偏向于序列的后侧，并且后侧位置的

v

值也产生了显著变化，这表明模型更多地关注序列中较靠后的位置，符合学生在学习过程中对较早知识的遗忘和对近期知识的依赖现象。通过集中注意力于特定位置，模型能够更有效地捕捉关键信息。相比全局性的自注意力机制，稀疏自注意力减少了计算开销。

显示原图|下载原图ZIP|生成PPT

图5 稀疏自注意力分数更新的 $V$ 值

4 结论

本文提出的面向学习轨迹的知识追踪预测模型（LTKT）在数据预处理阶段引入融通机制，将多知识点进行融会贯通，将形成的融通知识传递到网络中，作为模型学习的一个维度；在结构上，引入稀疏自注意力机制并嵌入位置编码，使模型更高效地捕捉题目间的关联性；在预测策略上，构建的学习能力提取模块将得到的学习能力特征作用于预测模块。在两个公开的真实数据集上进行对比实验，验证了本模型的有效性。

未来的研究工作将继续探究知识追踪模型的迁移性，推动知识追踪技术在智慧教育的多样化场景中灵活应用；其次是融入教育测量学内容，加强模型的可解释性。

References

Publishing order | Descend order by publishing year | Descend order by cited within

1	张凯，覃正楚，刘月，等.多学习行为协同的知识追踪模型［J］.计算机应用，2023，43（5）：1422-1429.

2	吴水秀，罗贤增，熊键，等.知识追踪研究综述［J］.计算机科学与探索，2023，17（7）：1506-1525.

3	Corbett A T， Anderson J R.Knowledge tracing：modeling the acquisition of procedural knowledge［J］.User Modeling and User‑Adapted Interaction，1994，4（4）：253-278.

4	Piech C， Bassen J， Huang J，et al.Deep knowledge tracing［C］//Proceedings of the 28th International Conference on Neural Information Processing Systems.Montreal：ACM，2015：505-513.

5	Zhang J N， Shi X J， King I，et al.Dynamic key‐value memory networks for knowledge tracing［C］//Proceedings of the 26th International Conference on World Wide Web.Perth：ACM，2017：765-774.

6	Pandey S， Karypis G.A self‑attentive model for knowledge tracing［EB/OL］.（2019-07-06）［2022- 03-10］.

7	Nakagawa H， Iwasawa Y， Matsuo Y.Graph‑based knowledge tracing：modeling student proficiency using graph neural network［C］//IEEE/WIC/ACM International Conference on Web Intelligence.Thessaloniki：ACM，2019：156-163.

8	Lee U， Park Y， Kim Y，et al. Monacobert：monotonic attention based convbert for knowledge tra-cing［C］//International Conference on Intelligent Tutoring Systems.Cham：Springer Nature Switzerland，2024：107-123.

9	王璨，刘朝晖，王蓓，等.TCN-KT：个人基础与遗忘融合的时间卷积知识追踪模型［J］.计算机应用研究，2022，39（5）：1496-1500.

10	欧阳子豪.学科核心素养的融通培养：现实诉求和基本策略［J］.中国教育学刊，2022（2）：34-39，98.

11	Vaswani A， Shazeer N， Parmar N，et al.Attention is all you need［C］//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach：ACM，2017：6000-6010.

12	Choi Y， Lee Y， Cho J，et al.Towards an appropriate query，key，and value computation for know-ledge tracing［C］//Proceedings of the Seventh ACM Conference on Learning @ Scale.Virtual Event：ACM，2020：341-344.

13	Shin D， Shim Y， Yu H，et al.SAINT+：integrating temporal features for EdNet correctness prediction［C］//11th International Learning Analytics and Knowledge Conference.Irvine：ACM，2021：490-496.

14	Zhou Y H， Li X H， Cao Y B，et al.LANA：towards personalized deep knowledge tracing through distinguishable interactive sequences［EB/OL］.（2021-04-21）［2022-05-15］.

15	Child R， Gray S， Radford A，et al.Generating long sequences with sparse transformers［EB/OL］.（2019-04-23）［2023-06-02］.

16	Zhou H Y， Zhang S H， Peng J Q，et al.Informer：beyond efficient transformer for long sequence time‑series forecasting［J］.Proceedings of the AAAI Conference on Artificial Intelligence，2021，35（12）：11106-11115.

17	Ke G L， He D， Liu T Y.Rethinking positional encoding in language pre‑training［EB/OL］.（2021-03-15）［2023-11-07］.

18	ChoiYoungduck，LeeYoungnam， ShinDongmin，et al. EdNet：a large‑scale hierarchical dataset in education［EB/OL］.（2019-12-06）［2023-10-15］.

19	Ghosh A， Heffernan N， Lan A S.Context‑aware attentive knowledge tracing［C］//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.Virtual Event：ACM，2020：2330-2339.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 相关工作

1.1 知识追踪

1.2 融通机制

1.3 稀疏自注意力机制

2 模型设计

图1 LTKT模型结构图

2.1 问题定义

2.2 模型设计

2.2.1 输入模块

图2 融通知识的构造图解

2.2.2 编码器与解码器模块

2.2.3 学习能力提取模块与预测模块

3 实验

3.1 数据集

表1 数据集详细信息

3.2 实验设置

表2 实验超参数设置

3.3 对比实验

表3 AUC值的对比实验结果 (%)

3.4 消融实验

表4 消融实验结果 (%)

3.5 可视化

图3 自注意力分数分布图

图4 自注意力分数更新的 V值

图5 稀疏自注意力分数更新的 V值

4 结论

References

图4 自注意力分数更新的 $V$ 值

图5 稀疏自注意力分数更新的 $V$ 值