融合习题特征信息的交叉注意力机制知识追踪模型

张翼飞; 关凯俊; 张加金

doi:10.3969/j.issn.2095-1248.2024.02.006

沈阳航空航天大学学报 >

2024 , Vol. 41 >Issue 2: 47 - 56

DOI: https://doi.org/10.3969/j.issn.2095-1248.2024.02.006

信息科学与工程

融合习题特征信息的交叉注意力机制知识追踪模型

张翼飞 ,
关凯俊 ,
张加金

展开

沈阳航空航天大学计算机学院，沈阳 110136

张翼飞（1976-），男，吉林白山人，教授，博士，主要研究方向：教育大数据、智慧教育技术，E-mail：zhangyifei@sau.edu.cn。

收稿日期: 2024-01-04

网络出版日期: 2024-05-29

基金资助

国家自然科学基金(62102271)

收起

Knowledge tracing model with integrating exercise feature information cross-attention mechanism

Yifei ZHANG ,
Kaijun GUAN ,
Jiajin ZHANG

Expand

College of Computer Science，Shenyang Aerospace University，Shenyang 110136，China

Received date: 2024-01-04

Online published: 2024-05-29

Fold

摘要

对学习者的知识掌握水平进行追踪是智慧教育的重要研究方向之一。传统深度知识追踪方法的关注点主要集中在循环神经网络上，但存在缺乏可解释性、长序列依赖等问题。同时，很多方法没有考虑学习者特征信息及习题特征对实验结果的影响。针对以上问题，提出了一种融合习题特征信息的交叉注意力机制知识追踪模型。该模型结合知识点和习题特征信息得到习题特征嵌入模块，再根据学习者回答情况对注意力机制进行改进，得到双注意力机制模块。考虑到学习者实际做题情况，引入基于注意力机制的猜想失误模块。首先，将习题特征信息输入到该模型中，通过习题特征嵌入模块得到融合习题特征信息的学习者反应；然后，经过猜想失误模块的处理，可以得到学习者的真实反应；最后，通过预测模块得出学习者下一次回答正确的概率。实验结果表明，融合习题特征信息的交叉注意力机制知识追踪模型相对于传统深度知识追踪（deep knowledge tracing，DKT）模型，接收者操作-曲线下面积（area under curve of the receiver operating characteristic，ROC-AUC）和预测准确率（accuracy，ACC）分别提高了3.13%和3.44%，能够很好地处理长序列依赖情况，并具有更好的可解释性和预测性能。

关键词： 智慧教育; 知识追踪; 交叉注意力机制; 循环神经网络; 习题特征信息

本文引用格式

张翼飞 , 关凯俊 , 张加金 . 融合习题特征信息的交叉注意力机制知识追踪模型[J]. 沈阳航空航天大学学报, 2024 , 41(2) : 47 -56 . DOI: 10.3969/j.issn.2095-1248.2024.02.006

Abstract

Tracing learners’mastery of knowledge is a pivotal research direction in the realm of wisdom education.Traditional deep knowledge tracing methods predominantly focus on recurrent neural networks，facing challenges such as the lack of interpretability and handling long sequence dependencies.Additionally，many methods overlook the influence of learner characteristics and exercise feature on experimental results.Addressing these issues，a cross-attention mechanism knowledge tracing model was proposed.The model integrated knowledge points and exercise feature information to obtain a question feature embedding module.Subsequently，improvements were made to the attention mechanism based on learner responses，resulting in a dual attention mechanism module.To account for real exercise-solving situations，a guess-error module based on attention mechanism was introduced.firstly，the model took in exercise features information，obtaining a learner response with integrating exercise information through the exercise features embedding module.Following processing by the guess-error module，authentic learner responses were derived.Finally，the prediction module yielded the probability of a learner answering correctly in the next instance.Experimental results demonstrate that the cross-attention knowledge tracing model，incorporating exercise features，outperform the traditional deep knowledge tracing （DKT） model，with 3.13% increase in AUC and 3.44% increase in ACC.This model proves effective in handling long sequence dependencies while exhibiting enhanced interpretability and predictive performance.

Key words： wisdom education; knowledge tracing; cross-attention mechanism; recurrent neural network; exercise feature information

随着智能辅导系统（intelligent tutoring systems，ITS）的快速发展，许多在线学习平台应运而生，如大规模开放在线课程等。文献［1］介绍了为学生提供远程支持的慕课。此外，还有网易公开课和国家智慧教育公共服务平台等。这些平台为学习者提供开放的学习资源，学习者可以通过自学来获得知识，同时平台也可以根据学习者个体学习情况向其推荐个性化的学习内容。如何准确掌握每个学习者的知识水平和学习状态是其重要前提。文献［2］介绍了智能辅导系统中的一个重要任务，其目标是根据学习者与系统的互动历史，对每个学习者的知识状态（knowledge state，KS）建模，确定学习者对各知识点的掌握情况。在智能辅导系统上，可以通过跟踪学习者对特定练习的完成质量来确定学习者对知识点的掌握水平。

通常，知识追踪任务被定义为一个监督序列学习问题。文献［3］中给定一个学习者在时间戳t之前的互动序列，预测学习者在下一个时间戳上正确回答一个习题的概率，即将输入作为一个元组，该元组包含当前时间戳上的习题和学习者对该习题的响应。

早期的知识追踪发展可以分为两类。文献［4］研究了贝叶斯知识追踪（Bayesian knowledge tracing，BKT）模型，第一类方法集中在该模型，学习者的知识状态由一个二元组表示，随着学习者不断地练习，对知识点的掌握也会发生动态变化。该模型使用隐马尔可夫模型（hidden Markov model，HMM）建模学习者知识状态的演变。文献［5］研究了项目反应理论（item response theory，IRT）模型，第二类方法集中在该模型，IRT最早在心理学领域使用，目的是做能力评估。在知识追踪领域，IRT模型的目的是反映学习者的个体差异来预测学习者的知识掌握。与该模型有关的研究主要有：文献［6］研究了加法因子模型，文献［7］研究了性能因子分析、难度及能力，文献［8］研究了难易程度与学习历史（difficulty ability and study history，DASH）模型，文献［9］研究了因子分解机和DASH模型的扩展，文献［10］研究了DAS3H模型在其知识状态变化模型中使用手工设计的特征，例如每个知识点上的尝试次数、成功次数和失败次数。这两类方法的缺点是需要依赖于专家标签将习题与知识点关联起来，优点是具有很好的可解释性，可以有效地估计每个学习者在专家定义的知识点上的知识水平。

近些年，随着深度学习在序列建模方面的发展，启发了多种模型的设计，如文献［11］研究了深度知识追踪，文献［12］研究了知识追踪动态键值内存网络（dynamic key-value memory networks for knowledge tracing，DKVMN），文献［13］研究了知识追踪自注意力模型（self-attentive model for knowledge tracing，SAMKT）。这些模型旨在捕捉习题和知识点之间的关系。Xiao等^［14］提供了特征提取方法，并使用多头自注意机制融合多种特征。Liu等^［15］扩展了具有注意力机制的练习增强循环神经网络（exercise-enhanced recurrent neural network with attention mechanism，EERNNAM），并提出一个可解释的基于注意力机制的练习感知知识追踪（exercise-aware knowledge tracing，EAKT），将学生的知识状态从EERNNAM中的集成向量表示扩展为具有多个向量的矩阵，特别是使用动态贝叶斯网络对知识概念之间的先决关系建模，并将其纳入DKT模型中。然而，这些方法中模型注意力层相对较浅、没有对查询（query）、键（key）、值（value）进行充分发掘建模且可解释性相对较低。早期的知识追踪方法在可解释性方面表现出色，但对未来学习者表现的预测能力不够先进。因此，这些知识追踪方法不能很好地满足学习者的个性化学习需求。个性化学习不仅需要准确地预测性能，还需要根据实际情况考虑可解释性的问题，才能帮助学习者提升知识掌握水平。因为主观题目存在难以量化等问题，所以当前大多数模型的数据集主要以客观题目为主，但是客观题目只能体现学生对于基础知识的掌握情况，而无法考查学生对知识的应用能力。针对以上问题，本文提出了一种融合习题特征信息的交叉注意力机制知识追踪模型，通过使用交叉注意力机制对学习者过去回答的习题、知识点以及回答情况进行关联。

1 相关工作

1.1 知识追踪

知识追踪（knowledge tracing，KT）是智能教育领域的重要任务，用于追踪每个学习者的知识状态，以便预测他们在未来的练习活动中的表现，即评估学习者的知识状态。已有的研究主要集中在传统机器学习方法和深度神经网络（deep neural network，DNN）方法两个方面。传统方法中最具有代表性的模型是基于贝叶斯网络的知识追踪模型。深度神经网络方法中提出了许多DKT扩展方法。例如，Yeung等^［16］指出了DKT中无法在预测结果中重现观察到的输入信息问题，并通过预测一致性正则化技术来解决此问题。Minn等^［17］将学生的学习能力信息引入到DKT中。Nagatani等^［18］通过遗忘行为增强DKT。Oya等^［19］提出了基于transformer的方法，强调不同知识概念（knowledge concept，KC）的权重。Liu等^［20］使用二部图表示问题与概念之间的复杂关系。文献［21］介绍了基于图神经网络的知识追踪模型，建立了技能关系图，并使用图神经网络（graph neural network，GNN）探索知识点之间的复杂关系。Ding等^［22］提出了一些基于循环神经网络（recurrent neural network，RNN）的方法来对相互作用的长依赖性进行建模。近年来，注意力机制在知识追踪建模中十分流行，其主要目的是捕获数据之间的长期依赖关系。

1.2 注意力机制

注意力机制是模型在处理序列数据时，通过对输入的不同部分分配不同的权重来决定信息重要性的方法，其核心思想是模拟人类在处理任务时的注意力分配机制，类似于人类在解决问题时会集中注意力于相对重要的信息。注意力机制使得模型能够在预测输出时专注于与当前任务相关的输入部分。注意力机制的基本原理是通过计算输入的查询（query）和键（key）之间的相关性，得到一个表示查询与键相关性的分数矩阵。这个分数矩阵可以表示为在输入中不同位置重要性的权重。然后，对这个分数矩阵的结果进行归一化处理，得到一个概率值，即注意力权重。在所提出的模型中，使用注意力机制来学习与前面答题情况相对应的注意力权重，用于预测学习者是否会在下一个习题中给出正确答案。模型能够更好地处理长期依赖关系和局部上下文信息，提高模型性能和泛化能力。然后，通过增加模型维度、引入猜想模块及本文定义的交叉注意力机制来进一步增强模型的性能。

1.3 Rasch模型

Rasch模型是项目反映理论（IRT）的特殊形式，是一种基于概率的测量模型，其在20世纪50年代由丹麦数学家Georg Rasch提出。该模型旨在建立学习者能力和问题难度之间的概率关系，从而实现客观的测量。Rasch模型的应用领域非常广泛，一般应用于教育和心理测量领域。Rasch模型的核心思想是一个人在一个特定问题上成功的概率取决于他的能力和该问题的难度。Rasch模型的优势在于其能够为个体和问题提供线性度量，进行客观的比较和评估。该模型允许根据个体的回答模式估计他们的能力和问题的难度，并且将估计结果转换为可比较的数值。通过使用Rasch模型，研究人员可以评估测试的有效性、确定问题项目、调整测试难度，并提供个性化的测量结果。在知识追踪领域应用Rasch模型嵌入习题和知识点可以体现涵盖相同知识点的不同习题之间的密切联系，并且存在着重要的个体差异。本文将习题涵盖的知识点和习题本身与Rasch模型相结合，在此基础上，增加了习题分类这一维度，增加了模型的可解释性，同时也提高了模型的性能。

2 模型

2.1 问题定义

每个学习者的答题表现由每个离散时间戳上的一系列习题、知识点和回答情况组成。对于时间戳

t

上的学习者i，本文使用元组

(q t i, c t i, r t i)

表示他们回答的习题、该习题涉及的知识点及回答情况。其中，

q t i ∈ N +

，表示习题的索引；

c t i ∈ N +

，表示知识点的索引；

r t i ∈ 0,1

，表示回答得是否正确。例如，

(q t i, c t i, 1)

表示学习者

i

在时间t正确回答了涉及知识点

c t i

的习题

q t i

。在接下来的讨论中，忽略上标i，着重探讨如何预测单个学习者的未来表现。给定学习者在时间

t - 1

之前的历史记录

q 1, c 1, r 1, …, q t - 1, c t - 1, r t - 1

，本文的目标是预测他们在当前时间戳t对习题

q t

关于知识点

c t

的响应

r t

。

采用嵌入向量

x t ∈ R D

和

y t ∈ R D

来分别表示每个习题

q t

和每个习题r_t，即回答对

(q t, r t)

。其中，向量

x t

描述了习题的相关信息，而向量

y t

描述了学习者通过回答习题所获得的知识情况，其中正确和错误回答分别使用了不同的嵌入方式。这里的D表示嵌入向量的维度大小。因此，假设总共有

Q

个习题，会有

Q

个习题嵌入向量和

2 Q

个习题，即回答嵌入向量。在许多实际教育场景中，习题库的规模通常大于知识点的规模，而且许多习题只分配给了少数学习者。因此，大多数现有的知识追踪方法使用知识点来索引习题，以避免过度参数化。所有涉及同一知识点的习题被视为一个习题。在这种特殊情况下有

q t = r t

，同时习题的数量

Q

等于知识点的数量

C

。

2.2 模型概述

本模型由4个模块组成：习题特征嵌入模块，包括习题知识点嵌入层；双注意力模块，包括基于自注意力层和交叉注意力层的知识状态编码器；知识获取模块，包括正常答题层和猜想失误层；前馈响应预测模块，包括预测网络。图1显示了本文所提出模型及相关组件。

显示原图|下载原图ZIP|生成PPT

图1 融合习题特征信息的交叉注意力机制模型框架

首先，通过嵌入模块将数据转化成具有关联的向量，进入双注意力模块，通过注意力对学习者的知识状态进行判断，再进入知识获取模块获取学习者的知识状态并将其输入到前馈预测模块，最终输出学习者的知识状态。

2.2.1 融合习题特征的知识追踪模型

（1）基于Rasch模型的嵌入

为了反映涵盖相同知识点的习题之间的个体差异，本文使用了Rasch模型（也称为1PL IRT模型）构建原始的习题和知识嵌入向量。Rasch模型通过习题的难度和学习者的能力两个标量来描述学习者回答习题正确的概率。尽管该模型十分简单，但在知识静态的正式评估中，在学习者表现预测方面它已经能够达到与更复杂模型相当的性能。

Rasch模型基于知识点和习题构建了嵌入向量 x

x R E = k s + μ q d s

（1）

式中：

k s

为当前习题所涵盖的知识点的嵌入向量；

d s

为总结涵盖该知识点的习题变化的向量，与知识点数量相关；

μ q

是一个标量难度参数，与习题数量有关，用于控制该习题与其所涵盖知识点的偏离程度。相应的

y R E

也类似地使用标量难度参数

μ q

进行扩展，其表示如下

y R E = v (s, r) + μ q t f (s, r)

（2）

式中：

v (s, r)

和

f (s, r)

分别为知识点回答情况的嵌入向量和变化向量。

（2）习题特征嵌入框架

习题特征嵌入框架由基础嵌入和习题分类辅助嵌入两部分组成。本文将这个框架称为习题特征嵌入框架。基础嵌入作为核心组件，用于生成知识点的Rasch模型嵌入向量和变化向量

d s

，以及知识点-回答情况的变化向量

f (s, r)

，这两个变化向量将用于习题分类辅助嵌入。习题分类辅助嵌入提供了对学习者学习难度的影响效果，可以反映习题难度的标量参数

δ f q

。

x

表示习题的嵌入，

y

表示习题和回答嵌入。用知识点和习题分类这两个特征来表示习题之间的差别，目的是提高预测准确性。

由两个组件生成的最终 x 嵌入形式如式（3）所示。

x = k s + μ q d s + δ f q d s

（3）

x

与

y

相对应的嵌入形式如式（4）所示。

y = v (s, r) + μ q f s, r + δ f q f (s, r)

（4）

2.2.2 基于交叉注意力的知识追踪模型

基于交叉注意力的知识追踪模型包括自注意力机制和交叉注意力机制两方面，分别提取不同情况下学习者的知识掌握状态。首先，讨论自注意力机制如何获取 x 和 y 的内部特征；然后，讨论所定义的交叉注意力如何整合这两部分之间的联系；最后，通过多头注意力增强效果。

嵌入层：由嵌入层输出的习题嵌入序列

[x 1, x 2, ⋯, x t]

组成的习题嵌入矩阵

X

和习题-回答情况嵌入序列

[y 1, y 2, ⋯, y t]

组成的矩阵

Y

。

自注意力层：首先从过去的互动中确定相关的知识概念，然后根据学习者在这些知识概念上的表现来预测其表现。预测学习者在特定习题上的表现时给之前回答的习题分配权重。在本文所提出的模型中，使用缩放的点积注意力机制。该层用于找到与之前解决的每个习题相关的权重，以预测当前习题的正确性。本文使用式（5）来获取查询和键值对。

Q = X W Q, K = X W K, V = X W V

（5）

Y 同理。

交叉注意力层：将经过自注意力层得到的上下文感知习题嵌入序列

x ˙ 1, x ˙ 2, ⋯, x ˙ t

和上下文感知的习题-回答情况嵌入序列

y ˙ 1, y ˙ 2, ⋯, y ˙ t

作为交叉注意力层的输入，使用

K = Y W K

作为键，

Q = X W Q

，

V = X W V

分别作为查询和值，用于找到之前已解决的每个知识点的回答情况与当前待解决习题之间的联系，以预测当前习题回答的正确性。然后对query和key进行点积运算，使用softmax激活函数进行归一化处理，得到注意力权重

s f m i = Q K d, i ∈ [1, t - 1] M a s k i n g Q K d, i ∈ [t, N)

（6）

α i = s o f t m a x s f m i = e x p (s f m i) ∑ i = 1 N e x p (s f m i)

（7）

式中：

1 d

为对点积操作进行缩放；

Q

为query矩阵； K 为key矩阵；考虑到学习者的知识状态是随时间变化的，因此使用 Masking表示掩码操作；设

t

时刻后的交互记录的权重为0，防止未来表现对当前的知识状态产生干扰。公式中得到的

α i

为注意力权重矩阵。因此，学习者的历史综合表现可以表示为注意力权重

α i

对历史交互

x i

的加权，如下式所示。

A t t e n t i o n Q, K, V = ∑ i = 1 t - 1 α i x i

（8）

多头注意力层：为了同时关注来自不同表示子空间的信息，本文使用不同的投影矩阵将查询、键和值进行线性投影，重复进行

h

次。

h

个注意力头的拼接结果通过

W O

进行乘法操作，以聚合不同注意力头的输出。这个拼接的张量是多头注意力网络的最终输出。

M u l t i H e a d X, Y = C o n c a t (h 1, ⋯, h h) W O

（9）

2.2.3 融合猜想模块的注意力机制知识追踪模型

在真实的教育环境中，学习者与习题互动时可能会出现猜想或失误的情况。这可能导致知识适应模块对每次互动过于敏感，从而在推理阶段导致预测混淆。因此，本文在知识检索器部分引入了猜想模块，知识检索器由正常答题和猜想模块两部分构成。在猜想模块中对没有回答情况的知识点进行建模，以捕捉学习者的知识变化。最后通过二者线性组合得到最终的知识状态

h t

。首先，正常回答检索器接受上下文感知的习题和习题-回答情况的嵌入作为输入，并输出当前习题检索到的知识状态

h t 1

；然后，外理猜想模块，猜想模块与正常回答检索器类似，但本文将接收上下文感知的习题和习题-回答情况嵌入作为输入，更新学习者与习题无关的知识状态

h t 2

，在接收到每个回答后，输出当前习题检索到的知识状态

h t 2

；最后，通过线性组合产生最终的知识状态

h t

。

2.2.4 可解释响应预测

最后一个模块用于预测学习者对当前问题的回答。预测模型的输入是将检索到的知识（知识检索器的输出

h t

）和当前问题的嵌入

x t

进行连接得到的向量；这个输入经过另一个全连接网络，并最终通过sigmoid函数生成预测概率

r^t ∈ [0,1]

，表示学习者回答当前习题正确的概率。所有可学习的参数都通过最小化所有学习者回答的二分类交叉熵损失进行端到端训练。

3 实验与结果分析

在本节中，首先介绍数据集和实验设置，然后比较真实数据集与其他基线模型，用以评估本文所提出的模型。通过预测未来学习者的反应来定量评估本文所提模型，通过一系列可视化和案例研究来定性评估本文所提模型。

3.1 实验设置

（1）数据集：本文基于励英网收集的有关于学习者编程的知识追踪数据集进行实验。该数据集包含自2013年以来收集的真实项目案例编程题和相应的用户响应。数据集中包含每个学习者的互动历史记录。互动历史是一系列记录，每个记录包含试卷唯一ID、题目创建时间知识点ID、每个用户的唯一ID、每个习题的唯一ID、每个习题所属的领域学科类别、学习者的响应及学习者提交回答的时间等特征。

（2）评估指标：本文使用领域中通用的5个指标来评估所有模型的预测性能。将预测问题视为一个分类任务，其中得分为1（0）的练习记录表示正（负）实例。本文主要关注两个指标，即预测准确率和ROC曲线下面积。通常，ACC或AUC的值为0.5，表示通过随机猜测的性能预测结果，数值越大越好；查准率和查全率是广泛用于信息检索和统计学分类领域的两个度量值，用来评价结果的质量，通常来说数值越大效果越好；F ₁-score同时考虑了精确度和召回率，取两个指标的调和平均值，当F1较高时说明实验方法比较有效。

（3）训练和测试：出于评估目的，本文对所有模型和数据集进行标准的k倍交叉验证（k=5）。因此，总数据集的20%用作测试集，80%用作训练集，然后在训练集上进行5折交叉验证。对于每个折叠，本文使用验证集执行早期停止，并调整每个KT方法的参数。

（4）本文模型：由于计算效率的原因，本文截断了长于200的学习者响应序列。如果一个学习者有200多个回答，会将他们的整个序列分解为多个较短的序列。每批数据大小batch_size设为64，使用Adam作为优化器。学习率为0.000 01，以确保整个批次可以放入机器的内存。

3.2 结果与讨论

对比实验：主要采用了知识追踪任务的常用指标，即预测学生回答特定问题正确率的任务表现的接收者操作-曲线下面积值和预测准确率。如上文所述，本模型的输出为特定习题上回答正确的预测值，将数据集中做出正确回答的题目结果记为1，根据训练集训练出的参数计算测试集集合上的AUC值。为了验证本模型的表现性能，与基于隐马尔可夫模型的BKT模型、基于循环神经网络的DKT模型、DKVMN模型、同样基于注意机制的上下文感知的注意力知识追踪（context-aware attentive knowledge tracing，AKT）模型及对抗训练增强知识追踪（enhancing knowledge tracing via adversarial training，ATKT）模型的测试表现进行了对比，结果如表1所示。

表1 不同KT模型的AUC与ACC

模型	AUC	ACC
BKT	0.781 3	0.699 5
DKT	0.861 0	0.781 2
DKVMN	0.864 3	0.790 2
AKT	0.878 0	0.802 0
ATKT	0.879 1	0.806 5
本文模型	0.892 9	0.815 6

从表1可以看出，本文所提出的模型AUC和ACC指标都优于使用循环神经网络的模型。通过对比可以发现，基于深度学习的方法要优于基于隐马尔可夫模型的BKT模型。另外，相比基于One-Hot 编码方式对知识点进行编码且直接描述每个知识点的掌握程度的DKT模型，使用嵌入表示的模型表现更好。对比同样基于注意力机制AKT和对抗训练增强知识追踪模型，本文采用交叉注意力模型的预测性能更佳且具有更好的可解释性。

消融实验：本文对所提出的习题特征、交叉注意力及猜想模块进行消融实验，结果如表2所示。

表2 不同模块的实验结果

基线模型	习题特征	交叉注意力	猜想模块	AUC	ACC	F1-score	召回率	精确度
√				0.878 0	0.802 0	0.765 0	0.747 8	0.783 8
√	√			0.883 4	0.807 1	0.768 9	0.744 7	0.795 1
√		√		0.888 0	0.810 9	0.776 3	0.761 0	0.792 7
√		√	√	0.891 7	0.812 8	0.778 8	0.764 6	0.793 9
√	√	√		0.888 9	0.811 5	0.776 6	0.759 6	0.794 5
√	√	√	√	0.892 9	0.815 6	0.781 7	0.765 7	0.798 5

从表2可以看出，无论是单独加入习题特征、交叉注意力及猜想模块还是两两相结合均能提高模型预测的准确性。其原因在于：首先，习题特征有助于反映涵盖相同知识点的不同习题的个性化难度，相比于无习题特征的模型，丰富了维度，从而提高了预测性能；其次，交叉注意力部分是为了找到学习者过往回答情况对下次答题表现的影响，将知识点、习题和回答情况基于注意力机制进行关联，从而提升了模型的预测性能；最后，引入猜想模块，增加了学习者给出回答可能有猜想或者失误的情况的一个考虑，同时增加了模型的可解释性。

4 结论

本文提出了一种基于注意力机制的知识追踪模型，该方法提出了一种交叉注意力机制，用于建立知识点、习题和回答情况以及一种基于注意力机制的猜想模块，并且对涉及特征的知识追踪模型进行建模。将该模型应用在真实的数据集上进行实验，验证了该方法的有效性。未来将从以下两点展开进一步的研究工作：一是融合更多的特征信息以改进嵌入方法，比如提示信息、答题时间等；二是将学习者的学习能力和习题难度与注意力机制相结合以准确地预测学习者的知识掌握水平。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

1	Boltz L O， Yadav A， Dillman B，et al.Transitioning to remote learning：lessons from supporting K‐12 teachers through a MOOC［J］.British Journal of Educational Technology，2021，52（4）：1377-1393.

2	Corbett A T， Anderson J R.Knowledge tracing：modeling the acquisition of procedural knowledge［J］.User Modeling and User-adapted Interaction，1994，4（4）：253-278.

3	Shen S G， Chen E， Liu Q，et al.Monitoring student progress for learning process-consistent knowledge tracing［C］//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining.Singapore：ACM，2021：1452-1460.

4	Yudelson M V， Koedinger K R， Gordon G J.Individualized Bayesian knowledge tracing models［C］// /International Conference on Artificial Inte- lligence in Education.Heidelberg：Springer，2013：171-180.

5	Cai L， Choi K， Hansen M，et al.Item response theory［J］.Annual Review of Statistics and Its App-lication，2016（3）：297-321.

6	Cen H， Koedinger K， Junker B.Learning factors analysis：a general method for cognitive model evaluation and improvement［C］//International Conference on Intelligent Tutoring Systems.Heidelberg：Springer，2006：164-175.

7	Pavlik Jr P I， Cen H， Koedinger K R.Performance factors analysis：a new alternative to knowledge tracing［C］//Proceedings of the 2009 Conference on Artificial Intelligence in Education.Heidelberg：IOS Press，2009：531-538.

8	Lindsey R V， Shroyer J D， Pashler H，et al.Improving students’long-term knowledge retention through personalized review［J］.Psychological Science，2014，25（3）：639-647.

9	Vie J J， Kashima H.Knowledge tracing machines：factorization machines for knowledge tracing［C］//Proceedings of the AAAI Conference on Artificial Intelligence.Hawaii：AAAI，2019：750-757.

10	Choffin B， Popineau F， Bourda Y，et al.DAS3H：modeling student learning and forgetting for optimally scheduling distributed practice of skills［EB/OL］.（2019-05-14）［2023-08-23］.

11	Piech C， Bassen J， Huang J，et al.Deep knowledge tracing［C］//Proceedings of the 28th International Conference on Neural Information Processing Systems：Volume 1.Montreal：ACM，2015：505-513.

12	Zhang J， Shi X， King I，et al.Dynamic key-value memory networks for knowledge tracing［C］//Proceedings of the 26th International Conference on World Wide Web.Perth：ACM，2017：765-774.

13	Pandey S， Karypis G.A self-attentive model for knowledge tracing［EB/OL］.（2019-07-16）［2023-08-27］.

14	Xiao Y， Xiao R， Huang N，et al.Knowledge tracing based on multi-feature fusion［J］.Neural Computing and Applications，2023，35（2）：1819-1833.

15	Liu Q， Huang Z， Yin Y，et al.Ekt：exercise-aware knowledge tracing for student performance prediction［J］.IEEE Transactions on Knowledge and Data Engineering，2019，33（1）：100-115.

16	Yeung C K， Yeung D Y.Addressing two problems in deep knowledge tracing via prediction-consistent regularization［C］//Proceedings of the Fifth Annual ACM Conference on Learning at Scale.London：ACM，2018：1-10.

17	Minn S， Yu Y， Desmarais M C，et al.Deep know-ledge tracing and dynamic student classification for knowledge tracing［C］//2018 IEEE International Conference on Data Mining （ICDM）.Singapore：IEEE，2018：1182-1187.

18	Nagatani K， Zhang Q， Sato M，et al.Augmenting knowledge tracing by considering forgetting behavior［C］//The World Wide Web Conference.San Francisco：ACM，2019：3101-3107.

19	Oya T， Morishima S.LSTM-SAKT：LSTM-en-coded SAKT-like transformer for knowledge tra-cing［EB/OL］.（2021-01-28）［2023-09-07］.

20	Liu Y， Yang Y， Chen X，et al.Improving know-ledge tracing via pre-training question embeddings［EB/OL］.（2020-12-09）［2023-09-13］.

21	Nakagawa H， Iwasawa Y， Matsuo Y.Graph-based knowledge tracing：modeling student proficiency using graph neural network［C］//IEEE/WIC/ACM International Conference on Web Intelligence.Thessaloniki：ACM，2019：156-163.

22	Ding X Y， Larson E C.Automatic RNN cell design for knowledge tracing using reinforcement learning［C］//Proceedings of the Seventh ACM Conference on Learning@ Scale.Dallas：ACM，2020：285-288.

Options

文章导航

模态框（Modal）标题

摘要