学生多项选择题响应数据集
收藏arXiv2025-02-21 更新2025-02-25 收录
下载链接:
http://arxiv.org/abs/2502.15140v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含3202个多项选择题,来源于三大教育评估平台,覆盖数学、生物、物理等六个核心学术领域。每个问题都有至少50名学生的回答,错误率超过5%,仅包含四个选项的问题。数据集旨在探究大型语言模型是否能捕捉到学生在选择题中常见的错误选择模式,为教育评估工具的设计提供实证基础。
This dataset comprises 3,202 multiple-choice questions sourced from three leading educational assessment platforms, covering six core academic fields including mathematics, biology, physics and other related disciplines. Each question is accompanied by responses from at least 50 students, with an incorrect answer rate exceeding 5%, and all questions feature exactly four answer options. This dataset is designed to investigate whether large language models (LLMs) can capture the common error selection patterns exhibited by students when solving multiple-choice questions, thereby providing an empirical foundation for the design of educational assessment tools.
提供机构:
莱斯大学
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
该数据集的构建方式涉及收集了3,202个多项选择题,这些问题涵盖了数学、生物学、物理学、社会科学、阅读理解和人文学科六个核心学术领域。这些题目来自三个知名的教育评估平台,并确保每个问题至少有50名学生的回答数据,且错误率超过5%。数据集还包含了学生对这些问题的选择分布,以便与大型语言模型(LLMs)的生成概率进行比较。
特点
该数据集的特点在于其全面性,涵盖了多个学科领域,并提供了真实世界中学生对这些问题的选择分布。这使得研究人员能够比较LLMs的生成概率与学生选择模式之间的相关性。数据集还展示了LLMs在生成概率和实际选择错误答案方面的行为,揭示了LLMs与学生在多项选择题中的误解模式之间的一致性。
使用方法
使用该数据集的方法包括对LLMs在多项选择题中的生成概率和学生选择模式进行比较。研究人员可以通过计算LLMs的生成概率和学生选择频率之间的相关性来评估LLMs是否捕捉到了学生的误解模式。此外,还可以通过分析LLMs在错误答案选择中的行为来进一步理解LLMs与学生的误解模式之间的联系。这些分析可以帮助开发更有效的教育评估工具,并改进LLMs在教育领域的应用。
背景与挑战
背景概述
学生多项选择题响应数据集的研究背景源于对大型语言模型(LLMs)在教育任务中的表现及其与学生学习模式的匹配程度的探索。LLMs在生成教育内容、提供个性化辅导和实时反馈等方面展现出显著能力,但它们在预测学生在多项选择题(MCQs)中最可能选择的错误选项(干扰项)方面的一致性仍需进一步研究。该数据集由Naiming Liu、Shashank Sonkar和Richard G. Baraniuk等研究人员于2025年在Rice University Houston, TX创建,旨在探索LLM生成概率与学生响应分布之间的关系,特别关注干扰项的选择。该数据集包含3,202个具有真实世界学生响应分布的MCQs,用于研究两个基本的研究问题:LLM生成的干扰项是否与学生更频繁选择的干扰项相匹配,以及当LLM选择错误答案时,它是否选择了学生最常选择的干扰项。该研究揭示了LLM生成概率与学生选择模式之间的适度相关性,以及当LLM犯错时,它们更可能选择与学生相同的错误答案。这些发现对教育评估发展具有重要意义,并为LLM在教育中的应用提供了新的机遇。
当前挑战
学生多项选择题响应数据集面临的挑战包括:1)理解LLMs如何捕捉学生选择干扰项的模式,以及这些模式是否与学生的认知过程一致;2)构建过程中所遇到的挑战,例如如何收集具有真实世界学生响应分布的MCQs,以及如何量化LLM生成概率与学生选择模式之间的关系。此外,LLMs在生成教育内容时的强大性能与它们在识别混淆干扰项方面与人类认知过程的差距,以及LLMs的推理过程与人类认知过程之间的差异,也是该数据集所面临的重要挑战。
常用场景
经典使用场景
学生多项选择题响应数据集(MCQs)在探究大型语言模型(LLMs)与人类学习模式之间的自然对齐方面具有重要作用。该数据集收集了具有实际学生响应分布的MCQs,用于分析LLMs在预测学生最可能选择的错误选项时的性能。经典的使用场景包括研究LLMs生成的概率与学生选择模式之间的相关性,以及LLMs错误选择与学生普遍误解模式之间的对齐程度。通过对LLMs的生成概率和学生选择频率的统计分析,研究人员可以评估LLMs在多大程度上能够捕捉学生的认知偏差和误解,从而为教育评估工具的开发提供洞见。
解决学术问题
学生多项选择题响应数据集解决了LLMs在教育任务中的对齐问题,特别是预测学生在MCQs中可能选择的错误选项。通过对LLMs生成的概率和学生选择模式的分析,该数据集揭示了LLMs在多大程度上能够捕捉学生的认知偏差和误解。此外,研究还发现,当LLMs选择错误答案时,它们倾向于选择与学生经常选择的相同错误答案,这表明LLMs在某种程度上能够反映学生的认知过程。这些发现对于教育实践具有重要意义,可以帮助开发更有效的评估工具和辅导系统,以更好地预测和解决学生的常见误解。
衍生相关工作
学生多项选择题响应数据集衍生了多项相关研究工作。例如,研究人员利用该数据集研究了LLMs在不同规模和架构下的性能差异,以及指令调整对LLMs捕捉学生误解模式的影响。此外,该数据集还被用于开发新的评估工具和辅导系统,以更好地预测和解决学生的常见误解。这些相关研究工作为LLMs在教育领域的应用提供了新的方向和思路,有助于推动教育技术的创新和发展。
以上内容由遇见数据集搜集并总结生成



