five

MathEDU

收藏
arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://anonymous.4open.science/r/MathEDU-4628/
下载链接
链接失效反馈
官方服务:
资源简介:
MathEDU数据集是由台湾阳明交通大学计算机科学系的研究人员创建的,旨在帮助学生在数学问题解决过程中获得个性化的适应性反馈。数据集包含了真实的学生解题过程,并附有教师反馈。它由4048个带注释的条目组成,包括错误类型、错误步骤和教师的反馈,旨在帮助学生纠正错误并提高解题能力。数据集的创建过程涉及六名学生的解题过程,由三位数学专家进行评分和反馈。数据集适用于评估大型语言模型在数学教育中的应用,旨在解决在线学习中缺乏个性化反馈的问题。

The MathEDU Dataset was developed by researchers from the Department of Computer Science at National Yang Ming Chiao Tung University, Taiwan, with the objective of assisting students in obtaining personalized adaptive feedback during mathematical problem-solving processes. The dataset includes real student problem-solving records paired with teacher feedback, consisting of 4,048 annotated entries covering error types, erroneous solution steps, and instructor feedback, aiming to help students correct mistakes and improve their problem-solving abilities. The development of this dataset involved the problem-solving workflows of six students, which were evaluated and supplemented with targeted feedback by three mathematics experts. This dataset is suitable for evaluating the application of Large Language Models (LLMs) in mathematics education, addressing the issue of insufficient personalized feedback in online learning.
提供机构:
台湾阳明交通大学计算机科学系
创建时间:
2025-05-23
原始信息汇总

MathEDU 数据集概述

数据集简介

  • 名称: MathEDU
  • 目的: 支持数学教育,纠正学生在数学问题解决中的错误
  • 数据类型: 真实学生解答与专家反馈标注

数据集结构

每个条目包含以下字段:

  • id: 唯一标识符,可映射到MathQA中的问题
  • student_id: 学生ID
  • student_answer: 学生最终答案
  • student_process: 学生解题过程(LATEX格式)
  • correct_or_not: 答案正确性标记(correct/wrong)
  • the_reason_why_student_cant_solve_ch: 学生解题失败原因(中文)
  • the_reason_why_student_cant_solve_en: 学生解题失败原因(英文)
  • teacher_review: 教师反馈字典,包含:
    • error_counts: 错误数量
    • error: 错误详情列表,每项包含:
      • error_type: 错误类型(如"Wrong mathematical operation/concept")
      • error_equation: 错误发生的具体解题部分
      • teacher_advice_ch: 教师反馈(中文)
      • teacher_advice_en: 教师反馈(英文)

示例条目

json { "id": 9420, "student_id": 5, "student_answer": "3:5", "student_process": "ratio of de: bc equal to the ratio of the area, Ans: 3:5", "correct_or_not": "wrong", "the_reason_why_student_cant_solve_ch": "", "the_reason_why_student_cant_solve_en": "", "teacher_review": { "error_counts": 1, "error": [ { "error_type": "Wrong mathematical operation/concept", "error_equation": "ratio of de: bc equal to the ratio of the area", "teacher_advice_ch": "觀念錯誤...", "teacher_advice_en": "The concept is incorrect..." } ] } }

运行指令

  • Llama3 8B评分: python llama3_8b_grading.py

  • Llama3 70B评分: python llama3_70b_grading.py

  • GPT-3.5评分: python gpt_3.5__grading.py

  • o1-mini评分: python o1_mini_grading.py

  • 响应分析: python response_analyze.py

  • GPT-4评分结果: python gpt4_llm_rating.py

  • 创建微调数据: python create_finetuned_data.py

  • Llama3 8B微调: bash huggingface-cli login –token "your_hf_token" !ACCELERATE_USE_FSDP=1 FSDP_CPU_RAM_EFFICIENT_LOADING=1 torchrun --nproc_per_node=4 train.py --config finetune.yaml

  • 微调模型推理: python inference.py –config finetune.yaml

依赖安装

pip install -r requirements.txt

搜集汇总
数据集介绍
main_image_url
构建方式
MathEDU数据集基于MathQA构建,通过移除多项选择题选项并将其转化为开放式任务,以全面评估学生的数学能力。研究团队招募了六名来自不同大学专业的学生,确保其回答涵盖不同技能水平。每位学生需解答750道题目,问题类型分布与原始数据集一致。学生解题过程以手写形式记录后转为LaTeX格式,确保机器可读性。随后,三位数学教育专家对学生的解答进行详细标注,包括错误类型、错误步骤及教师反馈,最终形成包含4,048条标注条目的数据集。
特点
MathEDU数据集的特点在于其真实性和多样性。数据集收录了学生在解决GRE级别数学问题时的实际解题过程,涵盖了不同难度和领域的问题,如代数、几何和概率等。每位学生的解题风格各异,有的简洁明了,有的则详细复杂,这为研究提供了丰富的数据支持。此外,数据集还包含了专家标注的错误类型和详细的教师反馈,为模型训练和评估提供了高质量的依据。数据集的多样性不仅体现在解题过程上,还反映在学生背景和问题类型的广泛分布上。
使用方法
MathEDU数据集的使用方法主要包括三个任务:答案准确性评估、解题错误识别和反馈生成。在答案准确性评估中,模型需判断学生解答的整体正确性;在解题错误识别中,模型需定位错误的步骤;在反馈生成中,模型需提供解释和建议以帮助学生理解错误。数据集支持两种评估场景:一种是时间序列分割,模拟模型有学生历史解答记录的情况;另一种是留一法,模拟冷启动场景。实验表明,微调后的模型在识别正确性方面表现良好,但在生成详细反馈方面仍有挑战。
背景与挑战
背景概述
MathEDU数据集由台湾阳明交通大学计算机科学系的Wei-Ling Hsu、Yu-Chien Tang和An-Zi Yen等人于2023年创建,旨在探索大型语言模型(LLMs)在数学教育中的应用潜力。该数据集包含GRE级别的数学问题及其真实学生的解题过程,并由数学专家标注了详细的教师反馈。MathEDU的构建基于MathQA数据集,通过收集6名不同专业背景大学生的解题过程,形成了4,048条标注数据。该数据集的核心研究问题是:如何利用LLMs评估学生的数学解题过程并提供个性化反馈,以弥补在线学习中即时反馈的不足。MathEDU通过提供详细的错误类型标注(如"错误数学运算/概念"、"计算错误"等)和教师反馈,为数学教育领域的自适应反馈研究提供了重要资源。
当前挑战
MathEDU数据集面临的主要挑战包括:1) 领域问题挑战:数学解题评估需要模型具备强大的数学概念理解能力,以准确识别和分析学生的错误步骤,而当前LLMs在生成详细教学反馈方面仍有不足;2) 构建过程挑战:数据收集过程中需要处理学生解题风格的多样性(如简洁型与详细型解答),确保标注一致性(专家间标注一致性Krippendorff's Alpha为0.7818),以及将手写解答转换为机器可读的LaTeX格式。此外,在模型评估阶段,冷启动场景(面对新学生无历史数据)下的性能下降问题也凸显了模型泛化能力的挑战。
常用场景
经典使用场景
在数学教育领域,MathEDU数据集被广泛应用于研究如何利用大型语言模型(LLMs)为学生提供个性化的数学问题解决反馈。该数据集包含了真实学生的解题过程和教师提供的详细反馈,为研究者提供了一个宝贵的资源,用于探索LLMs在数学教育中的潜力。通过分析学生的解题步骤和错误类型,研究者可以训练模型来识别学生的错误并提供针对性的建议,从而帮助学生更好地理解和掌握数学概念。
实际应用
MathEDU数据集在实际应用中具有广泛的潜力。教育机构可以利用该数据集开发的模型来自动评估学生的作业,提供即时的个性化反馈,从而减轻教师的工作负担。此外,该数据集还可以用于开发智能辅导系统,帮助学生在家中进行自主学习。通过分析学生的解题过程,这些系统可以识别学生的薄弱环节,并提供针对性的练习和建议,从而提升学生的学习效果。
衍生相关工作
MathEDU数据集衍生了一系列相关研究,主要集中在如何利用LLMs改进数学教育。例如,有研究探索了如何通过微调LLMs来提高其在识别学生错误和生成反馈方面的准确性。此外,还有研究利用该数据集开发了多任务学习模型,同时处理答案准确性评估、错误识别和反馈生成等任务。这些工作不仅扩展了MathEDU数据集的应用范围,还为数学教育中的自动化评估和反馈提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作