MathTutorBench
收藏arXiv2025-02-26 更新2025-02-28 收录
下载链接:
https://github.com/eth-lre/mathtutorbench
下载链接
链接失效反馈官方服务:
资源简介:
MathTutorBench是一个开源的评估基准,旨在全面评估数学辅导模型的辅导能力。该数据集包含多个子数据集和评估指标,涵盖了对话式教学中的辅导能力。MathTutorBench的任务分为三个类别:数学专业知识、学生理解能力和教师回应生成能力,以全面评估对话辅导模型在数学辅导方面的表现。数据集来源于真实教师的互动,旨在解决个性化辅导模型在教育领域的应用问题。
MathTutorBench is an open-source evaluation benchmark designed to comprehensively evaluate the tutoring capabilities of math tutoring models. This dataset includes multiple sub-datasets and evaluation metrics, covering the tutoring abilities required in conversational teaching scenarios. The tasks of MathTutorBench are divided into three categories: mathematical subject expertise, student comprehension ability, and teacher response generation ability, enabling a holistic assessment of conversational tutoring models' performance in math tutoring. Derived from real teacher-student interactions, this dataset aims to address the practical application issues of personalized tutoring models in the educational field.
提供机构:
苏黎世联邦理工学院(ETH Zurich)
创建时间:
2025-02-26
搜集汇总
数据集介绍

构建方式
MathTutorBench 数据集的构建旨在全面评估数学辅导模型的开放式教学能力。该数据集涵盖了学习科学研究在基于对话的教学中定义的辅导能力的各个方面,包括数学专业知识、学生理解能力以及教师回应生成能力。为了评估开放式教师回应的教学质量,研究团队训练了一个奖励模型,该模型能够以高精度区分专家和初学者教师的回应。数据集包含了多个子数据集,每个子数据集都针对特定的教学能力进行评估,例如问题解决、苏格拉底式提问、学生解决方案正确性、错误定位和纠正等。此外,数据集还包含了由人类教师编写的1:1辅导对话,以确保数据的真实性和教育价值。
特点
MathTutorBench 数据集的特点在于其全面性和针对性。它不仅评估模型在数学问题解决方面的能力,还评估其在引导学生理解和纠正错误方面的能力。数据集使用了奖励模型来评估教师回应生成能力,这一创新方法能够更准确地反映教学质量。此外,数据集还包含了不同难度级别的任务,使得评估更加全面。最后,数据集的开源性使得研究人员可以轻松地使用和扩展。
使用方法
使用 MathTutorBench 数据集的方法主要包括以下几个步骤:首先,选择合适的评估任务,这些任务涵盖了数学专业知识、学生理解能力和教师回应生成能力。其次,准备模型输入,包括问题、对话历史和教师意图等信息。然后,运行模型以生成回应,并使用奖励模型对回应进行评分。最后,根据评分结果对模型进行评估和比较。此外,研究人员还可以使用数据集中的对话数据来训练和改进自己的模型。
背景与挑战
背景概述
MathTutorBench是一个开源的基准测试,旨在全面评估基于人工智能的辅导模型的教育能力。该数据集由ETH Zurich计算机科学系、ETH AI中心、Ubiquitous Knowledge Processing Lab (UKP Lab)以及ETH Zurich学习科学和高等教育教授职位的研究人员共同创建。MathTutorBench的核心研究问题是如何客观、准确地评估人工智能辅导模型的教育效果,特别是在数学辅导领域。该数据集的发布对教育技术领域产生了深远的影响,为开发和教育评估人工智能辅导模型提供了新的方向和工具。
当前挑战
MathTutorBench面临的挑战主要包括:1)评估人工智能辅导模型的开放性问题回答能力,例如如何评估模型在引导学生思考、诊断和纠正学生错误以及应用有效的教育技巧方面的能力;2)构建过程中遇到的挑战,例如如何收集高质量的数据集,包括由真实教师和学生之间的对话组成的数据集,以及如何设计能够客观反映教育质量的评估指标。MathTutorBench通过引入奖励模型来评估教育质量,并使用人类教师的对话数据进行训练,以区分专家和新手教师之间的回答,从而解决了这些挑战。
常用场景
经典使用场景
MathTutorBench是一个开源的基准测试,用于评估大型语言模型(LLM)在数学辅导方面的教学能力。它包含了一系列数据集和指标,旨在全面覆盖教学模型的能力,包括数学专业知识、学生理解能力以及教学能力。MathTutorBench的独特之处在于,它通过训练一个奖励模型来评估开放式教师回答的教学质量,并展示该模型能够以高精度区分专家和新手教师回答。该基准测试已经在多个封闭式和开放式权重模型上进行了评估,结果表明,学科专业知识并不直接转化为良好的教学能力,而是存在一种权衡,这种权衡由模型的教学专业化程度来调节。此外,随着对话的进行,教学变得越来越具有挑战性,简单的提问策略开始失效。
实际应用
MathTutorBench的实际应用场景包括但不限于教育技术、个性化学习和在线辅导。教育技术公司可以使用这个基准测试来评估和改进他们的辅导模型,确保它们能够提供高质量的教学。个性化学习平台可以利用MathTutorBench来开发能够适应不同学生需求和学习风格的智能辅导系统。在线辅导服务可以使用这个基准测试来选择最合适的教学模型,为学生提供个性化的学习体验。
衍生相关工作
MathTutorBench的发布促进了LLM辅导模型的发展,并引发了一系列相关的研究工作。例如,一些研究人员开始探索如何使用MathTutorBench来评估LLM辅导模型在更广泛的教育领域的性能,包括科学、技术和工程等领域。此外,一些研究人员开始开发新的评估指标和奖励模型,以更好地捕捉LLM辅导模型的教学质量。这些衍生工作有助于推动LLM辅导模型的发展,并为教育技术领域带来更多的创新和改进。
以上内容由遇见数据集搜集并总结生成



