TUTORBENCH
收藏arXiv2025-10-03 更新2025-10-07 收录
下载链接:
https://huggingface.co/datasets/tutorbench/tutorbench
下载链接
链接失效反馈官方服务:
资源简介:
TUTORBENCH是一个专为评估大型语言模型(LLM)辅导能力而设计的数据集和评估基准。该数据集由人类专家精心策划的1490个样本组成,涵盖高中和AP课程。样本来自三个常见的辅导任务:生成针对学生困惑的适应性解释、对学生作品的反馈和评估,以及通过有效的提示生成促进主动学习。为了应对辅导的内在复杂性,样本附有特定的评分标准,用于评估模型响应。TUTORBENCH使用可靠的细粒度自动评估方法,该方法使用LLM-judge和样本特定的评分标准。我们评估了16个前沿的LLM在TUTORBENCH上的表现,并详细分析了它们的性能和行为。结果表明,没有一种前沿的LLM能够达到超过56%的得分,显示出巨大的改进空间。我们发现LLM在展现全面辅导技能方面存在不足,所有前沿模型在与这些技能相关的评分标准上都不到60%的通过率。我们还发现,不同的模型家族展现出不同的优势和局限性:Claude模型在支持主动学习方面表现优于其他模型,而在其他两种使用案例中则落后。通过发布TUTORBENCH,我们提供了一个全面且未饱和的基准,以指导下一代AI的发展。
TUTORBENCH is a dataset and evaluation benchmark specifically designed for assessing the tutoring capabilities of Large Language Models (LLMs). The dataset consists of 1,490 expert-curated samples covering high school and AP courses. The samples originate from three common tutoring tasks: generating adaptive explanations tailored to students’ confusion, providing feedback and assessment on student work, and facilitating active learning through effective prompting. To address the inherent complexity of tutoring, each sample is paired with specific grading rubrics for evaluating model responses. TUTORBENCH employs a reliable fine-grained automatic evaluation method that leverages LLM-judge and sample-specific grading rubrics. We evaluated 16 state-of-the-art LLMs on TUTORBENCH and conducted a detailed analysis of their performance and behaviors. The results indicate that no state-of-the-art LLM achieves a score exceeding 56%, revealing significant room for improvement. We find that LLMs lack proficiency in comprehensive tutoring skills: all state-of-the-art models achieve a pass rate of less than 60% on the grading rubrics related to these skills. We also discover that different model families exhibit distinct advantages and limitations: Claude models outperform others in supporting active learning, yet lag behind in the other two use cases. By releasing TUTORBENCH, we provide a comprehensive and under-explored benchmark to guide the development of next-generation AI.
提供机构:
Scale AI
创建时间:
2025-10-03
搜集汇总
数据集介绍

构建方式
TUTORBENCH数据集的构建采用了严谨的多阶段专家协作流程。首先由具备学士及以上学位且拥有相关学科教学经验的人类专家团队,针对高中及AP课程的六个STEM学科设计原始问题。随后专家们根据预设的三种辅导场景——适应性解释生成、评估反馈和主动学习支持,为每个样本编写特定的评分标准。为确保数据集难度,研究团队使用五个前沿大语言模型对样本进行测试,仅保留至少三个模型得分低于50%的样本,最终形成包含1490个样本的高质量数据集。
特点
该数据集最显著的特征在于其多维度的评估框架设计。每个样本均配备了由专家编写的特定评分标准,共计15220条标准覆盖了教学指导、风格语调、事实准确性等八个评估维度。数据集创新性地融合了文本与图像两种模态,828个样本包含学生手写或打印的工作图像,真实模拟了现实教学场景。此外,通过加权评分机制和细粒度技能标注,数据集能够精准评估模型在识别核心误解、提供替代方案等八个教学技能上的表现。
使用方法
使用TUTORBENCH进行评估时需遵循标准化的流程规范。研究者首先需根据三种辅导场景选择相应的系统提示模板,引导模型扮演教师角色。评估过程采用基于Claude Sonnet 4的LLM评判器,该评判器与人类专家的一致性达到0.78,超过中位人类专家水平。每个模型输出将根据样本特定的评分标准进行通过/失败判定,最终通过加权平均计算总体得分。这种自动化评估方法既保证了评估效率,又通过详尽的评分标准确保了评估的全面性和可靠性。
背景与挑战
背景概述
随着大型语言模型在教育领域的广泛应用,构建具备精准辅导能力的模型成为研究重点。TUTORBENCH由Scale AI团队于2025年提出,旨在系统评估模型在个性化教学场景中的核心能力。该数据集聚焦高中及大学先修课程,涵盖生物学、物理学等六门STEM学科,通过1490组专家标注的对话样本,重点考察模型在自适应解释生成、学习反馈评估和主动学习支持三大场景的表现。其创新性在于引入样本特异性评价量规与多模态输入设计,为人工智能教育应用建立了标准化评估体系。
当前挑战
该数据集致力于解决智能辅导系统在动态教学场景中的适应性挑战,要求模型具备精准诊断学生认知状态、生成个性化教学策略的能力。构建过程中面临双重挑战:其一需平衡学科广度与样本深度,通过多轮筛选保留至少三个前沿模型得分低于50%的高难度样本;其二是设计可量化的开放式评价体系,研发的15220条加权量规需同时满足自洽性、互斥性与全面性要求,并通过LLM裁判与人工标注者0.78的吻合度验证评估可靠性。
常用场景
经典使用场景
在人工智能教育领域,TUTORBENCH数据集被广泛应用于评估大型语言模型的辅导能力。该数据集通过构建师生对话场景,重点测试模型在三个核心教学环节的表现:生成适应性解释以应对学生的知识盲区,对学生的作业提供精准评估与反馈,以及通过提示策略促进学生的主动学习。这些场景模拟了真实教学环境中教师需要具备的关键技能,为衡量AI模型的数学辅导质量提供了标准化测试平台。
实际应用
在实际教育场景中,TUTORBENCH为开发智能辅导系统提供了重要参考依据。教育科技公司可依据其评估结果优化产品设计,使AI助手能够更准确地理解学生的困惑点,提供量身定制的解题指导。教师也能借助基于该基准开发的工具,快速获取学生作业的自动化分析,从而更高效地开展个性化教学。其多模态设计特别适用于处理学生上传的手写作业图像,极大提升了智能辅导系统的实用价值。
衍生相关工作
该数据集的发布催生了一系列教育人工智能的重要研究。基于TUTORBENCH的评估框架,研究者开发了更精细的教学能力分析工具,如针对不同认知层级的教学策略评估系统。同时,该数据集启发了后续多模态教育基准的构建,推动了结合视觉推理的教学助手研发。在模型优化方面,其提供的细粒度反馈为训练具备更强教学适应性的语言模型指明了方向,促进了教育专用AI模型的迭代升级。
以上内容由遇见数据集搜集并总结生成



