five

CFE-Bench

收藏
github2026-02-24 更新2026-02-26 收录
下载链接:
https://github.com/Analogy-AI/CFE_Bench
下载链接
链接失效反馈
官方服务:
资源简介:
CFE-Bench是一个仅文本和多模态推理基准,由真实、多次使用的大学家庭作业和考试问题构建而成,这些问题来自教师维护的课程材料并由教授验证。它包含305个仅文本和144个多模态样本,涵盖物理、数学和其他STEM领域的20多个学科。CFE-Bench引入了基于变量的验证协议。

CFE-Bench is a text-only and multimodal reasoning benchmark constructed from real, repeatedly-used college homework and exam questions, which are sourced from course materials maintained by instructors and verified by professors. It contains 305 text-only and 144 multimodal samples, spanning over 20 disciplines across physics, mathematics and other STEM fields. CFE-Bench introduces a variable-based verification protocol.
创建时间:
2026-02-15
原始信息汇总

CFE-Bench 数据集概述

数据集简介

CFE-Bench(Classroom Final Exam)是一个基于真实、多次使用的大学作业和考试题目构建的推理基准。题目来源于教师维护的课程材料,并经过教授验证。该基准旨在评估大语言模型和视觉-语言模型在大学水平STEM问题上的表现。

数据集构成

数据集包含两个子集:

  • 文本子集:包含305个纯文本STEM问题,文件为CFE_text.json
  • 多模态子集:包含144个带有图表、绘图和符号表示的问题,文件为CFE_mm.json

学科覆盖

两个子集涵盖超过20个STEM领域,包括物理学、数学、电气工程、机械工程、化学、生物学、统计学、计算机科学等。

数据格式

每个数据条目以JSON格式存储,包含以下关键字段:

  • question.text:完整的问题陈述。
  • question.images:多模态问题相关的图像列表。
  • answer.text:完整的真实解决方案及推导过程。
  • short_answer_value:可验证的目标值列表。
  • short_answer_variable:与每个目标值对应的变量名称。
  • short_answer_description:指导变量提取的语义描述。
  • short_answer_type:每个答案的类型(数值、公式、其他)。
  • reasoning_flow:有序的推理单元列表,每个单元包含一个子问题和一个可验证的答案。

评估方法

评估采用基于变量的验证协议。真实变量定义为 V_gt = {(v₁, d₁, x₁), ..., (vₙ, dₙ, xₙ)},每个元组包含变量名称、语义描述和目标值。评估时从模型响应中提取特定变量值,并与V_gt进行比较。

评估流程

评估分为两步流水线:

  1. 生成响应:使用generate_responses.py脚本在基准测试上运行测试模型并保存生成的答案。
  2. 评估响应:使用evaluation.py脚本,通过LLM评判员从模型响应中提取变量值,并与真实答案进行验证。

评估指标

  • pass@k:在k个生成的答案中至少有一个正确的概率。
  • overall_question_accuracy:所有问题中完全正确(所有变量均正确)的生成答案的比例。
  • overall_avg_variable_accuracy:所有问题和所有生成答案的平均每变量准确率。

引用信息

如需引用,请使用以下BibTeX条目: bibtex @misc{gao2026classroomfinalexaminstructortested, title={Classroom Final Exam: An Instructor-Tested Reasoning Benchmark}, author={Chongyang Gao and Diji Yang and Shuyan Zhou and Xichen Yan and Luchuan Song and Shuo Li and Kezhen Chen}, year={2026}, eprint={2602.19517}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.19517}, }

搜集汇总
数据集介绍
构建方式
在高等教育领域,评估大型语言模型与视觉-语言模型在STEM学科上的推理能力,需要构建具备真实性与严谨性的基准数据集。CFE-Bench的构建过程严格遵循学术标准,其样本直接来源于大学教师长期维护并反复使用的课程材料,包括作业与考试题目,并由相关领域的教授进行内容验证。该数据集最终整合了305个纯文本问题与144个多模态问题,覆盖物理学、数学、电气工程等超过20个STEM学科,确保了问题来源的权威性与学科覆盖的广度。
特点
该数据集的核心特征在于其引入了基于变量的验证协议,旨在精准评估模型的推理能力。每个数据样本不仅包含完整的题目陈述与标准答案,还定义了可验证的目标变量、对应的变量名称、语义描述及类型。这种结构化设计使得评估能够聚焦于模型对特定知识点的掌握程度,而非笼统的文本匹配,从而有效减少了传统评估中常见的误判与模糊性。此外,数据集明确区分了纯文本与包含图表、符号的多模态问题,为评估模型在不同信息模态下的综合推理能力提供了可能。
使用方法
使用该数据集进行评估遵循一个清晰的两阶段流程。首先,用户需运行生成脚本,利用指定的语言模型API对数据集中的问题生成回答,并将结果保存为结构化JSON文件。随后,进入评估阶段,通过调用另一个作为评判官的LLM,依据数据集中预先定义的目标变量信息,从模型生成的回答中提取对应的变量值,并与标准答案进行比对验证。该比对过程支持处理数学等价性、单位转换与容错舍入,最终输出包括pass@k、整体问题准确率及变量级平均准确率在内的多项量化指标,为模型性能提供了多层次、细粒度的评估报告。
背景与挑战
背景概述
在人工智能领域,大型语言模型与视觉-语言模型在解决大学水平STEM问题方面仍显脆弱,现有推理基准常受潜在错误、模糊评分标准、学科狭窄性或性能饱和等问题困扰。为应对这一局限,CFE-Bench数据集应运而生,由Chongyang Gao等研究人员于2026年构建,其核心研究问题聚焦于评估模型在真实学术环境下的深度推理能力。该数据集源自教师维护的课程材料,包含305个纯文本与144个多模态样本,涵盖物理、数学等20余个STEM学科,通过引入基于变量的验证协议,显著提升了评估的精确性与可靠性,对推动教育人工智能与复杂问题求解研究具有重要影响力。
当前挑战
CFE-Bench旨在解决STEM领域复杂推理问题的评估挑战,其核心在于克服传统基准在学科广度、问题真实性与评估一致性上的不足。构建过程中,研究人员面临多重挑战:一是确保数据来源的学术严谨性,需从反复使用的大学作业与考试题目中筛选,并经教授验证以消除潜在错误;二是设计多模态样本的标准化表示,需整合图表、符号等非文本元素,同时保持问题结构的清晰性;三是建立可靠的变量验证协议,要求精确提取模型响应中的特定变量值,并处理数学等价性、单位转换与格式差异等复杂比对问题,以实现评估过程的高精度与低误报率。
常用场景
经典使用场景
在人工智能领域,特别是大语言模型与多模态模型的能力评估中,CFE-Bench数据集常被用作一个严谨的基准测试工具。其核心应用场景在于系统性地评估模型在解决大学STEM学科(如物理、数学、电气工程等)复杂问题时的推理能力。研究者利用其包含的305个纯文本和144个多模态真实考题,通过变量验证协议,精确衡量模型在分步推理、数值计算以及图表理解等方面的表现,从而为模型能力的横向与纵向比较提供了标准化、高保真的测试环境。
衍生相关工作
围绕CFE-Bench数据集,已催生了一系列关注高级推理评估的研究工作。这些工作主要沿着两个方向深化:一是改进评估方法学,例如开发更鲁棒、更高效的自动化评分模型与变量提取算法,以应对开放式答案的多样性;二是利用该数据集揭示的模型弱点,针对性设计新的模型训练范式或架构改进,特别是在增强模型的链式推理、数学演算以及多模态信息对齐能力方面。这些衍生研究共同推动了面向复杂、真实世界问题的AI系统向更可靠、更可信的方向发展。
数据集最近研究
最新研究方向
在人工智能与教育技术交叉领域,CFE-Bench作为基于真实大学课程材料构建的STEM推理基准,正推动大语言模型与视觉语言模型在复杂学术问题解决能力的前沿探索。其核心创新在于引入变量验证协议,通过提取模型响应中的特定变量值进行精准比对,显著降低了传统评估中的误判率,为模型在物理、数学等多学科深度推理性能提供了可靠度量。当前研究热点聚焦于利用该基准检验模型在跨模态情境下的符号理解与数学推导能力,尤其关注模型对图表、公式等非文本信息的整合与推理。这一进展不仅助力于揭示现有模型的认知局限,也为开发更具鲁棒性的教育辅助系统奠定了实证基础,标志着AI在高等教育应用场景中向严谨性、实用性迈出了关键一步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作