CFE-Bench

github2026-02-24 更新2026-02-26 收录

下载链接：

https://github.com/Analogy-AI/CFE_Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CFE-Bench是一个仅文本和多模态推理基准，由真实、多次使用的大学家庭作业和考试问题构建而成，这些问题来自教师维护的课程材料并由教授验证。它包含305个仅文本和144个多模态样本，涵盖物理、数学和其他STEM领域的20多个学科。CFE-Bench引入了基于变量的验证协议。

CFE-Bench is a text-only and multimodal reasoning benchmark constructed from real, repeatedly-used college homework and exam questions, which are sourced from course materials maintained by instructors and verified by professors. It contains 305 text-only and 144 multimodal samples, spanning over 20 disciplines across physics, mathematics and other STEM fields. CFE-Bench introduces a variable-based verification protocol.

创建时间：

2026-02-15

原始信息汇总

CFE-Bench 数据集概述

数据集简介

CFE-Bench（Classroom Final Exam）是一个基于真实、多次使用的大学作业和考试题目构建的推理基准。题目来源于教师维护的课程材料，并经过教授验证。该基准旨在评估大语言模型和视觉-语言模型在大学水平STEM问题上的表现。

数据集构成

数据集包含两个子集：

文本子集：包含305个纯文本STEM问题，文件为CFE_text.json。
多模态子集：包含144个带有图表、绘图和符号表示的问题，文件为CFE_mm.json。

学科覆盖

两个子集涵盖超过20个STEM领域，包括物理学、数学、电气工程、机械工程、化学、生物学、统计学、计算机科学等。

数据格式

每个数据条目以JSON格式存储，包含以下关键字段：

question.text：完整的问题陈述。
question.images：多模态问题相关的图像列表。
answer.text：完整的真实解决方案及推导过程。
short_answer_value：可验证的目标值列表。
short_answer_variable：与每个目标值对应的变量名称。
short_answer_description：指导变量提取的语义描述。
short_answer_type：每个答案的类型（数值、公式、其他）。
reasoning_flow：有序的推理单元列表，每个单元包含一个子问题和一个可验证的答案。

评估方法

评估采用基于变量的验证协议。真实变量定义为 V_gt = {(v₁, d₁, x₁), ..., (vₙ, dₙ, xₙ)}，每个元组包含变量名称、语义描述和目标值。评估时从模型响应中提取特定变量值，并与V_gt进行比较。

评估流程

评估分为两步流水线：

生成响应：使用generate_responses.py脚本在基准测试上运行测试模型并保存生成的答案。
评估响应：使用evaluation.py脚本，通过LLM评判员从模型响应中提取变量值，并与真实答案进行验证。

评估指标

pass@k：在k个生成的答案中至少有一个正确的概率。
overall_question_accuracy：所有问题中完全正确（所有变量均正确）的生成答案的比例。
overall_avg_variable_accuracy：所有问题和所有生成答案的平均每变量准确率。

引用信息

如需引用，请使用以下BibTeX条目： bibtex @misc{gao2026classroomfinalexaminstructortested, title={Classroom Final Exam: An Instructor-Tested Reasoning Benchmark}, author={Chongyang Gao and Diji Yang and Shuyan Zhou and Xichen Yan and Luchuan Song and Shuo Li and Kezhen Chen}, year={2026}, eprint={2602.19517}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.19517}, }

搜集汇总

数据集介绍

构建方式

在高等教育领域，评估大型语言模型与视觉-语言模型在STEM学科上的推理能力，需要构建具备真实性与严谨性的基准数据集。CFE-Bench的构建过程严格遵循学术标准，其样本直接来源于大学教师长期维护并反复使用的课程材料，包括作业与考试题目，并由相关领域的教授进行内容验证。该数据集最终整合了305个纯文本问题与144个多模态问题，覆盖物理学、数学、电气工程等超过20个STEM学科，确保了问题来源的权威性与学科覆盖的广度。

特点

该数据集的核心特征在于其引入了基于变量的验证协议，旨在精准评估模型的推理能力。每个数据样本不仅包含完整的题目陈述与标准答案，还定义了可验证的目标变量、对应的变量名称、语义描述及类型。这种结构化设计使得评估能够聚焦于模型对特定知识点的掌握程度，而非笼统的文本匹配，从而有效减少了传统评估中常见的误判与模糊性。此外，数据集明确区分了纯文本与包含图表、符号的多模态问题，为评估模型在不同信息模态下的综合推理能力提供了可能。

使用方法

使用该数据集进行评估遵循一个清晰的两阶段流程。首先，用户需运行生成脚本，利用指定的语言模型API对数据集中的问题生成回答，并将结果保存为结构化JSON文件。随后，进入评估阶段，通过调用另一个作为评判官的LLM，依据数据集中预先定义的目标变量信息，从模型生成的回答中提取对应的变量值，并与标准答案进行比对验证。该比对过程支持处理数学等价性、单位转换与容错舍入，最终输出包括pass@k、整体问题准确率及变量级平均准确率在内的多项量化指标，为模型性能提供了多层次、细粒度的评估报告。

背景与挑战

背景概述

在人工智能领域，大型语言模型与视觉-语言模型在解决大学水平STEM问题方面仍显脆弱，现有推理基准常受潜在错误、模糊评分标准、学科狭窄性或性能饱和等问题困扰。为应对这一局限，CFE-Bench数据集应运而生，由Chongyang Gao等研究人员于2026年构建，其核心研究问题聚焦于评估模型在真实学术环境下的深度推理能力。该数据集源自教师维护的课程材料，包含305个纯文本与144个多模态样本，涵盖物理、数学等20余个STEM学科，通过引入基于变量的验证协议，显著提升了评估的精确性与可靠性，对推动教育人工智能与复杂问题求解研究具有重要影响力。

当前挑战

CFE-Bench旨在解决STEM领域复杂推理问题的评估挑战，其核心在于克服传统基准在学科广度、问题真实性与评估一致性上的不足。构建过程中，研究人员面临多重挑战：一是确保数据来源的学术严谨性，需从反复使用的大学作业与考试题目中筛选，并经教授验证以消除潜在错误；二是设计多模态样本的标准化表示，需整合图表、符号等非文本元素，同时保持问题结构的清晰性；三是建立可靠的变量验证协议，要求精确提取模型响应中的特定变量值，并处理数学等价性、单位转换与格式差异等复杂比对问题，以实现评估过程的高精度与低误报率。

常用场景

经典使用场景

在人工智能领域，特别是大语言模型与多模态模型的能力评估中，CFE-Bench数据集常被用作一个严谨的基准测试工具。其核心应用场景在于系统性地评估模型在解决大学STEM学科（如物理、数学、电气工程等）复杂问题时的推理能力。研究者利用其包含的305个纯文本和144个多模态真实考题，通过变量验证协议，精确衡量模型在分步推理、数值计算以及图表理解等方面的表现，从而为模型能力的横向与纵向比较提供了标准化、高保真的测试环境。

衍生相关工作

围绕CFE-Bench数据集，已催生了一系列关注高级推理评估的研究工作。这些工作主要沿着两个方向深化：一是改进评估方法学，例如开发更鲁棒、更高效的自动化评分模型与变量提取算法，以应对开放式答案的多样性；二是利用该数据集揭示的模型弱点，针对性设计新的模型训练范式或架构改进，特别是在增强模型的链式推理、数学演算以及多模态信息对齐能力方面。这些衍生研究共同推动了面向复杂、真实世界问题的AI系统向更可靠、更可信的方向发展。

数据集最近研究