CFE-Bench
收藏CFE-Bench 数据集概述
数据集简介
CFE-Bench(Classroom Final Exam)是一个基于真实、多次使用的大学作业和考试题目构建的推理基准。题目来源于教师维护的课程材料,并经过教授验证。该基准旨在评估大语言模型和视觉-语言模型在大学水平STEM问题上的表现。
数据集构成
数据集包含两个子集:
- 文本子集:包含305个纯文本STEM问题,文件为
CFE_text.json。 - 多模态子集:包含144个带有图表、绘图和符号表示的问题,文件为
CFE_mm.json。
学科覆盖
两个子集涵盖超过20个STEM领域,包括物理学、数学、电气工程、机械工程、化学、生物学、统计学、计算机科学等。
数据格式
每个数据条目以JSON格式存储,包含以下关键字段:
question.text:完整的问题陈述。question.images:多模态问题相关的图像列表。answer.text:完整的真实解决方案及推导过程。short_answer_value:可验证的目标值列表。short_answer_variable:与每个目标值对应的变量名称。short_answer_description:指导变量提取的语义描述。short_answer_type:每个答案的类型(数值、公式、其他)。reasoning_flow:有序的推理单元列表,每个单元包含一个子问题和一个可验证的答案。
评估方法
评估采用基于变量的验证协议。真实变量定义为 V_gt = {(v₁, d₁, x₁), ..., (vₙ, dₙ, xₙ)},每个元组包含变量名称、语义描述和目标值。评估时从模型响应中提取特定变量值,并与V_gt进行比较。
评估流程
评估分为两步流水线:
- 生成响应:使用
generate_responses.py脚本在基准测试上运行测试模型并保存生成的答案。 - 评估响应:使用
evaluation.py脚本,通过LLM评判员从模型响应中提取变量值,并与真实答案进行验证。
评估指标
- pass@k:在k个生成的答案中至少有一个正确的概率。
- overall_question_accuracy:所有问题中完全正确(所有变量均正确)的生成答案的比例。
- overall_avg_variable_accuracy:所有问题和所有生成答案的平均每变量准确率。
引用信息
如需引用,请使用以下BibTeX条目: bibtex @misc{gao2026classroomfinalexaminstructortested, title={Classroom Final Exam: An Instructor-Tested Reasoning Benchmark}, author={Chongyang Gao and Diji Yang and Shuyan Zhou and Xichen Yan and Luchuan Song and Shuo Li and Kezhen Chen}, year={2026}, eprint={2602.19517}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.19517}, }



