SAS-Bench
收藏arXiv2025-05-12 更新2025-05-14 收录
下载链接:
https://github.com/PKU-DAIR/SAS-Bench
下载链接
链接失效反馈官方服务:
资源简介:
SAS-Bench数据集是一个专为评估大型语言模型在主观答案评分任务中的表现而设计的基准。该数据集包含来自中国高考的真实问题,覆盖了9个学术科目,共有1,030个问题和4,109个学生答案。所有答案都由学科专家进行了逐步骤评分和详细的错误原因标注,以确保评估结果的准确性和可靠性。数据集还包含了多种模板无关的问题类型,以及预定义的错误原因集,用于量化模型的解释性。该数据集旨在帮助研究人员更好地理解LLM在评分任务中的表现,并提高LLM作为评判者的系统的鲁棒性、公平性和教育意义。
SAS-Bench is a benchmark specifically designed to evaluate the performance of large language models (LLMs) in subjective answer scoring tasks. This dataset comprises real questions from China's National College Entrance Examination (Gaokao), covering 9 academic subjects, with a total of 1,030 questions and 4,109 student answers. All answers have been step-by-step scored and annotated with detailed error causes by subject-matter experts, ensuring the accuracy and reliability of the evaluation results. Additionally, the dataset includes multiple template-agnostic question types and a predefined set of error causes, which are used to quantify the interpretability of LLMs. This benchmark aims to help researchers better understand the performance of LLMs on scoring tasks, and improve the robustness, fairness and educational significance of systems that employ LLMs as evaluators.
提供机构:
北京大学, 福州大学, 湖南大学, 上海人工智能实验室
创建时间:
2025-05-12
原始信息汇总
SAS-Bench 数据集概述
数据集基本信息
- 名称: SAS-Bench
- 类型: 短答案评分(Short Answer Scoring)评估基准
- 数据来源: 中国高考(Gaokao)真实试题
- 数据量:
- 1,030道题目
- 4,109条专家标注的学生答案
- 学科覆盖: 9个学科领域
- 许可证: Apache License 2.0(仅限研究用途)
核心特点
- 细粒度评估:
- 分步评分(Step-wise scoring)
- 分步错误分析(Step-wise error analysis)
- 多维度评估:
- 整体评分(Holistic scoring)
- 分步评分一致性
- 错误诊断一致性
- 题目类型:
- 选择题(无模板回答)
- 填空题
- 简答题(含逻辑步骤分解)
标注信息
- 每条回答包含:
- 人工标注的整体分数
- 步骤分割与独立评分
- 分步错误原因分类
评估框架
1. CCS(协作一致性分数)
- 目的: 评估模型预测与人工评分在整体和分步评分上的一致性
- 公式: math ext{CCS} := 1 - frac{sum_{i,j} O_{i,j} cdot W_{i,j}}{sum_{i,j} E_{i,j} cdot W_{i,j}}
2. ECS(错误一致性分数)
- 目的: 量化模型识别错误类型的能力
- 关键特征:
- 使用3个性能层级(低/中/高)
- 关联错误类型分布(非仅计数)
- 标准化评分便于跨数据集比较
数据获取与使用
- 获取地址: HuggingFace Dataset
- 文件结构:
- 命名格式:
{q_id}_{course}_{question_type}.jsonl - 错误分类:
error_type.jsonl - 学科ID映射:
ID_Dict.json
- 命名格式:
实验结果
- 评估模型: 16个大型语言模型
- 评估指标:
- QWK(未显示具体数值)
- CCS(Deepseek-V3平均74.11最高)
- ECS(Deepseek-R1平均55.90最高)
相关资源
引用格式
bibtex @article{lai2025sasbenchfinegrainedbenchmarkevaluating, title={SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models}, author={Peichao Lai and Kexuan Zhang and Yi Lin and Linyihan Zhang and Feiyang Ye and Jinhao Yan and Yanwei Xu and Conghui He and Yilei Wang and Wentao Zhang and Bin Cui}, year={2025}, journal={arXiv preprint arXiv:2505.07247}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.07247}, }
搜集汇总
数据集介绍

构建方式
SAS-Bench数据集的构建基于中国高考(Gaokao)的真实试题,涵盖9个学科领域,包含1,030道题目和4,109份学生回答。数据合成阶段利用大语言模型(LLM)模拟不同水平的学生回答,确保数据多样性。随后通过数据清洗去除冗余样本,并构建了详细的错误原因分类体系。最终由18名学科专家进行人工标注,包括分步评分和错误原因标注,确保数据的高质量和可靠性。
特点
SAS-Bench数据集的特点在于其细粒度的评分体系和丰富的错误分类。每个学生回答都被分解为多个步骤,并标注了分步得分和错误原因,便于深入分析模型的推理过程。数据集涵盖多种题型,包括选择题、填空题和简答题,特别关注科学类问题的多步推理。此外,数据集还提供了详细的评分指南和错误原因分类,支持对模型解释性的系统评估。
使用方法
使用SAS-Bench数据集时,研究者可以通过输入问题、参考答案、学生回答和评分指南,要求模型生成总体评分、分步评分和错误原因分析。评估时采用协作一致性评分(CCS)和错误一致性评分(ECS)等指标,全面衡量模型在总体评分一致性、分步评分一致性和错误原因解释性方面的表现。数据集的开放性和详细标注使其适用于大语言模型在主观题评分任务中的性能评估和优化。
背景与挑战
背景概述
SAS-Bench是由北京大学、福州大学等机构的研究团队于2025年提出的专门针对大语言模型(LLMs)在短答案评分(Short Answer Scoring, SAS)任务中的评估基准。该数据集基于中国高考(Gaokao)真实试题构建,涵盖9个学科共计1,030道题目和4,109条专家标注的学生答案,每个答案均包含分步评分和详细错误类型标注。SAS-Bench的创新性在于首次实现了对LLMs评分过程的细粒度评估,包括整体分数一致性、分步评分一致性和错误原因解释性三个维度,解决了传统自动评分方法缺乏可解释性和细粒度分析的痛点。该数据集对教育评估、标准化考试和自动化评分系统的发展具有重要意义,为开发更鲁棒、公平且具有教育意义的大语言模型评分系统提供了重要参考。
当前挑战
SAS-Bench主要解决短答案评分领域的两大挑战:一是传统评分方法生成的分数粒度较粗且缺乏详细推理过程,二是现有大语言模型作为评分者存在偏见、与人类评分不一致以及评分决策透明度不足的问题。在数据集构建过程中,研究团队面临多重挑战:首先,模拟不同水平学生答案时需要平衡正负样本比例,并确保答案的多样性和自然性;其次,跨学科错误原因标注体系的建立需要领域专家深度参与,涉及复杂的知识体系标准化工作;最后,分步评分标注要求专家对多步骤推理问题进行精细拆解,这对数学等理科问题的标注提出了极高要求。这些挑战使得数据集的构建过程耗时且复杂,但也确保了其标注质量和评估价值。
常用场景
经典使用场景
在自然语言处理与教育技术交叉领域,SAS-Bench数据集为评估大型语言模型(LLMs)在主观题评分任务中的表现提供了标准化测试平台。该数据集通过精细构建的1,030道真实考试题目和4,109条专家标注的学生答案,支持对模型在分步评分、错误原因识别等维度的系统性评测。其典型应用场景包括:研究人员可基于该基准比较不同LLMs在数学证明题、科学简答题等复杂题型上的评分一致性,教育科技企业能验证自动评分系统在跨学科场景下的鲁棒性。
实际应用
该数据集的实际应用价值主要体现在智能教育场景:在线学习平台可集成其评估框架,实时分析学生答案中的知识薄弱点并生成针对性反馈;考试机构能利用其多维度指标验证自动评分系统的公平性,特别是在高风险考试如高考模拟阅卷中。数据集中包含的物理多选题、英语完形填空等9学科题型,可直接支持跨学科自适应学习系统的开发。此外,分步评分标准为教师提供了标准化评估工具,有助于减少人工阅卷的主观差异。
衍生相关工作
SAS-Bench已催生多个重要研究方向:在模型优化层面,DeepSeek团队基于该基准开发了强化学习微调策略,显著提升了R1模型在数学证明题分步推理的稳定性;在评估方法上,Qwen3等研究团队受其启发提出了融合语义相似度与步骤相关性的新型评价指标。数据集构建方法论还影响了后续工作如LEval基准的设计,推动自动评分研究从单纯分数预测向可解释性评估的范式转变。
以上内容由遇见数据集搜集并总结生成



