SAS-Bench

github2025-05-13 更新2025-05-14 收录

下载链接：

https://github.com/PKU-DAIR/SAS-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SAS-Bench是首个专门用于评估大型语言模型在短答案评分（SAS）任务中的基准数据集。该数据集利用中国高考的真实问题，包含1,030个问题，涵盖9个学科，4,109个专家标注的学生回答，并提供逐步评分和错误分析。

SAS-Bench is the first benchmark dataset specifically designed for evaluating the performance of large language models on Short Answer Scoring (SAS) tasks. This dataset utilizes real questions from the Chinese Gaokao exam, containing 1,030 questions across 9 subjects, and features 4,109 expert-annotated student responses, providing step-by-step scoring and error analysis.

创建时间：

2025-05-11

原始信息汇总

SAS-Bench 数据集概述

数据集简介

SAS-Bench是首个专门用于评估大语言模型(LLM)在短答案评分(SAS)任务上的细粒度基准测试。数据集基于中国高考真实试题构建，包含：

1,030道题目：覆盖9个学科领域
4,109份专家标注的学生答案
逐步评分：含步骤错误分析
多维度评估：整体评分、逐步评分和错误诊断一致性

核心特性

与传统SAS系统的对比优势

维度	传统SAS系统	SAS-Bench优势
评估粒度	单一综合评分	分步骤评分分解
可解释性	不透明的评分机制	全面的错误分类体系
答案多样性	单一学科/类型	跨学科无模板评估

数据类型与标注

包含三类题目：

选择题（无模板回答）
填空题
简答题（含逻辑步骤分解）

每份答案包含：

人工标注的整体分数
步骤分割与独立评分
步骤错误原因分类

评估框架

CCS评估（协作一致性评分）

目的：评估模型预测与人工评分在整体和步骤分数上的一致性
公式： math W_{i,j} = alpha cdot frac{(r_i - r_j)^2}{(N_r - 1)^2} + frac{1 - alpha}{m} sum_{k=1}^{m} frac{(s_{i,k} - s_{j,k})^2}{(N_{s_k} - 1)^2}

最终CCS计算： math ext{CCS} := 1 - frac{sum_{i,j} O_{i,j} cdot W_{i,j}}{sum_{i,j} E_{i,j} cdot W_{i,j}}

ECS评估（错误一致性评分）

目的：量化模型识别错误类型的能力
关键步骤：
1. 按答案质量分三组
2. 计算每组错误频率矩阵
3. 计算Spearman相关系数
最终公式： math ext{ECS} := frac{1}{m} sum_{k=0}^{2} ho_k

数据集获取与使用

下载地址：https://huggingface.co/datasets/aleversn/SAS-Bench
文件结构：
- 按{q_id}_{course}_{question_type}.jsonl格式存储
- 错误分类存储在error_type.jsonl
- 学科ID映射在ID_Dict.json

模型性能

CCS平均得分排名（部分）

模型	平均CCS
Deepseek-V3	74.11
Deepseek-R1	73.76
Qwen3-32B	67.20

ECS平均得分排名（部分）

模型	平均ECS
Deepseek-R1	55.90
Deepseek-V3	54.00
GPT 4o-mini-20240718	50.53

许可与引用

许可证：Apache License 2.0（仅限研究用途）
来源：基于公开数据集Gaokao-Bench构建
引用格式： bibtex @article{lai2025sasbenchfinegrainedbenchmarkevaluating, title={SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models}, author={Peichao Lai et al.}, year={2025}, journal={arXiv preprint arXiv:2505.07247} }

待办事项

[ ] 提供英文本地化版本
[ ] 开源标注系统（前端+后端）

搜集汇总

数据集介绍

构建方式

SAS-Bench数据集构建基于中国高考真实试题，采用多学科交叉设计，涵盖9大学科的1,030道题目及4,109份专家标注的学生答案。通过构建三步标注体系——整体评分、步骤分解评分及错误类型标注，数据集实现了对短答案评分任务的细粒度解析。原始数据经预处理器统一处理后，采用JSONL格式存储，每个答案包含问题ID、学科分类、问题类型等元数据，并附有详细的错误分类指南。

使用方法

使用流程分为五个阶段：通过HuggingFace平台获取数据后，可利用vLLM框架进行分布式推理，支持Tensor Parallelism技术加速。评估阶段提供CCS（协作一致性分数）和ECS（错误一致性分数）双指标体系，分别衡量模型在整体评分、步骤评分及错误诊断方面与人类专家的吻合度。开源代码库包含Jupyter和CLI两种交互方式，支持few-shot学习、指导语禁用等参数调整，并预置了16种大模型的性能基线作为参考。

背景与挑战

背景概述

SAS-Bench数据集由北京大学DAIR实验室于2025年推出，是首个针对大型语言模型在短答案评分任务上的细粒度评估基准。该数据集基于中国高考真实试题构建，涵盖9大学科领域的1030道题目及4109份专家标注的学生答案，创新性地引入了分步评分机制和错误类型分类体系。其核心研究在于解决传统自动评分系统在解释性、跨学科适应性和推理过程评估方面的局限性，为教育自然语言处理领域提供了首个融合整体评分、步骤分解与错误诊断的多维评估框架。

当前挑战

该数据集面临的领域挑战主要体现在三个方面：传统短答案评分系统难以捕捉学生答案中的逻辑推理过程，导致评分解释性不足；跨学科答案的语义多样性增加了模型泛化难度；步骤级错误诊断需要模型具备细粒度的知识理解能力。在构建过程中，研究团队需克服标注复杂性带来的挑战，包括设计兼顾学科特异性和统一标准的标注体系，确保4109份答案中每个推理步骤的评分一致性，以及建立可量化的错误分类系统。此外，从原始高考数据到可计算表示的转化过程中，还需保持题目语境和评分细则的完整性。

常用场景

经典使用场景

在教育评估领域，SAS-Bench数据集为短答案评分（SAS）任务提供了一个精细化的评估基准。该数据集基于中国高考的真实题目，涵盖了9个学科的1,030道题目和4,109条专家标注的学生答案。其经典使用场景包括评估大型语言模型（LLM）在短答案评分中的表现，特别是在多学科交叉、模板自由回答的情境下。通过分步评分和错误分析，研究者能够深入理解模型在复杂评分任务中的表现。

解决学术问题

SAS-Bench解决了传统短答案评分系统中的多个关键问题。传统方法通常仅提供单一的综合评分，缺乏透明度和解释性。而SAS-Bench通过分步评分和详细的错误分类，提升了评分的可解释性。此外，该数据集的多维评估框架（整体评分、分步评分和错误诊断一致性）为研究者在模型评估中提供了更全面的视角，推动了短答案评分领域的学术进展。

实际应用

在实际应用中，SAS-Bench数据集为教育技术和自动化评分系统的发展提供了重要支持。其多学科覆盖和精细标注的特性使其成为开发智能辅导系统和个性化学习工具的宝贵资源。例如，教育机构可以利用该数据集训练和优化评分模型，从而在高考模拟考试或日常教学中实现高效、准确的自动化评分。此外，分步错误分析功能还能帮助教师识别学生的常见错误模式，优化教学策略。

数据集最近研究