BytedTsinghua-SIA/CSBench

Name: BytedTsinghua-SIA/CSBench
Creator: BytedTsinghua-SIA
Published: 2026-05-06 18:46:57
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/BytedTsinghua-SIA/CSBench

下载链接

链接失效反馈

官方服务：

资源简介：

CSBench是一个用于代码生成和程序修复等任务的数据集，包含详细的课程信息和任务描述。数据集特征包括唯一标识符、类别、子类别、大学、课程ID、课程名称、编程语言、实验室URL、实验室名称、课程URL、语言、wiki URL、通过测试数、修复测试数、任务描述、功能需求、源代码结构描述和单元测试描述等。数据集规模较小，小于1K，仅包含测试集。

CSBench is a dataset for tasks such as code generation and program repair, containing detailed course information and task descriptions. The dataset features include unique identifiers, categories, sub-categories, universities, course IDs, course names, programming languages, lab URLs, lab names, course URLs, languages, wiki URLs, pass-to-pass tests, fail-to-pass tests, task descriptions, functional requirements, source code structure descriptions, and unit test descriptions. The dataset is small in size, less than 1K, and includes only the test set.

提供机构：

BytedTsinghua-SIA

搜集汇总

数据集介绍

构建方式

CSBench数据集由来自多个国家知名高校的计算机科学课程实验任务精心汇编而成，涵盖人工智能、系统、应用及其他四大顶级类别。每个案例均源自真实的课程作业，包含详细的元数据如课程标识、所在院校及编程语言要求。数据集的构建过程强调生态完整性，不仅收录了任务描述与规格说明，还囊括了脚手架代码描述、单元测试概要以及测试用例的通过与失败预期数量，从而为评估智能体在代码生成与程序修复方面的能力提供了结构化、多维度的测试框架。

使用方法

CSBench专为评估和提升代码生成智能体而设计。用户可依据任务描述与规格说明指导模型生成代码，并利用预定义的单元测试进行自动验证。数据集中提供的pass_to_pass与fail_to_pass字段允许对修复能力进行细粒度度量。建议使用者首先解析JSON格式的案例信息，然后利用scaffold_desc构建基线代码，再根据task_desc引导模型输出最终实现。实验运行需参照配套的官方仓库，以确保评估流程的一致性与可复现性。

背景与挑战

背景概述

CSBench是一个专为评估代码智能体在复杂软件工程任务中表现而构建的基准数据集，由相关研究团队于近期创建。该数据集聚焦于从全球顶尖大学计算机科学课程中提取的真实编程作业，涵盖人工智能、系统、应用等多个领域，旨在弥补现有基准在任务真实性与复杂度上的不足。其核心研究问题在于检验代码生成与程序修复模型在应对多语言、多测试用例及规范约束条件下的实际能力。CSBench的发布为代码智能体的发展提供了更为严谨且贴近教育场景的评估平台，对推动软件工程自动化研究具有重要的参考价值。

当前挑战

CSBench所解决的领域挑战主要包括：现有基准多基于简化或合成任务，难以反映真实软件工程中多样化的需求描述、测试用例覆盖范围及编程语言差异，导致模型在泛化至实际场景时表现受限。在构建过程中，面临的挑战包括从海量课程资料中提取标准化的任务规范与测试逻辑，确保不同来源的作业具有一致的评估粒度；同时需处理多语言、多课程间的异构性，并设计能准确衡量模型修复与生成能力的测试框架，以避免因数据噪声或任务歧义带来的评估偏差。

常用场景

经典使用场景

CSBench 数据集专为评估代码生成与程序修复智能体的能力而构建，其经典使用场景聚焦于以课程作业为核心的编程任务评测。数据集精心收集了来自全球知名高校计算机科学课程的100个真实作业案例，覆盖人工智能、系统编程、应用开发等多个领域。研究者可利用其丰富的元数据，如任务描述、规格说明、测试用例摘要及脚手架提示，来构建或测试智能体在理解复杂编程规范、完成功能性代码生成及修复错误测试上的综合表现，从而为自动化编程辅助系统的研发提供标准化的验证基准。

解决学术问题

该数据集切实回应了软件工程与人工智能交叉领域的关键学术挑战：如何弥合大语言模型在合成代码与真实世界编程需求之间的鸿沟。CSBench 通过提供结构化、多维度的高校课程作业数据，帮助研究者系统性地探讨智能体在代码生成中的语义理解能力、对多语言环境的适应能力，以及从失败测试到正确实现的程序修复效能。其深远意义在于推动了从简单代码生成评测向复杂任务导向型智能体评估的范式转变，为构建更可靠、更贴近真实开发场景的自动化编程技术奠定了数据基础。

实际应用

在实际应用层面，CSBench 数据集可作为智能编程辅助工具开发的测试床或训练语料。软件工程师和算法开发者能够借助其案例来评估和优化代码生成模型在面临真实教育场景中的表现，例如基于自然语言描述自动生成实现代码、根据提供的脚手架补全关键逻辑，或根据单元测试结果自动定位并修复缺陷。此外，该数据集还能服务于教育科技领域，用于构建学生编程作业的自动评分与反馈系统，或作为在线编程实训平台的智能辅导核心，有效提升教学效率与学习体验。

数据集最近研究