curator_evals_bench

Name: curator_evals_bench
Creator: Collinear AI
Published: 2025-08-29 01:53:48
License: 暂无描述

Hugging Face2025-08-29 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/collinear-ai/curator_evals_bench

下载链接

链接失效反馈

官方服务：

资源简介：

代码正确性数据集，包含id、提示(prompt)、响应(response)、标签(label)和来源(source)五个字段。数据集分为默认split，共有1302个示例，总大小为500843字节。

提供机构：

Collinear AI

创建时间：

2025-08-29

原始信息汇总

数据集概述

基本信息

数据集名称：collinear-ai/curator_evals_bench
配置名称：code_correctness
下载大小：179,545 字节
数据集大小：500,843 字节

数据特征

id：字符串类型，唯一标识符
prompt：字符串类型，输入提示
response：字符串类型，模型响应
label：int64类型，标注标签
source：字符串类型，数据来源

数据划分

划分名称：default
样本数量：1,302 条
字节大小：500,843 字节

文件信息

配置名称：code_correctness
数据文件路径：code_correctness/default-*

搜集汇总

数据集介绍

构建方式

在代码正确性评估领域，curator_evals_bench数据集的构建采用了多源采集策略，通过整合来自不同编程挑战平台和开源项目的代码样本。每个样本均包含唯一的标识符、自然语言描述的任务提示、生成的代码响应、人工标注的正确性标签及数据来源标识，确保了数据集的全面性和可追溯性。

特点

该数据集的核心特点在于其精心设计的结构化特征，涵盖代码提示、响应及二分类正确性标签，适用于机器学习模型的训练与验证。其规模适中，包含1302个样本，兼具质量与多样性，能够有效支持代码生成与正确性判断的双重任务，为研究提供可靠基准。

使用方法

研究人员可利用该数据集进行代码正确性分类模型的训练与评估，通过加载标准格式的数据拆分进行监督学习。其清晰的特征设计允许直接应用于预测任务，同时支持跨模型性能对比，为代码质量自动化评估提供实证基础。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码正确性评估已成为关键研究方向。curator_evals_bench数据集由专业研究团队构建，专注于解决代码生成模型输出结果的可靠性验证问题。该数据集通过系统化收集编程任务中的提示-响应对，并辅以人工标注的正确性标签，为模型性能评估提供了标准化基准。其构建推动了代码智能体与自动化编程助手的发展，对提升软件开发的智能化水平具有显著影响力。

当前挑战

代码正确性评估面临标注一致性与语义复杂性双重挑战：需确保不同编程范式的代码逻辑判断标准统一，同时处理代码语法与功能语义的深层关联。数据集构建过程中，需克服大规模代码样本的质量控制难题，包括边缘案例的覆盖、多语言编程环境的适配，以及动态执行结果与静态分析之间的验证鸿沟。这些挑战直接关系到评估基准的可靠性与泛化能力。

常用场景

经典使用场景

在代码生成与程序验证领域，curator_evals_bench数据集被广泛用于评估模型生成代码的正确性。研究者通过该数据集提供的代码片段及其标注，系统测试模型在语法合规性、逻辑一致性和功能实现方面的表现，为代码智能辅助工具的研发提供基准支持。

实际应用

实际应用中，该数据集被集成到代码编辑器和开发环境中，用于实时检测AI辅助编程工具的输出可靠性。软件开发团队借此评估自动化代码建议的可行性，显著提升开发效率并降低人工代码审查的成本，尤其在教育编程和工业级软件开发中发挥重要作用。

衍生相关工作

基于该数据集衍生的经典工作包括代码缺陷检测模型CodeBERT和程序修复系统TFix，这些研究进一步拓展了代码语义理解与自动纠错的边界。后续研究还发展了多语言代码评估框架，显著提升了跨编程语言的模型泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集