curator_evals_bench
收藏Hugging Face2025-08-29 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/collinear-ai/curator_evals_bench
下载链接
链接失效反馈官方服务:
资源简介:
代码正确性数据集,包含id、提示(prompt)、响应(response)、标签(label)和来源(source)五个字段。数据集分为默认split,共有1302个示例,总大小为500843字节。
提供机构:
Collinear AI
创建时间:
2025-08-29
原始信息汇总
数据集概述
基本信息
- 数据集名称:collinear-ai/curator_evals_bench
- 配置名称:code_correctness
- 下载大小:179,545 字节
- 数据集大小:500,843 字节
数据特征
- id:字符串类型,唯一标识符
- prompt:字符串类型,输入提示
- response:字符串类型,模型响应
- label:int64类型,标注标签
- source:字符串类型,数据来源
数据划分
- 划分名称:default
- 样本数量:1,302 条
- 字节大小:500,843 字节
文件信息
- 配置名称:code_correctness
- 数据文件路径:code_correctness/default-*
搜集汇总
数据集介绍

构建方式
在代码正确性评估领域,curator_evals_bench数据集的构建采用了多源采集策略,通过整合来自不同编程挑战平台和开源项目的代码样本。每个样本均包含唯一的标识符、自然语言描述的任务提示、生成的代码响应、人工标注的正确性标签及数据来源标识,确保了数据集的全面性和可追溯性。
特点
该数据集的核心特点在于其精心设计的结构化特征,涵盖代码提示、响应及二分类正确性标签,适用于机器学习模型的训练与验证。其规模适中,包含1302个样本,兼具质量与多样性,能够有效支持代码生成与正确性判断的双重任务,为研究提供可靠基准。
使用方法
研究人员可利用该数据集进行代码正确性分类模型的训练与评估,通过加载标准格式的数据拆分进行监督学习。其清晰的特征设计允许直接应用于预测任务,同时支持跨模型性能对比,为代码质量自动化评估提供实证基础。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,代码正确性评估已成为关键研究方向。curator_evals_bench数据集由专业研究团队构建,专注于解决代码生成模型输出结果的可靠性验证问题。该数据集通过系统化收集编程任务中的提示-响应对,并辅以人工标注的正确性标签,为模型性能评估提供了标准化基准。其构建推动了代码智能体与自动化编程助手的发展,对提升软件开发的智能化水平具有显著影响力。
当前挑战
代码正确性评估面临标注一致性与语义复杂性双重挑战:需确保不同编程范式的代码逻辑判断标准统一,同时处理代码语法与功能语义的深层关联。数据集构建过程中,需克服大规模代码样本的质量控制难题,包括边缘案例的覆盖、多语言编程环境的适配,以及动态执行结果与静态分析之间的验证鸿沟。这些挑战直接关系到评估基准的可靠性与泛化能力。
常用场景
经典使用场景
在代码生成与程序验证领域,curator_evals_bench数据集被广泛用于评估模型生成代码的正确性。研究者通过该数据集提供的代码片段及其标注,系统测试模型在语法合规性、逻辑一致性和功能实现方面的表现,为代码智能辅助工具的研发提供基准支持。
实际应用
实际应用中,该数据集被集成到代码编辑器和开发环境中,用于实时检测AI辅助编程工具的输出可靠性。软件开发团队借此评估自动化代码建议的可行性,显著提升开发效率并降低人工代码审查的成本,尤其在教育编程和工业级软件开发中发挥重要作用。
衍生相关工作
基于该数据集衍生的经典工作包括代码缺陷检测模型CodeBERT和程序修复系统TFix,这些研究进一步拓展了代码语义理解与自动纠错的边界。后续研究还发展了多语言代码评估框架,显著提升了跨编程语言的模型泛化能力。
以上内容由遇见数据集搜集并总结生成



