verifiers-for-code/CodeNet-16K

Name: verifiers-for-code/CodeNet-16K
Creator: verifiers-for-code
Published: 2024-04-23 15:57:55
License: 暂无描述

Hugging Face2024-04-23 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/verifiers-for-code/CodeNet-16K

下载链接

链接失效反馈

官方服务：

资源简介：

🏆 CodeNet-16K数据集包含16,500个Python代码尝试，这些尝试来自CodeNet数据集，经过精心筛选和去重，以创建一个高质量的代码生成任务数据集。数据集包括每个问题的问题描述、输入/输出描述和示例测试用例。数据集的结构包括问题ID、问题描述、输入描述、输出描述、示例测试用例、提交ID、提交状态、代码尝试和解决问题的详细计划。数据集适用于代码生成任务的研究，如计划生成和代码合成。

提供机构：

verifiers-for-code

原始信息汇总

数据集概述

数据集名称： 🏆 CodeNet-16K

数据集描述： 🏆 CodeNet-16K 包含16,500个Python代码尝试，来自CodeNet数据集，经过精心筛选和去重，用于代码生成任务的高质量数据集。数据集包括问题描述、输入/输出描述及每个问题的样本测试案例。

数据集详情

语言： 问题描述为英语，代码尝试为Python。

许可证： [更多信息需要]

数据集结构：

problem_id: 问题唯一标识
problem_description: 问题详细描述
input_description: 输入格式描述
output_description: 预期输出格式描述
samples: 包含输入和预期输出的样本测试案例
submission_id: 提交尝试的唯一标识
status: 提交状态（接受、运行时错误、答案错误）
attempt: 实际代码提交
plan: 解决问题详细计划（在🏆 CodeNet-Planner中可用）

数据集分割：

train: 包含16,541个示例

数据集创建

筛选理由： 🏆 CodeNet-16K旨在通过应用多种筛选策略到原始CodeNet数据集，提供高质量的代码生成任务数据集。筛选过程旨在移除非Python提交、纠正语法错误，并确保高质量示例的多样性。

源数据：

数据收集和处理： 应用预过滤、Python特定过滤、语法错误移除、采样过程、语义过滤和去重等策略。
源数据生产者： 原始数据来自CodeNet数据集，包含来自多个在线编程平台的代码提交。

偏差、风险和限制

偏差和风险： 数据集可能包含原始数据中的偏差。筛选过程旨在减轻这些偏差，但可能仍有部分存在。

限制： 用户应在使用数据集进行研究或其他目的时意识到潜在的偏差和限制。

引用信息

引用格式： bibtex @article{codenet16k2023, title={CodeNet-16K: A Curated Dataset for Code Generation}, author={Chinta, Abhinav and Shashidhar, Sumuk and Sahai, Vaibhav}, year={2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集