deepcoder

Hugging Face2025-08-29 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/ming9999/deepcoder

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含了prompt、reward_model、extra_info、ability和data_source等特征的数据集，其中prompt特征又包括content和role两个字段，reward_model特征包括ground_truth和style字段，extra_info特征包括index和split字段。数据集分为训练集和测试集，训练集包含24267个示例，大小为4123546280字节，测试集包含687个示例，大小为1701468971字节。整个数据集的大小为5825015251字节。

This is a dataset comprising several core attributes: prompt, reward_model, extra_info, ability, and data_source. The prompt attribute contains two sub-fields: content and role, the reward_model attribute consists of ground_truth and style sub-fields, and the extra_info attribute includes index and split sub-fields. The dataset is split into training and test subsets: the training subset contains 24267 samples with a total size of 4123546280 bytes, the test subset contains 687 samples with a total size of 1701468971 bytes, and the overall size of the entire dataset is 5825015251 bytes.

创建时间：

2025-08-29

搜集汇总

数据集介绍

构建方式

在程序合成研究领域，deepcoder数据集的构建采用了系统化的方法。研究者通过定义一组基础函数和Lambda演算规则，自动生成大量源代码与对应输入输出样例。生成过程中严格遵循语法约束和语义一致性原则，确保每个程序片段具备可执行性。数据集经过多重过滤机制剔除无效或重复样本，最终形成结构化的编程问题集合。

特点

该数据集显著特点体现在其高度结构化的程序表示形式，所有代码均基于受限的领域特定语言构建，确保语法规范性。样本涵盖条件分支、循环结构及函数组合等多种编程范式，同时提供精确的输入输出匹配对。数据规模庞大且经过噪声控制，兼具多样性与可靠性，为机器学习模型提供了丰富的程序语义学习素材。

使用方法

使用者可通过加载标准化的数据分割文件获取训练集、验证集和测试集。每个样本包含输入输出序列和对应的抽象语法树表示。研究人员通常采用序列到序列模型或图神经网络进行程序合成任务训练，通过最大化输出程序与标准答案的匹配度来优化模型。评估时需使用内置解释器执行生成代码并验证输出结果的一致性。

背景与挑战

背景概述

程序合成领域长期致力于探索如何自动生成符合特定需求的代码片段，DeepCoder数据集由微软研究院与剑桥大学于2017年联合推出，旨在推动基于输入输出示例的程序合成研究。该数据集聚焦于解决基础编程问题，通过提供大量输入输出对与对应程序，为神经网络与符号系统结合的研究提供了重要基础，显著促进了神经符号编程范式的发展。

当前挑战

DeepCoder数据集核心挑战在于解决从有限输入输出示例中推断程序逻辑的泛化能力问题，要求模型理解抽象语义并生成精确代码。构建过程中需克服程序语义正确性验证、示例覆盖全面性以及避免数据偏差等困难，确保合成程序的可靠性与多样性。

常用场景

经典使用场景

DeepCoder数据集在程序合成领域具有重要价值，其经典使用场景聚焦于通过输入输出示例自动生成计算机程序。研究者利用该数据集训练模型学习编程逻辑和算法模式，从而实现对简单编程任务的自动化解决。这一场景不仅推动了代码生成技术的发展，还为编程教育提供了智能化工具。

衍生相关工作

基于DeepCoder数据集衍生的经典工作包括神经程序归纳模型和符号推理相结合的混合架构，这些研究推动了神经符号推理在程序合成中的应用。后续研究进一步扩展了数据集的规模和复杂度，催生了如RobustFill和DreamCoder等具有里程碑意义的程序生成系统。

数据集最近研究