APIDiscoveryDataset

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/DJ-Research/APIDiscoveryDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个配置：code_alpaca、cruxeval、humaneval和mbpp。每个配置具有相同的特征结构，包括'test_func_validated'（已验证的测试函数）、'description'（描述）、'train_inputs'（训练输入列表）、'test_inputs'（测试输入列表）和'direct_prompt'（直接提示），这些特征均为字符串类型或字符串列表。数据集分为训练集和测试集，其中code_alpaca包含984个训练样本，cruxeval包含604个测试样本，humaneval包含96个测试样本，mbpp包含173个测试样本。每个配置的数据文件路径也已明确指定。

创建时间：

2026-02-04

搜集汇总

数据集介绍

构建方式

在代码生成与程序理解的研究领域中，APIDiscoveryDataset的构建体现了对现有基准资源的整合与重构。该数据集融合了code_alpaca、cruxeval、humaneval和mbpp四个知名配置，每个配置均包含经过验证的测试函数、自然语言描述、训练与测试输入序列以及直接提示。构建过程通过统一特征结构，将原始数据转化为标准化的字符串与列表格式，确保了数据的一致性与可扩展性。这种多源集成策略不仅扩充了数据规模，也为模型评估提供了多样化的编程任务场景。

特点

APIDiscoveryDataset的显著特征在于其结构化与多维度表征。每个样本均涵盖测试函数、功能描述、输入输出示例及提示文本，形成了从问题描述到代码验证的完整链路。数据集划分为训练与测试子集，例如code_alpaca提供984个训练样本，而其他配置则专注于测试评估，共涵盖超过1800个编程实例。这种设计支持模型在生成、理解与调试等多重任务上的性能测评，同时通过标准化的数据格式促进了跨实验的可比性与复现性。

使用方法

使用该数据集时，研究者可根据不同配置灵活选取任务场景。对于模型训练，可加载code_alpaca的训练分割以学习代码生成模式；在评估阶段，则可调用cruxeval、humaneval或mbpp的测试分割进行零样本或小样本性能检验。数据字段如test_func_validated与direct_prompt可直接用于提示工程，而train_inputs和test_inputs则为输入输出映射提供了明确示例。通过HuggingFace数据集库的标准接口，用户能够便捷地访问与预处理数据，进而推动代码智能领域的模型开发与基准测试。

背景与挑战

背景概述

APIDiscoveryDataset是面向代码生成与程序合成领域的重要数据集，其构建旨在促进大型语言模型在API发现与调用任务上的能力评估。该数据集整合了多个知名代码基准，包括HumanEval、MBPP、CruxEval和Code Alpaca，由研究社区在近年共同贡献形成。核心研究问题聚焦于如何让模型准确理解自然语言描述，并生成能够正确调用相应API的代码片段，从而推动自动化编程工具与智能代码助手的发展。该数据集的出现，为评估模型在真实编程场景下的泛化能力与实用性提供了标准化测试平台，对软件工程与人工智能的交叉领域产生了深远影响。

当前挑战

该数据集致力于解决代码生成中API发现与调用的核心难题，其挑战在于模型需精准解析自然语言意图，并映射至正确的API函数及其使用模式，同时处理多样化的编程语境与API演变。构建过程中的挑战涉及多源数据集的集成与对齐，需确保不同基准间格式一致性与质量可控；此外，生成高质量的训练与测试输入输出对，要求严谨的代码验证与语义保持，避免引入噪声或偏差，从而保障评估结果的可靠性与泛化性。

常用场景

经典使用场景

在代码生成与软件工程领域，APIDiscoveryDataset通过整合多个子集如HumanEval和MBPP，为评估大型语言模型在代码合成任务中的性能提供了标准化基准。该数据集常用于测试模型根据自然语言描述生成功能正确的Python代码片段的能力，涵盖了从简单算法到复杂API调用的多样化编程问题，从而推动代码智能研究的前沿探索。

衍生相关工作

围绕该数据集衍生的经典工作包括Codex、AlphaCode等突破性代码生成模型，这些研究利用其子集进行训练与评估，推动了指令微调、少样本学习等技术在编程领域的应用。此外，多项学术研究进一步扩展了数据集的覆盖范围，形成了如APIBench等衍生基准，持续丰富代码智能生态体系。

数据集最近研究