five

NoCode-bench

收藏
arXiv2025-07-24 更新2025-08-13 收录
下载链接:
https://huggingface.co/NoCode-bench
下载链接
链接失效反馈
官方服务:
资源简介:
NoCode-bench是一个用于评估语言模型在自然语言驱动特征添加任务上的能力的基准数据集。该数据集包含634个实例,涉及10个开源项目,总共约114k代码更改。每个实例都包含用户文档更改和相应的代码实现,并可以使用开发者编写的测试用例进行验证。数据集的构建过程包括五个阶段:项目选择、实例收集、环境构建、实例筛选和输入精炼。此外,还提供了一个名为NoCode-bench Verified的人工验证子集,包含114个高质量实例,其任务清晰度和评估有效性已手动验证。该数据集可用于推动基于语言模型软件工程的研究,特别是在无代码特征添加方面。

NoCode-bench is a benchmark dataset for evaluating the capability of language models on natural language-driven feature addition tasks. This dataset contains 634 instances, covering 10 open-source projects, with a total of approximately 114k code changes. Each instance includes user documentation changes and corresponding code implementations, and can be validated using test cases written by developers. The construction process of the dataset consists of five stages: project selection, instance collection, environment setup, instance filtering, and input refinement. In addition, a manually verified subset named NoCode-bench Verified is provided, which contains 114 high-quality instances whose task clarity and evaluation validity have been manually verified. This dataset can be used to advance research in language model-based software engineering, particularly in the area of no-code feature addition.
提供机构:
浙江大学区块链与数据安全国家重点实验室
创建时间:
2025-07-24
搜集汇总
数据集介绍
main_image_url
构建方式
NoCode-bench的构建采用了系统化的五阶段流程,包括项目选择、实例收集、环境构建、实例过滤和输入优化。项目选择阶段基于SWE-bench中的项目,通过开发者维护的发布说明筛选出符合条件的高质量开源项目。实例收集阶段则从GitHub拉取与发布说明中标识的特性添加相关的PR,并确保每个实例包含源代码、测试文件和文档的修改。环境构建阶段为每个项目创建基础Docker镜像,并通过Anaconda环境管理版本隔离。实例过滤阶段通过分析测试执行的行为差异来验证每个实例的有效性。输入优化阶段则通过静态分析补充文档变更中缺失的关键实体名称,以提高评估的准确性。
特点
NoCode-bench包含634个真实世界的特性添加任务,覆盖10个开源项目,总计约114k代码变更。每个任务将用户面向的文档变更与对应的代码实现配对,并通过开发者编写的测试用例进行验证。数据集通过发布说明锚定,确保任务真实且标签噪声低。此外,NoCode-bench还提供了一个经过人工验证的子集NoCode-bench Verified,包含114个高质量实例,任务清晰度和评估有效性均经过手动验证,为有限资源下的轻量级评估提供了可靠选择。
使用方法
NoCode-bench的使用方法主要围绕评估大型语言模型(LLM)在无代码特性添加任务中的表现。每个任务以文档变更、完整代码库和可选的标识符提示作为输入,要求模型生成实现新特性的代码补丁。评估时,模型生成的补丁需通过开发者编写的测试用例验证。数据集支持两种评估框架:基于管道的Agentless和基于代理的OpenHands。用户可通过这两种框架系统评估模型在跨文件编辑、代码库结构理解和工具调用等方面的能力,并分析失败案例以指导未来改进。
背景与挑战
背景概述
NoCode-bench是由浙江大学区块链与数据安全国家重点实验室的Le Deng、Zhonghao Jiang以及香港科技大学的Jialun Cao等研究人员于2025年提出的一个基准测试数据集,旨在评估自然语言驱动的无代码开发场景中大型语言模型(LLMs)的功能添加能力。该数据集包含来自10个开源项目的634个任务,涉及约114,000次代码变更,每个任务都配对了用户文档变更和相应的代码实现,并通过开发者编写的测试用例进行验证。NoCode-bench的构建基于五阶段流水线,从发布说明开始,确保了数据的广泛覆盖和真实开发场景的模拟。该数据集的推出填补了现有软件工程基准测试在无代码开发领域的空白,为NL驱动的无代码软件开发提供了重要的研究资源。
当前挑战
NoCode-bench面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,NoCode-bench致力于解决自然语言驱动的功能添加任务,这些任务要求模型能够准确理解文档变更并生成相应的代码修改,同时保持代码库的原有功能不受影响。这一任务的复杂性体现在跨文件编辑、代码库结构的全面理解以及工具调用的能力上。在构建过程中,研究人员面临了从发布说明中识别和收集高质量功能添加任务、构建可重现的开发环境、过滤噪声实例以及补充文档变更中缺失的关键实体名称等挑战。此外,确保测试用例能够全面覆盖新功能的行为也是一个重要挑战。这些挑战使得NoCode-bench成为一个具有高度复杂性和现实意义的基准测试数据集。
常用场景
经典使用场景
NoCode-bench作为一个专注于自然语言驱动无代码开发的基准测试数据集,其最经典的使用场景是评估大型语言模型(LLMs)在真实世界软件项目中基于文档变更自动生成代码变更的能力。该数据集通过模拟开发者通过更新文档来指定新功能,并由LLMs自动推断并执行相应代码变更的场景,为无代码开发领域的研究提供了标准化测试环境。
解决学术问题
NoCode-bench解决了无代码开发研究中缺乏高质量评估基准的关键问题。通过构建包含634个真实世界特征添加任务的数据集,它填补了现有软件工程基准在自然语言驱动开发场景的空白。该数据集特别针对LLMs在跨文件编辑、代码库结构理解和工具调用等核心挑战的评估需求,为量化模型在无代码特征添加任务上的能力提供了科学依据。
衍生相关工作
该数据集已衍生出多项重要研究,包括基于Agentless和OpenHands框架的层次化定位修复方法、面向跨文件编辑的代码库理解技术,以及文档-代码对齐验证机制。其构建方法论启发了后续如FEA-Bench等特征添加基准的设计,并为SWE-bench系列基准的多语言扩展提供了质量验证范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作