NoCode-bench

github2025-08-09 更新2025-08-10 收录

下载链接：

https://github.com/NoCode-bench/NoCode-bench

下载链接

链接失效反馈

官方服务：

资源简介：

NoCode-bench是一个基准测试，旨在评估大型语言模型（LLMs）使用自然语言文档作为输入执行无代码功能添加的能力。与之前专注于错误修复或一般问题解决的基准测试不同，NoCode-bench针对的是文档变更驱动功能开发的新范式。它包括634个真实世界功能添加任务，每个实例包含文档变更、相关上下文文件和真实补丁。

NoCode-bench is a benchmark designed to evaluate the ability of large language models (LLMs) to perform code-free feature addition using natural language documents as input. Unlike previous benchmarks focusing on bug fixing or general problem-solving, NoCode-bench targets the new paradigm of document-change-driven feature development. It comprises 634 real-world feature addition tasks, with each instance containing a document change, relevant context files, and a ground-truth patch.

创建时间：

2025-07-24

原始信息汇总

NoCode-bench 数据集概述

数据集简介

NoCode-bench 是一个用于评估大型语言模型（LLMs）通过自然语言文档输入执行无代码功能添加能力的基准测试。该基准测试专注于现实软件项目中通过文档变更驱动的功能开发新范式。

数据集内容

实例数量：634个真实世界功能添加任务，涵盖多样化的GitHub项目
数据格式：每个实例包含文档变更、相关上下文文件和真实补丁
子集：包含手动验证的高质量子集（NoCode-bench-Verified）

数据集访问

可通过以下代码加载数据集： python from datasets import load_dataset ncbench = load_dataset(NoCode-bench/NoCode-bench_Full, split=test) ncbench_verified = load_dataset(NoCode-bench/NoCode-bench_Verified, split=test)

环境设置

创建conda环境： shell conda create -n ncb python=3.12 conda activate ncb pip install -r requirements.txt
通过Docker构建基础镜像： bash cd environment bash setup_all.sh
构建实例级Docker镜像： bash export PYTHONPATH=$PYTHONPATH:$(pwd) python environment/setup_instances_images.py --bench_tasks NoCode-bench/NoCode-bench_Verified --log_dir logs --max_workers 20

评估方法

生成符合指定格式的预测结果
使用以下命令评估： sh export PYTHONPATH=$PYTHONPATH:$(pwd) python ./evaluation/eval.py --predictions_path ./all_preds.jsonl --log_dir ./evaluation/logs --bench_tasks NoCode-bench/NoCode-bench_Verified --max_workers 110 --output_file eval_result.txt --image_level repo --timeout 600 --proxy None

基准测试重构

可通过5步流程重构或扩展NoCode-bench：

项目选择：选择高质量、活跃维护的GitHub仓库
实例收集：解析发布说明识别真实功能添加任务
环境构建：在environment/文件夹中存储相关数据和脚本
实例过滤：自动过滤不符合标准的实例
输入优化：补充缺失的关键实体名称并屏蔽可能导致数据泄露的信息

搜集汇总

数据集介绍

构建方式

NoCode-bench数据集的构建过程体现了严谨的工程方法论与学术研究的深度融合。研究团队从GitHub活跃仓库中筛选高质量项目作为原始素材，通过解析版本发布说明精准定位功能新增任务，并关联对应的Pull Request获取真实开发场景数据。构建流程采用五阶段标准化管道：项目筛选阶段注重代码库的活跃度与质量；实例采集阶段结合自动化脚本与人工验证；环境构建阶段完整复现开发环境依赖；实例过滤阶段通过自动化测试确保任务可执行性；输入优化阶段则对文档变更进行语义增强与敏感信息脱敏处理，最终形成634个真实世界任务实例。

使用方法

使用NoCode-bench进行模型评估需遵循标准化流程。通过Hugging Face数据集库可快速加载基准数据，支持完整版与Verified子集的灵活选择。评估环境建议采用conda创建隔离的Python 3.12虚拟环境，或直接使用预构建的Docker镜像简化部署。模型预测结果需按照特定JSON格式组织，包含模型标识、实例ID和生成补丁三个关键字段。官方提供的评估脚本支持多进程并行测试，可自动验证补丁的正确性并生成详细评测报告。对于希望扩展基准的研究者，开源工具链完整保留了数据构建各阶段的脚本，支持自定义项目的集成与新任务的采集。

背景与挑战

背景概述

NoCode-bench是由浙江大学CTAG团队于2025年推出的创新性基准测试，旨在评估大型语言模型（LLMs）通过自然语言文档驱动实现无代码功能添加的能力。该数据集聚焦软件工程领域的新兴研究方向，突破了传统基准测试局限于缺陷修复或通用问题解决的范式，开创性地将自然语言文档变更与实际功能开发相结合。数据集包含634个真实GitHub项目中的功能添加任务实例，每个实例均提供文档变更、相关上下文文件及标准补丁，为研究语言模型在软件工程中的应用提供了高质量的评估平台。

当前挑战

NoCode-bench面临的核心挑战体现在两个维度：在领域问题层面，需解决自然语言描述与复杂代码变更之间的语义鸿沟问题，要求模型准确理解非结构化文档中的开发意图并生成符合工程规范的代码修改；在构建过程中，需克服真实项目环境复现的复杂性，包括依赖项管理、跨版本兼容性处理等工程难题，同时确保收集的634个实例在任务清晰度和评估准确性方面达到研究级标准。数据集构建团队通过五阶段流水线工艺，从项目筛选到输入优化，系统性地解决了这些挑战。

常用场景

经典使用场景

在自然语言处理与软件工程的交叉领域，NoCode-bench作为评估大语言模型通过自然语言文档驱动功能添加能力的基准测试工具，其经典使用场景聚焦于模拟真实软件开发流程。研究者通过输入项目文档变更描述，要求模型生成符合功能需求的代码补丁，这种设定复现了开发者根据需求文档迭代系统的核心场景。634个跨领域GitHub真实任务构成的测试集，为衡量模型在无代码环境下的语义理解与代码生成能力提供了标准化沙箱。

解决学术问题

该数据集有效解决了软件自动化领域三个关键学术问题：一是量化评估自然语言到代码的转换准确率，突破传统基准仅关注错误修复的局限；二是建立文档变更与功能实现的映射关系，填补了需求驱动开发自动化研究的评估空白；三是通过人工验证子集NoCode-bench-Verified，为代码生成模型的幻觉问题提供了可解释性分析框架。其多维度评估体系推动了智能编程助手在语义一致性方面的研究进展。

实际应用

在实际工业场景中，NoCode-bench可直接应用于低代码平台的质量检测。企业通过该基准测试筛选最优代码生成模型，将其集成至内部开发系统实现需求文档自动转译。开源社区维护者借助其Docker化评估流程，验证自动化工具链在项目迭代中的可靠性。数据集涵盖的前端框架、数据库系统等多样化案例，尤其适合评估垂直领域专用模型的场景适配能力。

数据集最近研究