FullStack Bench Dataset

github2024-12-04 更新2024-12-06 收录

下载链接：

https://github.com/bytedance/FullStackBench

下载链接

链接失效反馈

官方服务：

资源简介：

FullStack Bench是一个多语言的全栈编程基准，涵盖了广泛的应用领域和16种编程语言，包含3K测试样本，显著推动了代码LLMs在实际代码开发场景中的代码相关能力。

FullStack Bench is a multilingual full-stack programming benchmark that covers a wide range of application domains and 16 programming languages, contains 3,000 test samples, and significantly advances the code-related capabilities of code LLMs in real-world code development scenarios.

创建时间：

2024-11-28

原始信息汇总

FullStack Bench: Evaluating LLMs as Full Stack Coders

数据集概述

FullStack Bench 是一个多语言的全栈编程基准测试，涵盖了广泛的应用领域和 16 种编程语言，包含 3K 测试样本，旨在评估代码大模型在实际代码开发场景中的代码相关能力。

数据集详情

编程语言: 涵盖 16 种编程语言。
样本数量: 包含 3K 测试样本。
应用领域: 覆盖主流应用领域，如桌面和网页开发。

数据集下载

下载链接: 🤗 HuggingFace

使用方法

启动沙箱服务器： bash docker run -d --rm -p 8080:8080 volcengine/sandbox-fusion:server-20241204

对于中国大陆用户，提供以下镜像： bash docker run -d --rm -p 8080:8080 vemlp-cn-beijing.cr.volces.com/preset-images/code-sandbox:server-20241204
运行基准测试： bash git clone https://github.com/bytedance/FullStackBench.git cd FullStackBench pip install -r requirements.txt

修改 src/main.py 中的模型配置

python src/main.py

引用

如果该数据集对您的工作有帮助，请使用以下引用：

@misc{liu2024fullstackbenchevaluatingllms, title={FullStack Bench: Evaluating LLMs as Full Stack Coders}, author={Siyao Liu and He Zhu and Jerry Liu and Shulin Xin and Aoyan Li and Rui Long and Li Chen and Jack Yang and Jinxiang Xia and Z. Y. Peng and Shukai Liu and Zhaoxiang Zhang and Ge Zhang and Wenhao Huang and Kai Shen and Liang Xiang}, year={2024}, eprint={2412.00535}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2412.00535}, }

搜集汇总

数据集介绍

构建方式

FullStack Bench数据集的构建旨在评估大型语言模型（LLMs）在全栈编程中的能力。该数据集涵盖了广泛的应用领域和16种编程语言，包含3000个测试样本。通过精心设计的任务，数据集模拟了真实世界中的代码开发场景，从而能够全面评估模型在代码生成、调试和优化等方面的表现。

特点

FullStack Bench数据集的显著特点在于其多语言和多领域的覆盖范围。它不仅支持主流编程语言，还涉及桌面和网页开发等多个应用领域。此外，数据集通过SandboxFusion工具进行代码沙箱执行，确保了评估的准确性和一致性。

使用方法

使用FullStack Bench数据集时，用户首先需要启动SandboxFusion沙箱服务器，然后通过Git克隆数据集仓库并安装相关依赖。在配置模型参数后，用户可以运行src/main.py脚本进行基准测试。数据集的详细使用方法和结果分析可参考相关论文和官方文档。

背景与挑战

背景概述

FullStack Bench数据集是由字节跳动公司开发的多语言全栈编程基准测试数据集，旨在评估大型语言模型（LLMs）在全栈编程中的能力。该数据集涵盖了广泛的应用领域和16种编程语言，包含3000个测试样本，显著推动了代码生成模型在实际代码开发场景中的能力边界。自2024年发布以来，FullStack Bench已成为评估和提升LLMs在全栈编程中表现的重要工具，对人工智能和软件开发领域产生了深远影响。

当前挑战

FullStack Bench数据集在构建过程中面临多项挑战。首先，涵盖多语言和多领域的广泛性要求数据集设计者具备跨语言和跨领域的专业知识。其次，确保测试样本的多样性和代表性，以全面评估LLMs在不同编程任务中的表现，是一个复杂的过程。此外，数据集的评估工具SandboxFusion需要支持多种编程语言的代码执行和验证，这对技术实现提出了高要求。最后，如何持续更新和扩展数据集，以适应快速发展的编程语言和技术，是该数据集面临的长期挑战。

常用场景

经典使用场景

FullStack Bench Dataset 在评估大型语言模型（LLMs）作为全栈开发者的能力方面具有经典应用。该数据集涵盖了广泛的应用领域和16种编程语言，提供了3000个测试样本，显著推动了代码生成模型在实际代码开发场景中的能力边界。通过该数据集，研究者可以系统地评估模型在桌面和网页开发等主流应用领域中的表现，从而为模型的改进提供有力依据。

实际应用

在实际应用中，FullStack Bench Dataset 被广泛用于开发和优化全栈开发工具和平台。通过该数据集，开发者可以评估和比较不同模型在处理复杂编程任务时的表现，从而选择最适合的模型进行集成。此外，该数据集还支持自动化测试和持续集成工具的开发，提高了软件开发的效率和质量。

衍生相关工作

FullStack Bench Dataset 的发布催生了一系列相关研究和工作。例如，SandboxFusion 工具的开发，它通过标准化数据格式和统一的HTTP API，简化了多语言编程任务的评估过程。此外，基于该数据集的研究还推动了代码生成模型的进一步优化，特别是在处理多语言和多领域任务时的表现。这些衍生工作不仅丰富了学术研究的内容，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

FullStack Bench Dataset

FullStack Bench: Evaluating LLMs as Full Stack Coders

数据集概述

数据集详情

数据集下载

使用方法

修改 src/main.py 中的模型配置

引用