FullStack Bench Dataset
收藏FullStack Bench: Evaluating LLMs as Full Stack Coders
数据集概述
FullStack Bench 是一个多语言的全栈编程基准测试,涵盖了广泛的应用领域和 16 种编程语言,包含 3K 测试样本,旨在评估代码大模型在实际代码开发场景中的代码相关能力。
数据集详情
- 编程语言: 涵盖 16 种编程语言。
- 样本数量: 包含 3K 测试样本。
- 应用领域: 覆盖主流应用领域,如桌面和网页开发。
数据集下载
- 下载链接: 🤗 HuggingFace
使用方法
-
启动沙箱服务器: bash docker run -d --rm -p 8080:8080 volcengine/sandbox-fusion:server-20241204
对于中国大陆用户,提供以下镜像: bash docker run -d --rm -p 8080:8080 vemlp-cn-beijing.cr.volces.com/preset-images/code-sandbox:server-20241204
-
运行基准测试: bash git clone https://github.com/bytedance/FullStackBench.git cd FullStackBench pip install -r requirements.txt
修改 src/main.py 中的模型配置
python src/main.py
引用
如果该数据集对您的工作有帮助,请使用以下引用:
@misc{liu2024fullstackbenchevaluatingllms, title={FullStack Bench: Evaluating LLMs as Full Stack Coders}, author={Siyao Liu and He Zhu and Jerry Liu and Shulin Xin and Aoyan Li and Rui Long and Li Chen and Jack Yang and Jinxiang Xia and Z. Y. Peng and Shukai Liu and Zhaoxiang Zhang and Ge Zhang and Wenhao Huang and Kai Shen and Liang Xiang}, year={2024}, eprint={2412.00535}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2412.00535}, }




