FullStackBench

Hugging Face2024-12-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ByteDance/FullStackBench

下载链接

链接失效反馈

官方服务：

资源简介：

FullStack Bench是一个多语言的全栈编程基准测试，涵盖了广泛的应用领域和16种编程语言，包含3000个测试样本。数据集包括英文和中文两个配置，每个配置都有详细的特征描述和测试数据。主要用于评估大型语言模型（LLMs）在实际代码开发场景中的代码相关能力。

FullStack Bench is a multilingual full-stack programming benchmark that covers a wide range of application domains and 16 programming languages, containing 3000 test samples. The dataset includes two configurations: English and Chinese, each with detailed feature descriptions and test data. It is primarily used to evaluate the code-related capabilities of large language models (LLMs) in real-world code development scenarios.

创建时间：

2024-11-26

原始信息汇总

FullStackBench 数据集概述

数据集信息

许可证

许可证类型：Apache 2.0

配置

配置名称：en
- 数据文件路径：en/test-*
- 特征：
  - canonical_solution: string
  - content: string
  - id: int64
  - labels: struct
    - category: string
    - difficulty: string
    - execution_language: string
    - fewshot: string
    - is_lctx: bool
    - programming_language: string
  - test: struct
    - asset: struct
      - 0020100882.csv: string
      - 0020300292.csv: string
      - 0020501208.csv: string
      - 0021500854.csv: string
      - 0021501127.csv: string
      - 0029700946.csv: string
      - 02-02-2020_2100.csv: string
      - 0880.csv: string
      - 20150117-POR.csv: string
      - 20151031-SAC.csv: string
      - 20160210-UTA.csv: string
      - 413.csv: string
      - AES.csv: string
      - CGO.csv: string
      - Comparison_of_database_tools-4.csv: string
      - DES=+3433236.csv: string
      - DES=+3454989.csv: string
      - DailyRenewablesWatch_2015.csv: string
      - DatosEjemplo.csv: string
      - Hitters_X_train.csv: string
      - MobileNetSSD_deploy.caffemodel: string
      - MobileNetSSD_deploy.prototxt: string
      - Simple Linear Regression.csv: string
      - U.S. Census Data.csv: string
      - app_search_word_display_0.csv: string
      - async_test_2/new_file.txt: string
      - async_test_2/old_file.txt: string
      - blackwhite_geometry.png: string
      - blackwhite_geometry_1.png: string
      - butterfly.jpg: string
      - city.mp4: string
      - color_geometry.png: string
      - data.adult.csv: string
      - del_1width_horilines_image.png: string
      - del_horilines_image.png: string
      - epl_xg.csv: string
      - fifa.csv: string
      - file_test_2/data.xlsx: string
      - file_test_4/data.json: string
      - file_test_6/fake_input.jsonl: string
      - flask_test_18/welcome.html: string
      - flask_test_30/example.db: string
      - git_test_1.zip: string
      - grpc_test_1/client.py: string
      - grpc_test_1/example.proto: string
      - grpc_test_1/example_pb2.py: string
      - grpc_test_1/example_pb2_grpc.py: string
      - hand.png: string
      - hor_lines.png: string
      - housing-data-wide1-100.csv: string
      - inf_CF_Kontrol.csv: string
      - jamesbond.csv: string
      - last_match.csv: string
      - lena.png: string
      - libuv_test_1/test.py: string
      - locations.csv: string
      - log_test_2/server-01-20220305.log: string
      - log_test_2/server-01-20220306.log: string
      - log_test_2/server-02-20220305.log: string
      - log_test_2/server-02-20220306.log: string
      - log_test_2/server-03-20220305.log: string
      - log_test_2/server-03-20220306.log: string
      - pandas_test_2/test.csv: string
      - pyqt_test_2/example: string
      - pyqt_test_2/example1.zip: string
      - pyqt_test_2/logo.jpeg: string
      - rabbitmq_test_1/test.py: string
      - random_lines.png: string
      - redis_test_1/test.py: string
      - sample.csv: string
      - sat_scores.csv: string
      - spx.csv: string
      - structured_io_test_data/sales_data_1.csv: string
      - structured_io_test_data/sales_data_1.json: string
      - structured_io_test_data/sales_data_2.csv: string
      - structured_io_test_data/sales_data_3.csv: string
      - structured_io_test_data_customers.csv: string
      - structured_io_test_data_orders.csv: string
      - submission_linear_regression.csv: string
      - train.csv: string
      - translated_rotated_lena.png: string
      - 主页列表数据类型统计_0.csv: string
      - 应用查询单词显示设备实验统计_0.csv: string
      - 管理员后台分组数据表_0.csv: string
    - code: string
- 分割：
  - 名称：test
  - 字节数：53906470
  - 样本数：1687
- 下载大小：41465293
- 数据集大小：53906470
配置名称：zh
- 数据文件路径：zh/test-*
- 特征：
  - canonical_solution: string
  - content: string
  - id: int64
  - labels: struct
    - category: string
    - difficulty: string
    - execution_language: string
    - fewshot: string
    - is_lctx: bool
    - programming_language: string
  - test: struct
    - asset: struct
      - 0020100882.csv: string
      - 0020300292.csv: string
      - 0020501208.csv: string
      - 0021500854.csv: string
      - 0021501127.csv: string
      - 0029700946.csv: string
      - 02-02-2020_2100.csv: string
      - 0880.csv: string
      - 20150117-POR.csv: string
      - 20151031-SAC.csv: string
      - 20160210-UTA.csv: string
      - 413.csv: string
      - AES.csv: string
      - CGO.csv: string
      - Comparison_of_database_tools-4.csv: string
      - DES=+3433236.csv: string
      - DES=+3454989.csv: string
      - DailyRenewablesWatch_2015.csv: string
      - DatosEjemplo.csv: string
      - Hitters_X_train.csv: string
      - MobileNetSSD_deploy.caffemodel: string
      - MobileNetSSD_deploy.prototxt: string
      - Simple Linear Regression.csv: string
      - U.S. Census Data.csv: string
      - app_search_word_display_0.csv: string
      - async_test_2/new_file.txt: string
      - async_test_2/old_file.txt: string
      - blackwhite_geometry.png: string
      - blackwhite_geometry_1.png: string
      - butterfly.jpg: string
      - city.mp4: string
      - color_geometry.png: string
      - data.adult.csv: string
      - del_1width_horilines_image.png: string
      - del_horilines_image.png: string
      - epl_xg.csv: string
      - fifa.csv: string
      - file_test_2/data.xlsx: string
      - file_test_4/data.json: string
      - file_test_6/fake_input.jsonl: string
      - flask_test_18/welcome.html: string
      - flask_test_30/example.db: string
      - git_test_1.zip: string
      - grpc_test_1/client.py: string
      - grpc_test_1/example.proto: string
      - grpc_test_1/example_pb2.py: string
      - grpc_test_1/example_pb2_grpc.py: string
      - hand.png: string
      - hor_lines.png: string
      - housing-data-wide1-100.csv: string
      - inf_CF_Kontrol.csv: string
      - jamesbond.csv: string
      - last_match.csv: string
      - lena.png: string
      - libuv_test_1/test.py: string
      - locations.csv: string
      - log_test_2/server-01-20220305.log: string
      - log_test_2/server-01-20220306.log: string
      - log_test_2/server-02-20220305.log: string
      - log_test_2/server-02-20220306.log: string
      - log_test_2/server-03-20220305.log: string
      - log_test_2/server-03-20220306.log: string
      - pandas_test_2/test.csv: string
      - pyqt_test_2/example: string
      - pyqt_test_2/example1.zip: string
      - pyqt_test_2/logo.jpeg: string
      - rabbitmq_test_1/test.py: string
      - random_lines.png: string
      - redis_test_1/test.py: string
      - sample.csv: string
      - sat_scores.csv: string
      - spx.csv: string
      - structured_io_test_data/sales_data_1.csv: string
      - structured_io_test_data/sales_data_1.json: string
      - structured_io_test_data/sales_data_2.csv: string
      - structured_io_test_data/sales_data_3.csv: string
      - structured_io_test_data_customers.csv: string
      - structured_io_test_data_orders.csv: string
      - submission_linear_regression.csv: string
      - train.csv: string
      - translated_rotated_lena.png: string
      - 主页列表数据类型统计_0.csv: string
      - 应用查询单词显示设备实验统计_0.csv: string
      - 管理员后台分组数据表_0.csv: string
    - code: string
- 分割：
  - 名称：test
  - 字节数：53665520
  - 样本数：1687
- 下载大小：41441712
- 数据集大小：53665520

搜集汇总

数据集介绍

构建方式

FullStackBench数据集的构建旨在评估大型语言模型（LLMs）在全栈编程任务中的表现。该数据集涵盖了广泛的应用领域和16种编程语言，包含3000个测试样本。通过精心设计的任务，数据集模拟了真实世界中的代码开发场景，确保了测试样本的多样性和复杂性。数据集的构建过程中，不仅考虑了代码的正确性，还引入了多种编程语言和应用场景的组合，以全面评估模型的全栈编程能力。

使用方法

使用FullStackBench数据集时，用户可以通过HuggingFace平台下载数据集，并结合SandboxFusion工具进行代码执行和评估。首先，用户需要启动SandboxFusion服务器，然后通过提供的API接口进行数据集的加载和测试。数据集的使用方法简单直观，用户只需修改配置文件中的模型参数，即可开始对模型进行全栈编程能力的评估。详细的安装和使用步骤可在数据集的官方文档中找到。

背景与挑战

背景概述

FullStackBench是由字节跳动公司推出的一个多语言全栈编程基准数据集，旨在评估大型语言模型（LLMs）在实际代码开发场景中的能力。该数据集涵盖了广泛的应用领域和16种编程语言，包含3000多个测试样本，旨在推动代码生成模型在真实世界编程任务中的表现。FullStackBench的创建不仅为研究人员提供了一个全面的评估工具，还为全栈编程领域的发展提供了新的研究方向。

当前挑战

FullStackBench面临的主要挑战包括多语言支持的复杂性，不同编程语言之间的语法和逻辑差异需要模型具备高度的适应性和泛化能力。此外，数据集的构建过程中需要处理大量不同格式的代码和数据文件，确保测试样本的多样性和代表性。另一个挑战是如何在有限的资源下高效地评估模型的性能，特别是在处理大规模代码生成任务时，模型的计算效率和准确性之间的平衡至关重要。

常用场景

经典使用场景

FullStackBench 数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在全栈编程任务中的表现。该数据集涵盖了广泛的应用领域和16种编程语言，提供了3000多个测试样本，旨在全面评估模型在实际代码开发场景中的代码生成、调试和优化能力。通过该数据集，研究者可以测试模型在桌面和网页开发等主流应用领域中的表现，尤其是在处理复杂编程任务时的准确性和效率。

解决学术问题

FullStackBench 数据集解决了当前学术界在评估LLMs全栈编程能力方面的多个关键问题。首先，它填补了现有基准测试在多语言和多领域覆盖上的不足，提供了更为全面的评估框架。其次，通过提供真实的编程任务和代码样本，该数据集能够有效评估模型在实际开发环境中的适应性和鲁棒性，为提升LLMs在代码生成和调试方面的性能提供了重要的研究基础。

实际应用

在实际应用中，FullStackBench 数据集可用于开发和优化全栈编程工具和自动化系统。例如，它可以用于训练和评估代码生成模型，帮助开发者快速生成高质量的代码片段。此外，该数据集还可用于构建智能代码调试工具，通过分析模型在不同编程任务中的表现，自动检测和修复代码中的错误。这些应用场景不仅提高了开发效率，还降低了编程门槛，使得非专业开发者也能参与到复杂的编程任务中。

数据集最近研究