bigcodebench-instruct-perf

Name: bigcodebench-instruct-perf
Creator: BigCode
Published: 2024-07-02 20:10:01
License: 暂无描述

Hugging Face2024-07-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/bigcode/bigcodebench-instruct-perf

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置对应不同的模型和版本，如Magicoder_S_DS_6.7B、StarCoder2_15B_Instruct_v0.1等。每个配置包含两个特征：task_id（字符串类型）和status（64位整数类型）。每个配置的数据文件路径和大小相同，均为31950字节，包含1140个示例。数据集的总下载大小为482294字节，总数据集大小为1661400字节。

提供机构：

BigCode

创建时间：

2024-07-02

原始信息汇总

数据集概述

数据特征

名称: task_id
- 数据类型: string
名称: status
- 数据类型: int64

数据分割

名称: Magicoder_S_DS_6.7B
- 字节数: 31950
- 样本数: 1140
名称: StarCoder2_15B_Instruct_v0.1
- 字节数: 31950
- 样本数: 1140
名称: CodeGemma_7B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: GPT_3.5_Turbo_0125
- 字节数: 31950
- 样本数: 1140
名称: GPT_4o_2024_05_13
- 字节数: 31950
- 样本数: 1140
名称: GPT_4_Turbo_2024_04_09
- 字节数: 31950
- 样本数: 1140
名称: GPT_4_0613
- 字节数: 31950
- 样本数: 1140
名称: CodeLlama_7B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: CodeLlama_13B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: Mistral_Large_2402
- 字节数: 31950
- 样本数: 1140
名称: Mistral_Small_2402
- 字节数: 31950
- 样本数: 1140
名称: Mixtral_8x22B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: CodeLlama_34B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: CodeLlama_70B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: CodeQwen1.5_7B_Chat
- 字节数: 31950
- 样本数: 1140
名称: Qwen1.5_110B_Chat
- 字节数: 31950
- 样本数: 1140
名称: Qwen1.5_72B_Chat
- 字节数: 31950
- 样本数: 1140
名称: Qwen1.5_32B_Chat
- 字节数: 31950
- 样本数: 1140
名称: DeepSeek_V2_Chat
- 字节数: 31950
- 样本数: 1140
名称: DeepSeek_Coder_1.3B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: DeepSeek_Coder_33B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: DeepSeek_Coder_6.7B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: Llama_3_70B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: Llama_3_8B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: Granite_Code_20B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: Granite_Code_34B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: Claude_3_Haiku_20240307
- 字节数: 31950
- 样本数: 1140
名称: Claude_3_Sonnet_20240229
- 字节数: 31950
- 样本数: 1140
名称: Claude_3_Opus_20240229
- 字节数: 31950
- 样本数: 1140
名称: Yi_1.5_34B_Chat
- 字节数: 31950
- 样本数: 1140
名称: Yi_1.5_9B_Chat
- 字节数: 31950
- 样本数: 1140
名称: Yi_1.5_6B_Chat
- 字节数: 31950
- 样本数: 1140
名称: Qwen2_57B_A14B
- 字节数: 31950
- 样本数: 1140
名称: Qwen2_7B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: Qwen2_72B_Chat
- 字节数: 31950
- 样本数: 1140
名称: Gemini_1.5_Pro_API_0514
- 字节数: 31950
- 样本数: 1140
名称: Gemini_1.5_Flash_API_0514
- 字节数: 31950
- 样本数: 1140
名称: OpenCodeInterpreter_DS_6.7B
- 字节数: 31950
- 样本数: 1140
名称: OpenCodeInterpreter_DS_1.3B
- 字节数: 31950
- 样本数: 1140
名称: Phi_3_medium_128k_instruct
- 字节数: 31950
- 样本数: 1140
名称: Phi_3_small_128k_instruct
- 字节数: 31950
- 样本数: 1140
名称: Mistral_7B_Instruct_v0.3
- 字节数: 31950
- 样本数: 1140
名称: Command_R_plus
- 字节数: 31950
- 样本数: 1140
名称: DeepSeek_Coder_V2_Instruct
- 字节数: 31950
- 样本数: 1140
名称: DeepSeek_Coder_V2_Lite_Instruct
- 字节数: 31950
- 样本数: 1140
名称: Claude_3.5_Sonnet_20240620
- 字节数: 31950
- 样本数: 1140
名称: Hermes_2_Theta_Llama_3_70B
- 字节数: 31950
- 样本数: 1140
名称: WaveCoder_Ultra_6.7B
- 字节数: 31950
- 样本数: 1140
名称: Gemma_2_9B_Instruct
- 字节数: 31950
- 样本数: 1140
名称: AutoCoder
- 字节数: 31950
- 样本数: 1140
名称: AutoCoder_S_6.7B
- 字节数: 31950
- 样本数: 1140
名称: AutoCoder_QW_7B
- 字节数: 31950
- 样本数: 1140

数据集大小

下载大小: 482294
数据集大小: 1661400

搜集汇总

数据集介绍

构建方式

bigcodebench-instruct-perf数据集通过整合多个先进的代码生成模型，构建了一个全面的性能评估框架。每个模型的数据均以统一的格式存储，包含任务ID和状态信息，确保数据的一致性和可比较性。数据集的构建过程严格遵循标准化流程，确保每个模型的数据量相同，便于后续的性能分析和对比。

特点

该数据集涵盖了多种主流代码生成模型，如GPT系列、CodeLlama、Mistral等，每个模型的数据量均为1140个样本，确保了数据的广泛性和代表性。数据集的结构清晰，每个模型的数据独立存储，便于用户根据需求选择特定模型进行分析。此外，数据集还提供了详细的元数据信息，如任务ID和状态，增强了数据的可解释性和实用性。

使用方法

用户可以通过HuggingFace平台直接下载bigcodebench-instruct-perf数据集，并根据需求选择特定的模型数据进行性能评估。数据集的文件路径清晰，用户可以根据模型名称快速定位所需数据。下载后，用户可以利用Python等编程语言加载数据，进行模型性能的对比分析或进一步的代码生成任务研究。数据集的结构设计使得用户能够轻松地进行跨模型的性能比较，为代码生成领域的研究提供了有力的支持。

背景与挑战

背景概述

bigcodebench-instruct-perf数据集是一个专注于代码生成与性能评估的基准测试数据集，旨在为大型语言模型在代码生成任务中的表现提供标准化评估框架。该数据集由多个知名模型的分割组成，涵盖了从7B到70B参数规模的不同模型，如GPT系列、CodeLlama、Mistral等。其核心研究问题在于如何通过统一的基准测试，量化不同模型在代码生成任务中的性能差异，进而推动代码生成领域的技术进步。该数据集的创建时间为2024年，主要研究人员或机构尚未明确公开，但其广泛涵盖的模型种类和规模表明其背后可能有多家顶尖研究机构的支持。该数据集的出现为代码生成领域的研究提供了重要的参考标准，推动了模型性能的透明化与可比较性。

当前挑战

bigcodebench-instruct-perf数据集面临的挑战主要体现在两个方面。首先，代码生成任务本身具有高度复杂性，涉及语法正确性、逻辑合理性以及代码效率等多个维度，如何设计全面且公平的评估指标是一个重要挑战。其次，数据集的构建过程中需要处理大量不同模型生成的代码样本，确保数据的一致性和可比性，同时避免模型过拟合或偏差引入。此外，随着模型规模的不断扩大，如何高效地管理和存储这些大规模数据也是一个技术难题。这些挑战不仅考验数据集的构建者，也为后续研究提供了改进方向。

常用场景

经典使用场景

在代码生成与优化领域，bigcodebench-instruct-perf数据集被广泛用于评估和比较不同代码生成模型的性能。通过提供多样化的任务和模型输出，该数据集为研究人员提供了一个标准化的基准，用于衡量模型在代码生成、代码补全和代码优化等任务中的表现。其丰富的模型覆盖范围使得研究者能够深入分析不同模型架构和训练策略的效果。

衍生相关工作

基于bigcodebench-instruct-perf数据集，许多经典研究工作得以展开。例如，研究者利用该数据集提出了新的模型架构优化方法，提升了代码生成的准确性和效率。此外，该数据集还催生了一系列针对特定编程语言或任务的代码生成模型，进一步推动了代码生成技术的发展。

数据集最近研究