bigcodebench-complete-perf
收藏Hugging Face2024-07-02 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/bigcode/bigcodebench-complete-perf
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个分割,每个分割都有一个独特的名称,并关联特定的特征如'task_id'和'status'。每个分割包含相同数量的示例(1140)和字节(31950),表明数据集在结构上具有一致性。数据集涵盖多种配置和数据文件,暗示这是一个全面的编程相关数据集合,适用于不同的模型和版本。
提供机构:
BigCode
创建时间:
2024-07-02
原始信息汇总
数据集概述
数据集特征
- 名称:
task_id- 数据类型:
string
- 数据类型:
- 名称:
status- 数据类型:
int64
- 数据类型:
数据集分割
- 名称:
Magicoder_S_DS_6.7B- 字节数: 31950
- 样本数: 1140
- 名称:
StarCoder2_15B_Instruct_v0.1- 字节数: 31950
- 样本数: 1140
- 名称:
StarCoder2_3B- 字节数: 31950
- 样本数: 1140
- 名称:
StarCoder2_7B- 字节数: 31950
- 样本数: 1140
- 名称:
StarCoder2_15B- 字节数: 31950
- 样本数: 1140
- 名称:
CodeQwen1.5_7B- 字节数: 31950
- 样本数: 1140
- 名称:
CodeGemma_2B- 字节数: 31950
- 样本数: 1140
- 名称:
CodeGemma_7B- 字节数: 31950
- 样本数: 1140
- 名称:
CodeGemma_7B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
GPT_3.5_Turbo_0125- 字节数: 31950
- 样本数: 1140
- 名称:
GPT_4o_2024_05_13- 字节数: 31950
- 样本数: 1140
- 名称:
GPT_4_Turbo_2024_04_09- 字节数: 31950
- 样本数: 1140
- 名称:
GPT_4_0613- 字节数: 31950
- 样本数: 1140
- 名称:
CodeLlama_7B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
CodeLlama_13B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
CodeLlama_7B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
CodeLlama_13B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Mistral_Large_2402- 字节数: 31950
- 样本数: 1140
- 名称:
Mistral_Small_2402- 字节数: 31950
- 样本数: 1140
- 名称:
Mixtral_8x22B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
Mixtral_8x22B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
CodeLlama_34B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
CodeLlama_34B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
CodeLlama_70B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
CodeLlama_70B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
CodeQwen1.5_7B_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
Qwen1.5_110B_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
Qwen1.5_72B_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
Qwen1.5_32B_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_V2_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_1.3B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_1.3B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_33B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_33B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_6.7B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_6.7B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Llama_3_70B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
Llama_3_70B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Llama_3_8B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
Llama_3_8B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Granite_Code_3B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Granite_Code_8B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Granite_Code_20B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Granite_Code_34B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Granite_Code_3B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
Granite_Code_8B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
Granite_Code_20B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
Granite_Code_34B_Base- 字节数: 31950
- 样本数: 1140
- 名称:
Claude_3_Haiku_20240307- 字节数: 31950
- 样本数: 1140
- 名称:
Claude_3_Sonnet_20240229- 字节数: 31950
- 样本数: 1140
- 名称:
Claude_3_Opus_20240229- 字节数: 31950
- 样本数: 1140
- 名称:
Yi_1.5_34B_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
Yi_1.5_34B- 字节数: 31950
- 样本数: 1140
- 名称:
Yi_1.5_9B_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
Yi_1.5_9B- 字节数: 31950
- 样本数: 1140
- 名称:
Yi_1.5_6B_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
Yi_1.5_6B- 字节数: 31950
- 样本数: 1140
- 名称:
Qwen2_57B_A14B- 字节数: 31950
- 样本数: 1140
- 名称:
Qwen2_7B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Qwen2_72B_Chat- 字节数: 31950
- 样本数: 1140
- 名称:
Gemini_1.5_Pro_API_0514- 字节数: 31950
- 样本数: 1140
- 名称:
Gemini_1.5_Flash_API_0514- 字节数: 31950
- 样本数: 1140
- 名称:
OpenCodeInterpreter_DS_33B- 字节数: 31950
- 样本数: 1140
- 名称:
OpenCodeInterpreter_DS_6.7B- 字节数: 31950
- 样本数: 1140
- 名称:
OpenCodeInterpreter_DS_1.3B- 字节数: 31950
- 样本数: 1140
- 名称:
Phi_3_medium_128k_instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Phi_3_small_128k_instruct- 字节数: 31950
- 样本数: 1140
- 名称:
Codestral_22B_v0.1- 字节数: 31950
- 样本数: 1140
- 名称:
Mistral_7B_Instruct_v0.3- 字节数: 31950
- 样本数: 1140
- 名称:
Mistral_7B_v0.3- 字节数: 31950
- 样本数: 1140
- 名称:
Command_R_plus- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_V2_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_V2_Lite_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
DeepSeek_Coder_V2_Lite_Base- 字节数: 31950
- 样本数: 1140
- 名称:
Claude_3.5_Sonnet_20240620- 字节数: 31950
- 样本数: 1140
- 名称:
Hermes_2_Theta_Llama_3_70B- 字节数: 31950
- 样本数: 1140
- 名称:
WaveCoder_Ultra_6.7B- 字节数: 31950
- 样本数: 1140
- 名称:
Gemma_2_9B_Instruct- 字节数: 31950
- 样本数: 1140
- 名称:
AutoCoder- 字节数: 31950
- 样本数: 1140
- 名称:
AutoCoder_S_6.7B- 字节数: 31950
- 样本数: 1140
- 名称:
AutoCoder_QW_7B- 字节数: 31950
- 样本数: 1140
- 名称:
ReflectionCoder_DS_33B- 字节数: 31950
- 样本数: 1140
- 名称:
ReflectionCoder_DS_6.7B- 字节数: 31950
- 样本数: 1140
- 名称:
ReflectionCoder_CL_34B- 字节数: 31950
- 样本数: 1140
- 名称:
ReflectionCoder_CL_7B- 字节数: 31950
- 样本数: 1140
数据集大小
- 下载大小: 788180
- 数据集大小: 2715750
配置
- 配置名称:
default- 数据文件:
- 分割:
Magicoder_S_DS_6.7B- 路径:
data/Magicoder_S_DS_6.7B-*
- 路径:
- 分割:
StarCoder2_15B_Instruct_v0.1- 路径:
data/StarCoder2_15B_Instruct_v0.1-*
- 路径:
- 分割:
StarCoder2_3B- 路径:
data/StarCoder2_3B-*
- 路径:
- 分割:
StarCoder2_7B- 路径:
data/StarCoder2_7B-*
- 路径:
- 分割:
StarCoder2_15B- 路径:
data/StarCoder2_15B-*
- 路径:
- 分割:
CodeQwen1.5_7B- 路径:
data/CodeQwen1.5_7B-*
- 路径:
- 分割:
CodeGemma_2B- 路径:
data/CodeGemma_2B-*
- 路径:
- 分割:
CodeGemma_7B- 路径:
data/CodeGemma_7B-*
- 路径:
- 分割:
- 分割:
- 数据文件:
搜集汇总
数据集介绍

构建方式
bigcodebench-complete-perf数据集通过整合多个开源代码生成模型的性能数据构建而成。每个模型的数据均以统一的格式存储,包含任务ID和状态信息,确保了数据的一致性和可扩展性。数据集的构建过程注重模型的多样性,涵盖了从轻量级到大规模的不同模型架构,旨在为代码生成领域的研究提供全面的基准测试资源。
特点
该数据集的特点在于其广泛的模型覆盖范围,包含了从3B到70B参数规模的多种模型,如CodeLlama、StarCoder2、GPT系列等。每个模型的数据量均等,确保了公平的对比环境。此外,数据集提供了详细的模型状态信息,便于研究人员分析不同模型在代码生成任务中的表现差异。这种多样性和一致性使得该数据集成为评估和优化代码生成模型的理想选择。
使用方法
使用bigcodebench-complete-perf数据集时,研究人员可以通过加载不同的模型数据文件,直接访问特定模型的性能数据。数据集支持多种编程语言和框架,便于集成到现有的代码生成研究流程中。用户可以根据任务ID筛选数据,分析不同模型在特定任务上的表现,或通过状态信息评估模型的稳定性。此外,数据集的分割设计使得多模型对比实验更加便捷,为代码生成领域的性能优化提供了有力支持。
背景与挑战
背景概述
bigcodebench-complete-perf数据集是一个专注于代码生成与性能评估的基准测试数据集,旨在为不同规模的代码生成模型提供统一的评估标准。该数据集由多个知名模型的分割组成,涵盖了从3B到70B参数规模的多种模型,如CodeLlama、StarCoder2、GPT系列等。其核心研究问题在于如何通过标准化的任务和评估指标,量化不同模型在代码生成任务中的表现,从而推动代码生成领域的技术进步。该数据集的创建为研究人员提供了一个公平、透明的平台,用于比较和优化各类代码生成模型的性能。
当前挑战
bigcodebench-complete-perf数据集面临的挑战主要体现在两个方面。首先,代码生成任务的复杂性要求数据集能够涵盖多样化的编程语言、任务类型和难度级别,这对数据集的构建提出了极高的要求。其次,由于不同模型的架构和训练目标存在显著差异,如何设计统一的评估指标以公平比较各模型的性能,成为数据集构建中的核心难题。此外,数据集的规模庞大,涉及多个模型的分割,如何在保证数据质量的同时高效管理和更新数据集,也是构建过程中需要克服的技术挑战。
常用场景
经典使用场景
在代码生成与性能评估领域,bigcodebench-complete-perf数据集被广泛应用于测试和比较不同代码生成模型的性能。该数据集通过提供多种模型生成的代码样本,帮助研究人员评估模型在代码生成任务中的准确性、效率和鲁棒性。特别是在大规模语言模型的性能测试中,该数据集为模型优化和调优提供了重要的基准数据。
实际应用
在实际应用中,bigcodebench-complete-perf数据集被广泛用于开发智能编程助手和自动化代码生成工具。通过利用该数据集中的代码生成样本,开发者可以训练和优化模型,使其在实际编程任务中提供更准确的代码建议和自动化解决方案。此外,该数据集还被用于企业内部的代码质量评估和开发流程优化。
衍生相关工作
基于bigcodebench-complete-perf数据集,许多经典的研究工作得以展开。例如,研究人员利用该数据集开发了多种代码生成模型的性能评估工具,并提出了新的模型优化策略。此外,该数据集还催生了一系列关于代码生成模型鲁棒性和泛化能力的研究,推动了代码生成领域的理论发展和实践应用。
以上内容由遇见数据集搜集并总结生成



