five

MultiPL-E-completions|代码生成数据集|模型评估数据集

收藏
huggingface2024-10-23 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/nuprl/MultiPL-E-completions
下载链接
链接失效反馈
资源简介:
该数据集名为'humaneval',包含多个配置,每个配置具有特定的特征,如'实验'、'问题'、'语言'、'top_p'、'最大令牌数'、'提示'、'测试'、'停止令牌'、'完成'、'程序'、'标准输出'、'标准错误'、'退出代码'、'状态'和'时间戳'。每个配置都有一个'测试'分割,并指定了'字节数'和'示例数'。文件还列出了每个配置的'下载大小'和'数据集大小'。
提供机构:
Northeastern University Programming Research Lab
创建时间:
2024-10-23
原始信息汇总

MultiPL-E-completions 数据集概述

数据集配置

配置列表

  • humaneval.clj.deepseekcoder_v2lite_base.0.2.reworded
  • humaneval.clj.starcoder2_15b.0.2.reworded
  • humaneval.cpp.bigcode_15b_1000m.0.2.reworded
  • humaneval.cpp.bigcode_15b_200m.0.2.reworded
  • humaneval.cpp.bigcode_15b_400m.0.2.reworded
  • humaneval.cpp.bigcode_15b_600m.0.2.reworded
  • humaneval.cpp.bigcode_15b_800m.0.2.reworded
  • humaneval.cpp.codegeex.0.2.reworded
  • humaneval.cpp.codegen.0.2.reworded
  • humaneval.cpp.cushman001.0.2.reworded
  • humaneval.cpp.davinci.0.2.keep
  • humaneval.cpp.davinci.0.2.remove
  • humaneval.cpp.davinci.0.2.reworded
  • humaneval.cpp.davinci.0.2.transform
  • humaneval.cpp.davinci.0.8.keep
  • humaneval.cpp.davinci.0.8.reworded
  • humaneval.cpp.deepseekcoder_v2lite_base.0.2.reworded
  • humaneval.cpp.incoder.0.2.keep
  • humaneval.cpp.incoder.0.2.remove
  • humaneval.cpp.incoder.0.2.reworded
  • humaneval.cpp.incoder.0.2.transform
  • humaneval.cpp.incoder.0.8.keep
  • humaneval.cpp.incoder.0.8.remove
  • humaneval.cpp.incoder.0.8.reworded
  • humaneval.cpp.replit_code.0.2.reworded
  • humaneval.cpp.starcoder2_15b.0.2.reworded
  • humaneval.cs.bigcode_15b_1000m.0.2.reworded

数据集特征

每个配置包含以下特征:

  • experiment: 实验名称,数据类型为字符串。
  • problem: 问题描述,数据类型为字符串。
  • language: 编程语言,数据类型为字符串。
  • top_p: 采样参数,数据类型为浮点数。
  • max_tokens: 最大令牌数,数据类型为整数。
  • prompt: 提示信息,数据类型为字符串。
  • tests: 测试用例,数据类型为字符串。
  • stop_tokens: 停止令牌序列,数据类型为字符串序列。
  • completions: 补全序列,数据类型为字符串序列。
  • programs: 程序序列,数据类型为字符串序列。
  • stdouts: 标准输出序列,数据类型为字符串序列。
  • stderrs: 标准错误序列,数据类型为字符串序列。
  • exit_codes: 退出代码序列,数据类型为整数序列。
  • statuses: 状态序列,数据类型为字符串序列。
  • timestamps: 时间戳序列,数据类型为整数序列。

数据集分割

每个配置的数据集分割如下:

  • test: 测试集,包含161个样本。

数据集大小

每个配置的数据集大小如下:

  • humaneval.clj.deepseekcoder_v2lite_base.0.2.reworded: 下载大小1843687字节,数据集大小21698829字节。
  • humaneval.clj.starcoder2_15b.0.2.reworded: 下载大小1751564字节,数据集大小20921663字节。
  • humaneval.cpp.bigcode_15b_1000m.0.2.reworded: 下载大小5608450字节,数据集大小67353068字节。
  • humaneval.cpp.bigcode_15b_200m.0.2.reworded: 下载大小6755926字节,数据集大小73914809字节。
  • humaneval.cpp.bigcode_15b_400m.0.2.reworded: 下载大小5800612字节,数据集大小68514672字节。
  • humaneval.cpp.bigcode_15b_600m.0.2.reworded: 下载大小5892261字节,数据集大小70059227字节。
  • humaneval.cpp.bigcode_15b_800m.0.2.reworded: 下载大小6279165字节,数据集大小69289473字节。
  • humaneval.cpp.codegeex.0.2.reworded: 下载大小6214073字节,数据集大小70250543字节。
  • humaneval.cpp.codegen.0.2.reworded: 下载大小5580107字节,数据集大小65355449字节。
  • humaneval.cpp.cushman001.0.2.reworded: 下载大小837474字节,数据集大小6878097字节。
  • humaneval.cpp.davinci.0.2.keep: 下载大小5139391字节,数据集大小63794632字节。
  • humaneval.cpp.davinci.0.2.remove: 下载大小4771093字节,数据集大小58355394字节。
  • humaneval.cpp.davinci.0.2.reworded: 下载大小5535637字节,数据集大小67044215字节。
  • humaneval.cpp.davinci.0.2.transform: 下载大小5522563字节,数据集大小66852210字节。
  • humaneval.cpp.davinci.0.8.keep: 下载大小10144821字节,数据集大小61668425字节。
  • humaneval.cpp.davinci.0.8.reworded: 下载大小10741587字节,数据集大小69467646字节。
  • humaneval.cpp.deepseekcoder_v2lite_base.0.2.reworded: 下载大小1136867字节,数据集大小16866352字节。
  • humaneval.cpp.incoder.0.2.keep: 下载大小9590293字节,数据集大小84748214字节。
  • humaneval.cpp.incoder.0.2.remove: 下载大小8698361字节,数据集大小80426200字节。
  • humaneval.cpp.incoder.0.2.reworded: 下载大小9822654字节,数据集大小91585584字节。
  • humaneval.cpp.incoder.0.2.transform: 下载大小9893024字节,数据集大小91590921字节。
  • humaneval.cpp.incoder.0.8.keep: 下载大小14232317字节,数据集大小76950769字节。
  • humaneval.cpp.incoder.0.8.remove: 下载大小9552208字节,数据集大小51258162字节。
  • humaneval.cpp.incoder.0.8.reworded: 下载大小15494409字节,数据集大小89038635字节。
  • humaneval.cpp.replit_code.0.2.reworded: 下载大小1866365字节,数据集大小18647873字节。
  • humaneval.cpp.starcoder2_15b.0.2.reworded: 下载大小1572822字节,数据集大小16639343字节。
  • humaneval.cs.bigcode_15b_1000m.0.2.reworded: 下载大小未提供,数据集大小未提供。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MultiPL-E-completions数据集通过多种编程语言和模型配置生成代码补全结果,涵盖了多个实验和问题场景。数据集的构建基于不同模型生成的代码补全,包括DeepSeekCoder、StarCoder2等模型,每个配置均包含实验名称、问题描述、编程语言、补全结果等字段。数据集的生成过程通过设置不同的参数如top_p、max_tokens等,确保生成的代码补全具有多样性和代表性。
特点
MultiPL-E-completions数据集的特点在于其广泛的编程语言覆盖和多样化的模型配置。数据集不仅包含代码补全结果,还提供了测试用例、程序输出、错误信息等详细信息,便于用户进行代码生成质量的评估。此外,数据集还记录了每个补全的时间戳和状态,为研究代码生成的时间效率和成功率提供了丰富的数据支持。
使用方法
MultiPL-E-completions数据集适用于代码生成、模型评估和编程语言处理等领域的研究。用户可以通过加载数据集,分析不同模型在不同编程语言下的代码补全效果。数据集中的测试用例和程序输出可用于验证生成代码的正确性,而时间戳和状态信息则有助于评估模型的效率。研究人员还可以通过调整top_p、max_tokens等参数,探索不同设置对代码生成质量的影响。
背景与挑战
背景概述
MultiPL-E-completions数据集是一个专注于多语言编程代码生成与评估的数据集,旨在推动编程语言处理领域的研究。该数据集由多个配置组成,涵盖了多种编程语言和模型生成的代码片段,包括C++、Clojure等。其核心研究问题在于如何通过大规模数据集评估不同编程语言下代码生成模型的性能与泛化能力。该数据集的创建时间较新,主要由DeepSeek等机构的研究人员开发,旨在为代码生成模型提供标准化的评估基准,推动该领域的技术进步。
当前挑战
MultiPL-E-completions数据集在解决代码生成领域的挑战时,面临多方面的困难。首先,不同编程语言的语法和语义差异显著,如何确保模型在多种语言下均能生成高质量的代码是一个关键问题。其次,数据集的构建过程中需要处理大量复杂的代码片段,确保其正确性和可执行性,这对数据清洗和验证提出了极高的要求。此外,如何设计有效的评估指标,全面衡量模型在不同语言下的表现,也是该数据集面临的重要挑战。
常用场景
经典使用场景
MultiPL-E-completions数据集在编程语言生成领域具有广泛的应用,特别是在多语言代码补全任务中。该数据集通过提供多种编程语言的代码片段及其补全结果,为研究人员提供了一个标准化的测试平台。经典的使用场景包括评估不同代码生成模型在多语言环境下的表现,以及研究模型在特定编程语言中的泛化能力。
实际应用
在实际应用中,MultiPL-E-completions数据集被广泛用于开发智能代码补全工具。这些工具能够帮助开发者在编写代码时自动生成高质量的代码片段,从而提高开发效率。此外,该数据集还被用于训练和优化代码生成模型,使其能够更好地适应不同编程语言的需求,广泛应用于软件开发、自动化测试和教育等领域。
衍生相关工作
基于MultiPL-E-completions数据集,许多经典的研究工作得以展开。例如,研究人员利用该数据集开发了多种多语言代码生成模型,如StarCoder和CodeGen等。这些模型在代码补全、代码翻译和代码优化等任务中表现出色。此外,该数据集还催生了一系列关于代码生成模型泛化能力和错误分析的研究,推动了编程语言生成领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作