five

bigcode/humanevalpack|代码生成数据集|多语言编程数据集

收藏
hugging_face2024-05-01 更新2024-03-04 收录
代码生成
多语言编程
下载链接:
https://hf-mirror.com/datasets/bigcode/humanevalpack
下载链接
链接失效反馈
资源简介:
HumanEvalPack是OpenAI的HumanEval的扩展,涵盖了6种编程语言(Python、JavaScript、Java、Go、C++、Rust)和3种任务。Python部分与OpenAI的Python HumanEval完全相同,其他部分由人工翻译并进行了额外的清理。数据集的结构包括数据实例、数据字段和数据分割。数据实例展示了具体的代码示例,数据字段描述了每个字段的含义。
提供机构:
bigcode
原始信息汇总

数据集概述

数据集名称

  • 名称:HumanEvalPack
  • 许可证:MIT

数据集描述

数据集总结

  • 概述:HumanEvalPack 是 OpenAI 的 HumanEval 数据集的扩展,涵盖了 6 种编程语言和 3 个任务。Python 部分的分割与 OpenAI 的 Python HumanEval 完全相同。其他部分的分割由人工翻译,并进行了额外的清理。
  • 语言:Python, JavaScript, Java, Go, C++, Rust

数据集结构

数据实例
  • 示例结构:每个数据实例包括任务ID、提示、函数声明、标准解决方案、错误解决方案、错误类型、失败症状、入口点、导入、测试设置、测试、示例测试、函数签名、文档字符串和指令。
数据字段
  • 字段:任务ID、提示、函数声明、标准解决方案、错误解决方案、错误类型、失败症状、入口点、导入、测试设置、测试、示例测试、函数签名、文档字符串、指令。

数据集创建

来源数据

  • 数据来源:扩展自 OpenAI 的 HumanEval,其他部分由人工翻译并清理。

注释

  • 注释内容:包括错误解决方案、错误类型、失败症状等。

附加信息

许可证信息

  • 许可证:MIT

引用信息

  • 引用格式: bibtex @article{muennighoff2023octopack, title={OctoPack: Instruction Tuning Code Large Language Models}, author={Niklas Muennighoff and others}, journal={arXiv preprint arXiv:2308.07124}, year={2023} }
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

KAIST dataset

KAIST数据集,用于多光谱行人检测。

github 收录

DIV2K

DIV2K数据集分为: 列车数据: 从800高清高分辨率图像开始,我们获得相应的低分辨率图像,并为2、3和4个降尺度因子提供高分辨率和低分辨率图像 验证数据: 100高清晰度高分辨率图像用于生成低分辨率对应图像,低分辨率从挑战开始提供,并用于参与者从验证服务器获得在线反馈; 当挑战的最后阶段开始时,高分辨率图像将被释放。 测试数据: 100多样的图像用于生成低分辨率的相应图像; 参与者将在最终评估阶段开始时收到低分辨率图像,并在挑战结束并确定获胜者后宣布结果。

OpenDataLab 收录