five

nuprl-staging/MultiPL-E|代码生成数据集|编程语言数据集

收藏
hugging_face2024-07-07 更新2024-07-06 收录
代码生成
编程语言
下载链接:
https://hf-mirror.com/datasets/nuprl-staging/MultiPL-E
下载链接
链接失效反馈
资源简介:
MultiPLE-E数据集是一个包含多种编程语言的代码相关任务数据集。数据集中的注释由机器生成,语言内容由机器和专家共同生成。数据集为单语(英语),大小在1K到10K之间。数据集包含多个配置,每个配置对应不同的编程语言,并包含特定的特征和测试集。特征包括prompt、doctests、tests和stop_tokens等。数据集的来源包括原始数据集和扩展数据集(如OpenAI的Humaneval和MBPP)。

The MultiPLE-E dataset is a code-related task dataset that includes multiple programming languages. The annotations in the dataset are machine-generated, and the language content is generated by both machines and experts. The dataset is monolingual (English) and has a size category of 1K<n<10K. The dataset contains multiple configurations, each corresponding to a different programming language, and includes specific features and test sets. Features include prompt, doctests, tests, and stop_tokens. The datasets sources include original datasets and extended datasets (such as OpenAIs Humaneval and MBPP).
提供机构:
nuprl-staging
原始信息汇总

数据集概述

基本信息

  • 数据集名称: MultiPLE-E
  • 语言: 英语(en)
  • 许可证: MIT
  • 多语言性: 单语言(monolingual)
  • 数据规模: 1K < n < 10K
  • 数据来源: 原始数据(original),扩展数据(extended|openai_humaneval, extended|mbpp)

数据集配置

配置列表

  • humaneval-clj
  • humaneval-cpp
  • humaneval-cs
  • humaneval-d
  • humaneval-elixir
  • humaneval-go
  • humaneval-hs
  • humaneval-java
  • humaneval-jl
  • humaneval-js
  • humaneval-lua
  • humaneval-ml
  • humaneval-php
  • humaneval-pl
  • humaneval-r
  • humaneval-rb
  • humaneval-rkt
  • humaneval-rs
  • humaneval-scala
  • humaneval-sh
  • humaneval-swift
  • humaneval-ts
  • mbpp-clj
  • mbpp-cpp
  • mbpp-cs
  • mbpp-d
  • mbpp-elixir
  • mbpp-go
  • mbpp-hs
  • mbpp-java
  • mbpp-jl
  • mbpp-js
  • mbpp-lua
  • mbpp-ml
  • mbpp-php
  • mbpp-pl
  • mbpp-r
  • mbpp-rb
  • mbpp-rkt
  • mbpp-rs
  • mbpp-scala
  • mbpp-sh
  • mbpp-swift
  • mbpp-ts

配置详情

humaneval-clj

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 174890 bytes, 161 examples
  • 下载大小: 70395 bytes
  • 数据集大小: 174890 bytes

humaneval-cpp

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 245061 bytes, 161 examples
  • 下载大小: 83221 bytes
  • 数据集大小: 245061 bytes

humaneval-cs

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 288571 bytes, 158 examples
  • 下载大小: 82080 bytes
  • 数据集大小: 288571 bytes

humaneval-d

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 179391 bytes, 156 examples
  • 下载大小: 70027 bytes
  • 数据集大小: 179391 bytes

humaneval-elixir

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 207052 bytes, 161 examples
  • 下载大小: 74798 bytes
  • 数据集大小: 207052 bytes

humaneval-go

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 252128 bytes, 154 examples
  • 下载大小: 78121 bytes
  • 数据集大小: 252128 bytes

humaneval-hs

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 210523 bytes, 156 examples
  • 下载大小: 69373 bytes
  • 数据集大小: 210523 bytes

humaneval-java

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 293293 bytes, 158 examples
  • 下载大小: 86178 bytes
  • 数据集大小: 293293 bytes

humaneval-jl

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 165943 bytes, 159 examples
  • 下载大小: 68620 bytes
  • 数据集大小: 165943 bytes

humaneval-js

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 187162 bytes, 161 examples
  • 下载大小: 70034 bytes
  • 数据集大小: 187162 bytes

humaneval-lua

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 190211 bytes, 161 examples
  • 下载大小: 70547 bytes
  • 数据集大小: 190211 bytes

humaneval-ml

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 169037 bytes, 155 examples
  • 下载大小: 68199 bytes
  • 数据集大小: 169037 bytes

humaneval-php

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 230721 bytes, 161 examples
  • 下载大小: 75195 bytes
  • 数据集大小: 230721 bytes

humaneval-pl

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 248652 bytes, 161 examples
  • 下载大小: 77247 bytes
  • 数据集大小: 248652 bytes

humaneval-r

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 195050 bytes, 161 examples
  • 下载大小: 71602 bytes
  • 数据集大小: 195050 bytes

humaneval-rb

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 193448 bytes, 161 examples
  • 下载大小: 72942 bytes
  • 数据集大小: 193448 bytes

humaneval-rkt

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 194898 bytes, 161 examples
  • 下载大小: 70785 bytes
  • 数据集大小: 194898 bytes

humaneval-rs

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 193677 bytes, 156 examples
  • 下载大小: 75300 bytes
  • 数据集大小: 193677 bytes

humaneval-scala

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 245564 bytes, 160 examples
  • 下载大小: 80950 bytes
  • 数据集大小: 245564 bytes

humaneval-sh

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 169419 bytes, 158 examples
  • 下载大小: 67691 bytes
  • 数据集大小: 169419 bytes

humaneval-swift

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 209818 bytes, 158 examples
  • 下载大小: 78057 bytes
  • 数据集大小: 209818 bytes

humaneval-ts

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 191144 bytes, 159 examples
  • 下载大小: 70427 bytes
  • 数据集大小: 191144 bytes

mbpp-clj

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 249203 bytes, 397 examples
  • 下载大小: 76741 bytes
  • 数据集大小: 249203 bytes

mbpp-cpp

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 362938 bytes, 397 examples
  • 下载大小: 97734 bytes
  • 数据集大小: 362938 bytes

mbpp-cs

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 418542 bytes, 386 examples
  • 下载大小: 99239 bytes
  • 数据集大小: 418542 bytes

mbpp-d

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 233997 bytes, 358 examples
  • 下载大小: 73269 bytes
  • 数据集大小: 233997 bytes

mbpp-elixir

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 299264 bytes, 397 examples
  • 下载大小: 84803 bytes
  • 数据集大小: 299264 bytes

mbpp-go

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 401215 bytes, 374 examples
  • 下载大小: 93635 bytes
  • 数据集大小: 401215 bytes

mbpp-hs

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 256021 bytes, 355 examples
  • 下载大小: 71870 bytes
  • 数据集大小: 256021 bytes

mbpp-java

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 424038 bytes, 386 examples
  • 下载大小: 99991 bytes
  • 数据集大小: 424038 bytes

mbpp-jl

  • 特征:
    • name: string
    • language: string
    • prompt: string
    • doctests: string
    • original: string
    • prompt_terminology: string
    • tests: string
    • stop_tokens: sequence of string
  • 分割:
    • test: 229892 bytes, 390 examples
  • 下载大小:
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录