five

nmd2k/apps_rlaif

收藏
Hugging Face2023-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nmd2k/apps_rlaif
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是APPS数据集的扩展版本,专门用于强化学习与AI反馈(RLAIF)。它使用Chat LLMs(如LLama 34B)为每个问题生成多个解决方案变体,并根据评分对这些变体进行排序。数据集包含问题描述(英文)和代码解决方案(Python),并提供了每个问题的多个解决方案变体。数据集的结构包括问题ID、问题描述、输入输出、难度级别、URL、起始代码、偏好解决方案和缺陷解决方案等字段。数据集的主要用途是为强化学习提供多样化的解决方案变体,以帮助模型更好地理解和生成代码。
提供机构:
nmd2k
原始信息汇总

APPS Dataset for Reinforcement Learning with AI Feedback

数据集概述

数据集名称: APPS_RLAIF
许可证: MIT
数据集大小: 196914903 字节
下载大小: 38020746 字节
样本数量: 23129
任务类别: 文本生成、强化学习
标签: 代码

数据集结构

特征

  • problem_id: 问题ID,数据类型为int64
  • question: 问题描述,数据类型为string
  • input_output: 输入输出示例,数据类型为string
  • difficulty: 难度级别,数据类型为string
  • url: 问题来源URL,数据类型为string
  • starter_code: 初始代码,数据类型为string
  • prefer_solution: 首选解决方案,数据类型为string
  • flaw_solution: 有缺陷的解决方案,数据类型为string序列

分割

  • train: 训练集,包含23129个样本,196914903字节

配置

  • default: 默认配置,数据文件路径为data/train-*

数据集内容

数据集包含英语问题描述和Python代码解决方案。每个样本包括一个问题和多个解决方案变体,这些变体由LLama 34B模型生成并按分数排序。每个解决方案变体是基于前一个版本的迭代生成,迭代次数为3次。

示例

json { "problem_id": 0, "question": "Polycarp has $n$ different binary words...", "solutions": "for _ in range(int(input())): n = int(input())...", "input_output": "{ "inputs": [ "4\n4\n0001\n1000\n0011\n0111\n3\n010\n101\n0\n2\n00000\n00001\n4\n01\n001\n0001\n00001\n" ], "outputs": [ "1\n3 \n-1\n0\n\n2\n1 2 \n" ] }", "difficulty": "interview", "url": "https://codeforces.com/problemset/problem/1259/D", "starter_code": "", "variances": [ "for _ in range(int(input())): n = int(input())...", "for _ in range(int(input())): number_of_cases = int(input())...", "for _ in range(int(input())): number_of_cases = int(input())..." ] }

使用方法

每个样本包含一个问题和解决方案对,以及由LLM生成的解决方案变体,存储在variances字段中。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作