nmd2k/apps_rlaif

Name: nmd2k/apps_rlaif
Creator: nmd2k
Published: 2023-11-27 17:41:45
License: 暂无描述

Hugging Face2023-11-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nmd2k/apps_rlaif

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是APPS数据集的扩展版本，专门用于强化学习与AI反馈（RLAIF）。它使用Chat LLMs（如LLama 34B）为每个问题生成多个解决方案变体，并根据评分对这些变体进行排序。数据集包含问题描述（英文）和代码解决方案（Python），并提供了每个问题的多个解决方案变体。数据集的结构包括问题ID、问题描述、输入输出、难度级别、URL、起始代码、偏好解决方案和缺陷解决方案等字段。数据集的主要用途是为强化学习提供多样化的解决方案变体，以帮助模型更好地理解和生成代码。

提供机构：

nmd2k

原始信息汇总

APPS Dataset for Reinforcement Learning with AI Feedback

数据集概述

数据集名称: APPS_RLAIF
许可证: MIT
数据集大小: 196914903 字节
下载大小: 38020746 字节
样本数量: 23129
任务类别: 文本生成、强化学习
标签: 代码

数据集结构

特征

problem_id: 问题ID，数据类型为int64
question: 问题描述，数据类型为string
input_output: 输入输出示例，数据类型为string
difficulty: 难度级别，数据类型为string
url: 问题来源URL，数据类型为string
starter_code: 初始代码，数据类型为string
prefer_solution: 首选解决方案，数据类型为string
flaw_solution: 有缺陷的解决方案，数据类型为string序列

分割

train: 训练集，包含23129个样本，196914903字节

配置

default: 默认配置，数据文件路径为data/train-*

数据集内容

数据集包含英语问题描述和Python代码解决方案。每个样本包括一个问题和多个解决方案变体，这些变体由LLama 34B模型生成并按分数排序。每个解决方案变体是基于前一个版本的迭代生成，迭代次数为3次。

示例

json { "problem_id": 0, "question": "Polycarp has $n$ different binary words...", "solutions": "for _ in range(int(input())): n = int(input())...", "input_output": "{ "inputs": [ "4\n4\n0001\n1000\n0011\n0111\n3\n010\n101\n0\n2\n00000\n00001\n4\n01\n001\n0001\n00001\n" ], "outputs": [ "1\n3 \n-1\n0\n\n2\n1 2 \n" ] }", "difficulty": "interview", "url": "https://codeforces.com/problemset/problem/1259/D", "starter_code": "", "variances": [ "for _ in range(int(input())): n = int(input())...", "for _ in range(int(input())): number_of_cases = int(input())...", "for _ in range(int(input())): number_of_cases = int(input())..." ] }

使用方法

每个样本包含一个问题和解决方案对，以及由LLM生成的解决方案变体，存储在variances字段中。

5,000+

优质数据集

54 个

任务类型

进入经典数据集