nmd2k/apps_rlaif
收藏APPS Dataset for Reinforcement Learning with AI Feedback
数据集概述
数据集名称: APPS_RLAIF
许可证: MIT
数据集大小: 196914903 字节
下载大小: 38020746 字节
样本数量: 23129
任务类别: 文本生成、强化学习
标签: 代码
数据集结构
特征
- problem_id: 问题ID,数据类型为int64
- question: 问题描述,数据类型为string
- input_output: 输入输出示例,数据类型为string
- difficulty: 难度级别,数据类型为string
- url: 问题来源URL,数据类型为string
- starter_code: 初始代码,数据类型为string
- prefer_solution: 首选解决方案,数据类型为string
- flaw_solution: 有缺陷的解决方案,数据类型为string序列
分割
- train: 训练集,包含23129个样本,196914903字节
配置
- default: 默认配置,数据文件路径为
data/train-*
数据集内容
数据集包含英语问题描述和Python代码解决方案。每个样本包括一个问题和多个解决方案变体,这些变体由LLama 34B模型生成并按分数排序。每个解决方案变体是基于前一个版本的迭代生成,迭代次数为3次。
示例
json { "problem_id": 0, "question": "Polycarp has $n$ different binary words...", "solutions": "for _ in range(int(input())): n = int(input())...", "input_output": "{ "inputs": [ "4\n4\n0001\n1000\n0011\n0111\n3\n010\n101\n0\n2\n00000\n00001\n4\n01\n001\n0001\n00001\n" ], "outputs": [ "1\n3 \n-1\n0\n\n2\n1 2 \n" ] }", "difficulty": "interview", "url": "https://codeforces.com/problemset/problem/1259/D", "starter_code": "", "variances": [ "for _ in range(int(input())): n = int(input())...", "for _ in range(int(input())): number_of_cases = int(input())...", "for _ in range(int(input())): number_of_cases = int(input())..." ] }
使用方法
每个样本包含一个问题和解决方案对,以及由LLM生成的解决方案变体,存储在variances字段中。



