five

AnonymousSub/recipe_RL_data_roberta-base

收藏
Hugging Face2022-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AnonymousSub/recipe_RL_data_roberta-base
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由5个字段组成,每个字段对应一个策略序列,包含初始状态、每一步的奖励等信息。字段包括`steps`(所有步骤的标记化令牌)、`step_attn_masks`(对应的注意力掩码)、`rewards`(每一步的奖励,归一化在0到1之间)、`actions`(离散动作空间中的动作序列,采用one-hot编码)和`dones`(表示工作是否完成的标志序列)。数据集的大小为2255673行,每行最多包含16个步骤。
提供机构:
AnonymousSub
原始信息汇总

数据集概述

基本信息

  • 名称:recipe RL roberta base
  • 语言:英语(monolingual)
  • 许可证:未指定

数据集结构

  • 包含5个字段
  • 每行代表一个策略,即从初始状态<START>开始的一系列动作及其在每一步的相应奖励。

字段详情

  • steps (List of lists of Ints) - 所有步骤的令牌化步骤令牌,使用roberta-base分词器。
  • step_attn_masks (List of lists of Ints) - 对应于steps的注意力掩码。
  • rewards (List of Floats) - 每步分配的奖励序列,范围在0到1之间。
  • actions (List of lists of Ints) - 动作序列,采用one-hot编码,动作空间为离散的,共有33种可能动作。
  • dones (List of Bool) - 指示在达到该步骤时工作是否完成的标志序列。

数据集大小

  • 行数:2255673
  • 每行最大步骤数:16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作