AnonymousSub/recipe_RL_data_roberta-base
收藏Hugging Face2022-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AnonymousSub/recipe_RL_data_roberta-base
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由5个字段组成,每个字段对应一个策略序列,包含初始状态、每一步的奖励等信息。字段包括`steps`(所有步骤的标记化令牌)、`step_attn_masks`(对应的注意力掩码)、`rewards`(每一步的奖励,归一化在0到1之间)、`actions`(离散动作空间中的动作序列,采用one-hot编码)和`dones`(表示工作是否完成的标志序列)。数据集的大小为2255673行,每行最多包含16个步骤。
提供机构:
AnonymousSub
原始信息汇总
数据集概述
基本信息
- 名称:recipe RL roberta base
- 语言:英语(monolingual)
- 许可证:未指定
数据集结构
- 包含5个字段
- 每行代表一个策略,即从初始状态
<START>开始的一系列动作及其在每一步的相应奖励。
字段详情
steps(List of lists ofInts) - 所有步骤的令牌化步骤令牌,使用roberta-base分词器。step_attn_masks(List of lists ofInts) - 对应于steps的注意力掩码。rewards(List ofFloats) - 每步分配的奖励序列,范围在0到1之间。actions(List of lists ofInts) - 动作序列,采用one-hot编码,动作空间为离散的,共有33种可能动作。dones(List ofBool) - 指示在达到该步骤时工作是否完成的标志序列。
数据集大小
- 行数:2255673
- 每行最大步骤数:16



