five

edbeeching/gia-dataset-tokenized-2024-2

收藏
Hugging Face2023-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/edbeeching/gia-dataset-tokenized-2024-2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个Atari游戏的配置,每个配置包含了一系列特征,如patches(图像块)、loss_mask(损失掩码)、patch_positions(图像块位置)、input_ids(输入ID)、input_types(输入类型)、local_positions(局部位置)和attention_mask(注意力掩码)。数据集分为训练集和测试集,并提供了每个分割的字节数和样本数。此外,还提供了每个配置的下载大小和数据集大小。
提供机构:
edbeeching
原始信息汇总

数据集概述

数据集配置

atari-alien

  • 特征:
    • patches: 多层序列,最终类型为 uint8
    • loss_mask: 序列,类型为 bool
    • patch_positions: 多层序列,最终类型为 float64
    • input_ids: 序列,类型为 int32
    • input_types: 序列,类型为 int64
    • local_positions: 序列,类型为 int64
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2427492496, 样本数 1836
  • 下载大小: 197411801
  • 数据集大小: 2427492496

atari-amidar

  • 特征:
    • loss_mask: 序列,类型为 bool
    • local_positions: 序列,类型为 int64
    • patches: 多层序列,最终类型为 uint8
    • patch_positions: 多层序列,最终类型为 float64
    • input_ids: 序列,类型为 int32
    • input_types: 序列,类型为 int64
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 23292403388, 样本数 17641
    • test: 字节数 2157941388, 样本数 1637
  • 下载大小: 1619960876
  • 数据集大小: 25450344776

atari-assault

  • 特征:
    • loss_mask: 序列,类型为 bool
    • local_positions: 序列,类型为 int64
    • patches: 多层序列,最终类型为 uint8
    • patch_positions: 多层序列,最终类型为 float64
    • input_ids: 序列,类型为 int32
    • input_types: 序列,类型为 int64
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 23077576568, 样本数 17434
    • test: 字节数 1898092400, 样本数 1436
  • 下载大小: 760479036
  • 数据集大小: 24975668968

atari-asterix

  • 特征:
    • local_positions: 序列,类型为 int64
    • patch_positions: 多层序列,最终类型为 float64
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • loss_mask: 序列,类型为 bool
    • patches: 多层序列,最终类型为 uint8
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 25094377660, 样本数 19161
  • 下载大小: 943683526
  • 数据集大小: 25094377660

atari-asteroids

  • 特征:
    • local_positions: 序列,类型为 int64
    • patch_positions: 多层序列,最终类型为 float64
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • loss_mask: 序列,类型为 bool
    • patches: 多层序列,最终类型为 uint8
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 22677165856, 样本数 17112
  • 下载大小: 807221186
  • 数据集大小: 22677165856

atari-atlantis

  • 特征:
    • local_positions: 序列,类型为 int64
    • patch_positions: 多层序列,最终类型为 float64
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • loss_mask: 序列,类型为 bool
    • patches: 多层序列,最终类型为 uint8
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 22825149408, 样本数 17240
  • 下载大小: 745609354
  • 数据集大小: 22825149408

atari-bankheist

  • 特征:
    • input_types: 序列,类型为 int64
    • local_positions: 序列,类型为 int64
    • patch_positions: 多层序列,最终类型为 float64
    • patches: 多层序列,最终类型为 uint8
    • input_ids: 序列,类型为 int32
    • loss_mask: 序列,类型为 bool
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 23741888116, 样本数 18043
    • test: 字节数 2701097304, 样本数 2050
  • 下载大小: 2847993069
  • 数据集大小: 26442985420

atari-battlezone

  • 特征:
    • patches: 多层序列,最终类型为 uint8
    • local_positions: 序列,类型为 int64
    • loss_mask: 序列,类型为 bool
    • input_types: 序列,类型为 int64
    • patch_positions: 多层序列,最终类型为 float64
    • input_ids: 序列,类型为 int32
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2683381416, 样本数 2030
  • 下载大小: 162167846
  • 数据集大小: 2683381416

atari-berzerk

  • 特征:
    • patches: 多层序列,最终类型为 uint8
    • loss_mask: 序列,类型为 bool
    • local_positions: 序列,类型为 int64
    • patch_positions: 多层序列,最终类型为 float64
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2683232284, 样本数 2025
  • 下载大小: 98071291
  • 数据集大小: 2683232284

atari-bowling

  • 特征:
    • patches: 多层序列,最终类型为 uint8
    • loss_mask: 序列,类型为 bool
    • local_positions: 序列,类型为 int64
    • patch_positions: 多层序列,最终类型为 float64
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2638612892, 样本数 2001
  • 下载大小: 57099861
  • 数据集大小: 2638612892

atari-boxing

  • 特征:
    • patches: 多层序列,最终类型为 uint8
    • loss_mask: 序列,类型为 bool
    • local_positions: 序列,类型为 int64
    • patch_positions: 多层序列,最终类型为 float64
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2925635312, 样本数 2252
  • 下载大小: 154591181
  • 数据集大小: 2925635312

atari-breakout

  • 特征:
    • loss_mask: 序列,类型为 bool
    • patch_positions: 多层序列,最终类型为 float64
    • patches: 多层序列,最终类型为 uint8
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • local_positions: 序列,类型为 int64
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 21372025124, 样本数 16135
    • test: 字节数 2843462328, 样本数 2146
  • 下载大小: 740521401
  • 数据集大小: 24215487452

atari-centipede

  • 特征:
    • loss_mask: 序列,类型为 bool
    • patch_positions: 多层序列,最终类型为 float64
    • patches: 多层序列,最终类型为 uint8
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • local_positions: 序列,类型为 int64
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 24525541956, 样本数 18727
    • test: 字节数 2743854332, 样本数 2097
  • 下载大小: 886355860
  • 数据集大小: 27269396288

atari-choppercommand

  • 特征:
    • loss_mask: 序列,类型为 bool
    • patch_positions: 多层序列,最终类型为 float64
    • patches: 多层序列,最终类型为 uint8
    • input_types: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • local_positions: 序列,类型为 int64
    • attention_mask: 序列,类型为 bool
  • 分割:
    • train: 字节数 21916144968, 样本数 16598
    • test: 字节数 3130204472, 样本数 2370
  • 下载大小: 1120222280
  • 数据集大小: 25046349440

atari-crazyclimber

  • 特征:
    • input_types: 序列,类型为 int64
    • loss_mask: 序列,类型为 bool
    • patches: 多层序列,最终类型为 uint8
    • patch_positions: 多层序列,最终类型为 float64
    • local_positions: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2452295076, 样本数 1855
  • 下载大小: 147409815
  • 数据集大小: 2452295076

atari-defender

  • 特征:
    • input_types: 序列,类型为 int64
    • loss_mask: 序列,类型为 bool
    • patches: 多层序列,最终类型为 uint8
    • patch_positions: 多层序列,最终类型为 float64
    • local_positions: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2667101644, 样本数 2013
  • 下载大小: 76162534
  • 数据集大小: 2667101644

atari-demonattack

  • 特征:
    • input_types: 序列,类型为 int64
    • loss_mask: 序列,类型为 bool
    • patches: 多层序列,最终类型为 uint8
    • patch_positions: 多层序列,最终类型为 float64
    • local_positions: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2655965584, 样本数 2004
  • 下载大小: 71540075
  • 数据集大小: 2655965584

atari-doubledunk

  • 特征:
    • patches: 多层序列,最终类型为 uint8
    • local_positions: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • input_types: 序列,类型为 int64
    • loss_mask: 序列,类型为 bool
    • patch_positions: 多层序列,最终类型为 float64
    • attention_mask: 序列,类型为 bool
  • 分割:
    • test: 字节数 2654251456, 样本数 2032
  • 下载大小: 140407266
  • 数据集大小: 2654251456

atari-fishingderby

  • 特征:
    • patches: 多层序列,最终类型为 uint8
    • local_positions: 序列,类型为 int64
    • input_ids: 序列,类型为 int32
    • input_types: 序列,类型为
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作