Minata/512_block_tokenized_src_fm_fc_ms_ff_method2testcases_v0
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Minata/512_block_tokenized_src_fm_fc_ms_ff_method2testcases_v0
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: input_ids
sequence: int32
- name: attention_mask
sequence: int8
- name: labels
sequence: int64
splits:
- name: train
num_bytes: 2980662680
num_examples: 447010
- name: test
num_bytes: 282063068
num_examples: 42301
download_size: 541623207
dataset_size: 3262725748
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
数据集信息:
特征:
- 名称:input_ids(输入ID序列),数据类型:int32(32位整数)
- 名称:attention_mask(注意力掩码序列),数据类型:int8(8位整数)
- 名称:labels(标签序列),数据类型:int64(64位整数)
数据集划分:
- 划分名称:train(训练集),占用字节数:2980662680,样本数量:447010
- 划分名称:test(测试集),占用字节数:282063068,样本数量:42301
下载总大小:541623207,数据集总存储大小:3262725748
配置项:
- 配置名称:default(默认配置),数据文件:
- 对应训练集划分:路径为 data/train-*
- 对应测试集划分:路径为 data/test-*
提供机构:
Minata
原始信息汇总
数据集信息
特征
- input_ids: 序列类型为 int32
- attention_mask: 序列类型为 int8
- labels: 序列类型为 int64
数据分割
- train:
- 字节数: 2980662680
- 样本数: 447010
- test:
- 字节数: 282063068
- 样本数: 42301
数据大小
- 下载大小: 541623207 字节
- 数据集大小: 3262725748 字节
配置
- default:
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为



