kajuma/diffllama_patch_tokenized
收藏Hugging Face2026-01-30 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/kajuma/diffllama_patch_tokenized
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
dataset_info:
features:
- name: input_ids
list: int32
- name: token_type_ids
list: int8
- name: attention_mask
list: int8
- name: labels
list: int64
splits:
- name: train
num_bytes: 277472563200
num_examples: 1209600
download_size: 73473774937
dataset_size: 277472563200
---
配置项集合:
- 配置名称:default(默认配置)
数据文件列表:
- 拆分方式:train(训练集)
文件路径:data/train-*
数据集信息:
特征项:
- 特征名称:input_ids(输入标识符),数据格式:32位整数列表
- 特征名称:token_type_ids(令牌类型标识符),数据格式:8位整数列表
- 特征名称:attention_mask(注意力掩码),数据格式:8位整数列表
- 特征名称:labels(标签),数据格式:64位整数列表
拆分集详情:
- 拆分集名称:train(训练集)
占用字节数:277472563200
样本总数:1209600
下载总大小:73473774937
数据集总占用大小:277472563200
提供机构:
kajuma



