MikeGreen2710/tokenized_dataset_800k
收藏Hugging Face2024-05-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MikeGreen2710/tokenized_dataset_800k
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: house_location
dtype: float64
- name: extra_data
sequence: float64
- name: input_ids
sequence: int32
- name: token_type_ids
sequence: int8
- name: attention_mask
sequence: int8
splits:
- name: train
num_bytes: 2334776112
num_examples: 895032
download_size: 792362877
dataset_size: 2334776112
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
MikeGreen2710
原始信息汇总
数据集概述
数据集特征
- text:文本类型,数据类型为字符串。
- house_location:房屋位置,数据类型为浮点数。
- extra_data:额外数据,数据类型为浮点数序列。
- input_ids:输入ID,数据类型为整数序列。
- token_type_ids:令牌类型ID,数据类型为字节整数序列。
- attention_mask:注意力掩码,数据类型为字节整数序列。
数据集划分
- train:训练集,包含895032个样本,总大小为2334776112字节。
数据集大小
- 下载大小:792362877字节
- 数据集总大小:2334776112字节
数据文件配置
- config_name:default
- data_files:
- split:train
- path:data/train-*



