nhantruongcse/tokenized_25k_test_large_vietnews

Name: nhantruongcse/tokenized_25k_test_large_vietnews
Creator: nhantruongcse
Published: 2023-12-09 05:11:43
License: 暂无描述

Hugging Face2023-12-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nhantruongcse/tokenized_25k_test_large_vietnews

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含25000个训练样本，每个样本包含Content、Summary、input_ids、attention_mask和labels五个特征字段。Content和Summary字段为字符串类型，input_ids为int32类型的序列，attention_mask为int8类型的序列，labels为int64类型的序列。数据集的总大小为188517601字节，下载大小为83239255字节。

提供机构：

nhantruongcse

原始信息汇总

数据集概述

特征信息

Content: 数据类型为字符串。
Summary: 数据类型为字符串。
input_ids: 数据类型为整数序列，类型为int32。
attention_mask: 数据类型为整数序列，类型为int8。
labels: 数据类型为整数序列，类型为int64。

数据分割

train: 包含25000个样本，总字节数为188517601。

数据集大小

下载大小: 83239255字节。
数据集大小: 188517601字节。

配置信息

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集