LukaMagic077/downsampled_below10k_arxiv_dataset_on_hub
收藏Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/LukaMagic077/downsampled_below10k_arxiv_dataset_on_hub
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文章和摘要的文本数据,分为训练集、验证集和测试集。训练集包含18,032个样本,验证集包含441个样本,测试集包含418个样本。每个样本包含两个字段:article(文章)和abstract(摘要),均为字符串类型。数据集总大小约为668MB。
提供机构:
LukaMagic077
原始信息汇总
数据集概述
数据集配置
- 配置名称: default
- 数据文件:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
数据集信息
-
特征:
- article: 数据类型为
string - abstract: 数据类型为
string
- article: 数据类型为
-
分割详情:
- 训练集:
- 字节数: 639575187.6327566
- 示例数: 18032
- 验证集:
- 字节数: 14991887.708669981
- 示例数: 441
- 测试集:
- 字节数: 14227340.6
- 示例数: 418
- 训练集:
-
下载大小: 106594997
-
数据集总大小: 668794415.9414266



