pt-sk/research_papers_short
收藏Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/pt-sk/research_papers_short
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含机器学习领域的ArXiv论文。数据集是对原始数据集的一个版本,原始数据集来自Kaggle的ArXiv论文数据集。处理源数据的三个步骤包括:无用列的移除、训练测试集的分割以及文本中换行符和多余空格的去除。
该数据集包含机器学习领域的ArXiv论文。数据集是对原始数据集的一个版本,原始数据集来自Kaggle的ArXiv论文数据集。处理源数据的三个步骤包括:无用列的移除、训练测试集的分割以及文本中换行符和多余空格的去除。
提供机构:
pt-sk
原始信息汇总
数据集概述
数据集名称
- 名称: ML ArXiv Papers
数据集特征
- 特征1: title
- 数据类型: string
- 特征2: abstract
- 数据类型: string
数据集分割
- 训练集:
- 样本数量: 105832
- 数据大小: 130808836.19633989 bytes
- 测试集:
- 样本数量: 11760
- 数据大小: 14535413.803660113 bytes
数据集大小
- 下载大小: 81252051 bytes
- 总数据集大小: 145344250 bytes
语言
- 语言: en
任务类别
- 类别1: summarization
- 类别2: text2text-generation
标签
- 标签1: arxiv
- 标签2: ML



