HC-85/arxiv-abstract-multilabel
收藏Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HC-85/arxiv-abstract-multilabel
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Arxiv Abstract Multilabel Classification,主要用于多标签文本分类任务。数据集包含多个配置,每个配置都有不同的特征和分割信息。数据集的标签涉及多个学科领域,如计算机科学、经济学、数学、物理学等。数据集的大小在1M到10M之间,包含训练集、验证集和测试集。
该数据集名为Arxiv Abstract Multilabel Classification,主要用于多标签文本分类任务。数据集包含多个配置,每个配置都有不同的特征和分割信息。数据集的标签涉及多个学科领域,如计算机科学、经济学、数学、物理学等。数据集的大小在1M到10M之间,包含训练集、验证集和测试集。
提供机构:
HC-85
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 大小类别: 1M<n<10M
- 任务类别: 文本分类
- 美观名称: Arxiv Abstract Multilabel Classification
数据集配置
-
label_ids
- 特征:
abstract: 字符串类型labels: 序列类型,int64
- 分割:
train: 1688669个样本,1636587538字节val: 482967个样本,468325229字节test: 240988个样本,233186991字节
- 下载大小: 2338253585字节
- 数据集大小: 1519643120字节
- 特征:
-
merged-and-filtered
- 特征:
abstract: 字符串类型labels: 序列类型,float64
- 分割:
train: 1603049个样本,2939246887字节val: 458756个样本,823970423.363823字节test: 228549个样本,410105295.34603506字节
- 下载大小: 724705581字节
- 数据集大小: 2193559663.493785字节
- 特征:
-
merged-and-filtered--over500chr
- 特征:
abstract: 字符串类型labels: 序列类型,float64
- 分割:
train: 1390749个样本,2531733767.005333字节val: 397774个样本,724179038.2071428字节test: 198132个样本,360507326.04502314字节
- 下载大小: 1285548062字节
- 数据集大小: 3616420131.2574987字节
- 特征:
-
mnf-100k
- 特征:
abstract: 字符串类型labels: 序列类型,float64
- 分割:
train: 70656个样本,134884517.7964507字节val: 20021个样本,38230993.960651025字节test: 10062个样本,19203592.703591544字节
- 下载大小: 94447048字节
- 数据集大小: 192319104.46069327字节
- 特征:
-
mnf-200k
- 特征:
abstract: 字符串类型labels: 序列类型,float64
- 分割:
train: 140169个样本,267587012.78038236字节val: 40054个样本,76484902.45741552字节test: 20012个样本,38193430.44963963字节
- 下载大小: 172552532字节
- 数据集大小: 382265345.6874375字节
- 特征:
-
mnf-350k
- 特征:
abstract: 字符串类型labels: 序列类型,float64
- 分割:
train: 300000个样本,572709399.6112885字节val: 40054个样本,76484902.45741552字节test: 10062个样本,19203592.703591544字节
- 下载大小: 271927682字节
- 数据集大小: 668397894.7722957字节
- 特征:
-
original
- 特征:
abstract: 字符串类型- 多个领域标签,均为float32类型
- 分割:
train: 1688669个样本,2832526041字节val: 482967个样本,799842801字节test: 240988个样本,398613463字节
- 下载大小: 3407276170字节
- 数据集大小: 1998299065字节
- 特征:
默认配置
- 配置名称: original
- 默认: true
标签
- 科学
- 学术



