HC-85/arxiv-abstract-multilabel

Name: HC-85/arxiv-abstract-multilabel
Creator: HC-85
Published: 2024-05-01 01:45:07
License: 暂无描述

Hugging Face2024-05-01 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/HC-85/arxiv-abstract-multilabel

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Arxiv Abstract Multilabel Classification，主要用于多标签文本分类任务。数据集包含多个配置，每个配置都有不同的特征和分割信息。数据集的标签涉及多个学科领域，如计算机科学、经济学、数学、物理学等。数据集的大小在1M到10M之间，包含训练集、验证集和测试集。

提供机构：

HC-85

原始信息汇总

数据集概述

基本信息

语言: 英语
大小类别: 1M<n<10M
任务类别: 文本分类
美观名称: Arxiv Abstract Multilabel Classification

数据集配置

label_ids
- 特征:
  - abstract: 字符串类型
  - labels: 序列类型，int64
- 分割:
  - train: 1688669个样本，1636587538字节
  - val: 482967个样本，468325229字节
  - test: 240988个样本，233186991字节
- 下载大小: 2338253585字节
- 数据集大小: 1519643120字节
merged-and-filtered
- 特征:
  - abstract: 字符串类型
  - labels: 序列类型，float64
- 分割:
  - train: 1603049个样本，2939246887字节
  - val: 458756个样本，823970423.363823字节
  - test: 228549个样本，410105295.34603506字节
- 下载大小: 724705581字节
- 数据集大小: 2193559663.493785字节
merged-and-filtered--over500chr
- 特征:
  - abstract: 字符串类型
  - labels: 序列类型，float64
- 分割:
  - train: 1390749个样本，2531733767.005333字节
  - val: 397774个样本，724179038.2071428字节
  - test: 198132个样本，360507326.04502314字节
- 下载大小: 1285548062字节
- 数据集大小: 3616420131.2574987字节
mnf-100k
- 特征:
  - abstract: 字符串类型
  - labels: 序列类型，float64
- 分割:
  - train: 70656个样本，134884517.7964507字节
  - val: 20021个样本，38230993.960651025字节
  - test: 10062个样本，19203592.703591544字节
- 下载大小: 94447048字节
- 数据集大小: 192319104.46069327字节
mnf-200k
- 特征:
  - abstract: 字符串类型
  - labels: 序列类型，float64
- 分割:
  - train: 140169个样本，267587012.78038236字节
  - val: 40054个样本，76484902.45741552字节
  - test: 20012个样本，38193430.44963963字节
- 下载大小: 172552532字节
- 数据集大小: 382265345.6874375字节
mnf-350k
- 特征:
  - abstract: 字符串类型
  - labels: 序列类型，float64
- 分割:
  - train: 300000个样本，572709399.6112885字节
  - val: 40054个样本，76484902.45741552字节
  - test: 10062个样本，19203592.703591544字节
- 下载大小: 271927682字节
- 数据集大小: 668397894.7722957字节
original
- 特征:
  - abstract: 字符串类型
  - 多个领域标签，均为float32类型
- 分割:
  - train: 1688669个样本，2832526041字节
  - val: 482967个样本，799842801字节
  - test: 240988个样本，398613463字节
- 下载大小: 3407276170字节
- 数据集大小: 1998299065字节

默认配置

配置名称: original
默认: true