five

HC-85/arxiv-abstract-multilabel

收藏
Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/HC-85/arxiv-abstract-multilabel
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Arxiv Abstract Multilabel Classification,主要用于多标签文本分类任务。数据集包含多个配置,每个配置都有不同的特征和分割信息。数据集的标签涉及多个学科领域,如计算机科学、经济学、数学、物理学等。数据集的大小在1M到10M之间,包含训练集、验证集和测试集。

该数据集名为Arxiv Abstract Multilabel Classification,主要用于多标签文本分类任务。数据集包含多个配置,每个配置都有不同的特征和分割信息。数据集的标签涉及多个学科领域,如计算机科学、经济学、数学、物理学等。数据集的大小在1M到10M之间,包含训练集、验证集和测试集。
提供机构:
HC-85
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 大小类别: 1M<n<10M
  • 任务类别: 文本分类
  • 美观名称: Arxiv Abstract Multilabel Classification

数据集配置

  1. label_ids

    • 特征:
      • abstract: 字符串类型
      • labels: 序列类型,int64
    • 分割:
      • train: 1688669个样本,1636587538字节
      • val: 482967个样本,468325229字节
      • test: 240988个样本,233186991字节
    • 下载大小: 2338253585字节
    • 数据集大小: 1519643120字节
  2. merged-and-filtered

    • 特征:
      • abstract: 字符串类型
      • labels: 序列类型,float64
    • 分割:
      • train: 1603049个样本,2939246887字节
      • val: 458756个样本,823970423.363823字节
      • test: 228549个样本,410105295.34603506字节
    • 下载大小: 724705581字节
    • 数据集大小: 2193559663.493785字节
  3. merged-and-filtered--over500chr

    • 特征:
      • abstract: 字符串类型
      • labels: 序列类型,float64
    • 分割:
      • train: 1390749个样本,2531733767.005333字节
      • val: 397774个样本,724179038.2071428字节
      • test: 198132个样本,360507326.04502314字节
    • 下载大小: 1285548062字节
    • 数据集大小: 3616420131.2574987字节
  4. mnf-100k

    • 特征:
      • abstract: 字符串类型
      • labels: 序列类型,float64
    • 分割:
      • train: 70656个样本,134884517.7964507字节
      • val: 20021个样本,38230993.960651025字节
      • test: 10062个样本,19203592.703591544字节
    • 下载大小: 94447048字节
    • 数据集大小: 192319104.46069327字节
  5. mnf-200k

    • 特征:
      • abstract: 字符串类型
      • labels: 序列类型,float64
    • 分割:
      • train: 140169个样本,267587012.78038236字节
      • val: 40054个样本,76484902.45741552字节
      • test: 20012个样本,38193430.44963963字节
    • 下载大小: 172552532字节
    • 数据集大小: 382265345.6874375字节
  6. mnf-350k

    • 特征:
      • abstract: 字符串类型
      • labels: 序列类型,float64
    • 分割:
      • train: 300000个样本,572709399.6112885字节
      • val: 40054个样本,76484902.45741552字节
      • test: 10062个样本,19203592.703591544字节
    • 下载大小: 271927682字节
    • 数据集大小: 668397894.7722957字节
  7. original

    • 特征:
      • abstract: 字符串类型
      • 多个领域标签,均为float32类型
    • 分割:
      • train: 1688669个样本,2832526041字节
      • val: 482967个样本,799842801字节
      • test: 240988个样本,398613463字节
    • 下载大小: 3407276170字节
    • 数据集大小: 1998299065字节

默认配置

  • 配置名称: original
  • 默认: true

标签

  • 科学
  • 学术
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作