ppxscal/arxiv-metadata-oai-snapshot-t_a-tokenized

Name: ppxscal/arxiv-metadata-oai-snapshot-t_a-tokenized
Creator: ppxscal
Published: 2023-11-08 00:04:12
License: 暂无描述

Hugging Face2023-11-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ppxscal/arxiv-metadata-oai-snapshot-t_a-tokenized

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: submitter dtype: string - name: authors dtype: string - name: title dtype: string - name: comments dtype: string - name: journal-ref dtype: string - name: doi dtype: string - name: report-no dtype: string - name: categories dtype: string - name: license dtype: string - name: abstract dtype: string - name: versions list: - name: created dtype: string - name: version dtype: string - name: update_date dtype: string - name: authors_parsed sequence: sequence: string - name: title_tokens sequence: int64 - name: abstract_tokens sequence: int64 - name: title_attention_mask sequence: int64 - name: abstract_attention_mask sequence: int64 splits: - name: train num_bytes: 41515729836 num_examples: 2318918 download_size: 2981082766 dataset_size: 41515729836 configs: - config_name: default data_files: - split: train path: data/train-* --- # Dataset Card for "arxiv-metadata-oai-snapshot-t_a-tokenized" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)\ tokenized with Shitao/RetroMAE

数据集信息：字段说明： - 字段名：id，数据类型：字符串 - 字段名：submitter，数据类型：字符串 - 字段名：authors，数据类型：字符串 - 字段名：title，数据类型：字符串 - 字段名：comments，数据类型：字符串 - 字段名：journal-ref，数据类型：字符串 - 字段名：doi（数字对象标识符，DOI），数据类型：字符串 - 字段名：report-no，数据类型：字符串 - 字段名：categories，数据类型：字符串 - 字段名：license，数据类型：字符串 - 字段名：abstract，数据类型：字符串 - 字段名：versions（列表类型）： - 字段名：created，数据类型：字符串 - 字段名：version，数据类型：字符串 - 字段名：update_date，数据类型：字符串 - 字段名：authors_parsed（解析后作者信息，嵌套字符串序列），数据类型：字符串序列的序列 - 字段名：title_tokens（标题Token序列），数据类型：64位整数序列 - 字段名：abstract_tokens（摘要Token序列），数据类型：64位整数序列 - 字段名：title_attention_mask（标题注意力掩码），数据类型：64位整数序列 - 字段名：abstract_attention_mask（摘要注意力掩码），数据类型：64位整数序列数据集划分： - 划分名称：train（训练集），字节占用量：41515729836，样本总数：2318918 下载大小：2981082766，数据集解压后占用大小：41515729836 配置项： - 配置名称：default（默认配置），数据文件： - 对应划分：train（训练集），文件路径：data/train-* # 「arxiv-metadata-oai-snapshot-t_a-tokenized」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) 本数据集已通过 Shitao/RetroMAE 完成Token化处理

提供机构：

ppxscal

原始信息汇总

数据集概述

数据集信息

特征

id: 字符串类型
submitter: 字符串类型
authors: 字符串类型
title: 字符串类型
comments: 字符串类型
journal-ref: 字符串类型
doi: 字符串类型
report-no: 字符串类型
categories: 字符串类型
license: 字符串类型
abstract: 字符串类型
versions: 列表类型
- created: 字符串类型
- version: 字符串类型
update_date: 字符串类型
authors_parsed: 序列类型，序列元素为字符串类型
title_tokens: 序列类型，序列元素为整数类型
abstract_tokens: 序列类型，序列元素为整数类型
title_attention_mask: 序列类型，序列元素为整数类型
abstract_attention_mask: 序列类型，序列元素为整数类型

数据分割

train: 包含2318918个样本，占用41515729836字节

数据大小

下载大小: 2981082766字节
数据集大小: 41515729836字节

配置

default: 包含训练数据文件，路径为data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集