royokong/arxiv-abstract-23-24
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/royokong/arxiv-abstract-23-24
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: submitter
dtype: string
- name: authors
dtype: string
- name: title
dtype: string
- name: comments
dtype: string
- name: journal-ref
dtype: string
- name: doi
dtype: string
- name: report-no
dtype: string
- name: categories
dtype: string
- name: license
dtype: string
- name: abstract
dtype: string
- name: versions
list:
- name: version
dtype: string
- name: created
dtype: string
- name: update_date
dtype: timestamp[s]
- name: authors_parsed
sequence:
sequence: string
splits:
- name: train
num_bytes: 366698422
num_examples: 218722
download_size: 208584439
dataset_size: 366698422
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征:
- 名称:id,数据类型:字符串
- 名称:提交者(submitter),数据类型:字符串
- 名称:作者(authors),数据类型:字符串
- 名称:标题(title),数据类型:字符串
- 名称:附注信息(comments),数据类型:字符串
- 名称:期刊引用(journal-ref),数据类型:字符串
- 名称:数字对象标识符(DOI),数据类型:字符串
- 名称:报告编号(report-no),数据类型:字符串
- 名称:分类(categories),数据类型:字符串
- 名称:许可证(license),数据类型:字符串
- 名称:摘要(abstract),数据类型:字符串
- 名称:版本信息(versions),列表类型:
- 名称:版本号(version),数据类型:字符串
- 名称:创建时间(created),数据类型:字符串
- 名称:更新日期(update_date),数据类型:秒级时间戳(timestamp[s])
- 名称:解析后作者(authors_parsed),数据类型:字符串序列的序列
数据集划分:
- 名称:训练集(train),字节占用量:366698422,样本总数:218722
下载大小:208584439
数据集总字节量:366698422
配置项:
- 配置名称:默认配置(default),数据文件:
- 数据集划分:训练集(train),数据路径:data/train-*
提供机构:
royokong
原始信息汇总
数据集概述
数据集特征
- id: 字符串类型
- submitter: 字符串类型
- authors: 字符串类型
- title: 字符串类型
- comments: 字符串类型
- journal-ref: 字符串类型
- doi: 字符串类型
- report-no: 字符串类型
- categories: 字符串类型
- license: 字符串类型
- abstract: 字符串类型
- versions: 列表类型
- version: 字符串类型
- created: 字符串类型
- update_date: 时间戳类型
- authors_parsed: 序列类型,序列中的元素为字符串类型
数据集分割
- train:
- 字节数: 366698422
- 样本数: 218722
数据集大小
- 下载大小: 208584439 字节
- 数据集大小: 366698422 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



