bunkalab/arxiv_datasets_llm

Name: bunkalab/arxiv_datasets_llm
Creator: bunkalab
Published: 2024-05-09 08:37:31
License: 暂无描述

Hugging Face2024-05-09 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/bunkalab/arxiv_datasets_llm

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: Title dtype: string - name: Authors dtype: string - name: Abstract dtype: string - name: entry_id dtype: string - name: Date dtype: timestamp[ns, tz=UTC] - name: Categories dtype: string - name: year dtype: int32 splits: - name: train num_bytes: 6037799 num_examples: 3851 download_size: 3297037 dataset_size: 6037799 configs: - config_name: default data_files: - split: train path: data/train-* ---

This dataset includes information about academic papers, such as Title, Authors, Abstract, entry_id, Date, Categories, and year. The dataset is divided into a training set with 3851 examples, occupying 6037799 bytes. The download size of the dataset is 3297037 bytes, and the dataset size is 6037799 bytes.

提供机构：

bunkalab

原始信息汇总

数据集概述

数据集特征

Title：字符串类型
Authors：字符串类型
Abstract：字符串类型
entry_id：字符串类型
Date：时间戳类型，单位为纳秒，时区为UTC
Categories：字符串类型
year：整数类型，32位

数据集分割

训练集（train）：
- 数据量：3851个样本
- 存储大小：6037799字节

数据集大小

下载大小：3297037字节
数据集总大小：6037799字节

配置

默认配置（default）：
- 训练数据路径：data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集