zelalt/arxiv-papers
收藏Hugging Face2023-10-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zelalt/arxiv-papers
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: chunk
dtype: string
- name: id
dtype: string
- name: title
dtype: string
- name: summary
dtype: string
- name: source
dtype: string
- name: authors
sequence: string
- name: text_length
dtype: int64
splits:
- name: train
num_bytes: 681551
num_examples: 423
download_size: 405180
dataset_size: 681551
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for "arxiv-papers"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 名称:分块(chunk),数据类型:字符串
- 名称:标识符(id),数据类型:字符串
- 名称:标题(title),数据类型:字符串
- 名称:摘要(summary),数据类型:字符串
- 名称:来源(source),数据类型:字符串
- 名称:作者(authors),数据类型:字符串序列
- 名称:文本长度(text_length),数据类型:64位整数
数据集划分:
- 划分名称:训练集(train),字节数:681551,样本数量:423
下载大小:405180
数据集总大小:681551
数据集配置:
- 配置名称:默认配置(default),数据文件:
- 划分:训练集(train),路径:data/train-*
# 「arxiv-papers」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
zelalt
原始信息汇总
数据集概述
数据特征
- chunk: 字符串类型
- id: 字符串类型
- title: 字符串类型
- summary: 字符串类型
- source: 字符串类型
- authors: 字符串序列
- text_length: 64位整数类型
数据分割
- train: 包含423个样本,占用681551字节
数据集大小
- 下载大小: 405180字节
- 数据集大小: 681551字节
配置
- default: 包含训练数据文件,路径为
data/train-*



