Bjanota11/arxiv-rag-papers
收藏Hugging Face2024-03-22 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Bjanota11/arxiv-rag-papers
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: Published
dtype: string
- name: Title
dtype: string
- name: Authors
dtype: string
- name: Summary
dtype: string
- name: entry_id
dtype: string
- name: published_first_time
dtype: string
- name: categories
sequence: string
- name: full_text
dtype: string
- name: full_text_len
dtype: int64
- name: full_text_num_words
dtype: int64
splits:
- name: train
num_bytes: 5942270
num_examples: 100
download_size: 3284707
dataset_size: 5942270
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征列表:
- 字段名:发布时间(Published),数据类型:字符串
- 字段名:标题(Title),数据类型:字符串
- 字段名:作者(Authors),数据类型:字符串
- 字段名:摘要(Summary),数据类型:字符串
- 字段名:条目ID(entry_id),数据类型:字符串
- 字段名:首次发布时间(published_first_time),数据类型:字符串
- 字段名:分类标签(categories),数据类型:字符串序列
- 字段名:完整文本(full_text),数据类型:字符串
- 字段名:完整文本长度(full_text_len),数据类型:64位整型
- 字段名:完整文本词数(full_text_num_words),数据类型:64位整型
数据集划分:
- 划分名称:训练集(train),占用字节数:5942270,样本总数:100
总下载大小:3284707
数据集总存储大小:5942270
配置项:
- 配置名称:默认配置(default):
数据文件:
- 数据集划分:训练集(train),文件路径:data/train-*
提供机构:
Bjanota11
原始信息汇总
数据集概述
数据集特征
- Published: 数据类型为字符串
- Title: 数据类型为字符串
- Authors: 数据类型为字符串
- Summary: 数据类型为字符串
- entry_id: 数据类型为字符串
- published_first_time: 数据类型为字符串
- categories: 数据类型为字符串序列
- full_text: 数据类型为字符串
- full_text_len: 数据类型为整数
- full_text_num_words: 数据类型为整数
数据集分割
- train:
- 字节数: 5942270
- 示例数: 100
数据集大小
- 下载大小: 3284707字节
- 数据集大小: 5942270字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*



