kiyer/pathfinder_arxiv_data
收藏Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/kiyer/pathfinder_arxiv_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如广告ID(ads_id)、arXiv ID(arxiv_id)、标题(title)、摘要(abstract)、嵌入向量(embed)、UMAP坐标(umap_x, umap_y)、日期(date)、引用次数(cites)、书目代码(bibcode)、关键词(keywords)、ADS关键词(ads_keywords)、阅读次数(read_count)、DOI(doi)、作者(authors)、机构(aff)、引用书目代码(cite_bibcodes)和参考文献书目代码(ref_bibcodes)。数据集被分割为训练集(train),包含499142个样本,总大小为5674141019字节。
This dataset includes multiple features such as ads_id, arxiv_id, title, abstract, embed, umap_x, umap_y, date, cites, bibcode, keywords, ads_keywords, read_count, doi, authors, aff, cite_bibcodes, and ref_bibcodes. The dataset is split into a training set (train) containing 499,142 samples, with a total size of 5,674,141,019 bytes.
提供机构:
kiyer
原始信息汇总
数据集概述
数据集信息
特征
- ads_id: 字符串类型
- arxiv_id: 字符串类型
- title: 字符串类型
- abstract: 字符串类型
- embed: 浮点数序列类型
- umap_x: 浮点数类型
- umap_y: 浮点数类型
- date: 日期类型
- cites: 整数类型
- bibcode: 字符串类型
- keywords: 字符串序列类型
- ads_keywords: 字符串序列类型
- read_count: 整数类型
- doi: 字符串序列类型
- authors: 字符串序列类型
- aff: 字符串序列类型
- cite_bibcodes: 字符串序列类型
- ref_bibcodes: 字符串序列类型
数据分割
- train: 包含499142个样本,占用5674141019字节
数据集大小
- 下载大小: 4505570263字节
- 数据集大小: 5674141019字节
配置
- default: 包含训练数据文件路径为
data/train-*



