five

kiyer/pathfinder_arxiv_data

收藏
Hugging Face2024-07-20 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/kiyer/pathfinder_arxiv_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如广告ID(ads_id)、arXiv ID(arxiv_id)、标题(title)、摘要(abstract)、嵌入向量(embed)、UMAP坐标(umap_x, umap_y)、日期(date)、引用次数(cites)、书目代码(bibcode)、关键词(keywords)、ADS关键词(ads_keywords)、阅读次数(read_count)、DOI(doi)、作者(authors)、机构(aff)、引用书目代码(cite_bibcodes)和参考文献书目代码(ref_bibcodes)。数据集被分割为训练集(train),包含499142个样本,总大小为5674141019字节。

This dataset includes multiple features such as ads_id, arxiv_id, title, abstract, embed, umap_x, umap_y, date, cites, bibcode, keywords, ads_keywords, read_count, doi, authors, aff, cite_bibcodes, and ref_bibcodes. The dataset is split into a training set (train) containing 499,142 samples, with a total size of 5,674,141,019 bytes.
提供机构:
kiyer
原始信息汇总

数据集概述

数据集信息

特征

  • ads_id: 字符串类型
  • arxiv_id: 字符串类型
  • title: 字符串类型
  • abstract: 字符串类型
  • embed: 浮点数序列类型
  • umap_x: 浮点数类型
  • umap_y: 浮点数类型
  • date: 日期类型
  • cites: 整数类型
  • bibcode: 字符串类型
  • keywords: 字符串序列类型
  • ads_keywords: 字符串序列类型
  • read_count: 整数类型
  • doi: 字符串序列类型
  • authors: 字符串序列类型
  • aff: 字符串序列类型
  • cite_bibcodes: 字符串序列类型
  • ref_bibcodes: 字符串序列类型

数据分割

  • train: 包含499142个样本,占用5674141019字节

数据集大小

  • 下载大小: 4505570263字节
  • 数据集大小: 5674141019字节

配置

  • default: 包含训练数据文件路径为data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作