five

arXiv Dataset|学术研究数据集|STEM数据集

收藏
kaggle2025-08-09 更新2024-03-07 收录
学术研究
STEM
下载链接:
https://www.kaggle.com/datasets/Cornell-University/arxiv
下载链接
链接失效反馈
资源简介:
arXiv dataset and metadata of 1.7M+ scholarly papers across STEM
创建时间:
2020-04-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
arXiv Dataset的构建基于arXiv平台上的学术论文,涵盖了从1991年至今的广泛领域。数据集通过定期爬取arXiv网站,收集包括论文标题、作者、摘要、关键词、发表日期和全文PDF链接在内的多维度信息。构建过程中,采用了自动化脚本进行数据清洗和格式化,确保数据的完整性和一致性。此外,数据集还包含了论文的引用信息和相关元数据,以支持更深入的学术研究。
特点
arXiv Dataset以其庞大的规模和多样性著称,包含了超过170万篇学术论文,覆盖物理学、计算机科学、数学、生物学等多个学科。数据集的特点在于其高度的开放性和实时更新,用户可以访问到最新的研究成果。此外,数据集提供了丰富的元数据和全文内容,支持多种分析和挖掘任务,如主题建模、趋势分析和作者合作网络研究。
使用方法
arXiv Dataset适用于多种学术研究和数据分析任务。用户可以通过API接口或直接下载数据集进行本地处理。常见的使用方法包括文本挖掘、自然语言处理、机器学习模型训练等。例如,研究人员可以利用数据集进行论文主题分类、作者影响力分析或跨学科研究趋势预测。此外,数据集的全文PDF链接为深入的内容分析提供了便利,支持更复杂的学术研究需求。
背景与挑战
背景概述
arXiv Dataset,作为学术界的重要资源,汇集了大量来自arXiv预印本服务器的高质量科学论文。自1991年由Paul Ginsparg创立以来,arXiv已成为物理学、数学、计算机科学等领域研究者不可或缺的平台。该数据集不仅记录了各学科的前沿研究成果,还促进了跨学科的交流与合作。其影响力体现在推动了开放获取运动,使得全球范围内的研究人员能够快速获取最新的科研信息,从而加速了科学发现的进程。
当前挑战
尽管arXiv Dataset在学术交流中占据重要地位,但其构建与维护仍面临诸多挑战。首先,数据集的规模庞大,涵盖了数百万篇论文,如何高效地索引和管理这些数据成为一大难题。其次,随着学科交叉的增多,数据集需要不断更新以适应新兴研究领域的需求。此外,数据的质量控制也是一个关键问题,确保每篇论文的准确性和可靠性对于维护数据集的学术声誉至关重要。最后,如何保护作者的知识产权,同时促进数据的开放共享,也是数据集管理者需要平衡的挑战。
发展历史
创建时间与更新
arXiv Dataset创建于1991年,由Paul Ginsparg在洛斯阿拉莫斯国家实验室发起,旨在促进科学研究的开放获取。该数据集自创建以来持续更新,涵盖了物理学、数学、计算机科学等多个领域的预印本文章。
重要里程碑
arXiv Dataset的重要里程碑包括1991年首次上线,标志着开放获取科学文献的新纪元;2001年迁移至康奈尔大学,进一步扩展了其影响力;2010年引入arXiv API,使得数据集的访问和利用更加便捷。此外,2019年arXiv宣布与Microsoft合作,引入AI技术以提升文章推荐和搜索功能,进一步推动了数据集的现代化和智能化。
当前发展情况
当前,arXiv Dataset已成为全球科研人员不可或缺的资源,涵盖了超过170万篇预印本文章。其对相关领域的贡献意义重大,不仅促进了学术交流和知识共享,还推动了开放科学运动的发展。通过持续的技术创新和合作,arXiv Dataset不断优化其服务,为科研人员提供更加高效和便捷的文献获取途径,进一步巩固了其在科学研究中的核心地位。
发展历程
  • arXiv首次发布,作为物理学领域的预印本服务器,旨在促进科学研究的快速传播和交流。
    1991年
  • arXiv扩展其覆盖领域,开始收录计算机科学、数学、非线性科学、定量生物学和统计学等领域的论文。
    2001年
  • arXiv推出新的用户界面和搜索功能,提升了用户体验和数据检索效率。
    2011年
  • arXiv与数据科学社区合作,开始提供数据集的元数据,为研究人员提供更丰富的数据资源。
    2017年
  • arXiv Dataset正式发布,包含超过170万篇论文的元数据,成为研究机器学习和自然语言处理的重要数据集。
    2020年
常用场景
经典使用场景
在学术研究领域,arXiv Dataset被广泛用于自然语言处理和机器学习任务。该数据集包含了大量来自arXiv预印本平台的论文摘要和全文,为研究人员提供了丰富的文本数据资源。通过分析这些数据,研究者可以进行文本分类、主题建模、信息检索等任务,从而深入理解学术文献的结构和内容。
解决学术问题
arXiv Dataset解决了学术界在处理大规模文本数据时面临的挑战。它为研究人员提供了高质量的学术文本数据,使得自然语言处理和机器学习算法能够在真实世界的学术语料上进行训练和验证。这不仅推动了相关领域的发展,还为跨学科研究提供了坚实的基础。
衍生相关工作
基于arXiv Dataset,许多经典工作得以展开。例如,研究者利用该数据集开发了高效的文本摘要生成模型,帮助用户快速获取论文的核心内容。此外,还有工作专注于学术文本的情感分析,揭示了学术社区对不同研究领域的态度和趋势。这些衍生工作进一步丰富了数据集的应用场景,推动了学术研究的深入发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

GTEx (Genotype-Tissue Expression)

GTEx数据集包含了来自多个组织和器官的基因表达数据,旨在研究基因型与组织特异性表达之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细描述等。

gtexportal.org 收录

GFS

数据来源采自美国国家环境预报中心的GFS(全球预报系统),该系统每天发布4次全球范围的气象数据,分辨率最高可达到0.25° x 0.25°。GFS数据提供FTP下载方式:https://nomads.ncep.noaa.gov/pub/data/nccf/com/gfs/。每次发布的数据保存在命名为gfs.YYYYMMDDHH的文件夹中。本次需要的数据精度为0.25°(0p25),所以数据的文件名为:gfs.t{ HH }z.pgrb2.0p25.f{ XXX }

地球大数据科学工程 收录

DeepReview-13K

DeepReview-13K是由浙江大学工程学院和西湖大学合作创建的一个结构化评审数据集。该数据集包含了原始研究论文、结构化的中间评审步骤和最终评估,旨在解决自动化评审系统中存在的缺乏细粒度专家评估过程的问题。DeepReview-13K数据集包含了13378条有效样本,是从两个ICLR会议周期(2024-2025)的18976篇论文投稿中收集并经过严格质量控制的。

arXiv 收录