five

arXiv Dataset|学术研究数据集|STEM数据集

收藏
kaggle2025-10-18 更新2024-03-07 收录
学术研究
STEM
下载链接:
https://www.kaggle.com/datasets/Cornell-University/arxiv
下载链接
链接失效反馈
资源简介:
arXiv dataset and metadata of 1.7M+ scholarly papers across STEM
创建时间:
2020-04-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
arXiv Dataset的构建基于arXiv平台上的学术论文,涵盖了从1991年至今的广泛领域。数据集通过定期爬取arXiv网站,收集包括论文标题、作者、摘要、关键词、发表日期和全文PDF链接在内的多维度信息。构建过程中,采用了自动化脚本进行数据清洗和格式化,确保数据的完整性和一致性。此外,数据集还包含了论文的引用信息和相关元数据,以支持更深入的学术研究。
特点
arXiv Dataset以其庞大的规模和多样性著称,包含了超过170万篇学术论文,覆盖物理学、计算机科学、数学、生物学等多个学科。数据集的特点在于其高度的开放性和实时更新,用户可以访问到最新的研究成果。此外,数据集提供了丰富的元数据和全文内容,支持多种分析和挖掘任务,如主题建模、趋势分析和作者合作网络研究。
使用方法
arXiv Dataset适用于多种学术研究和数据分析任务。用户可以通过API接口或直接下载数据集进行本地处理。常见的使用方法包括文本挖掘、自然语言处理、机器学习模型训练等。例如,研究人员可以利用数据集进行论文主题分类、作者影响力分析或跨学科研究趋势预测。此外,数据集的全文PDF链接为深入的内容分析提供了便利,支持更复杂的学术研究需求。
背景与挑战
背景概述
arXiv Dataset,作为学术界的重要资源,汇集了大量来自arXiv预印本服务器的高质量科学论文。自1991年由Paul Ginsparg创立以来,arXiv已成为物理学、数学、计算机科学等领域研究者不可或缺的平台。该数据集不仅记录了各学科的前沿研究成果,还促进了跨学科的交流与合作。其影响力体现在推动了开放获取运动,使得全球范围内的研究人员能够快速获取最新的科研信息,从而加速了科学发现的进程。
当前挑战
尽管arXiv Dataset在学术交流中占据重要地位,但其构建与维护仍面临诸多挑战。首先,数据集的规模庞大,涵盖了数百万篇论文,如何高效地索引和管理这些数据成为一大难题。其次,随着学科交叉的增多,数据集需要不断更新以适应新兴研究领域的需求。此外,数据的质量控制也是一个关键问题,确保每篇论文的准确性和可靠性对于维护数据集的学术声誉至关重要。最后,如何保护作者的知识产权,同时促进数据的开放共享,也是数据集管理者需要平衡的挑战。
发展历史
创建时间与更新
arXiv Dataset创建于1991年,由Paul Ginsparg在洛斯阿拉莫斯国家实验室发起,旨在促进科学研究的开放获取。该数据集自创建以来持续更新,涵盖了物理学、数学、计算机科学等多个领域的预印本文章。
重要里程碑
arXiv Dataset的重要里程碑包括1991年首次上线,标志着开放获取科学文献的新纪元;2001年迁移至康奈尔大学,进一步扩展了其影响力;2010年引入arXiv API,使得数据集的访问和利用更加便捷。此外,2019年arXiv宣布与Microsoft合作,引入AI技术以提升文章推荐和搜索功能,进一步推动了数据集的现代化和智能化。
当前发展情况
当前,arXiv Dataset已成为全球科研人员不可或缺的资源,涵盖了超过170万篇预印本文章。其对相关领域的贡献意义重大,不仅促进了学术交流和知识共享,还推动了开放科学运动的发展。通过持续的技术创新和合作,arXiv Dataset不断优化其服务,为科研人员提供更加高效和便捷的文献获取途径,进一步巩固了其在科学研究中的核心地位。
发展历程
  • arXiv首次发布,作为物理学领域的预印本服务器,旨在促进科学研究的快速传播和交流。
    1991年
  • arXiv扩展其覆盖领域,开始收录计算机科学、数学、非线性科学、定量生物学和统计学等领域的论文。
    2001年
  • arXiv推出新的用户界面和搜索功能,提升了用户体验和数据检索效率。
    2011年
  • arXiv与数据科学社区合作,开始提供数据集的元数据,为研究人员提供更丰富的数据资源。
    2017年
  • arXiv Dataset正式发布,包含超过170万篇论文的元数据,成为研究机器学习和自然语言处理的重要数据集。
    2020年
常用场景
经典使用场景
在学术研究领域,arXiv Dataset被广泛用于自然语言处理和机器学习任务。该数据集包含了大量来自arXiv预印本平台的论文摘要和全文,为研究人员提供了丰富的文本数据资源。通过分析这些数据,研究者可以进行文本分类、主题建模、信息检索等任务,从而深入理解学术文献的结构和内容。
解决学术问题
arXiv Dataset解决了学术界在处理大规模文本数据时面临的挑战。它为研究人员提供了高质量的学术文本数据,使得自然语言处理和机器学习算法能够在真实世界的学术语料上进行训练和验证。这不仅推动了相关领域的发展,还为跨学科研究提供了坚实的基础。
衍生相关工作
基于arXiv Dataset,许多经典工作得以展开。例如,研究者利用该数据集开发了高效的文本摘要生成模型,帮助用户快速获取论文的核心内容。此外,还有工作专注于学术文本的情感分析,揭示了学术社区对不同研究领域的态度和趋势。这些衍生工作进一步丰富了数据集的应用场景,推动了学术研究的深入发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Other-Animals-10

该数据集包含103张图像,每张图像对应一个动物标签,标签类别包括熊、蜜蜂、甲虫等34种动物。数据集仅包含一个训练集,用于训练模型。

huggingface 收录

🌧️ Digital Typhoon Dataset WP (GIFs| 57GB)

🌧️ Digital Typhoon Dataset Western Pacific (Animated GIFs)

kaggle 收录

DUO (Detecting Underwater Objects)

检测水下物体 (DUO) 包含一组具有更合理注释的不同水下图像。相应的基准测试为学术研究和工业应用提供了 SOTA(在 MMDtection 框架下)的效率和准确性指标,其中 JETSON AGX XAVIER 用于评估检测器速度以模拟机器人嵌入式环境。

OpenDataLab 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录