five

ArXiv|学术研究数据集|数据集数据集

收藏
www.kaggle.com2024-10-23 收录
学术研究
数据集
下载链接:
https://www.kaggle.com/Cornell-University/arxiv
下载链接
链接失效反馈
资源简介:
ArXiv数据集包含了来自arXiv.org的学术论文元数据,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学等多个领域的研究论文。数据集包括论文的标题、作者、摘要、提交日期、修改日期、DOI(数字对象标识符)等信息。
提供机构:
www.kaggle.com
AI搜集汇总
数据集介绍
main_image_url
构建方式
ArXiv数据集的构建基于arXiv.org平台,该平台自1991年以来一直是开放获取科学文献的重要来源。数据集通过自动化的爬虫程序定期从arXiv.org上抓取最新的学术论文,涵盖了物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学等多个领域。每篇论文的信息包括标题、作者、摘要、关键词、提交日期和分类标签等,确保了数据的全面性和时效性。
使用方法
ArXiv数据集的使用方法多样,研究者可以通过关键词搜索、分类标签筛选或时间范围限定来获取感兴趣的论文。数据集支持批量下载和API访问,便于大规模数据处理和分析。研究者可以利用该数据集进行文本挖掘、主题建模、作者影响力分析等研究,也可以结合其他数据源进行跨学科的综合分析。此外,数据集的开源性质鼓励了社区的参与和贡献,促进了知识的共享和传播。
背景与挑战
背景概述
ArXiv数据集源自于arXiv.org,这是一个由康奈尔大学图书馆维护的开放获取预印本库,专注于物理学、数学、计算机科学、生物学和统计学等领域的学术论文。自1991年成立以来,ArXiv已成为全球科研人员提交和分享未发表研究成果的重要平台。其影响力不仅体现在加速了学术交流的速度,还促进了跨学科的合作与创新。通过提供一个免费且易于访问的资源库,ArXiv极大地推动了科学知识的传播和应用。
当前挑战
ArXiv数据集在构建过程中面临诸多挑战。首先,数据集的规模庞大,包含数百万篇论文,这要求高效的存储和检索系统。其次,由于论文的多样性和复杂性,数据集需要处理不同格式和结构的内容,确保信息的准确提取和整合。此外,随着学术领域的不断扩展,数据集需要持续更新和扩展,以涵盖新兴研究领域和主题。最后,确保数据集的开放性和可访问性,同时保护作者的知识产权,也是一个重要的挑战。
发展历史
创建时间与更新
ArXiv数据集创建于1991年,由Paul Ginsparg发起,旨在为物理学领域的研究者提供一个开放的预印本平台。自创建以来,ArXiv不断扩展其涵盖的学科领域,包括计算机科学、数学、统计学等,并定期进行更新以适应学术研究的需求。
重要里程碑
ArXiv的重要里程碑之一是其在1999年扩展至计算机科学领域,这一举措极大地促进了跨学科研究的交流与合作。2004年,ArXiv引入新的提交系统,提高了数据处理和检索的效率。2011年,ArXiv与康奈尔大学图书馆合作,进一步提升了数据集的存储和管理能力。这些里程碑事件不仅增强了ArXiv的功能性,也巩固了其在学术界的重要地位。
当前发展情况
当前,ArXiv已成为全球学术界不可或缺的资源平台,每日接收并发布大量高质量的学术论文预印本。其开放获取的模式极大地促进了知识的传播与共享,对推动科学研究的前沿进展起到了关键作用。ArXiv的发展不仅提升了学术交流的效率,也为跨学科研究提供了丰富的数据支持,进一步推动了学术界的创新与合作。
发展历程
  • ArXiv数据集首次由Paul Ginsparg在洛斯阿拉莫斯国家实验室创建,旨在为物理学领域的研究论文提供一个开放的预印本存储和交流平台。
    1991年
  • ArXiv数据集的管理权转移至康奈尔大学,标志着其从国家实验室的内部项目转变为一个更为广泛和国际化的学术资源。
    1999年
  • ArXiv数据集开始接受计算机科学领域的论文提交,进一步扩展了其涵盖的学科范围。
    2001年
  • ArXiv数据集引入了新的分类系统,以更好地组织和检索日益增长的学术文献,提升了用户的使用体验。
    2004年
  • ArXiv数据集的月度提交量首次突破5000篇,显示出其在全球学术界的重要性和影响力不断增强。
    2010年
  • ArXiv数据集推出了新的用户界面和搜索功能,进一步优化了用户体验,并支持更多的学术交流和合作。
    2017年
常用场景
经典使用场景
在学术研究领域,ArXiv数据集以其庞大的开放获取论文库而闻名。研究者们常利用该数据集进行文献综述、主题分析和趋势预测。通过检索和分析ArXiv中的论文,学者们能够快速获取某一领域的最新研究成果,从而指导自己的研究方向。此外,ArXiv数据集还支持自然语言处理(NLP)任务,如文本分类、摘要生成和信息抽取,为NLP研究提供了丰富的语料资源。
解决学术问题
ArXiv数据集在解决学术研究问题方面具有重要意义。首先,它为跨学科研究提供了丰富的文献资源,帮助研究者发现不同领域之间的潜在联系。其次,通过分析ArXiv中的论文引用网络,研究者可以识别出关键文献和重要学者,从而优化研究策略。此外,ArXiv数据集还支持大规模数据驱动的研究,如科学计量学和知识图谱构建,推动了学术研究的量化分析和可视化。
实际应用
在实际应用中,ArXiv数据集被广泛用于科研管理和决策支持系统。例如,科研机构可以利用ArXiv数据集进行科研绩效评估,通过分析论文发表数量和引用情况来评估研究团队的影响力。此外,ArXiv数据集还被用于构建智能推荐系统,帮助研究者发现与其研究兴趣相关的最新文献。在教育领域,ArXiv数据集也为学术课程设计和教学资源开发提供了宝贵的参考资料。
数据集最近研究
最新研究方向
在计算机科学和数学领域,ArXiv数据集已成为前沿研究的重要资源。最新研究方向主要集中在利用自然语言处理技术对ArXiv上的海量论文进行深度分析,以揭示科学研究的趋势和模式。此外,研究人员正探索如何通过机器学习算法自动提取和分类论文中的关键信息,从而加速科学发现的进程。这些研究不仅有助于学术界更好地理解当前的研究热点,还为跨学科合作提供了新的可能性,推动了科学知识的快速传播和应用。
相关研究论文
  • 1
    The arXiv Dataset: A Large-Scale Dataset for Research in the Field of Machine LearningarXiv · 2019年
  • 2
    A Survey of the arXiv Dataset: Applications and Future DirectionsUniversity of California, Berkeley · 2021年
  • 3
    Exploring the arXiv Dataset for Natural Language Processing ResearchStanford University · 2020年
  • 4
    The arXiv Dataset: A Comprehensive Analysis of Machine Learning PapersMassachusetts Institute of Technology · 2022年
  • 5
    Using the arXiv Dataset to Improve Citation Prediction ModelsCarnegie Mellon University · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录