five

CCRss/arXiv_dataset

收藏
Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CCRss/arXiv_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是ArXiv知识库中元数据的全面集合,ArXiv是一个广泛认可的开放获取档案库,提供各种科学领域的学术文章访问。它涵盖了从物理和计算机科学到数学、统计学、电气工程、定量生物学和经济学的广泛主题。此数据集源自Kaggle上的原始ArXiv数据集,包括大约220万篇文章的元数据。元数据包括文章标题、作者、类别、摘要和PDF格式的全文。这个丰富的学术文章库为数据分析、趋势识别和机器学习模型的开发提供了宝贵的资源。它适用于趋势分析、论文推荐系统、类别预测、共引网络分析、知识图谱构建和语义搜索界面等应用。数据特别适合对学术领域内的自然语言处理和文本分析感兴趣的人。数据集以多个.parquet文件形式提供,结构便于高效访问和分析。每个文件包含整个数据集的一个子集,允许用户根据需要处理可管理的数据部分。数据集基于Kaggle上的ArXiv数据集,由康奈尔大学提供,使用CC0: Public Domain License。

该数据集是ArXiv知识库中元数据的全面集合,ArXiv是一个广泛认可的开放获取档案库,提供各种科学领域的学术文章访问。它涵盖了从物理和计算机科学到数学、统计学、电气工程、定量生物学和经济学的广泛主题。此数据集源自Kaggle上的原始ArXiv数据集,包括大约220万篇文章的元数据。元数据包括文章标题、作者、类别、摘要和PDF格式的全文。这个丰富的学术文章库为数据分析、趋势识别和机器学习模型的开发提供了宝贵的资源。它适用于趋势分析、论文推荐系统、类别预测、共引网络分析、知识图谱构建和语义搜索界面等应用。数据特别适合对学术领域内的自然语言处理和文本分析感兴趣的人。数据集以多个.parquet文件形式提供,结构便于高效访问和分析。每个文件包含整个数据集的一个子集,允许用户根据需要处理可管理的数据部分。数据集基于Kaggle上的ArXiv数据集,由康奈尔大学提供,使用CC0: Public Domain License。
提供机构:
CCRss
原始信息汇总

ArXiv 数据集

概述

ArXiv 数据集是一个全面的元数据集合,来自广泛认可的开放存取档案 ArXiv,提供对科学各个领域的学术文章的访问。它涵盖了从物理学和计算机科学到数学、统计学、电气工程、定量生物学和经济学的广泛主题。

数据集描述

该数据集托管在此处,是从 Kaggle 上可用的原始 ArXiv 数据集派生的,其中包括大约 220 万篇文章的元数据。元数据包含各种特征,如文章标题、作者、类别、摘要和 PDF 格式的全文。

这个丰富的学术文章库为数据分析、趋势识别和机器学习模型的开发提供了宝贵的资源。它可以促进趋势分析、论文推荐系统、类别预测、共引网络分析、知识图谱构建和语义搜索接口等应用。

该数据集特别适合对学术领域的自然语言处理和文本分析感兴趣的人。

数据集组成

数据集被分成多个 .parquet 文件,结构化以实现高效的访问和分析。每个文件包含整个数据集的一个子集,允许用户根据需要处理可管理的数据部分。

原始数据集来源

该数据集基于 Kaggle 上托管的 ArXiv 数据集,由康奈尔大学提供。它代表了 ArXiv 元数据的快照。

许可证

该数据集在 CC0: Public Domain License 下提供,允许无限制使用和分发。康奈尔大学在 Kaggle 上提供的原始 ArXiv 数据集也采用相同的许可证。

引用和致谢

在使用或引用此数据集时,请确认数据的原始来源:Kaggle 上的 ArXiv 数据集,由康奈尔大学维护和运营。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
The 'CCRss/arXiv_dataset' is a metadata collection from the arXiv repository, covering 2.2 million scholarly articles across multiple scientific disciplines. It is structured in .parquet files for efficient access and is licensed under CC0, making it suitable for various data analysis and machine learning applications.
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作