five

Scito2M|科学计量数据集|跨学科研究数据集

收藏
arXiv2024-10-12 更新2024-10-16 收录
科学计量
跨学科研究
下载链接:
https://arxiv.org/
下载链接
链接失效反馈
资源简介:
Scito2M是由佐治亚理工学院、加州大学洛杉矶分校和威廉与玛丽学院联合创建的一个大规模科学计量数据集,涵盖了自1991年以来的超过200万篇学术出版物。该数据集提供了详细的元数据,包括标题、摘要、全文、关键词、主题分类和全面的引用图,支持跨学科的科学计量分析。数据集的创建过程包括从arXiv平台获取数据,并使用GPT-4进行关键词提取。Scito2M主要应用于科学知识的时序分析,旨在揭示学术术语的演变、引用模式和跨学科知识交流,从而解决全球性挑战如疫情、气候变化和伦理AI等问题。
提供机构:
佐治亚理工学院, 加州大学洛杉矶分校, 威廉与玛丽学院
创建时间:
2024-10-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
Scito2M数据集的构建基于arXiv平台,涵盖了自1991年以来的超过200万篇学术文献。通过使用arXiv API,研究人员获取了这些文献的详细元数据,包括标题、摘要、全文、关键词、主题分类和引用图谱。为了确保数据的完整性和准确性,引文信息通过Semantic Scholar API进行补充,从而构建了一个跨学科的、时间跨度长达30年的科学计量数据集。
特点
Scito2M数据集的显著特点在于其大规模和跨学科的覆盖范围。该数据集不仅包含了丰富的内容信息,还提供了详细的引用网络,支持对科学知识的创建、演化和传播进行深入分析。此外,数据集的时间跨度长达30年,使得研究人员能够追踪学术术语的演变、引用模式的变化以及跨学科知识交流的动态。
使用方法
Scito2M数据集可用于多种科学计量分析,包括但不限于学术术语的演变研究、引用网络的动态分析以及跨学科知识交流的模式识别。研究人员可以通过分析关键词的频率变化来识别学术领域的范式转变,通过引用网络的分析来揭示学科间的知识流动,以及通过时间序列分析来评估学术文献的长期影响力。此外,该数据集还可用于训练和验证自然语言处理模型,以提高文献检索和自动摘要的效率。
背景与挑战
背景概述
Scito2M数据集由乔治亚理工学院、加州大学洛杉矶分校和威廉与玛丽学院的研究人员于2024年创建,旨在支持跨学科的时间科学计量分析。该数据集包含了超过200万篇学术出版物,涵盖了自1991年以来的30年时间跨度,提供了全面的文献内容信息和引用图谱。Scito2M的推出填补了现有科学计量研究中缺乏大规模、跨学科、长时间跨度数据集的空白,为研究科学知识的创造、演化和传播提供了宝贵的资源。通过分析学术术语的演变、引用模式和跨学科知识交流,Scito2M揭示了不同学科在知识生产、验证和引用实践中的独特模式,对科学计量学领域产生了深远的影响。
当前挑战
Scito2M数据集在构建和应用过程中面临两大主要挑战。首先,缺乏全面的时间序列数据集。尽管已有一些科学计量数据集,但它们往往局限于特定时间段、领域或数据类型,难以支持跨学科和长时间跨度的综合分析。其次,分析范围的局限性。许多现有研究侧重于特定时间段、出版场所或领域,如自然语言处理和人类计算机交互,这限制了对科学知识交换的广度和深度的全面理解。此外,数据集的构建过程中还面临数据获取、处理和整合的技术难题,以及确保数据质量和一致性的挑战。
常用场景
经典使用场景
Scito2M数据集的经典使用场景在于跨学科的时间序列科学计量分析。通过整合超过两百万篇学术出版物及其详细的元数据和引用网络,该数据集支持对科学知识的创建、演化和传播进行深入的时间维度分析。研究者可以利用Scito2M来探索学术术语的演变、引用模式的变化以及跨学科知识交流的关键问题,从而揭示不同学科领域在知识生产和引用实践中的差异。
解决学术问题
Scito2M数据集解决了科学计量学研究中的几个关键学术问题,包括缺乏大规模、跨学科的时间序列数据集以及分析范围的局限性。通过提供一个包含详细内容和引用信息的长达30年的数据集,Scito2M使得研究者能够进行深入的跨学科分析,从而更好地理解科学知识的广度和深度。这不仅有助于揭示学科间的知识交流模式,还能为政策制定者提供有价值的视角,以促进科学进步和解决全球性挑战。
衍生相关工作
Scito2M数据集的发布催生了一系列相关的经典工作,特别是在科学计量学和跨学科研究领域。例如,研究者利用该数据集进行了关于学术术语演变和引用网络动态的深入分析,揭示了不同学科领域的知识生产和引用模式的差异。此外,Scito2M还启发了对科学知识传播和创新扩散机制的研究,推动了科学计量学方法论的发展,并为未来的跨学科研究提供了丰富的数据资源和分析工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

张家口市下花园区-房屋建筑业-应建防空地下室的民用建筑项目报建审批数据

该数据资源为张家口市下花园区数据和政务服务局在履行应建防空地下室的民用建筑项目报建审批过程中产生,包含建设单位、工程名称等具体信息,可用于防空地下室信息查询,有助于行业主管部门监督管理。

国家公共数据资源登记平台 收录

Matchesfashion, Ltd. eCommerce insights

The eCommerce activity of Matchesfashion, Ltd. amounted to US$410m in 2023. Learn more about their online business including detailed eCommerce revenue analytics.

ecommercedb.com 收录

Kaggle - Digit Recognizer

该数据集包含手写数字(0-9)的图像数据,用于训练和测试数字识别模型。数据集包括训练集和测试集,训练集包含42000个样本,每个样本是一个28x28像素的灰度图像,以及对应的标签。测试集包含28000个样本,用于评估模型的性能。

www.kaggle.com 收录

FishBase Species List

FishBase Species List 是一个包含全球鱼类物种信息的全面数据库。该数据集提供了关于鱼类物种的详细信息,包括物种名称、分类学信息、分布区域、生态习性、繁殖行为、食性等。此外,数据集还包括了每个物种的图片和参考文献,以便用户进行深入研究。

www.fishbase.se 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录