SciCat

Name: SciCat
Creator: 田纳西大学橡树岭国家实验室
Published: 2023-12-11 21:46:33
License: 暂无描述

arXiv2023-12-11 更新2024-07-30 收录

下载链接：

http://README.md

下载链接

链接失效反馈

官方服务：

资源简介：

SciCat数据集是由田纳西大学橡树岭国家实验室等机构创建的，旨在提供一个精选的科学软件存储库集合。该数据集从World of Code数据源中筛选出13100万个去重仓库，通过分析README.md文件，专注于科学目的、研究相关项目及研究支持软件。SciCat数据集不仅支持对科学软件开发的理解，还揭示了该领域的趋势和挑战，同时可与World of Code、GitHub等平台数据关联，为科学软件与非科学软件的比较研究提供基础。

The SciCat dataset was created by institutions including the University of Tennessee and Oak Ridge National Laboratory, alongside other organizations, with the aim of providing a curated collection of scientific software repositories. This dataset screens 131 million deduplicated repositories from the World of Code data source, and then focuses on projects intended for scientific purposes, research-related work, and research-supporting software by analyzing their README.md files. The SciCat dataset not only supports the understanding of scientific software development, but also uncovers trends and challenges within this field. Additionally, it can be linked with datasets from platforms such as World of Code and GitHub, providing a foundational resource for comparative studies between scientific and non-scientific software.

提供机构：

田纳西大学橡树岭国家实验室

创建时间：

2023-12-11

搜集汇总

数据集介绍

构建方式

在开源科学软件蓬勃发展的背景下，SciCat数据集旨在构建一个经过精心筛选的科学软件仓库集合。其构建方法基于World of Code这一庞大的开源项目数据源，从1.31亿个去重后的仓库池中，通过设定严格的活跃度标准（如提交次数、贡献者数量、持续活跃月份等）进行初步筛选。随后，研究团队聚焦于项目的README.md文件，利用OpenAI的先进语言模型对文件内容进行分析与分类，旨在识别出专门用于科学研究、与科研相关或提供科研支持的软件项目。这一流程最终从海量数据中提炼出超过34万个项目的元数据与分类信息，形成了一个结构化的科学软件语料库。

特点

SciCat数据集的核心特点在于其规模性与针对性。作为目前首个面向科学软件生态的大规模精选数据集，它涵盖了跨学科、跨机构的数十万个项目，提供了包括项目标识、分类标签、开发活动指标、社区规模及作者性别分布等在内的丰富元数据字段。数据集特别强调了科学应用软件的界定，通过大语言模型对README内容的深度解读，实现了对软件科研属性的精细化标注。此外，该数据集与World of Code、GitHub等多个平台的数据具有可链接性，为开展科学软件与非科学软件的对比研究奠定了坚实基础。

使用方法

该数据集为实证软件工程研究，特别是科学软件生态研究提供了关键资源。研究人员可通过分析数据集中的分类标签与元数据，探索科学软件开发的协作模式、实践惯例、可持续性挑战及演化趋势。具体应用包括但不限于：考察科学软件团队中的性别多样性、分析安全漏洞模式、研究资助与论文发表对项目的影响、以及进行跨学科的软件库使用分析。数据集以Pickle文件格式提供，并附有生成代码，便于研究者直接加载并进行统计分析或构建衍生研究。

背景与挑战

背景概述

随着开源科学软件在科研领域的广泛应用，构建一个系统化的科学软件仓库数据集成为推动计算科学与工程研究的关键需求。SciCat数据集由田纳西大学、橡树岭国家实验室、桑迪亚国家实验室等机构的科研团队于2024年联合创建，旨在通过整合全球开源软件资源，构建一个经过精细标注的科学软件项目集合。该数据集基于World of Code平台中的1.31亿个去重仓库，利用OpenAI大型语言模型对README.md文件进行智能分析，筛选出面向科学应用、研究支持等类别的软件项目。SciCat不仅填补了科学软件生态系统实证研究的空白，还为跨学科比较、软件开发模式分析及可持续性评估提供了重要数据基础，对促进科学软件工程的标准化与创新具有深远影响。

当前挑战

SciCat数据集致力于解决科学软件分类与生态分析的复杂挑战，其核心在于从海量开源项目中准确识别具有科学属性的软件，并克服数据标注中的模糊性。在构建过程中，研究团队面临多重挑战：首先，依赖README.md文件作为主要信息源可能导致分类偏差，因为许多项目的文档描述不完整或缺乏标准化表述；其次，使用大型语言模型进行自动化分类时，模型对科学软件定义的解读存在局限性，尤其在区分科学应用软件与通用支持工具时准确度有待提升；此外，数据源的覆盖范围受限于World of Code平台的集成度，可能遗漏非主流托管平台上的学术项目，影响数据集的全面性与代表性。这些挑战要求未来研究在数据验证、模型优化及多源数据融合方面持续探索。

常用场景

经典使用场景

在开源科学软件蓬勃发展的背景下，SciCat数据集为研究人员提供了一个系统化的工具，用于探索科学软件生态系统的结构与动态。该数据集通过整合World of Code中的海量仓库信息，并利用大型语言模型对README.md文件进行智能分类，构建了一个涵盖多学科领域的科学软件项目集合。其经典使用场景包括对科学软件开发趋势的量化分析，例如识别不同学科中软件项目的活跃度、协作模式以及技术栈的演变。研究人员可以借助SciCat追踪科学软件从初始创建到持续维护的全生命周期，揭示开源科学项目中常见的开发实践与挑战。

衍生相关工作

SciCat数据集已催生了一系列围绕科学软件生态的衍生研究。例如，基于其分类框架，学者们进一步开发了针对科学软件安全漏洞的专项数据集，深入分析科研项目中常见的安全风险模式。另有研究利用SciCat中的协作数据，构建了科学软件开发者角色模型，揭示了跨学科团队中的贡献者动态。此外，结合知识图谱技术，部分工作将SciCat与期刊出版物、基金项目数据库进行关联，形成了更全面的科学软件影响力评估体系。这些衍生工作不仅扩展了原始数据集的应用维度，也为科学软件的可持续性、质量控制及社区治理提供了新的方法论基础。

数据集最近研究