OSS License Identification at Scale: A Comprehensive Dataset Using World of Code

Name: OSS License Identification at Scale: A Comprehensive Dataset Using World of Code
Creator: 田纳西大学
Published: 2024-09-07 21:34:55
License: 暂无描述

arXiv2024-09-07 更新2024-09-11 收录

下载链接：

https://github.com/woc-hack/tutorial

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“OSS License Identification at Scale: A Comprehensive Dataset Using World of Code”，由田纳西大学创建，旨在全面分析开源软件（OSS）的许可证实践。数据集包含超过550万条独特的许可证记录，覆盖了数百万个OSS项目。创建过程中，研究团队利用World of Code基础设施，通过扫描所有包含“license”字段的文件路径，并应用winnowing算法进行文本匹配，确保了数据的高准确性。该数据集主要用于帮助开发者、研究人员和法律专业人士更好地理解和遵守OSS的许可证要求，解决许可证识别和合规性问题。

This dataset, titled "OSS License Identification at Scale: A Comprehensive Dataset Using World of Code", was created by the University of Tennessee with the goal of comprehensively analyzing license practices in open source software (OSS). The dataset contains over 5.5 million unique license records, covering millions of OSS projects. During its development, the research team leveraged the World of Code infrastructure by scanning all file paths containing the "license" field and applying the Winnowing algorithm for text matching, thus ensuring high data accuracy. This dataset is primarily designed to assist developers, researchers and legal professionals in better understanding and complying with OSS license requirements, as well as addressing issues related to license identification and compliance.

提供机构：

田纳西大学

创建时间：

2024-09-07

原始信息汇总

World of Code (WoC) 数据集概述

数据集目标

为全球自由/开源软件（FLOSS）的研究提供支持。
提供FLOSS的全局关系数据，包括技术依赖、工具依赖、代码复制、知识迁移、API使用和传播等。
数据清洗、增强和上下文化，包括作者、分支、异常值的修正，依赖关系和与其他数据源的链接。
大数据分析，高效映射实体到所有相关实体。
及时更新，目标为每季度更新一次可分析的FLOSS快照。
社区驱动，通过黑客松确定社区需求。

数据集内容

包含提交（commits）、树（trees）、块（blobs）、项目（projects）和作者（authors）等对象。
提供多种映射关系，如blob到first author（b2fa）、commit到project（c2p）等。

数据访问与使用

用户需生成SSH密钥并填写注册表单以获取访问权限。
提供Shell脚本和Python API（oscar.py）用于访问和操作数据。
示例包括通过Shell API查看提交、树和块的内容，以及通过Python API进行更复杂的操作。

相关资源

搜集汇总

数据集介绍

构建方式

本研究构建了一个名为OSS License Identification at Scale的全面数据集，采用World of Code基础设施对整个开源软件领域进行了详尽的扫描。通过搜索文件路径中包含“license”的文件，并应用winnowing算法进行文本匹配，从而识别和匹配了超过5.5百万个独特的许可块，创建了详细的项目到许可(P2L)映射。

特点

该数据集的特点在于其规模宏大，覆盖了数百万个开源项目，并采用了高效的winnowing算法来提高许可识别的准确性。数据集通过分层抽样和手动审查验证了准确性，达到了92.08%的最终准确率，87.14%的精确度，95.45%的召回率和91.11%的F1分数，体现了数据集的高质量和可靠性。

使用方法

使用该数据集时，用户可以通过项目到许可(P2L)映射来查询每个开源项目的许可信息。数据集以分号分隔的文件格式存储，包含项目ID、许可和提交时间戳三个字段。用户可以直接访问GitHub上的相关存储库以获取更多关于数据集的信息和使用方法。

背景与挑战

背景概述

随着开源软件的广泛应用，开源许可证的识别与管理变得至关重要。本研究由美国田纳西大学的研究团队承担，旨在通过World of Code（WoC）基础设施，创建一个全面的开源软件许可证数据集。该数据集通过扫描包含“license”字样的文件路径，应用winnowing算法进行文本匹配，以识别和匹配超过5.5百万个独特的许可证片段，从而构建了一个详细的项目到许可证（P2L）映射。该研究增进了对开源软件许可实践的理解，并为开发人员、研究者和法律专业人士提供了宝贵的资源。

当前挑战

本研究面临的挑战主要包括：1）解决的领域问题是开源软件许可证的分类识别，这在许可证种类繁多、形式各异的情况下尤其困难；2）构建过程中遇到的挑战，如仅扫描包含“license”字样的文件可能导致遗漏，以及如何准确匹配经过轻微修改的许可证文本。此外，许可证文件的搜索范围限制在文件名包含“license”的文件中，未来工作需要扩展到代码文件和其他文档类型，以及开发算法以识别仅通过名称或URL引用的许可证。

常用场景

经典使用场景

在开放源代码软件（OSS）领域，版权许可的识别对于确保法律合规至关重要。OSS License Identification at Scale数据集提供了一个全面的分析，利用World of Code基础设施对OSS版权许可进行彻底扫描，从而创建了一个详细的项目到版权许可（P2L）映射。该数据集的经典使用场景包括对开源项目的版权许可进行自动识别和分类，以便开发者、研究者和法律专业人士能够更好地理解和遵守开源软件的法律结构。

衍生相关工作

基于该数据集，衍生出了一系列相关工作，包括对开源软件许可兼容性的检测、对许可声明的自动化解析以及对开源软件生态系统中许可实践的长期趋势分析。这些工作进一步扩展了数据集的应用范围，为开源软件的健康发展提供了支持。

数据集最近研究