five

Software Heritage License Dataset (2022 Edition)

收藏
arXiv2023-08-22 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2308.11258v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含690万个独特的软件许可文件,提供了关于这些文件的额外元数据,如文件长度、MIME类型、SPDX许可(通过ScanCode检测)和最早出现时间。此外,还包括对8102个文档的手动分析结果,为后续分析提供真实依据。数据集以开放数据形式发布,包含所有去重后的许可文件及多个带有元数据的便携式CSV文件,通过加密校验和引用文件。

This dataset comprises 6.9 million unique software license files, with supplementary metadata provided for each entry. The metadata includes file length, MIME type, SPDX licenses (identified via ScanCode), and the earliest occurrence time of the files. Furthermore, the dataset contains manual analysis results for 8,102 documents, which act as a ground-truth reference for follow-up analyses. Released as open data, the dataset includes all deduplicated license files and multiple portable CSV files with associated metadata, paired with reference files validated using cryptographic checksums.
创建时间:
2023-08-22
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作