Scava datasets

github2020-12-20 更新2024-05-31 收录

下载链接：

https://github.com/eclipse-scava/scava-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含从Eclipse forge提取的数据集资源。数据提取后，通过data-anonymiser进行匿名化处理，并在项目下载部分发布。所有数据集均根据Creative Commons BY-Attribution-Share Alike 4.0国际许可发布。

This repository contains dataset resources extracted from Eclipse Forge. After extraction, the data undergoes anonymization via a data-anonymiser and is subsequently released in the project download section. All datasets are published under the Creative Commons BY-Attribution-Share Alike 4.0 International License.

创建时间：

2019-03-01

原始信息汇总

Scava datasets for Eclipse

数据集概述

本仓库包含从Eclipse forge提取数据集的资源。
数据集提取后，通过data-anonymiser进行匿名化处理，并在项目下载部分发布。

许可证

代码默认使用Eclipse Public Licence, v2。
所有数据集发布于Creative Commons BY-Attribution-Share Alike 4.0 (International)。

数据集处理流程

数据集的提取、匿名化和发布代码位于scripts文件夹。
每个生成的数据集通过R Markdown文档进行分析，位于report文件夹。

分析过程

数据集生成后，通过R Markdown文档进行分析，既作为测试（检查数值是否一致），也通过图表和表格展示数据。

前提条件

Perl环境需安装以下模块：
- Mail::Box::Manager
- Text::CSV
- DateTime::Format::Strptime
- Encoding::FixLatin

搜集汇总

数据集介绍

构建方式

Scava数据集通过从Eclipse forge中提取数据构建而成，提取过程涉及使用Perl脚本进行数据抓取与处理。为确保数据隐私，提取后的数据经过匿名化处理，采用data-anonymiser工具进行脱敏操作。最终，数据集通过R Markdown文档进行验证与分析，确保数据的准确性与一致性，并生成可视化图表与表格以展示数据特征。

特点

Scava数据集的特点在于其专注于Eclipse生态系统的开发数据，涵盖了丰富的开源项目信息。数据集经过严格的匿名化处理，确保用户隐私得到保护。同时，数据集通过R Markdown文档进行自动化分析，提供了直观的可视化结果，便于研究人员快速理解数据分布与趋势。此外，数据集遵循Creative Commons BY-Attribution-Share Alike 4.0许可，支持开放共享与二次创作。

使用方法

使用Scava数据集时，用户需首先从Eclipse GitLab下载数据集文件。数据集以结构化格式存储，可通过R Markdown脚本进行进一步分析与可视化。用户可根据研究需求，利用提供的Perl脚本对数据进行自定义提取与处理。数据集的分析结果可直接用于学术研究或项目评估，同时支持与其他开源工具集成，以扩展其应用场景。

背景与挑战

背景概述

Scava数据集是由Eclipse基金会主导开发的一个开源项目，旨在从Eclipse forge中提取并分析软件开发相关的数据。该项目隶属于Scava项目，主要研究人员包括Boris Baldassari等人。数据集的核心研究问题围绕如何从开源软件生态系统中提取有价值的信息，以支持软件工程领域的分析和决策。自创建以来，Scava数据集在开源软件社区中产生了广泛影响，为研究人员提供了丰富的匿名化数据资源，推动了软件工程领域的数据驱动研究。

当前挑战

Scava数据集在解决软件工程领域的数据分析问题时面临多重挑战。首先，数据提取过程中需要处理大量异构数据源，确保数据的完整性和一致性。其次，数据匿名化过程要求在不泄露敏感信息的前提下，保留数据的分析价值，这对算法设计提出了较高要求。此外，数据集的生成和分析依赖于复杂的脚本和R Markdown文档，这对研究人员的技术能力提出了挑战。最后，数据集的发布和使用需遵循严格的许可协议，确保数据的合法性和合规性。

常用场景

经典使用场景

Scava数据集在软件工程领域中被广泛用于分析开源项目的开发过程和质量。通过提取Eclipse forge中的数据，研究者能够深入探讨开发者的协作模式、代码提交频率以及问题跟踪系统的使用情况。这些数据为理解开源社区的动态提供了宝贵的实证基础。

实际应用

在实际应用中，Scava数据集被用于构建开源项目的质量评估模型，帮助企业和组织优化其开源策略。通过分析数据集中的代码提交记录和问题跟踪数据，企业能够识别潜在的技术债务和开发瓶颈，从而提升项目的整体质量和开发效率。

衍生相关工作

基于Scava数据集，研究者们开发了多种分析工具和模型，用于预测开源项目的成功率和维护成本。这些工作不仅扩展了数据集的应用范围，还为开源社区的可持续发展提供了理论支持。例如，一些研究利用该数据集构建了开发者贡献度评估模型，帮助项目管理者更好地分配资源和任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集