sample-semantic-conflicts.csv

github2023-12-28 更新2024-05-31 收录

下载链接：

https://github.com/spgroup/mergedataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了一系列合并场景和已知的语义冲突，这些冲突是从相关研究中收集的。数据集中的信息包括原始研究样本、语义冲突的布尔值、关联的合并提交、原始项目、发生冲突的类以及项目依赖管理的辅助工具等。

This dataset comprises a series of merge scenarios and known semantic conflicts, which have been collected from relevant research studies. The information within the dataset includes original research samples, boolean values indicating semantic conflicts, associated merge commits, original projects, classes where conflicts occurred, and auxiliary tools for project dependency management.

创建时间：

2020-03-25

原始信息汇总

MergeDataSet 数据集概述

数据集结构

合并场景: 数据集包含多个合并场景，这些场景来自相关研究，每个场景涉及两个项目版本的合并。
项目分组: 合并场景按项目分组，每个项目可能包含不同的合并场景。
版本信息:
- 原始版本: 使用原始源代码生成的jar文件。
- 转换版本: 使用转换后的代码生成的jar文件，这些转换改变了方法和属性的可见性，以及类及其依赖关系中空构造函数的包含，其中发生了语义冲突。
语义冲突:
- 冲突详情: 包含语义冲突的类文件的不同版本。
- 指南文件: 每个提交的本地构建指南。

语义冲突CSV文件

文件位置: sample-semantic-conflicts.csv
文件内容:
- 样本: 识别语义冲突的原始研究。
- 语义冲突: 布尔值，指示是否发生语义冲突。
- 提交: 与合并场景相关的合并提交。
- 项目: 发现语义冲突的原始项目。
- 类: 发现语义冲突的类。
- 构建管理器: 用于管理项目依赖的辅助工具。
- 原始版本: 原始项目版本生成的jar文件链接。
- 转换版本: 转换后项目版本生成的jar文件链接。

构建联合脚本

脚本位置: 位于根目录的prepareDataset.sh脚本。
使用场景: 用于联合分割的构建文件，因为某些构建文件大小超过100MB，不被Github支持。

搜集汇总

数据集介绍

构建方式

该数据集通过收集相关研究中的合并场景构建而成，每个合并场景均包含两个项目版本：原始版本和转换版本。原始版本由原始源代码生成的jar文件构成，而转换版本则通过修改方法和属性的可见性、类及其依赖项中的空构造函数等变换生成。每个合并场景还包含发生语义冲突的类文件版本，以及用于本地构建每个提交的指南文件。数据集以CSV文件形式组织，详细记录了每个合并场景的样本来源、语义冲突标识、合并提交、项目信息、冲突类、构建管理工具及原始与转换版本的jar文件链接。

特点

该数据集的特点在于其专注于语义冲突的合并场景，提供了丰富的上下文信息，包括原始和转换版本的jar文件、冲突类文件以及详细的构建指南。数据集通过CSV文件清晰地展示了每个合并场景的详细信息，便于研究人员快速定位和分析语义冲突。此外，数据集还提供了用于合并大型构建文件的脚本，确保数据的完整性和可用性。

使用方法

使用该数据集时，研究人员首先需克隆项目仓库并运行根目录下的`prepareDataset.sh`脚本，以合并因大小限制而被分割的构建文件。对于Windows用户，需安装Windows Linux子系统以避免克隆时的文件名错误。数据集中的CSV文件提供了每个合并场景的详细信息，用户可根据需要下载原始和转换版本的jar文件，并通过提供的构建指南在本地环境中重现语义冲突场景。

背景与挑战

背景概述

在软件开发领域，代码合并是版本控制系统中常见的操作，然而，语义冲突（Semantic Conflicts）的存在往往导致合并后的代码行为与预期不符。`sample-semantic-conflicts.csv`数据集由相关研究团队创建，旨在收集和分析已知的语义冲突场景。该数据集通过多个项目的合并场景，展示了不同版本代码之间的语义冲突，包括原始版本和经过变换的版本。这些变换涉及方法、属性可见性的修改以及空构造函数的引入，从而揭示了语义冲突的具体表现形式。该数据集为研究代码合并中的语义冲突提供了宝贵的实验数据，推动了软件工程领域对代码合并问题的深入理解。

当前挑战

该数据集的研究挑战主要体现在两个方面。首先，语义冲突的检测和验证本身具有较高的复杂性，尤其是在大规模项目中，冲突可能涉及多个类和依赖关系，难以通过简单的静态分析工具识别。其次，数据集的构建过程中面临技术难题，例如部分构建文件超过100MB，无法直接通过GitHub托管，需借助脚本进行分割和合并。此外，Windows用户在克隆项目时可能遇到文件名过长的问题，需通过安装Linux子系统解决。这些挑战不仅影响了数据集的构建效率，也对用户的使用体验提出了更高的要求。

常用场景

经典使用场景

在软件工程领域，`sample-semantic-conflicts.csv`数据集被广泛用于研究代码合并过程中出现的语义冲突问题。该数据集通过收集不同项目的合并场景，提供了原始版本和转换版本的代码对比，帮助研究者深入分析语义冲突的产生机制及其对软件质量的影响。

衍生相关工作

基于`sample-semantic-conflicts.csv`数据集，许多经典研究工作得以展开。例如，研究者开发了多种语义冲突检测工具，并提出了基于机器学习的冲突预测模型。这些工作不仅推动了代码合并领域的研究进展，还为开源社区和工业界提供了实用的工具和方法。

数据集最近研究