five

CONGRA|软件合并数据集|冲突解决数据集

收藏
arXiv2024-09-21 更新2024-09-26 收录
软件合并
冲突解决
下载链接:
https://github.com/HKUSystem-Security-Lab/ConGra
下载链接
链接失效反馈
资源简介:
CONGRA是由香港大学系统安全实验室创建的一个大规模冲突分级基准数据集,旨在评估软件合并工具在不同复杂度冲突场景下的性能。该数据集包含44,948个冲突案例,来源于34个真实世界的开源项目,涵盖C、C++、Java和Python等多种编程语言。数据集通过代码操作分类方法,将冲突分为七个类别,以反映冲突的复杂性。创建过程包括从GitHub收集项目历史合并场景,通过轻量级语法树分析提取代码操作,并根据这些操作对冲突进行分类。CONGRA主要应用于自动冲突解决任务,旨在解决大规模项目中手动合并冲突的高成本问题,并评估大型语言模型在冲突解决中的表现。
提供机构:
香港大学
创建时间:
2024-09-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
CONGRA数据集的构建基于对34个真实世界开源项目的深入分析,涵盖了C、C++、Java和Python四种编程语言。该数据集通过提取44,948个冲突案例,采用一种新颖的基于代码操作的分类方法,将冲突按照其解决复杂度分为七个类别。这种分类方法通过轻量级的语法树级别分析,提取冲突代码片段中的操作,并根据这些操作对冲突进行分类,从而构建了一个大规模的评估数据集。
使用方法
使用CONGRA数据集进行评估时,首先需要从数据集中提取冲突及其上下文信息,构建用于大型语言模型(LLMs)的提示。然后,通过LLMs生成冲突解决方案,并使用CONGRA的评估度量标准对生成的解决方案进行评估。具体步骤包括获取冲突及其上下文、构建提示、检查输入长度、查询LLMs并获取解决方案,最后通过CONGRA的评估指标对结果进行分析。通过这种方式,CONGRA不仅能够评估现有LLMs在冲突解决任务中的表现,还能揭示其在不同复杂度冲突下的性能差异。
背景与挑战
背景概述
在软件开发过程中,代码合并冲突的解决一直是一个复杂且耗时的任务。为了减少手动合并的开销,研究人员开发了基于程序分析的工具,但这些工具仅能解决特定类型的冲突,应用范围有限。随着语言模型的发展,研究人员开始将冲突代码视为文本,理论上可以解决几乎所有类型的冲突。然而,缺乏有效的冲突难度分级方法阻碍了对大型语言模型(LLMs)的全面评估,难以深入理解其局限性。此外,缺乏大规模的开放基准来评估LLMs在自动冲突解决中的性能。为此,香港大学的研究人员引入了CONGRA,一个用于评估软件合并工具在不同复杂度冲突场景下性能的基准方案。CONGRA提出了一种基于代码操作的新方法来分类冲突,并基于34个真实世界项目中的44,948个冲突构建了一个大规模评估数据集。通过使用该数据集,研究人员评估了多个最先进的LLMs和代码LLMs在冲突解决任务中的表现,揭示了两个反直觉但有洞察力的现象。
当前挑战
CONGRA数据集面临的挑战主要集中在两个方面。首先,解决领域问题的挑战,即图像分类的挑战。尽管LLMs在理论上可以处理几乎所有类型的冲突,但实际应用中,冲突难度的广泛变化和缺乏有效的分级方法使得评估其性能变得困难。例如,现有的ConflictBench分类方法未能准确反映冲突的复杂性。其次,构建过程中的挑战,包括缺乏全面的冲突解决基准,特别是在涉及长代码上下文的极端情况下。CONGRA通过引入一种新的冲突分类方法和构建大规模评估数据集来应对这些挑战,但仍需进一步优化以提高分类的准确性和评估的全面性。
常用场景
经典使用场景
CONGRA数据集在软件工程领域中被广泛用于评估自动冲突解决工具的性能。其经典使用场景包括对不同复杂度级别的代码冲突进行分类和评估,从而帮助研究人员和开发者理解大型语言模型(LLMs)在处理代码合并冲突时的局限性和优势。通过CONGRA,研究者可以系统地比较不同工具在处理各种冲突场景中的表现,从而推动自动冲突解决技术的发展。
解决学术问题
CONGRA数据集解决了在评估大型语言模型(LLMs)在自动冲突解决任务中的性能时,缺乏有效冲突难度分级方法的问题。传统的评估方法往往无法准确反映冲突的复杂性,导致对LLMs性能的评估不够全面。CONGRA通过引入一种新颖的冲突分类方法,构建了一个大规模的评估数据集,从而能够更全面地评估LLMs在不同复杂度冲突场景中的表现,为学术研究提供了重要的数据支持。
实际应用
在实际应用中,CONGRA数据集被用于开发和优化自动代码合并工具,这些工具在软件开发和维护过程中能够显著减少手动解决代码冲突的工作量。通过使用CONGRA数据集进行训练和评估,开发者可以创建更加智能和高效的合并工具,从而提高软件开发的效率和质量。此外,CONGRA还可以用于培训和教育,帮助开发者更好地理解和解决代码合并中的冲突问题。
数据集最近研究
最新研究方向
在软件工程领域,代码合并冲突的自动解决一直是一个具有挑战性的任务。随着语言模型的发展,研究人员开始将冲突代码视为文本,理论上可以解决几乎所有类型的冲突。然而,缺乏有效的冲突难度分级方法阻碍了对大型语言模型(LLMs)的全面评估。为了解决这一问题,CONGRA数据集应运而生,它通过引入一种新的冲突分类方法,构建了一个大规模的评估数据集,旨在评估软件合并工具在不同复杂度冲突场景下的性能。CONGRA不仅为LLMs在自动冲突解决任务中的表现提供了全面的评估,还揭示了两个反直觉的现象:具有较长上下文支持的LLMs并不总是表现更好,而通用LLMs在自动解决冲突方面优于专门的代码LLMs。这一研究方向不仅推动了自动冲突解决技术的发展,还为软件工程领域的工具评估提供了新的基准。
相关研究论文
  • 1
    CONGRA: Benchmarking Automatic Conflict Resolution香港大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

广东省标准地图

该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。

开放广东 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录