five

FAUN-Eval

收藏
arXiv2024-11-27 更新2024-11-29 收录
下载链接:
http://arxiv.org/abs/2411.18019v1
下载链接
链接失效反馈
官方服务:
资源简介:
FAUN-Eval数据集由哈尔滨工业大学(深圳)和ByteDance的研究团队创建,旨在评估大型语言模型在解决GitHub问题中的细粒度能力。该数据集包含300个条目,涵盖代码问答、故障定位和代码编辑三个核心任务。数据集通过GitHub API从30个知名仓库中收集,确保了数据的多样性和真实性。创建过程中,通过交叉引用和关键词验证方法对每个条目进行精心编译和验证,确保数据质量。FAUN-Eval数据集主要应用于软件工程领域,旨在解决复杂代码库中的问题,提升软件质量和用户体验。

FAUN-Eval dataset was developed by research teams from Harbin Institute of Technology (Shenzhen) and ByteDance, aiming to evaluate the fine-grained capabilities of large language models (LLMs) when solving GitHub issues. This dataset contains 300 entries covering three core tasks: code question answering, fault localization, and code editing. It was collected from 30 well-known repositories via the GitHub API, ensuring the diversity and authenticity of the data. During the creation process, each entry was carefully compiled and validated through cross-referencing and keyword verification methods to guarantee data quality. The FAUN-Eval dataset is mainly applied in the field of software engineering, aiming to solve problems in complex code bases, improve software quality and user experience.
提供机构:
哈尔滨工业大学(深圳)
创建时间:
2024-11-27
搜集汇总
数据集介绍
main_image_url
构建方式
FAUN-Eval的构建基于30个知名的GitHub仓库,通过精心编排和验证问题与拉取请求(PR)对来实现。具体而言,数据集的构建过程包括三个主要步骤:首先,从选定的仓库中爬取原始数据,包括问题和PR的元数据;其次,通过交叉引用和关键词验证方法,将问题与对应的PR进行配对;最后,通过LLM和人工检查确保数据质量。整个数据集包含300个条目,旨在评估LLM在问题解答(QA)、故障定位和代码编辑三个核心任务中的细粒度问题解决能力。
特点
FAUN-Eval的主要特点在于其细粒度评估方法,能够分别评估LLM在问题解答、故障定位和代码编辑三个任务中的表现。此外,该数据集来源于真实的GitHub问题和PR,确保了评估的实际应用背景。数据集还采用了LLM和人工双重检查机制,以确保数据的准确性和高质量。
使用方法
FAUN-Eval的使用方法包括三个主要任务:问题解答、故障定位和代码编辑。在问题解答任务中,模型需要根据问题的描述提供相应的回答;在故障定位任务中,模型需根据问题描述和仓库的文件树结构,识别出需要修改的文件路径;在代码编辑任务中,模型则需根据问题和PR的描述,生成相应的代码修改补丁。通过这些任务,FAUN-Eval能够全面评估LLM在实际软件工程任务中的表现。
背景与挑战
背景概述
FAUN-Eval数据集由深圳哈尔滨工业大学和字节跳动公司的研究人员共同创建,旨在评估大型语言模型(LLMs)在解决实际软件工程问题中的细粒度问题解决能力。该数据集的构建始于2024年,主要研究人员包括RUIDA HU、CHAO PENG等。FAUN-Eval的核心研究问题是如何在实际的GitHub问题中评估LLMs在代码问答(QA)、故障定位和代码编辑等任务中的表现。该数据集的创建对软件工程领域具有重要影响,因为它提供了一个全面的基准,用于评估LLMs在处理复杂软件问题时的实际能力。
当前挑战
FAUN-Eval数据集面临的挑战主要集中在两个方面。首先,解决领域问题的挑战,即如何有效地评估LLMs在处理实际GitHub问题时的细粒度能力。现有基准如HumanEval和SWE-Bench在评估LLMs的实际问题解决能力时存在不足,特别是在处理多文件和深入理解软件架构的任务时。其次,数据集构建过程中的挑战,包括从30个知名GitHub仓库中精心编译和验证问题与拉取请求(PR)对,以及通过交叉引用和关键词验证方法确保数据质量。此外,数据集还需要通过LLM和人工检查来保证数据的高质量。
常用场景
经典使用场景
FAUN-Eval数据集在评估大型语言模型(LLMs)在解决实际软件工程问题中的细粒度问题解决能力方面具有经典应用。该数据集通过系统地评估LLMs在代码问答(QA)、故障定位和代码编辑三个核心任务中的表现,为研究人员提供了一个全面的基准。这些任务涵盖了软件维护中常见的复杂问题解决场景,如理解问题描述、定位错误代码和生成适当的代码更改。通过这些任务,FAUN-Eval能够细致地评估LLMs在处理实际GitHub问题时的表现,从而为模型优化和选择提供有价值的见解。
实际应用
FAUN-Eval数据集在实际应用中具有广泛的前景。它不仅可用于评估和优化现有的LLMs,还可作为开发新型智能编程助手和自动化软件维护工具的基础。通过提供高质量的GitHub问题和相应的修复数据,FAUN-Eval能够帮助开发者在实际项目中更高效地解决问题,提升软件质量和用户体验。此外,该数据集还可用于培训和测试新的LLMs,确保其在处理复杂软件工程任务时的可靠性和准确性。
衍生相关工作
FAUN-Eval数据集的发布催生了一系列相关研究工作。首先,基于该数据集的评估结果,研究人员可以进一步探索不同LLMs在特定任务中的优化策略,如针对代码问答、故障定位和代码编辑任务的模型微调。其次,FAUN-Eval为开发新型LLM-based软件工程代理提供了宝贵的数据资源,推动了自动化软件维护和修复工具的发展。此外,该数据集还激发了对LLMs在处理复杂代码库时表现的研究,促进了多文件和多模块代码处理技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作