five

auto_validated

收藏
Hugging Face2025-01-21 更新2025-01-22 收录
下载链接:
https://huggingface.co/datasets/r1v3r/auto_validated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,如基础提交(base_commit)、补丁(patch)、实例ID(instance_id)、拉取请求编号(pull_number)、提示文本(hints_text)、问题编号(issue_numbers)、版本(version)、仓库(repo)、创建时间(created_at)、测试补丁(test_patch)、问题陈述(problem_statement)、环境设置提交(environment_setup_commit)以及多个测试结果序列(FAIL_TO_PASS, PASS_TO_PASS, FAIL_TO_FAIL, PASS_TO_FAIL)。这些字段表明数据集可能与软件开发中的代码审查、错误修复和测试结果有关。数据集分为训练集,包含126个样本,总大小为3719410字节。
创建时间:
2025-01-17
搜集汇总
数据集介绍
main_image_url
构建方式
auto_validated数据集的构建基于开源软件项目的代码提交历史,通过提取GitHub上的pull request和issue信息,结合代码补丁(patch)和测试补丁(test patch)的验证结果,形成了完整的代码修复与验证记录。数据集中包含了代码库的基本信息、提交记录、问题描述以及测试结果等多维度数据,确保了数据的全面性和可追溯性。
特点
该数据集的特点在于其高度结构化的数据格式,涵盖了代码修复过程中的关键环节,如问题描述、代码补丁、测试结果等。通过FAIL_TO_PASS、PASS_TO_PASS等字段,能够清晰地追踪代码修复的成功与失败情况。此外,数据集还包含了环境设置提交(environment_setup_commit)和提示文本(hints_text),为研究代码修复的自动化验证提供了丰富的上下文信息。
使用方法
auto_validated数据集适用于研究代码修复自动化、测试验证以及软件工程中的缺陷修复流程。用户可以通过分析代码补丁与测试结果之间的关系,探索自动化修复工具的优化方法。数据集中的实例ID(instance_id)和拉取请求编号(pull_number)可用于追踪特定修复案例,而问题编号(issue_numbers)则便于关联具体的软件缺陷。通过结合环境设置提交和提示文本,研究者可以进一步模拟真实的开发环境,提升研究的实用性。
背景与挑战
背景概述
auto_validated数据集是一个专注于软件工程领域的数据集,旨在通过自动化验证代码补丁的有效性来提升软件开发的效率与质量。该数据集由多个开源项目的代码补丁及其验证结果组成,涵盖了代码提交、测试补丁、问题描述等多个维度。其核心研究问题在于如何通过自动化手段验证代码补丁的正确性,从而减少人工审查的成本与错误率。该数据集的创建为软件工程领域的自动化测试与代码审查提供了重要的数据支持,推动了相关研究的发展。
当前挑战
auto_validated数据集面临的挑战主要体现在两个方面。其一,代码补丁的自动化验证需要处理复杂的代码逻辑与环境依赖,如何准确捕捉代码变更对系统行为的影响是一个技术难点。其二,数据集的构建过程中,需要从大量开源项目中提取有效的代码补丁及其验证结果,这一过程涉及数据清洗、格式统一以及跨项目兼容性处理,增加了数据集的构建难度。这些挑战不仅对数据集的质量提出了高要求,也为相关领域的研究者提供了新的研究方向。
常用场景
经典使用场景
auto_validated数据集广泛应用于软件工程领域,特别是在自动化代码验证和测试生成的研究中。通过提供详细的代码补丁、测试补丁以及问题描述,该数据集为研究人员提供了一个丰富的实验平台,用于开发和评估自动化测试工具和代码修复算法。
解决学术问题
auto_validated数据集解决了自动化代码验证中的关键问题,如测试用例生成的有效性和代码修复的准确性。通过提供多种测试结果(如FAIL_TO_PASS、PASS_TO_PASS等),该数据集帮助研究人员深入理解代码变更对测试结果的影响,从而推动自动化测试技术的发展。
衍生相关工作
基于auto_validated数据集,许多经典研究工作得以展开。例如,研究人员开发了基于机器学习的代码修复工具,利用数据集中的代码补丁和测试结果进行模型训练,显著提高了代码修复的准确性和效率。此外,该数据集还促进了自动化测试生成算法的研究,推动了软件工程领域的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作