swefficiency

Hugging Face2025-08-29 更新2025-08-30 收录

下载链接：

https://huggingface.co/datasets/swefficiency/swefficiency

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个字段的数据集，用于存储代码补丁的相关信息，包括补丁的仓库、ID、基础提交、补丁内容、测试补丁、问题陈述、提示文本、创建时间、版本、通过到通过序列、失败到通过序列、环境设置提交、工作负载、加速比、覆盖测试、测试命令、重建命令、镜像名称和单线程测试。数据集包含一个测试split，共有498个示例。

创建时间：

2025-08-27

原始信息汇总

数据集概述

基本信息

数据集名称: swefficiency
存储位置: https://huggingface.co/datasets/swefficiency/swefficiency
下载大小: 303,636,986 字节
数据集大小: 2,908,141,953 字节
配置名称: default

数据特征

数据集包含以下字段：

repo: 字符串类型，表示代码仓库
instance_id: 字符串类型，表示实例标识
base_commit: 字符串类型，表示基础提交
patch: 字符串类型，表示补丁
test_patch: 字符串类型，表示测试补丁
problem_statement: 字符串类型，表示问题描述
hints_text: 字符串类型，表示提示文本
created_at: 字符串类型，表示创建时间
version: 字符串类型，表示版本
PASS_TO_PASS: 字符串序列
FAIL_TO_PASS: 空值序列
environment_setup_commit: 字符串类型，表示环境设置提交
workload: 字符串类型，表示工作负载
speedup: 浮点数类型，表示加速比
covering_tests: 字符串序列，表示覆盖测试
test_cmd: 字符串类型，表示测试命令
rebuild_cmd: 字符串类型，表示重建命令
image_name: 字符串类型，表示镜像名称
single_thread_tests: 字符串序列，表示单线程测试

数据划分

划分名称: test
样本数量: 498
数据大小: 2,908,141,953 字节

文件结构

数据文件路径模式：data/test-*

搜集汇总

数据集介绍

构建方式

在软件工程领域，swefficiency数据集通过收集真实代码仓库中的提交记录构建而成，涵盖了代码补丁、测试用例及性能指标等多维度信息。其构建过程注重代码变更与测试覆盖的关联性，确保了数据在反映实际开发场景中的有效性和代表性。

使用方法

研究人员可通过加载数据集的分割配置访问测试样本，结合代码补丁与性能指标进行效率分析。典型应用包括训练模型预测代码优化效果，或评估测试覆盖与性能提升的关联性，需依据环境设置命令复现实验场景。

背景与挑战

背景概述

软件工程领域长期关注代码效率优化问题，swefficiency数据集由专业研究团队于近年构建，旨在系统化评估代码性能改进方案的有效性。该数据集通过收集真实代码库中的性能补丁及其对应测试用例，为研究者提供了分析效率优化模式的标准化基准。其核心研究在于探索自动化性能诊断与优化技术，对提升软件开发质量与系统性能具有重要推动作用。

当前挑战

该数据集主要应对代码性能优化领域的双重挑战：在领域问题层面，需解决性能缺陷的精准定位、优化方案的有效性验证以及多线程环境下的性能一致性保证等核心难题；在构建过程中，面临真实场景性能补丁的稀缺性收集、测试环境的高精度复现以及跨平台性能指标的可比性维护等技术障碍。

常用场景

经典使用场景

在软件工程与程序优化领域，swefficiency数据集为研究代码效率提升提供了关键实验平台。该数据集通过记录代码仓库的补丁、测试用例及性能指标，典型应用于自动化代码优化算法的训练与验证，尤其适合评估机器学习模型在识别低效代码模式与生成优化方案方面的能力。

解决学术问题

该数据集有效解决了程序自动优化研究中缺乏真实世界基准的难题，为量化代码变更对性能的影响提供标准化度量。其意义在于建立了代码修改与性能提升之间的可追溯关联，推动了基于数据驱动的程序优化理论发展，并为跨版本性能回归分析提供了实证基础。

实际应用

实际应用中，swefficiency被集成至持续集成流水线，用于实时检测代码提交引入的性能退化。开发团队可依据其提供的性能指标与覆盖测试结果，精准定位效率瓶颈，同时为自动化代码重构工具提供训练数据，显著减少人工性能调优的成本。

数据集最近研究