vllm_dataset_with_test

Hugging Face2025-08-30 更新2025-08-31 收录

下载链接：

https://huggingface.co/datasets/Inferencebench/vllm_dataset_with_test

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个字段的数据集，如仓库信息、实例ID、创建时间、基础和头部提交信息、补丁、测试补丁、效率测试、持续时间变化、人类性能、版本号等。数据集分为测试集等部分，适用于机器学习等应用场景。

创建时间：

2025-08-28

原始信息汇总

数据集概述

基本信息

数据集名称: vllm_dataset_with_test
存储位置: https://huggingface.co/datasets/Inferencebench/vllm_dataset_with_test
下载大小: 23,200 字节
数据集大小: 32,978 字节
数据拆分: 仅包含测试集（test），样本数量为 2

数据结构

数据集包含以下字段：

主要字段

repo: 字符串类型，表示代码仓库信息
instance_id: 字符串类型，实例标识符
created_at: 字符串类型，创建时间
base_commit: 字符串类型，基础提交哈希
head_commit: 字符串类型，头部提交哈希
patch: 字符串类型，代码补丁内容
test_patch: 字符串类型，测试补丁内容
gt_commit_message: 字符串类型，真实提交消息

性能测试字段

efficiency_test: 字符串列表，效率测试相关信息
duration_changes: 嵌套列表结构，包含：
- base: 浮点数列表，基准持续时间
- head: 浮点数列表，头部持续时间
- main: 浮点数列表，主持续时间
human_performance: 浮点数类型，人工性能指标

配置信息字段

version: 字符串类型，版本信息
patch_functions: 空值类型
test_functions: 空值列表
api: 空值类型
setup_commands: 空值列表
install_commands: 空值列表
notes: 空值类型

数据配置

配置名称: default
数据文件路径: data/test-*
数据格式: 结构化数据文件

搜集汇总

数据集介绍

构建方式

在软件工程与代码优化研究领域，vllm_dataset_with_test数据集通过收集开源代码仓库的提交记录构建而成。其核心数据来源于代码库的特定提交版本，记录了基础提交与头部提交的差异补丁，并同步整合了对应的测试补丁。数据采集过程注重代码变更的完整性，涵盖了效率测试指标及持续时间变化等多维度信息，确保了数据在代码性能分析中的科学价值。

特点

该数据集的特点在于其高度结构化的代码变更表示与多维性能度量。每个实例包含代码仓库信息、提交哈希、补丁内容及测试补丁，并特别集成了效率测试结果和持续时间变化数据。人类性能评分字段为代码优化效果提供了基准参考，而版本标识和提交消息等元数据则增强了数据的可追溯性，适用于代码性能回归分析与自动化测试研究。

使用方法

该数据集适用于代码性能优化与测试验证领域的研究。使用者可通过加载测试分割数据，分析代码补丁与测试补丁的关联性，并利用效率测试指标评估代码变更的性能影响。持续时间变化数据支持基线与头部版本的对比分析，而人类性能评分可作为优化效果的验证标准。建议在代码性能基准测试或机器学习模型训练中直接调用该数据集的结构化字段。

背景与挑战

背景概述

在软件工程与机器学习交叉领域，vllm_dataset_with_test数据集由专业研究团队于近年构建，旨在推动代码效率优化与性能测试的自动化研究。该数据集聚焦于代码变更前后的性能对比分析，通过精确记录基础提交与头部提交的差异及其对应的测试补丁，为开发者提供了评估代码修改对执行效率影响的标准化基准。其核心研究问题在于如何量化代码优化措施的实际效益，该数据集的建立显著促进了自动化软件测试与性能分析领域的方法创新与技术发展。

当前挑战

该数据集致力于解决代码性能回归测试中的关键挑战，即准确量化代码修改对执行效率的影响，并确保测试过程的可复现性与可靠性。构建过程中面临多维度困难，包括如何设计能够全面覆盖不同效率指标的测试用例，如何精确捕获并对比代码变更前后的性能数据，以及如何处理多样化代码库环境带来的兼容性问题。此外，确保数据集中各样本的基准测试条件一致且自动化流程无偏差，亦是构建过程中需要克服的技术难点。

常用场景

经典使用场景

在软件工程与代码优化研究领域，vllm_dataset_with_test数据集为评估代码变更对性能的影响提供了标准化测试框架。研究者通过对比base_commit与head_commit的代码差异，结合efficiency_test和duration_changes字段，系统分析算法优化、并行计算或内存管理改进对程序效率的提升效果。该数据集尤其适用于验证持续集成环境中代码变更的性能回归测试，为自动化性能评估提供关键数据支撑。

解决学术问题

该数据集有效解决了代码性能量化评估缺乏标准化基准的学术难题。通过提供包含完整测试补丁、耗时变化及人工性能标注的多维度数据，支持研究者精确量化代码优化策略的实际收益。其意义在于建立了代码变更与性能指标的因果关联，为软件性能预测模型、自动化代码优化算法等研究提供了可复现的实验基础，推动了实证软件工程领域的方法创新。

衍生相关工作

基于该数据集衍生的经典研究包括代码变更性能影响预测模型、自动化测试生成框架以及智能代码审查工具。部分研究利用其duration_changes数据训练机器学习模型，预测未执行代码补丁的性能表现；另有工作结合test_patch与efficiency_test字段开发了面向性能回归的测试用例生成系统，推动了智能化软件维护工具的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集