full-repo-coverage

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/code-rl/full-repo-coverage

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多编程语言（C、C++、Go、Rust）在不同操作系统（Linux/Windows）下的测试实例。数据集主要特征包括：实例ID、Docker镜像、重建命令、测试命令、打印命令、测试状态、日志解析器、覆盖率命令、覆盖率文件和覆盖率源码编辑。数据集按语言和操作系统分为8个分片，总大小约2.1GB，包含295个示例。Linux分片包含C（13例）、C++（23例）、Go（49例）、Rust（73例）语言的测试实例；Windows分片包含Go（49例）、C（10例）、C++（5例）、Rust（73例）语言的测试实例。该数据集适用于软件测试、代码覆盖率分析等编程语言相关研究。

创建时间：

2026-04-16

原始信息汇总

数据集概述

数据集名称：full-repo-coverage

许可证：CC-BY-4.0

数据集大小：约2.12 GB（下载大小约310 MB）

数据集特征：包含以下字段：

instance_id：实例标识符（字符串）
docker_image：Docker镜像（字符串）
rebuild_commands：重建命令（字符串）
test_commands：测试命令（字符串）
print_commands：打印命令（字符串）
test_status：测试状态（字符串）
log_parser：日志解析器（字符串）
coverage_command：覆盖率命令（字符串）
coverage_file：覆盖率文件（字符串）
coverage_source_edits：覆盖率源码编辑（字符串）

数据集划分：共分为8个子集，按编程语言和操作系统组合划分：

子集名称	样本数量	大小（字节）
go.windows	49	67,917,238
c.windows	10	105,957,798
cpp.windows	5	18,561,373
rust.windows	73	511,678,220
c.linux	13	87,207,112
cpp.linux	23	708,222,990
go.linux	49	127,659,740
rust.linux	73	488,958,117

支持的编程语言：C、C++、Go、Rust

支持的操作系统：Linux、Windows

配置信息：默认配置下的数据文件路径格式为 data/<子集名称>-*。

搜集汇总

数据集介绍

构建方式

在软件工程与自动化调试领域，代码覆盖率的精确度量是评估测试有效性的关键一环。full-repo-coverage数据集通过系统性的集成与构建流程，专为跨语言、跨平台的仓库级代码覆盖率分析而设计。其构建方式遵循严格的工程化范式：首先为每个实例准备对应的Docker镜像及重建命令，确保实验环境的可复现性；随后定义测试命令与覆盖率收集命令，并附带日志解析器脚本，以自动化方式捕获测试执行状态与覆盖率数据。此外，数据集明确记录了覆盖率文件的路径及对源码的编辑操作，从而使每一次覆盖率计算都能精确映射至代码变更，形成了结构严谨、覆盖全面的数据资产。

特点

该数据集最显著的特点在于其多维度的丰富性与细粒度结构。数据覆盖了C、C++、Go、Rust四种主流编程语言，并分别提供Linux与Windows两大操作系统下的运行实例，形成了八个定制化子集，总计包含295个样本，充分体现了跨平台兼容性的设计考量。每个样本包含从实例标识、Docker镜像到具体测试与覆盖率命令的完整字段链，其中coverage_source_edits字段尤为关键，它记录了影响覆盖率的源码变更，使得研究者不仅能观察覆盖结果，更能追溯变化源头。数据集的总体规模超过2GB，为深入分析不同技术栈下的覆盖率行为提供了坚实的数据基础。

使用方法

使用full-repo-coverage数据集时，研究者可依据语言和平台需求，通过HuggingFace Datasets库加载特定子集。例如，通过指定split参数为'rust.linux'即可获取Rust语言在Linux环境下的全部样本。每个样本可直接作为自动化测试与覆盖率计算管线的输入：利用docker_image字段构建隔离环境，以rebuild_commands重建项目，再执行test_commands与coverage_command来并行获取测试结果与覆盖数据。结合test_status与log_parser字段，能够高效地验证测试成败并解析运行日志，从而支撑诸如回归测试分析、覆盖率引导的调试等研究任务。

背景与挑战

背景概述

在软件开发领域，代码覆盖率作为衡量测试质量的核心指标，长久以来一直是软件工程研究的重点。由知名研究机构或团队构建的full-repo-coverage数据集，专注于提供跨平台、多语言（C、C++、Go、Rust）的完整仓库级代码覆盖率数据，旨在解决测试评估中粒度粗、视角单一的问题。该数据集通过细粒度的实例标识、Docker环境配置及测试状态记录，为自动化测试、持续集成及回归测试等领域的研究提供了标准化基准，有力推动了测试有效性评估与缺陷预测技术的发展。

当前挑战

full-repo-coverage数据集面临的核心挑战包括：1) 跨平台与多语言环境下的测试一致性难题，不同操作系统（Linux/Windows）与编译器行为差异导致覆盖率结果可比性不足，亟需统一的度量范式；2) 在构建过程中，从源码编辑到覆盖率命令的映射、测试日志的解析以及Docker镜像的适配均需大量自动化工程，存在执行效率与资源消耗的矛盾；3) 数据集规模扩大后，如何保证覆盖率信息的时效性与重构后代码的语义一致性，仍是持续更新中的关键技术瓶颈。

常用场景

经典使用场景

在软件工程与程序分析领域，full-repo-coverage数据集为跨语言、跨平台的代码覆盖率研究提供了宝贵资源。该数据集覆盖了C、C++、Go和Rust四种主流系统编程语言，并包含Linux与Windows双平台的测试数据。研究者可借此分析不同编程范式下的测试质量，探究覆盖率与软件缺陷检测之间的关联，同时为持续集成流水线中的测试优化提供基准。

衍生相关工作

基于full-repo-coverage，学术界已衍生出多项开创性工作。例如，研究人员利用其中的覆盖率源编辑信息构建了面向多语言仓库的测试用例优先级排序算法；另有工作基于跨平台覆盖率差异，提出了针对异构环境的模糊测试增强策略。该数据集还推动了代码覆盖率预测模型的发展，使得在无测试运行时即可预估代码的测试充分度，从而指导开发资源的高效分配。

数据集最近研究