exp_rle_error_report-v3
收藏Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/laion/exp_rle_error_report-v3
下载链接
链接失效反馈官方服务:
资源简介:
exp_rle_error_report-v3 是一个经过严格质量筛选的代码任务数据集,旨在为强化学习智能体训练提供更高质量、更可解决的任务环境。该数据集源于包含5000个任务的DCAgent/exp_rle_error_report池,是laion/exp_rle_error_report-v2的优化子集。v3版本通过应用增强过滤器解决了v2版本中任务解决率低的问题,专门过滤了三类结构性不可解决任务:测试文件中引用了未提供的pytest夹具、导入了已弃用的点子模块,以及其他系统性错误。经过筛选,数据集规模从v2的759个任务减少到261个任务,预计将任务解决率从5.0%提升至16.7%。数据集以单个Parquet文件形式提供,包含path和task_binary字段,后者是任务文件夹内容的gzip压缩tar包。主要用于训练和评估能够解决复杂代码问题的AI智能体,特别是需要理解测试框架、处理依赖和规避已弃用API的智能体。
exp_rle_error_report-v3 is a rigorously quality-filtered code task dataset designed to provide higher-quality and more solvable task environments for reinforcement learning agent training. It originates from the DCAgent/exp_rle_error_report pool containing 5000 tasks and is an optimized subset of its predecessor laion/exp_rle_error_report-v2. The v3 version was created to address the low task solve rate in v2 by applying enhanced filters that target structurally unsolvable tasks, such as references to missing pytest fixtures, imports of deprecated dot-submodules, and other systemic errors. After filtering, the dataset size was reduced from 759 tasks in v2 to 261 tasks, with an expected improvement in task solve rate from 5.0% to 16.7%. It is provided as a single Parquet file with fields path and task_binary, where the latter is a gzip-compressed tar package containing task folder contents. The dataset is primarily used for training and evaluating AI agents capable of solving complex, real-world code problems, especially those requiring understanding of testing frameworks, dependency handling, and avoidance of deprecated APIs.
提供机构:
LAION eV
创建时间:
2026-05-15
原始信息汇总
数据集概述:exp_rle_error_report-v3
基本信息
- 数据集名称: exp_rle_error_report-v3
- 许可证: 其他(未具体说明)
- 来源: 基于
laion/exp_rle_error_report-v2的质量控制(QC)过滤子集,而v2本身来自包含5000个任务的DCAgent/exp_rle_error_report任务池。
数据背景
原始问题
在对200个强化学习(RL)轨迹进行重新分类时发现:
- 100% 的基础设施正常
- 仅 5.0% 的任务被解决
三类新增的不可解任务结构
- 缺少pytest fixture(30%) — 测试文件请求了上游
conftest.py中定义但未传入沙箱的fixture(如nomad_setup,host,app,client) - 已弃用的点分隔子模块(24%) — 例如
pandas.util.testing,tensorflow.python,scipy.signal.spectral等导入 - 其他系统性问题 — 包括
pytest.warns(None)弃用、缺少Django配置的导入、调用沙箱中不存在的系统二进制文件等
v3过滤规则
共应用7条规则(R1-R7):
| 规则编号 | 过滤规则描述 |
|---|---|
| R1 | v1顶层导入白名单 + 扩展本地模块黑名单(tests, helpers, apis, conftest, fixtures等) |
| R2 | 已弃用的点分隔子模块黑名单 |
| R3 | 已弃用的模块符号黑名单(如 scipy.spatial.distance.kulsinski) |
| R4 | pytest.warns(None) 文本扫描 |
| R5 | 缺少 settings.configure() 等配置的 django.contrib.* 导入 |
| R6 | 调用沙箱镜像中不存在的系统二进制文件(ray, docker, kubectl, minio, redis-server, mongod, nomad, consul, helm) |
| R7 | 使用了未定义且非内置/知名插件fixture的pytest fixture,且不是参数化参数名(带默认值的参数除外) |
数据规模
| 阶段 | 任务数量 |
|---|---|
上游 DCAgent/exp_rle_error_report |
5000 |
laion/exp_rle_error_report-v2(v1过滤后) |
759 |
laion/exp_rle_error_report-v3(v3过滤后) |
261 |
验证结果(基于200个v2样本)
- 10/10个已解决任务保留(100%的解决任务召回率)
- 140/190个失败任务被移除(73.7%的失败任务移除率)
- 预期v3的解决率提升:16.7% 对比 v2基准的 5.0%(提升3.33倍)
数据格式
与v2相同,为单个 tasks.parquet 文件,包含两列:
path: 任务ID(例如5k-error-report-0000)task_binary: 任务文件夹的gzip压缩tar包(包含metadata.json,instruction.md,task.toml,tests/...,environment/Dockerfile)
搜集汇总
数据集介绍

构建方式
exp_rle_error_report-v3 数据集是基于对先前版本(laion/exp_rle_error_report-v2)的精细过滤与重构而诞生的专项资源。其构建过程始于对200条强化学习轨迹的深度复判,发现v2版本虽达到100%基础设施正常,但任务解决率仅为5.0%。通过对手动分类的190条失败轨迹进行根因分析,识别出三类新增结构性问题:缺失pytest固件的测试用例(占30%)、已弃用的点式子模块导入(占24%)以及多种系统性缺陷。针对这些症结,v3采用了一套包含七条规则(R1至R7)的修补器(patcher),分别从顶层导入白名单扩展、弃用子模块与符号屏蔽、pytest.warns(None)文本扫描、Django贡献模块导入检测、缺失系统二进制文件的子进程调用拦截,以及未知pytest固件使用排查等维度,对原始5,000条任务池进行层层筛选,最终保留了261条高质量任务。
特点
该数据集的核心特点在于其高精度的任务筛选机制与显著提升的求解率。相较v2版本,v3在保持100%可解任务召回率的同时,成功剔除了73.7%的不可解任务,使预期求解率从5.0%跃升至16.7%,实现了3.33倍的性能提升。数据集以单一tasks.parquet文件存储,每条记录包含任务标识符(path)和经gzip压缩的任务文件夹二进制数据(task_binary),后者封装了metadata.json、instruction.md、task.toml、测试套件及环境Dockerfile等完整构成要素。这种结构化存储方式兼顾了数据完整性、传输效率与下游使用的便捷性,尤其适用于强化学习场景下的任务复现与评估。
使用方法
使用exp_rle_error_report-v3数据集时,用户可直接加载tasks.parquet文件,通过path字段获取任务唯一标识,利用task_binary字段解压出完整的任务配置与测试环境。推荐结合OpenThoughts-Agent框架中的修补器脚本(patch_exp_rle_error_report_v3_tasks.py)进行后续任务预处理或自定义过滤。在应用中,可依据v3的七条过滤规则(如R4对pytest.warns(None)的文本扫描、R7对未知pytest固件的检测)扩展自身数据清洗流程。此外,该数据集特别适合用于评估和改进强化学习智能体在代码生成与执行任务中的求解能力,用户可通过解析task_binary中的metadata.json获取任务元数据,利用instruction.md生成指令输入,并借助tests/目录下的测试集对智能体输出进行自动化验证。
背景与挑战
背景概述
该数据集由LAION与OpenThoughts-Agent团队合作构建,旨在解决强化学习智能体在代码执行环境中的错误报告筛选问题。创建于2026年,核心研究问题聚焦于如何通过自动化过滤技术剔除不可解任务,提升强化学习训练样本的质量与效率。作为从5000项任务逐步筛选至261项的高质量子集,它显著提升了任务可解率,为智能体训练提供了更可靠的基准数据,对代码生成与执行领域具有重要影响力。
当前挑战
该数据集解决的领域挑战是自动识别并过滤强化学习任务中因环境问题导致的不可解样本,例如缺失pytest fixture、废弃点式子模块导入及系统级依赖性错误。构建过程中需应对复杂的过滤规则设计,包括扩展本地模块黑名单、废弃导入扫描以及动态依赖检测,同时平衡过滤精度与任务保留率,最终在保持100%可解任务召回率的同时,成功移除73.7%的失败样本,实现3.33倍的可解率提升。
常用场景
经典使用场景
在强化学习与代码智能体领域,exp_rle_error_report-v3 数据集被广泛应用于评测智能体在真实软件工程任务中的修复能力。该数据集精选了 261 个经过严格质量控制的可执行错误报告任务,每个任务包含完整的测试框架、执行环境配置及错误描述,使得研究者能够标准化地衡量智能体在代码调试与补丁生成上的表现。其经典使用方式是将任务反馈给强化学习智能体,要求其在模拟的沙箱环境中定位错误根源并生成可运行的修复方案,从而评估模型的理解、推理与代码生成综合能力。
实际应用
在实际工业场景中,exp_rle_error_report-v3 数据集可赋能自动化缺陷修复系统与持续集成工具链。基于此数据集训练的代码智能体能够更可靠地识别测试环境缺失、API 废弃调用以及外部依赖失效等常见工程隐患,从而在软件迭代过程中自动拦截并修复低层次错误。例如,在大型项目持续集成流水线中,部署经过该数据集微调后的智能体,可显著减少因环境配置问题导致的构建失败,并辅助开发人员快速定位与第三方库兼容性相关的回归缺陷,提升整体研发效能。
衍生相关工作
围绕 exp_rle_error_report-v3 数据集,衍生出了若干具有影响力的后续研究。最直接的是其过滤规则集本身被整合至 OpenThoughts-Agent 数据管道中,形成了可复用的任务质量保障流程。此外,该数据集启发了针对代码智能体错误类型学的系统性分类工作,推动了“结构化不可解任务”这一概念的普及,并催生了新一代自适应评测基准的设计,例如动态任务难度调整与基于环境感知的镜像重构方法。这些衍生工作共同构建了从数据清洗、评测标准化到智能体泛化能力提升的完整学术脉络。
以上内容由遇见数据集搜集并总结生成



