exp_rle_detailed-v3

Name: exp_rle_detailed-v3
Creator: LAION eV
Published: 2026-05-15 17:51:23
License: 暂无描述

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/laion/exp_rle_detailed-v3

下载链接

链接失效反馈

官方服务：

资源简介：

exp_rle_detailed-v3数据集是laion/exp_rle_detailed-v2的过滤版本，专门设计用于解决代码执行环境中的依赖导入问题。它通过静态分析技术识别并移除了可能导致ImportError或ModuleNotFoundError的任务实例，特别是针对测试集合阶段的模块导入失败。数据集构建过程中实施了多项过滤机制，包括子模块黑名单（如pandas.util.testing、sklearn.utils.testing等路径）、本地名称导入检查、pytest插件标记检测、importorskip调用验证以及无条件跳过测试的识别。原始v2版本包含773个任务，经过过滤后保留413个任务，丢弃360个任务，丢弃原因分布为：子模块问题402例、顶级导入问题73例、插件问题25例、importorskip问题17例、测试跳过问题7例。该改进使得v3版本能够捕获v2版本中88%的导入错误失败案例。数据集适用于代码执行评估、自动化测试生成和依赖管理分析等任务场景。

The exp_rle_detailed-v3 dataset is a filtered version of laion/exp_rle_detailed-v2, specifically designed to address dependency import issues in code execution environments. It uses static analysis techniques to identify and remove task instances that may cause ImportError or ModuleNotFoundError, particularly focusing on module import failures during the test suite phase. The dataset construction involves multiple filtering mechanisms: submodule blacklists (including paths such as pandas.util.testing and sklearn.utils.testing), local name import checks, pytest plugin marker detection, importorskip call validation, and identification of unconditional test skips. The original v2 version contains 773 tasks, and after filtering, 413 tasks are retained while 360 are discarded. The distribution of discard reasons is: 402 cases of submodule issues, 73 cases of top-level import issues, 25 cases of plugin issues, 17 cases of importorskip issues, and 7 cases of test skip issues. This improvement allows the v3 version to capture 88% of the import error failure cases from the v2 version. The dataset is suitable for tasks such as code execution evaluation, automated test generation, and dependency management analysis.

提供机构：

LAION eV

创建时间：

2026-05-15

原始信息汇总

数据集概述：exp_rle_detailed-v3

基本信息

数据集名称：exp_rle_detailed-v3
许可证：Apache-2.0
标签：daytona-tasks, rle, patched
来源：laion/exp_rle_detailed-v2

背景与改进

exp_rle_detailed-v3 是 laion/exp_rle_detailed-v2 的过滤版本。v2 版本包含 773 个任务，在烟雾测试中仅达到 6.0% 的解决率（12/200），其中 39% 的失败源于测试收集阶段的 ImportError / ModuleNotFoundError。

v3 在 v2 的补丁器基础上增加了以下四项检测机制：

子模块黑名单：拦截 pandas.util.testing、sklearn.utils.testing、tensorflow.python 等私有或已移除路径。
裸本地名称导入：覆盖通用本地模块名（如 tests、helpers、main 等）的导入豁免。
pytest 插件标记：检测 pytest.mark.asyncio、pytest.mark.trio 等未安装的插件标记。
pytest.importorskip("foo")：检查容器白名单外的模块跳过语句。
无条件跳过机制：检测 pytestmark = pytest.mark.skip(...) 或全部测试函数带有 @pytest.mark.skip 的情况。

数据集统计

类别	数量
输入（v2 任务）	773
保留（本数据集）	413
丢弃：子模块	402（总出现次数，任务可能包含多个）
丢弃：顶层导入	73
丢弃：插件	25
丢弃：importorskip	17
丢弃：橡皮图章	7
总丢弃任务数	360

性能提升

v3 评估器能够捕获 v2 中 78 个导入错误任务中的 69 个（88% 的捕获率）。剩余的 9 个案例属于运行时导入失败（如 from sklearn.utils import _IS_32BIT），无法通过静态检测可靠识别。

搜集汇总

数据集介绍

构建方式

本数据集源自`laion/exp_rle_detailed-v2`，经由一套精细化的过滤与修复流程构建而成。原始v2版本包含773项任务，但在初步评估中仅有6.0%的求解率，主要症结在于测试阶段高达39%的`ImportError`与`ModuleNotFoundError`。为此，v3版本引入了五项关键补丁：一是新增子模块黑名单，拦截`pandas.util.testing`等私有或废弃路径；二是将`tests`、`helpers`等通用局部名称从白名单豁免中排除；三是标记未在容器中安装的pytest插件（如`pytest.mark.asyncio`）；四是检测并筛除`pytest.importorskip`调用；五是整文件无条件跳过标记。最终，从773项任务中保留了413项，剔除了360项，其中402项因子模块问题被丢弃。

特点

该数据集的核心特点在于高精度的任务可解性筛选与错误模式针对性修复。通过静态分析技术，v3版本成功捕获了v2中88%的导入错误案例（69/78），显著提升了任务集的有效性。数据集聚焦于代码生成与测试执行场景，其过滤规则不仅覆盖了常见的模块缺失问题，还深入处理了动态导入、插件依赖与测试框架标记等复杂场景。残留的9个失败案例源自`from sklearn.utils import _IS_32BIT`等运行时动态名称导入，展示了静态分析固有的局限性。总体而言，数据集呈现了经过严格质控的413个可执行编码任务，为模型训练与评估提供了可靠的基础。

使用方法

使用该数据集时，建议将其作为代码智能任务（如程序合成、缺陷修复）的基准测试集。用户可直接从HuggingFace加载`exp_rle_detailed-v3`，其任务以JSON或特定格式存储，包含问题描述与测试脚本。推荐结合Daytona等执行环境进行端到端评估，利用容器化沙箱确保安全运行。对于过滤逻辑的复现或扩展，可参考`OpenThoughts-Agent/data/patchers/patch_exp_rle_detailed_tasks.py`中的v3补丁代码。注意，由于部分测试依赖动态导入，建议在使用前对残余失败模式（如核心模块的子版本兼容性）进行人工核查或补充动态检测策略，以提升评估的全面性。

背景与挑战

背景概述

在智能体任务规划与执行领域，数据集的质量直接影响模型训练的有效性与泛化能力。exp_rle_detailed-v3数据集由LAION团队于近期创建，旨在解决前序版本exp_rle_detailed-v2中因不完善的过滤机制导致的虚假高解决率问题。该数据集聚焦于基于执行轨迹的智能体任务评估，核心研究问题在于如何通过更严格的静态分析过滤掉因模块缺失、导入错误等基础设施因素造成的虚假成功案例。通过引入子模块黑名单、本地名称导入拦截、pytest插件标记检测等五项增强策略，显著提升了数据集的可靠性，对推动智能体任务基准测试的标准化与鲁棒性评估具有重要影响。

当前挑战

该数据集面临的核心挑战源自智能体任务评估的领域复杂性。首先，真实任务执行环境中模块依赖的多样性导致大量失败并非源于智能体能力不足，而是由于测试收集阶段合成脚本导入的模块未被运行时钩子安装，v2版本中高达39%的失败可归因于此。其次，静态检测存在天然局限，诸如`from sklearn.utils import _IS_32BIT`等名称导入在运行时才暴露错误，无法通过纯静态分析完全捕获，v3中仍有9例此类残留问题。此外，构建过程面临子模块版本差异、私有路径访问、以及伪装成正常执行的实际跳过模式等隐蔽干扰，要求过滤策略在精确性与保留任务数量间取得平衡，最终从773个任务中筛选出413个高质量样本。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，该数据集专为评估代码生成与自动补全模型在复杂、真实仓库环境下的任务求解能力而设计。它精选了经严格过滤后的413个任务实例，每个任务均包含对目标仓库的详细描述与预期测试行为，尤其适合用于评测模型在面对多层嵌套导入、私有模块访问及不完整依赖环境时的鲁棒性。研究者常借助此数据集来训练或验证模型能否在动态错误的单元测试集合中生成正确、可执行的解决方案，从而推动智能编程助手的可靠性边界。

解决学术问题

该数据集精准回应了当前代码智能领域中一个棘手的学术难题：如何在合成测试环境中准确衡量模型的真实代码修复能力，而非被虚假的通过率所误导。通过系统性剔除因缺失依赖、子模块黑名单及运行环境不匹配导致的伪成功案例，它解决了以往评测中高达39%的导入错误噪音问题，使评估结果能真实反映模型对目标仓库逻辑的理解深度与修补精准度。这一工作显著提升了基准测试的可信度，为后续研究提供了更纯净、更具挑战性的验证土壤。

衍生相关工作

业内因该数据集的启发而涌现出多项代表性工作，其中最核心的是其前身`exp_rle_detailed-v2`以及配套的补丁策略研究演进。研究者基于v3版本的过滤逻辑，开发了静态导入分析工具以自动化识别子模块黑名单与不安全的局部导入模式。此外，该数据集催生了针对“伪通过测试”检测的专项研究，相关方法被整合进如OpenThoughts-Agent等开源代理框架中。这些衍生工作共同推动了软件任务自动评估领域从“看似成功”走向“真实成功”的方法论革新，为构建更可信的代码能力评测生态奠定了基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集