five

exp_rle_expert-v3

收藏
Hugging Face2026-05-15 更新2026-05-16 收录
下载链接:
https://huggingface.co/datasets/laion/exp_rle_expert-v3
下载链接
链接失效反馈
官方服务:
资源简介:
laion/exp_rle_expert-v3是一个用于代码生成和强化学习任务的数据集,它是exp_rle_expert-v2的扩展过滤版本。该数据集通过应用10条严格的过滤规则(R1-R10),移除了无效或低质量的测试任务,如非标准库导入、过时代码、缺失系统二进制文件、未定义pytest夹具、无测试函数、平凡断言以及未引用代理解决方案的任务,以提升任务的有效性和实用性。原始v2版本包含730个任务,但存在大量“橡胶图章”测试(即无论代理行为如何都能通过的测试),导致解决率虚高。经过过滤,数据集缩减至39个任务,保留率仅为5.3%。在一个203个轨迹的质量控制样本中,过滤后任务集的解决率为8.3%,表明过滤有效去除了污染。该数据集适用于文本生成、代理开发和代码生成研究,语言为英语,规模较小(少于1K样本)。

laion/exp_rle_expert-v3 is a dataset for code generation and reinforcement learning tasks, serving as an extended filtered version of exp_rle_expert-v2. It aims to enhance task effectiveness and practicality by applying 10 strict filtering rules (R1-R10) to remove invalid or low-quality test tasks, such as non-standard library imports, outdated code, missing system binaries, undefined pytest fixtures, absence of test functions, trivial assertions, and tasks not referencing agent solutions. The original v2 version contained 730 tasks but had numerous rubber stamp tests that could pass regardless of agent behavior, leading to artificially high solve rates. After filtering, the dataset was reduced to 39 tasks, with a retention rate of only 5.3%. In a quality control sample of 203 trajectories, the filtered task set achieved a solve rate of 8.3%, indicating effective removal of contamination. The dataset is suitable for text generation, agent development, and code generation research, is in English, and has a small scale (fewer than 1K samples).
提供机构:
LAION eV
创建时间:
2026-05-15
原始信息汇总

数据集概述:laion/exp_rle_expert-v3

基本信息

  • 许可证:Apache-2.0
  • 任务类别:文本生成(text-generation)
  • 语言:英语(en)
  • 数据规模:少于1000条(n<1K)
  • 标签:agent、rl、code-generation、harbor

数据集背景

该数据集是基于 laion/exp_rle_expert-v2(包含730个任务)进一步过滤得到的版本。v2版本是对上游5000个任务池进行初步过滤后的输出。对203条RL轨迹的质量控制重新分诊发现:

  • 100% 的基础设施正常
  • 解决率仅为8.4%(17/203)
  • 所有17个v2解决的案例均为“橡皮图章”——即无论代理执行什么操作,测试都会通过

v3过滤规则

数据集通过应用额外的过滤规则,将任务数从730个缩减至39个(保留率5.3%)。过滤规则基于检查每个任务的 tests/test_solution.py 文件,具体规则如下:

规则 描述 删除任务数
R1 顶级导入不在标准库/白名单/指令令牌中(v1基础) (来自v2)
R2 已弃用的点分子模块导入(如 pandas.util.testing 等) 132
R3 来自仍有效模块的已弃用符号 2
R4 pytest.warns(None)(pytest 8类型错误) 8
R5 django.contrib.* 缺少 settings.configure() 5
R6 `subprocess.run(["ray" "docker"
R7 测试参数请求未定义的pytest fixture 334
R8 文件中没有 test_* 函数(no_test_functions 23
R9 每个有效测试体都是 assert True/同义反复/xfail-strict + assert False(trivial_assertions 9
R10 测试仅导入标准库/白名单,且所有名称解析都在本地——代理的solution.py从未被导入(no_impl_referenced 175

过滤结果与质量控制

对203条轨迹的QC样本进行验证后:

  • 17个已知的v2解决任务中,除1个外全部被删除(5k-expert-0008:合法的解决,代理正确实现了 tools/ci/tc/decision.py,所有18个测试通过)
  • 186个v2失败任务中,175个被作为静态可检测的垃圾任务删除
  • 保留的切片:12个任务(来自203个采样任务)→ 保留任务中的解决率为8.3%(相比v2的8.4%解决率,后者100%是橡皮图章污染)

过滤工具

过滤源码位于:OpenThoughts-Agent/data/patchers/patch_exp_rle_expert_v3_tasks.py 每个任务的删除原因记录在 v3_filter_verdicts.json 文件中。

搜集汇总
数据集介绍
main_image_url
构建方式
数据集exp_rle_expert-v3源自一个包含5000个任务的初始池,经过两轮精炼得到v2版本(730个任务),再经由v3过滤器进一步提纯。该过滤器通过分析每个任务的tests/test_solution.py文件,应用了10条规则(R1至R10)以剔除各类无效或退化的测试样例。这些规则涵盖了非标准库的顶层导入、废弃的子模块导入、恒真断言、未引用待求解代码的测试用例等多种模式。经过过滤后,保留了39个高质量任务,保留率仅为5.3%,展现了严苛的质量把控。
特点
该数据集的核心特征在于对任务质量的极致追求。它通过系统性规则过滤掉了大量‘橡皮图章’测试(即无论智能体做什么都能通过的测试)以及其他类型的伪任务。在203个强化学习轨迹的抽样验证中,v3版本成功去除了v2中所有17个被视为橡皮图章的已知可解任务,仅保留了一个真正由智能体正确实现的合法解。这使得剩余任务中的真实求解率达到8.3%,远高于v2表面数字背后被污染的统计意义。
使用方法
为使用该数据集,用户可直接从HuggingFace仓库加载exp_rle_expert-v3中的39个任务。每个任务均包含标准化的测试文件tests/test_solution.py,可用于评估代码生成智能体的表现。建议结合其配套的过滤脚本patch_exp_rle_expert_v3_tasks.py及v3_filter_verdicts.json文档,深入了解每条任务的保留原因,从而在强化学习或代码生成训练中高效筛选具有挑战性的真实用例,避免受无效测试干扰。
背景与挑战
背景概述
在大规模语言模型强化学习与代码生成交叉领域,任务质量与评估指标的真实性一直备受关注。laion/exp_rle_expert-v3数据集由LAION团队于2024年创建,旨在解决现有奖励模型中普遍存在的“橡皮图章”问题——即测试用例因设计缺陷而能够被任意智能体通过。该数据集从初始5000个任务的池中,经过两轮严格过滤,最终仅保留39个高质量任务,以保障强化学习信号的有效性。其研究核心聚焦于构建纯净、无污染的评测基准,提升智能体在真实编程与决策场景中的泛化能力,对后续强化学习与代码生成领域的实验设计产生了示范性影响。
当前挑战
该数据集所面临的挑战体现在两个层面。领域问题层面,传统代码生成与智能体任务中,测试用例常隐含有缺陷,导致智能体无需真正理解任务即可获得高分,这一“橡皮图章”现象严重扭曲了模型能力的真实评估。构建过程层面,团队需从730个初步合格任务中手动筛选并剔除因废弃模块导入、未定义pytest夹具、零测试函数文件、及自洽性断言等十类规则导致的伪正向任务,其中R7规则(未定义的pytest夹具)单条便过滤了334项任务,使得任务保留率骤降至5.3%,对标注与自动化检测流程提出了极高要求。
常用场景
经典使用场景
在强化学习与代码生成的交汇领域中,exp_rle_expert-v3数据集被设计用于评估智能体在真实编程任务中的表现。其核心使用场景聚焦于测试语言模型驱动的智能体能否通过生成正确代码来通过一系列精心设计的单元测试。通过提供从5000个候选任务中严格筛选出的39个高质量任务,该数据集为研究者提供了一个洁净、无噪声的基准平台,用于衡量智能体在功能性代码生成上的真实能力,尤其强调排除那些测试本身存在缺陷或与智能体行为无关的“橡皮图章”式任务。
实际应用
在实际工程应用中,该数据集可作为代码智能体开发流程中的质量门禁。例如,在构建可自动化修复开源仓库中CI构建错误的智能运维系统时,可以利用此数据集验证智能体是否具备识别并补全缺失代码逻辑的能力。此外,在集成开发环境(IDE)的智能代码补全插件中,基于类似任务过滤策略的评估集可用于筛选哪些模型生成的补全片段能够切实通过下游测试,从而避免对开发者的无效建议,提升生产环境中代码自动化工具的可靠性与用户信任度。
衍生相关工作
围绕该数据集的构建理念,学术界已衍生出若干关键工作。其过滤代码`patch_exp_rle_expert_v3_tasks.py`启发了后续多个任务池净化框架,例如将静态规则扩展为动态执行检查以识别测试中的逻辑死循环。同时,v3版本对“橡皮图章”问题的深刻揭露,直接催生了基于测试覆盖率分析的任务难易度评价体系,使得研究者能够更精细地控制评估集的质量。此外,该数据集输出的39个高质量任务本身成为了SWE-bench等综合榜单的子集,用于衡量当前最强开源模型在真实代码修复任务上的极限性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作