five

exp_rle_minimal_instructions-v3

收藏
Hugging Face2026-05-15 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/laion/exp_rle_minimal_instructions-v3
下载链接
链接失效反馈
官方服务:
资源简介:
exp_rle_minimal_instructions-v3是一个基于laion/exp_rle_minimal_instructions-v2数据集进行修补的版本,旨在通过改进过滤逻辑解决v2中发现的故障问题。该数据集主要用于代码生成和自动化测试任务,包含结构化任务数据,每个样本以gzipped tar压缩包形式存储,内含instruction.md(任务说明)、task.toml(配置)、environment/Dockerfile(环境定义)、tests/*(测试文件)和solution/*(解决方案文件)。数据集中添加了三个新的过滤步骤:Fixture pass(通过AST解析检查pytest fixture的可用性)、Deep-submodule blocklist(阻止导入已知移除的私有子模块,如pandas、numpy等包的特定子路径)和Niche-package blocklist(阻止导入容器pip安装集之外的niche包,如pipelinewise、jasmine等)。数据规模方面,v2版本包含699行数据,v3的具体行数可通过tasks.parquet元数据查看。该数据集适用于代码生成模型训练、自动化测试评估和任务解决基准测试等场景。

exp_rle_minimal_instructions-v3 is a patched version of the laion/exp_rle_minimal_instructions-v2 dataset, designed to address issues found in v2 by improving filtering logic. This dataset is primarily used for code generation and automated testing tasks, containing structured task data. Each sample is stored as a gzipped tar archive, including instruction.md (task description), task.toml (configuration), environment/Dockerfile (environment definition), tests/* (test files), and solution/* (solution files). Three new filtering steps have been added to the dataset: Fixture pass (checking pytest fixture availability via AST parsing), Deep-submodule blocklist (blocking imports of known removed private submodules, such as specific subpaths of packages like pandas and numpy), and Niche-package blocklist (blocking imports of niche packages outside the container pip installation set, such as pipelinewise and jasmine). In terms of data scale, v2 contains 699 rows, and the specific row count for v3 can be viewed through the tasks.parquet metadata. The dataset is suitable for scenarios like code generation model training, automated testing evaluation, and task-solving benchmark testing.
提供机构:
LAION eV
创建时间:
2026-05-15
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集是在`laion/exp_rle_minimal_instructions-v2`基础上,通过新增三重过滤机制构建而成的增强版本。针对v2版本在少量测试样本中发现的持续性“无法从最小提示词求解”故障模式,v3版本引入了基于抽象语法树的fixture检测、深层子模块黑名单以及小众包黑名单三个过滤层,以剔除因pytest fixture缺失、因版本漂移导致的私有API不可用以及小众依赖包缺失而无法通过验证的任务。这些过滤逻辑与v2的原有规则协同作用,最终生成更高质量的任务集合。
特点
该数据集的核心特点在于其严苛的任务筛选标准与高可靠性。v3版本通过AST解析技术精准识别测试代码中未定义的pytest fixture,并明确拦截对已移除私有子模块(如`pandas.compat.np_version_under1p20`)及容器环境外小众包(如`pipelinewise`、`jasmine`)的导入行为。数据集保留了v2完备的Schema结构,每个任务以压缩的tar二进制文件存储,包含指令文档、环境配置及测试代码,保障了任务执行的独立性。
使用方法
数据集的使用方式与v2保持一致,每条记录通过`task_binary`字段提供经过gzip压缩的tar归档文件,其中封装了运行任务所需的完整素材:包括`instruction.md`指令说明、`task.toml`配置文件、`environment/Dockerfile`容器化环境定义,以及`tests/`目录下的测试脚本。用户需解压并解析这些文件以获取任务内容,并依据`test_solution.py`中的测试逻辑验证解决方案的正确性。该设计使得数据集成为了代码生成与自动化漏洞修复任务评估的理想基准。
背景与挑战
背景概述
在大规模机器学习训练数据构建中,数据质量控制是决定下游模型性能的关键环节。LAION团队于2024年推出的exp_rle_minimal_instructions-v3数据集,是在其前序版本v2基础上专门针对代码执行任务(RLE)的指令过滤问题进行的优化迭代。该数据集由LAION研究团队主导开发,核心研究问题聚焦于如何系统性地识别并消除那些仅凭简单指令无法解决的“伪任务”——这些任务虽然在数据清洗流程中通过了初步过滤,却因隐性的环境依赖、版本漂移或第三方库缺失等底层因素导致实际不可执行。该数据集的迭代过程,为大规模指令数据集的鲁棒性构建提供了重要的方法论参照,尤其对基于容器化环境的可复现代码任务筛选具有示范意义。
当前挑战
该数据集所解决的领域挑战在于:代码执行类指令数据集普遍存在一种隐蔽的失败模式——任务看似完整,却在隔离的执行环境中因深层依赖问题而崩溃,例如pytest固件未定义、私有API被移除、或小众包缺失等,这些问题在浅层规则过滤中难以捕获。构建过程中的挑战则体现在:v2版本即便经过初轮过滤,200条抽样中仍有7.5%的任务无法通过测试,暴露出三类固化的不可解模式;v3版本不得不引入AST静态分析(如检测测试函数中未注册的固件参数)、深度子模块黑名单(如过滤已废弃的pandas.compat路径)、以及小众包显示拦截层三重增强机制,在保持较低误杀率的同时将任务可解率提升至实用水平。
常用场景
经典使用场景
exp_rle_minimal_instructions-v3 数据集专为评估和提升大规模语言模型在代码生成与执行环境中的指令遵循能力而设计。其经典使用场景聚焦于自动化编程任务的推理与验证,通过提供精简的指令、待实现的代码骨架及配套的测试套件,要求模型生成可成功通过单元测试的正确解决方案。研究者常借此数据集衡量模型在受限信息下理解任务意图、调用合适的库函数并避免常见导入错误的能力。
衍生相关工作
围绕 exp_rle_minimal_instructions-v3 数据集,已衍生出多项经典工作,包括针对其前序版本 v2 的失败模式分析(如 pytest fixture 缺失率 38.4%、私有 API 导入失败率 20.0%)以及相应的过滤补丁。研究者基于该数据集开发了自动化任务清理管道(如 OpenThoughts-Agent 中的补丁策略),并进一步探索了跨版本兼容性预测、弱监督指令解析等技术。这些工作为构建更健壮、更可靠的代码生成评估体系奠定了方法论基础,并启发了后续针对多语言、多框架环境下的指令遵循研究。
数据集最近研究
最新研究方向
该数据集聚焦于代码生成任务的可复现性评估,通过精细化过滤机制(如pytest fixture缺失、深子模块依赖冲突和稀缺包导入问题)剔除指令驱动下不可解的失败案例,为AI辅助编程的鲁棒性验证提供了更纯净的基准。其迭代优化过程反映了当前AIAgent领域对任务环境可控性和依赖管理的高度重视,尤其在大规模代码生成场景中,版本漂移与私有API退役引发的隐性错误已成为制约模型实用性的关键瓶颈,该数据集的v3版本通过显式黑名单策略为这类长尾故障的自动化诊断树立了新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作