DCAgent2/GLM-4.7-r2egym-patched-full-oracle-1samples-131k-run7

Name: DCAgent2/GLM-4.7-r2egym-patched-full-oracle-1samples-131k-run7
Creator: DCAgent2
Published: 2026-05-01 11:52:55
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/DCAgent2/GLM-4.7-r2egym-patched-full-oracle-1samples-131k-run7

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 158925944 num_examples: 1929 download_size: 52195642 dataset_size: 158925944 configs: - config_name: default data_files: - split: train path: data/train-* ---

提供机构：

DCAgent2

搜集汇总

数据集介绍

构建方式

该数据集基于GLM-4.7模型在R2E Gym强化学习环境中进行交互式采样与补丁优化而构建。通过引入完整Oracle监督信号，对单次采样生成的对话轨迹进行精细化修正与标注，最终汇聚成包含13.1万条样本的大规模语料库。每条样本均结构化存储了多轮对话内容、智能体标识、模型来源、时间戳及任务归属，同时记录了任务执行片段（episode）、运行ID（run_id）与试验名称（trial_name），为后续评估提供了完备的上下文信息。

特点

数据集特点鲜明，聚焦于代码修复与智能体决策领域，拥有1929个训练样本，数据规模达约158.9兆字节，确保模型微调时具备充分的多样性。其核心优势在于融合了Oracle验证器输出（verifier_output）与最终执行结果（result），使得每条样本不仅包含交互过程，还携带有准确的正误判别信号，为强化学习中的奖励塑造提供坚实依据。此外，结构化字段设计便于研究者追踪单次实验的完整生命周期。

使用方法

本数据集适配HuggingFace的datasets库加载，支持通过split参数直接划分训练集使用。用户可调用json或parquet格式读取多轮对话字段，利用conversations中的role与content信息构建模型输入输出对，结合agent与model_provider字段进行跨模型对比分析。推荐在GLM系列或其他大语言模型微调框架中，将verifier_output及result作为监督信号融入损失函数，以优化模型在代码生成与自动修复任务中的表现。

背景与挑战

背景概述

GLM-4.7-r2egym-patched-full-oracle-1samples-131k-run7数据集由智谱AI团队于近期开发，旨在推动大语言模型在复杂交互任务中的表现。该数据集以GLM-4系列模型为基础，聚焦于强化学习环境中的决策与推理能力，特别是在需要精确修补与迭代的场景中。通过收集高质量的对话轨迹，数据集覆盖了多种任务类型，为研究模型在动态环境中的自我改进与适应提供了重要资源。核心研究问题在于如何利用有限样本实现高效学习，这在大模型微调与泛化领域具有深远意义。该数据集的出现，为多轮交互与智能体协作研究树立了新标杆，促进了从静态知识到动态决策的范式转变。

当前挑战

该数据集所解决的核心领域挑战在于大语言模型在复杂交互环境中的泛化能力不足，传统微调方法难以处理开放式的多步推理任务，模型易陷入局部最优或产生不一致的行为。在构建过程中，团队面临数据标注与场景设计的双重难题：一方面，需要人工模拟真实交互以生成高质量样本，但每轮对话的轨迹长度和分支复杂度极高，导致标注成本陡增；另一方面，为确保数据集的多样性，必须平衡不同任务类型的分布，这要求设计精细的策略来覆盖边缘案例。此外，如何验证模型输出在长期依赖中的正确性，也是提供可靠监督信号的一大挑战，当前依赖的oracle机制虽有效，但引入了一定的人工偏差风险。

常用场景

经典使用场景

GLM-4.7-r2egym-patched-full-oracle-1samples-131k-run7 数据集专为增强大语言模型在代码生成与执行环境中的交互能力而设计。其经典使用场景聚焦于强化学习框架下的智能体训练，即通过多轮对话数据来引导模型逐步修正代码错误、优化执行结果。该数据集收录了模型在复杂编程任务中的完整轨迹，涵盖从初始代码生成到最终通过验证的完整闭环，适用于构建具备自我纠错能力的编程智能体。

衍生相关工作

该数据集衍生了多项具有影响力的研究工作，例如基于执行反馈的代码生成优化算法，以及结合强化学习与语言模型的交互式编程框架。相关研究还包括利用该数据训练出的专用智能体在诸如HumanEval、MBPP等主流代码生成基准上取得显著性能提升，验证了数据集的有效性。此外，部分工作进一步将其扩展至多语言编程场景，探索跨语言代码修复的通用表征，推动了代码智能体从单一任务向多元化应用的演进。

数据集最近研究