five

DCAgent2/terminal_bench_2_a2_rl_crosscodeeval_python_v2_20260425_042703

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/terminal_bench_2_a2_rl_crosscodeeval_python_v2_20260425_042703
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 13084828 num_examples: 265 download_size: 8845518 dataset_size: 13084828 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是面向代码生成与执行验证任务的高质量对话数据集,由强化学习框架下的智能体交互轨迹构建而成。具体而言,数据源自于多轮智能体在跨代码评估环境(CrossCodeEval)中的运行日志,每条记录包含完整的对话历史、执行结果及验证器输出。构建过程中,系统为每个任务实例保留了从初始指令到最终结果的完整交互链条,并提供了agent标识、模型名称、实验日期与批次编号等元信息,以便追踪训练与评测历程。最终形成包含265条样本的训练集,以JSON格式存储,每条样本均包含多轮conversations字段及多个结构化辅助字段。
特点
该数据集最显著的特点在于其多维度结构化元信息的丰富性,不仅保留了对话内容本身(conversations字段),还以独立字段记录了agent类型、模型来源、任务描述、回合编号、运行标识与试验名称,极大便利了后续的归因分析与调用链路回放。尤为重要的是,每条样本均附带了verifier_output字段,存储了执行验证器对生成代码的自动评判结果,这为强化学习中的奖励建模提供了关键的真实反馈信号。此外,数据均来源于自动化流水线生成的Python任务,保证了场景的标准性与可复现性。
使用方法
使用时,用户可通过HuggingFace Datasets库直接加载该数据集,默认读取train分片下的全部265条样本。每条样本的conversations字段可被用于微调对话式代码生成模型或构建多轮指令跟随系统,而verifier_output字段则适合作为偏好对数据进行强化学习中的奖励模型训练。建议将agent、model、task等元字段用于实验分组与消融分析。由于数据量较小且格式规整,该数据集特别适合作为快速验证算法效果的基准测试集,或与其他大规模代码数据集联合使用以提升模型在复杂执行任务上的鲁棒性。
背景与挑战
背景概述
该数据集名为 terminal_bench_2_a2_rl_crosscodeeval_python_v2_20260425_042703,创建于2026年4月25日。它由CrossCodeEval研究团队开发,聚焦于强化学习与代码评估的前沿交叉领域,核心研究问题在于探索如何利用强化学习方法提升代码生成智能体在终端环境中的任务执行能力。作为该领域的重要基准资源,该数据集通过记录智能体与环境的完整交互对话,为评估和训练基于强化学习的代码生成模型提供了标准化的测试平台,对推动自动化代码生成与执行的研究具有显著影响力。
当前挑战
该数据集所解决的领域挑战主要包括:1) 代码生成任务的评估复杂性,传统指标难以衡量智能体在真实终端环境中的多步执行与错误恢复能力;2) 强化学习训练中奖励稀疏与样本效率低下的问题。在构建过程中遇到的挑战有:1) 需要设计统一的对话格式以捕捉智能体与终端的完整交互链,确保数据一致性;2) 从多样化的Python任务中筛选高质量轨迹,并处理执行结果与验证器输出的可靠性,以避免噪声数据对模型训练的干扰。
常用场景
经典使用场景
在代码执行与智能体交互的交叉研究领域,terminal_bench_2_a2_rl_crosscodeeval_python_v2_20260425_042703数据集以其精细化的对话结构与多维度元信息,成为评估和训练基于强化学习的Python代码生成智能体的经典基准。该数据集收录了智能体在终端环境中执行任务时产生的完整人机对话轨迹,涵盖agent、model、task等关键字段,为研究代码执行中的决策过程提供了标准化语料。研究者常利用其episode与run_id字段构建序列化学习任务,结合verifier_output与result字段验证智能体在复杂逻辑下的纠错与适应能力,从而在离线强化学习框架下推动代码智能体的策略优化。
解决学术问题
该数据集有效响应了代码生成领域中长期存在的两大核心难题:如何在缺乏真实执行反馈的环境下训练智能体,以及如何量化多步代码执行中的策略有效性。通过提供包含verifier_output验证结果与最终result执行结果的配对数据,它使得学术界能够在离线设定下研究智能体的奖励塑造与信用分配问题,无需依赖在线交互环境。此外,conversations字段中多轮对话结构的引入,为探索智能体在上下文干扰下的记忆保持与行为纠偏机制开辟了新路径,显著推进了代码智能体在稀疏奖励场景下的学习方法论。
衍生相关工作
该数据集衍生了一系列具有深远影响的经典工作,包括基于轨迹偏好优化的代码智能体微调框架、融合执行验证信号的分层强化学习方法,以及跨任务元学习的多轮对话策略迁移技术。具体而言,研究者利用其episode与verifier_output标注对比不同策略在相同任务上的表现差异,进而提出高效的数据筛选方法以降低训练噪声。同时,model与model_provider字段的存在催生了跨模型能力对齐的研究,例如通过对比不同语言模型在同一终端任务上的表现,揭示代码执行智能体的架构敏感性,最终推动了面向代码执行的通用基准测试体系建立。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作