DCAgent2/gaia_127_SWE_agent_LM_7B_20260424_175322
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/gaia_127_SWE_agent_LM_7B_20260424_175322
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 70379380
num_examples: 381
download_size: 70282967
dataset_size: 70379380
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集名为gaia_127_SWE_agent_LM_7B_20260424_175322,源自对GAIA基准测试集中第127个任务的交互记录。其构建过程基于一个配备了7B参数语言模型(LM)的SWE(软件工程)智能体,在特定任务环境中进行多轮对话与操作,系统性地收集了智能体的完整行为轨迹。每条数据样本包含结构化的多轮对话(conversations),记录了用户和智能体的交互内容,并辅以智能体标识(agent)、模型版本(model)、提供商信息(model_provider)、任务编号(task)、运行批次(episode与run_id)以及最终结果(result)与验证输出(verifier_output),从而构建出反映智能体决策流程的高质量训练语料。
使用方法
此数据集以HuggingFace Datasets格式存储,仅包含一个训练分割(train),可通过标准的datasets库直接加载,例如使用load_dataset()函数并指定配置名为'default'。在使用时,研究者可将'conversations'字段作为序列到序列(Seq2Seq)或多轮对话任务的输入,用于微调语言模型或训练对话智能体。同时,字段如'task'、'episode'和'run_id'可用于过滤或分组样本,以实现对特定实验设置的复现或分析。建议根据目标任务对'result'字段进行利用,例如将其作为监督信号,或结合'verifier_output'进行混合式训练,以提升模型在软件工程领域的推理与执行能力。
背景与挑战
背景概述
该数据集名为gaia_127_SWE_agent_LM_7B_20260424_175322,由GAIA团队于2026年4月构建,专注于评估基于7B规模语言模型的软件工程代理在复杂任务中的表现。核心研究问题围绕多轮对话中代理的自主推理、工具调用与结果验证能力展开。数据集涵盖381条训练样本,每条包含完整的对话历史、执行环境元数据(如代理类型、模型提供商、时间戳)及任务结果与验证器输出。作为软件工程自动化领域的新基准,它填补了现有基准缺乏细粒度执行跟踪与多维度归因分析的空白,对推动自主代理在代码生成、调试及部署等真实场景中的应用具有重要示范价值。
当前挑战
该数据集所解决的领域挑战在于:现有软件工程代理评测多聚焦于单步代码生成,难以反映真实开发中多轮交互、上下文依赖与验证失败后的纠错能力,而该数据集通过记录完整对话链及验证器输出,为评估代理的鲁棒性与自愈能力提供了结构性方案。构建过程中,核心挑战包括对话数据的高保真采集(需同步截取代理执行环境的完整状态)、验证器输出与任务结果的因果对齐(避免将系统错误归因于代理行为),以及跨不同模型与代理架构的表示标准化,以确保数据集的通用性与可复现性。
常用场景
经典使用场景
该数据集GAIA_127_SWE_agent_LM_7B_20260424_175322专为软件工程领域中智能体(agent)与大语言模型(LLM)的交互行为研究而设计,其经典使用场景聚焦于多轮对话驱动的自动化任务执行。数据集记录了智能体在模拟开发环境中的完整操作轨迹,涵盖从问题理解、工具调用到代码修改的闭环流程,尤其适用于训练和评估能够自主完成软件维护、缺陷修复及功能增强等复杂工程任务的对话式智能系统。研究者可借此构建端到端的智能体基准测试框架,推动人机协作编程范式的演进。
解决学术问题
该数据集系统性地解决了软件工程智能体研究中长期存在的两大核心学术问题:一是缺乏结构化、细粒度的多轮人机交互行为数据,导致智能体意图理解与行动对齐的研究进展缓慢;二是传统基准测试难以捕捉真实开发场景中不确定性与长期规划带来的挑战。通过提供涵盖381个完整开发会话的高质量轨迹,该数据集使得学术界能够深入探究智能体在复杂软件任务中的推理策略、工具选择模式及错误恢复机制,为构建可解释、可泛化的自主编程代理奠定了坚实的数据基础。
实际应用
在实际应用层面,该数据集主要服务于自动化软件工程系统的研发与迭代优化。基于该数据集训练的智能模型可被部署于代码仓库管理平台,协助开发者进行自动化bug定位与补丁生成、代码重构建议以及技术债务清理等劳动密集型工作。企业可将此类模型集成至持续集成/持续交付(CI/CD)流水线中,在开发者提交代码变更前自动执行预审与修复验证,显著提升软件迭代效率并降低人为失误率,推动智能开发运维一体化工具的落地应用。
数据集最近研究
最新研究方向
该数据集聚焦于软件工程领域中智能代理(SWE Agent)与大语言模型(LM)协同完成复杂任务的前沿方向。通过记录7B参数级别模型在多轮对话中的交互轨迹、任务执行结果及验证器反馈,它为研究自主代码生成、调试与修复的智能体行为提供了结构化基准。这一方向与近期AI辅助编程工具(如GitHub Copilot)的爆发式发展紧密相关,其核心意义在于通过细粒度日志揭示模型在真实工程场景中的决策逻辑与错误模式,从而推动从简单代码补全向端到端任务自动化(如PR提交、错误修复)的范式跃迁,为构建更加可靠且可解释的软件工程智能代理奠定数据基础。
以上内容由遇见数据集搜集并总结生成



