DCAgent2/aider_polyglot_SWE_agent_LM_32B_20260430_034241-traces
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/aider_polyglot_SWE_agent_LM_32B_20260430_034241-traces
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: conversations
list:
- name: content
dtype: string
- name: role
dtype: string
- name: agent
dtype: string
- name: model
dtype: string
- name: model_provider
dtype: string
- name: date
dtype: string
- name: task
dtype: string
- name: episode
dtype: string
- name: run_id
dtype: string
- name: trial_name
dtype: string
- name: result
dtype: string
- name: verifier_output
dtype: string
splits:
- name: train
num_bytes: 98576126
num_examples: 674
download_size: 92227957
dataset_size: 98576126
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DCAgent2
搜集汇总
数据集介绍

构建方式
该数据集源自aider_polyglot_SWE_agent_LM_32B模型在实际软件工程任务中的运行轨迹记录。构建过程中,系统收集了模型在完成多语言编程任务时的完整对话链,每条样本包含用户与助手之间的多轮交互内容、角色标识以及任务执行结果。数据通过自动化的agent框架进行采集,并附带了模型名称、模型提供商、执行日期、任务描述、运行轮次、试验标识等元信息,最终以结构化格式存储,形成包含674条训练样本的轻量级轨迹数据集。
特点
数据集的核心特点在于其细粒度的agent行为记录,不仅保存了完整的对话历史,还涵盖了每次任务执行后的成功与否判定(result字段)及验证器输出(verifier_output字段)。每条样本均关联了具体的agent版本、模型配置和时间戳,便于研究不同模型参数对软件工程任务表现的影响。此外,数据集通过多维度元标签(如task、episode、run_id)实现了对实验场景的可追溯性,为复现实验和分析模型行为模式提供了坚实基础。
使用方法
该数据集适用于训练和评估基于大语言模型的软件工程agent,尤其适合用于监督式微调与行为克隆任务。使用时可直接加载train分片中的conversations字段,将其作为多轮对话数据输入序列到序列模型。研究者也可利用result和verifier_output字段进行强化学习或偏好对齐训练,通过对比成功与失败的轨迹来优化agent决策策略。数据集的轻量级特性(约98MB)使其便于在单机环境下快速实验与迭代。
背景与挑战
背景概述
该数据集名为aider_polyglot_SWE_agent_LM_32B_20260430_034241-traces,创建于2026年4月30日,由Aider团队基于多语言软件工程(SWE)场景收集而成。核心研究问题聚焦于探索大语言模型(LLM)在复杂多语言编程任务中的代理行为轨迹,旨在捕捉模型与用户之间的多轮对话、任务执行过程及最终结果。该数据集包含674条训练样本,每条样本记录了对话内容、代理类型、模型名称、任务描述、运行ID及结果验证信息,为研究模型在真实软件工程场景中的决策逻辑、错误修正模式及多语言适应能力提供了宝贵资源。其影响力体现在推动代码智能体从单一语言向多语言泛化的研究,尤其是针对32B参数级别模型的细粒度行为分析。
当前挑战
该数据集面临的挑战首先体现在领域问题上:现有数据集多聚焦于单语言或固定任务类型,而多语言SWE任务要求模型同时处理语法差异、库依赖冲突及跨语言调试逻辑,现有基准难以全面评估模型泛化能力。其次,构建过程中遇到以下挑战:一是数据采集的多样性不足,仅674条样本难以覆盖所有编程语言和任务场景,可能导致模型过拟合;二是标注复杂性高,多轮对话中角色切换和意图追踪需要精细的语义解析,而自动验证器(verifier_output)的准确性直接影响数据质量;三是时间戳和运行ID的非标准化格式增加了数据清洗难度,需人工干预以保证一致性。
常用场景
经典使用场景
该数据集收录了基于先进语言模型aider_polyglot_SWE_agent_LM_32B在软件工程任务中生成的交互轨迹,每条样本包含对话历史、智能体配置、模型标识、执行时间戳及任务完成状态。研究者常将其用于训练和评估面向代码修复与重构的对话式智能体,通过模拟开发者与工具的交互过程,提升模型在真实场景中的代码理解与生成能力。
衍生相关工作
该数据集衍生了一系列影响力深远的工作,包括基于其交互轨迹设计的奖励建模方法、用于评估智能体泛化能力的多任务基准测试,以及融合静态分析与语言模型知识的混合修复框架。这些工作不仅深化了对话式代码智能体的理论基础,还促进了从多轮对话中提取隐式知识、实现跨项目迁移学习等前沿方向的发展。
数据集最近研究
最新研究方向
该数据集聚焦于多语言软件工程场景下的智能体对话轨迹分析,通过收录Aider模型在复杂编程任务中的交互日志,为研究基于大语言模型的自主代码生成与调试智能体提供了珍贵的追踪数据。近期前沿探索倾向于利用此类细粒度agent交互记录,剖析模型在不同编程语言融合环境下的决策逻辑与错误修正策略,并结合热点事件如SWE-bench的推进,评估智能体在真实软件维护流程中的实用效能。这一数据资源的涌现,对于推动可复现的智能体行为研究、优化基于trial-and-error的编码范式具有深远意义。
以上内容由遇见数据集搜集并总结生成



