Multi-SWE-bench_trajs
收藏Hugging Face2025-04-27 更新2025-04-28 收录
下载链接:
https://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench_trajs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了在Multi-SWE-bench排行榜上评估的代理生成的所有轨迹和日志。这些轨迹和日志用于多语言问题解决任务的基准测试。
创建时间:
2025-04-14
原始信息汇总
Multi-SWE-bench Trajectories 数据集概述
基本信息
- 许可证: other
- 任务类别: 文本生成(text-generation)
- 标签: 代码(code)
数据集描述
- 该数据集存储了在Multi-SWE-bench排行榜上评估的代理生成的所有轨迹和日志。
引用信息
bibtex @misc{zan2025multiswebench, title={Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving}, author={Daoguang Zan and Zhirong Huang and Wei Liu and Hanwu Chen and Linhao Zhang and Shulin Xin and Lu Chen and Qi Liu and Xiaojian Zhong and Aoyan Li and Siyao Liu and Yongsheng Xiao and Liangqiang Chen and Yuyu Zhang and Jing Su and Tianyu Liu and Rui Long and Kai Shen and Liang Xiang}, year={2025}, eprint={2504.02605}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2504.02605}, }
搜集汇总
数据集介绍

构建方式
Multi-SWE-bench_trajs数据集作为多语言软件工程问题解决基准的衍生成果,其构建过程紧密依托于Multi-SWE-bench平台的实际评测场景。研究团队通过标准化测试框架,系统采集了不同智能体在解决GitHub真实工单时产生的完整操作轨迹与日志数据,涵盖代码修改、环境交互、错误调试等全流程行为记录。所有轨迹数据均经由自动化流水线进行脱敏处理与格式统一,确保原始行为序列的完整性和可追溯性。
特点
该数据集的核心价值在于其多维度记录特性,不仅包含最终解决方案,更完整保留了智能体在问题解决过程中的中间状态序列。数据覆盖Python、Java等主流编程语言的真实工单场景,每个轨迹包含环境配置、操作命令、代码变更等结构化字段。独特的时序记录方式使得研究者能够深入分析问题解决的决策路径,为代码生成模型的迭代优化提供细粒度参考依据。
使用方法
使用者可通过解析标准化的JSON格式轨迹文件,复现或分析智能体的完整问题解决流程。数据集支持两种典型应用场景:一是作为训练数据用于增强代码生成模型的调试能力,二是作为评估基准测试新模型在真实工单场景下的表现。建议配合原始Multi-SWE-bench的工单描述数据使用,通过轨迹回放与结果比对实现端到端的性能验证。
背景与挑战
背景概述
Multi-SWE-bench_trajs数据集作为Multi-SWE-bench基准测试的重要组成部分,由Daoguang Zan等研究人员于2025年提出,旨在构建一个多语言的软件工程问题解决基准。该数据集聚焦于代码生成与修复领域,收录了多种语言环境下智能代理解决实际软件问题的完整轨迹与日志,为评估模型在复杂代码维护任务中的表现提供了标准化测试平台。其核心研究问题在于如何通过多语言环境下的问题解决轨迹,推动智能编程助手在跨语言代码维护、缺陷修复等实际场景中的应用能力。该数据集的建立显著拓展了传统单语言软件工程基准的边界,为多语言代码智能研究提供了关键基础设施。
当前挑战
该数据集面临的领域挑战主要体现为多语言代码问题的复杂性与多样性,包括不同编程语言间语法差异导致的模型泛化困难、跨语言代码上下文理解的不完整性,以及问题描述与解决方案间的非线性映射关系。在构建过程中,研究人员需克服多语言问题收集的覆盖度不足、真实世界问题场景的模拟失真,以及不同代码仓库间环境配置差异带来的轨迹复现困难等技术难题。如何确保轨迹数据的完整性与可重复性,同时保持多语言问题分布的代表性,构成了数据集构建的核心挑战。
常用场景
经典使用场景
在软件工程领域,Multi-SWE-bench_trajs数据集为研究人员提供了丰富的多语言问题解决轨迹数据。这些数据记录了智能代理在解决实际软件问题时的完整操作序列,成为评估代码生成模型和自动化调试工具性能的重要基准。数据集特别适用于分析模型在跨语言环境下的问题定位、代码修复和版本控制等复杂任务中的表现。
解决学术问题
该数据集有效解决了软件工程研究中多语言代码维护的评估难题。通过提供标准化的测试场景和详尽的解决轨迹,研究人员能够系统性地比较不同模型在错误修复、功能实现等任务上的表现。数据集填补了多语言环境下软件维护基准测试的空白,为构建更鲁棒的代码生成系统提供了关键数据支持。
衍生相关工作
围绕该数据集已产生多项重要研究成果,包括多模态代码理解框架和基于强化学习的编程代理。部分工作专注于轨迹数据的知识蒸馏,将专家解决策略迁移到轻量级模型中。另一些研究则利用这些数据构建了更精确的代码变更预测系统,推动了软件维护自动化的前沿发展。
以上内容由遇见数据集搜集并总结生成



