five

TIGER-Lab/SWE-Next-SFT-Trajectories

收藏
Hugging Face2026-04-07 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/SWE-Next-SFT-Trajectories
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: SWE Next SFT Trajectories task_categories: - text-generation language: - en size_categories: - 1K<n<10K configs: - config_name: default data_files: - split: train path: SWE_Next_SFT_Trajectories.jsonl --- # SWE-Next: Scalable Real-World Software Engineering Tasks for Agents <p align="left"> <a href="https://arxiv.org/abs/2603.20691"><img alt="Paper" src="https://img.shields.io/badge/Paper-arXiv-b31b1b?style=for-the-badge&logo=arxiv&logoColor=white"></a> <a href="https://tiger-ai-lab.github.io/SWE-Next/"><img alt="Project Page" src="https://img.shields.io/badge/Project%20Page-Website-4285F4?style=for-the-badge&logo=googlechrome&logoColor=white"></a> <a href="https://github.com/TIGER-AI-Lab/SWE-Next"><img alt="Code" src="https://img.shields.io/badge/Code-GitHub-181717?style=for-the-badge&logo=github&logoColor=white"></a> <a href="https://huggingface.co/datasets/TIGER-Lab/SWE-Next-SFT-Trajectories"><img alt="SFT Trajs" src="https://img.shields.io/badge/SFT%20Trajs-HuggingFace-FFD21E?style=for-the-badge&logo=huggingface&logoColor=000"></a> <a href="https://huggingface.co/datasets/TIGER-Lab/SWE-Next"><img alt="Dataset" src="https://img.shields.io/badge/Dataset-HuggingFace-FFD21E?style=for-the-badge&logo=huggingface&logoColor=000"></a> <a href="https://huggingface.co/TIGER-Lab/SWE-Next-7B"><img alt="Model 7B" src="https://img.shields.io/badge/Model%207B-HuggingFace-FFD21E?style=for-the-badge&logo=huggingface&logoColor=000"></a> <a href="https://huggingface.co/TIGER-Lab/SWE-Next-14B"><img alt="Model 14B" src="https://img.shields.io/badge/Model%2014B-HuggingFace-FFD21E?style=for-the-badge&logo=huggingface&logoColor=000"></a> </p> # SWE Next SFT Trajectories This dataset repo contains `SWE_Next_SFT_Trajectories.jsonl`, a ShareGPT-style JSONL file with 3693 training examples. ## Format Each line is a JSON object with a `messages` field. Conversation turns may include roles such as `system`, `user`, `assistant`, and `tool`. ## Files - `SWE_Next_SFT_Trajectories.jsonl` ## Notes This repo is intended as a lightweight hosting repo for direct use with training pipelines and inclusion in the SWE-Next collection.
提供机构:
TIGER-Lab
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程智能化研究领域,数据集的构建需紧密贴合真实开发场景。SWE-Next-SFT-Trajectories数据集通过系统化采集实际软件开发任务中的交互轨迹,以ShareGPT风格的JSONL格式进行组织。每条记录对应一个完整的任务对话序列,其中涵盖了从问题提出、工具调用到代码生成与修正的多轮交互,确保了数据在任务复杂性与流程真实性上的高保真度。
特点
该数据集的核心特征在于其聚焦于可扩展的、真实世界的软件工程任务,专为训练和评估智能体而设计。数据规模介于1K到10K之间,每条轨迹均包含多角色对话,涉及系统指令、用户需求、助手响应及工具调用等丰富元素。这种结构不仅完整保留了任务解决的动态过程,也为模型学习复杂的决策链条和上下文依赖提供了密集的语义素材。
使用方法
对于研究者而言,该数据集可直接用于监督式微调训练流程。用户可通过加载JSONL文件,解析其中的messages字段,获取结构化的对话轨迹。这些数据能够作为训练样本,输入至大型语言模型,以学习软件工程任务中从自然语言描述到具体代码操作与工具使用的端到端映射,进而提升智能体在真实开发环境中的问题解决能力。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,智能体(Agents)的研发正逐步从理论探索迈向实际应用。SWE-Next-SFT-Trajectories数据集由TIGER-AI实验室于2024年构建,旨在为基于大语言模型的智能体提供可扩展的真实世界软件工程任务轨迹数据。该数据集聚焦于文本生成任务,核心研究问题在于如何通过监督微调(SFT)轨迹,有效训练智能体处理复杂的编程、调试与代码维护等实际工程问题,从而推动自动化软件开发工具的发展,并对智能体在专业领域的应用产生深远影响。
当前挑战
该数据集致力于解决智能体在真实软件工程环境中的任务执行挑战,其核心难题在于如何精准建模开发者在复杂、动态的编程工作流中的决策序列与工具调用逻辑。在构建过程中,研究人员面临多重挑战:首先,需要从开源项目或模拟环境中采集高质量、多样化的任务执行轨迹,确保数据覆盖广泛的编程场景与错误类型;其次,轨迹数据的标注与结构化要求极高,必须准确捕捉智能体与环境的交互过程,包括系统指令、用户查询、助手响应及工具调用等多轮对话,这对数据清洗与格式统一提出了严峻考验。
常用场景
经典使用场景
在软件工程智能化领域,SWE-Next-SFT-Trajectories数据集为智能代理的训练提供了关键支持。该数据集通过包含系统、用户、助手和工具等多角色对话轨迹,模拟了真实软件开发环境中的复杂交互场景。研究人员利用这些轨迹数据,能够训练语言模型理解和执行代码修改、错误调试、功能实现等任务,从而推动智能编程助手的发展。
实际应用
在实际应用中,该数据集可直接用于训练和微调智能编程助手,如代码自动补全、缺陷修复和需求实现等工具。企业或开发团队能够基于这些轨迹数据构建定制化代理,以自动化处理日常编码任务,减少人工干预并提升开发效率。同时,它也为教育领域提供了模拟编程练习的素材,帮助学生通过交互式学习掌握软件工程实践技能。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括TIGER-AI-Lab开发的SWE-Next系列模型(如7B和14B参数版本)。这些模型利用轨迹数据进行监督微调,在代码生成和软件维护任务中表现出色。此外,相关研究进一步探索了智能代理的多模态集成、长期任务规划以及协作编程等方向,推动了整个软件工程人工智能领域的创新进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作