five

Sera-4.5A-Full-T1-v3-10000

收藏
Hugging Face2026-04-22 更新2026-04-23 收录
下载链接:
https://huggingface.co/datasets/laion/Sera-4.5A-Full-T1-v3-10000
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是 allenai/Sera-4.5A-Full-T1 的一个子集,名为 laion/Sera-4.5A-Full-T1-v3-10000,包含 10,000 行数据(完整数据集为 72,118 行)。数据格式为原始 JSONL,采用 OpenAI 原生消息布局,保留了原始字段如 messages(JSON 字符串)、instance_id、rollup_patch、func_name、func_path、problem_statement、target_patch 和 docker_image,并添加了指向父数据集的 source 字段。每条助手消息包含原生 tool_calls 数组(OpenAI 工具调用格式)和用于逐消息损失掩码的 train: bool 标志。该数据集专为与 axolotl 配合使用而设计,适用于文本生成任务,配置为 type: chat_template 和 chat_template: chatml。采样方法为确定性随机,种子为 42。

This dataset is a subset of allenai/Sera-4.5A-Full-T1, named laion/Sera-4.5A-Full-T1-v3-10000, containing 10,000 rows of data (the full dataset has 72,118 rows). The data format is raw JSONL, using the OpenAI native message layout, retaining original fields such as messages (JSON string), instance_id, rollup_patch, func_name, func_path, problem_statement, target_patch, and docker_image, and adding a source field pointing to the parent dataset. Each assistant message includes the native tool_calls array (OpenAI tool call format) and a train: bool flag for per-message loss masking. The dataset is specifically designed for use with axolotl, suitable for text generation tasks, configured as type: chat_template and chat_template: chatml. The sampling method is deterministic random with a seed of 42.
提供机构:
LAION eV
创建时间:
2026-04-22
原始信息汇总

数据集概述

基本信息

  • 数据集名称: laion/Sera-4.5A-Full-T1-v3-10000
  • 许可协议: apache-2.0
  • 任务类别: 文本生成
  • 标签: sft, agent, swe-bench, axolotl, openai-messages

数据来源与规模

  • 来源: 本数据集是 allenai/Sera-4.5A-Full-T1 数据集的子集。
  • 数据量: 包含 10,000 行数据。原始完整数据集包含 72,118 行数据。
  • 采样方法: 确定性随机采样,种子为 42,基于完整数据集的索引进行采样。

数据格式与内容

  • 格式: 原始 JSONL 格式,采用 OpenAI 原生消息布局。
  • 保留字段: 保留了原始数据集中的 messages 字段(作为 JSON 字符串)、instance_idrollout_patchfunc_namefunc_pathproblem_statementtarget_patchdocker_image
  • 新增字段: 添加了一个 source 字段,指向父数据集。
  • 消息结构: 每条助手消息都包含一个原生的 tool_calls 数组(OpenAI 工具调用格式)和一个用于逐消息损失掩码的 train: bool 标志。这些内容没有被扁平化为 shareGPT 格式。
  • 设计用途: 旨在通过 axolotl 直接使用,配置参数为 type: chat_templatechat_template: chatmlmessage_field_training: train

使用示例 (axolotl)

yaml datasets:

  • path: laion/Sera-4.5A-Full-T1-v3-10000 data_files:
    • sera-4.5a-full-t1_v3_10000.jsonl type: chat_template field_messages: messages ds_type: json message_field_training: train chat_template: chatml
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程智能体研究领域,Sera-4.5A-Full-T1-v3-10000数据集作为大规模基准的精选子集应运而生。其构建过程采用了确定性随机采样策略,以固定种子42从包含72,118条记录的完整数据集中,依据行索引系统性地抽取了10,000条样本,确保了抽样的可复现性与代表性。数据格式严格遵循OpenAI原生的消息布局,以JSONL文件存储,完整保留了每条数据实例的原始字段,包括消息内容、实例标识、代码补丁及问题陈述等核心元数据,并新增了指向父数据集的来源字段,为后续的模型训练与评估提供了结构清晰、信息完备的基础。
特点
该数据集的核心特征体现在其专为工具调用智能体与指令微调任务设计的结构化表示上。每条记录中的助手消息均内嵌了符合OpenAI工具调用格式的`tool_calls`数组,并配备了用于逐条消息损失掩码的`train`布尔标志,这种设计避免了向ShareGPT等通用格式的扁平化转换,保持了工具交互语义的完整性。数据集紧密集成于SWE-bench等软件工程基准场景,涵盖了函数名称、路径、问题陈述及目标代码补丁等丰富上下文,使其特别适用于训练能够理解并执行复杂代码修改任务的对话智能体。
使用方法
针对该数据集的使用,其设计初衷是与Axolotl训练框架实现无缝对接。用户可通过配置YAML文件直接指定数据集路径与文件,将`type`设置为`chat_template`并采用`chatml`作为聊天模板。关键配置项`message_field_training`指向数据中的`train`字段,从而实现对训练损失的精确掩码控制。这种集成方式允许研究者与开发者直接利用原始的消息-工具调用结构进行模型训练,无需进行繁琐的数据预处理,极大地简化了从数据加载到模型微调的工作流程,高效支撑软件工程智能体的开发与评估。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,自动化代码修复与智能体任务执行成为研究热点。Sera-4.5A-Full-T1-v3-10000数据集由LAION与AllenAI等机构合作构建,作为Sera-4.5A-Full-T1数据集的子集,发布于2024年左右,旨在支持基于指令微调的文本生成模型训练。该数据集核心研究问题聚焦于提升智能体在软件工程环境中的代码理解与修复能力,特别是针对SWE-bench等基准任务,通过提供结构化的对话交互数据,推动开源模型在工具调用与多轮对话场景下的性能优化,对促进代码生成与自动化调试技术的发展具有显著影响力。
当前挑战
该数据集致力于解决软件工程中自动化代码修复与智能体任务执行的挑战,其核心问题在于如何让模型准确理解复杂的问题描述并生成有效的代码补丁。构建过程中面临多重困难:原始数据规模庞大且格式异构,需设计高效采样策略确保子集代表性;对话消息需转换为OpenAI原生工具调用格式,同时保留每轮交互的训练掩码标志,这对数据清洗与结构化提出了精确性要求;此外,数据集需兼容Axolotl等训练框架,实现无缝集成与高效训练,增加了工程实现的复杂度。
常用场景
经典使用场景
在软件工程与智能体研究领域,Sera-4.5A-Full-T1-v3-10000数据集常被用于监督式微调场景,特别是针对代码生成与修复任务。该数据集以OpenAI原生消息格式构建,保留了完整的工具调用序列与训练掩码标志,使得研究人员能够直接利用axolotl框架进行高效的对话模型训练。其经典应用体现在对智能体在软件问题解决过程中的行为建模,通过模拟真实开发环境中的交互轨迹,为模型提供结构化的学习样本,从而优化代码补全与错误修复能力。
实际应用
在实际开发流程中,该数据集支撑了自动化代码审查与智能调试工具的开发。基于其结构化的交互数据,企业可以训练定制化智能体,辅助工程师快速定位代码缺陷、生成修复建议或自动化执行测试用例。例如,在持续集成环境中集成此类模型,能够显著减少人工排查错误的时间成本,提升软件维护效率,并为教育领域提供代码学习与错误分析的实训资源。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在智能体架构优化与代码任务基准测试方面。例如,基于SWE-bench框架的研究常利用其扩展版本评估模型在真实软件问题上的表现;同时,多项研究借鉴其工具调用格式,开发了支持多模态交互的编程助手系统。这些工作不仅深化了对模型决策可解释性的探索,也促进了开源社区中代码微调数据标准的统一与工具链的完善。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作