Sera-4.5A-Full-T1-v3-1000

Name: Sera-4.5A-Full-T1-v3-1000
Creator: LAION eV
Published: 2026-04-22 21:29:32
License: 暂无描述

Hugging Face2026-04-22 更新2026-04-23 收录

下载链接：

https://huggingface.co/datasets/laion/Sera-4.5A-Full-T1-v3-1000

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是 allenai/Sera-4.5A-Full-T1 的一个子集，名为 laion/Sera-4.5A-Full-T1-v3-1000。数据集规模为1,000行（完整数据集包含72,118行），格式为原始JSONL，采用OpenAI原生消息布局。数据集保留了原始字段（如messages、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch、docker_image），并添加了一个指向父数据集的source字段。每条助手消息包含一个原生的tool_calls数组（OpenAI工具调用格式）和一个用于逐消息损失掩码的train: bool标志。该数据集专为直接通过axolotl使用而设计，配置为type: chat_template、chat_template: chatml、message_field_training: train。采样方法为确定性随机，种子为42。

提供机构：

LAION eV

创建时间：

2026-04-22

原始信息汇总

数据集概述

基本信息

数据集名称: laion/Sera-4.5A-Full-T1-v3-1000
许可协议: apache-2.0
任务类别: 文本生成
标签: sft, agent, swe-bench, axolotl, openai-messages

数据来源与规模

来源: 本数据集是 allenai/Sera-4.5A-Full-T1 的一个子集。
规模: 包含 1,000 行数据（完整数据集为 72,118 行）。
采样方法: 确定性随机采样，种子为 42，基于完整数据集的索引进行采样。

数据格式与内容

格式: 原始 JSONL 格式，采用 OpenAI 原生消息布局。
保留字段: 保留了原始数据集中的 messages（作为 JSON 字符串）、instance_id、rollout_patch、func_name、func_path、problem_statement、target_patch、docker_image 字段。
新增字段: 添加了指向父数据集的 source 字段。
消息结构: 每条助手消息包含一个原生的 tool_calls 数组（OpenAI 工具调用格式）和一个用于逐条消息损失掩码的 train: bool 标志。这些内容未被扁平化为 shareGPT 格式。

预期用途

目标框架: 专为 axolotl 直接使用而设计。
配置参数: 需配合 type: chat_template、chat_template: chatml、message_field_training: train 等设置使用。

使用示例 (axolotl 配置)

yaml datasets:

path: laion/Sera-4.5A-Full-T1-v3-1000 data_files:
- sera-4.5a-full-t1_v3_1000.jsonl type: chat_template field_messages: messages ds_type: json message_field_training: train chat_template: chatml

搜集汇总

数据集介绍

构建方式

在软件工程智能体研究领域，Sera-4.5A-Full-T1-v3-1000数据集作为其父集allenai/Sera-4.5A-Full-T1的一个精心采样子集而构建。该子集通过确定性的随机采样方法生成，设定随机种子为42，并依据行索引从包含72,118条记录的完整数据集中选取了1,000条样本，确保了采样的可复现性与代表性。数据格式严格保留了原始的OpenAI原生消息布局，每条记录均以JSONL格式存储，不仅完整包含了原始的消息字段、实例标识、代码补丁、函数信息及问题陈述等关键元数据，还新增了指向父数据集的来源字段，为后续分析提供了清晰的溯源路径。

特点

该数据集的核心特征在于其专为智能体工具调用与监督微调任务而设计的高级数据结构。每条记录中的助手消息均直接嵌入了原生的`tool_calls`数组，严格遵循OpenAI的工具调用格式，避免了向ShareGPT等简化格式的转换，从而完整保留了复杂的交互逻辑。此外，每条消息均附带一个布尔类型的`train`标志，实现了在模型训练过程中对每条消息进行精细化的损失掩码控制。这种设计使得数据集能够无缝适配Axolotl等先进训练框架，通过指定聊天模板与训练字段，直接支持基于对话上下文的指令微调，为构建具备复杂工具使用能力的代码智能体提供了高质量、结构化的训练资源。

使用方法

在具体应用层面，该数据集主要面向使用Axolotl框架进行模型微调的研究者与开发者。使用方法清晰而直接：在Axolotl的配置文件中，将数据集路径指向本数据集，并指定对应的数据文件。关键配置包括将数据类型设置为`chat_template`，消息字段映射为`messages`，并指定训练标志字段为`train`，同时搭配使用`chatml`作为聊天模板。这一系列配置使得训练流程能够自动识别并利用数据集内嵌的工具调用结构和逐消息训练标志，高效地完成对语言模型在代码生成与工具使用场景下的监督微调，从而赋能智能体处理诸如SWE-bench所涵盖的软件工程问题。

背景与挑战

背景概述

Sera-4.5A-Full-T1-v3-1000数据集源于AllenAI机构开发的Sera-4.5A-Full-T1，作为其子集于近期发布，专注于文本生成领域，特别是针对智能体与软件工程任务的监督微调应用。该数据集以OpenAI原生消息格式构建，旨在支持代码修复与自动化编程等核心研究问题，通过整合SWE-bench等基准测试，推动了人工智能在软件开发辅助方向的发展，为模型训练提供了高质量、结构化的对话交互数据。

当前挑战

该数据集致力于解决软件工程中代码自动修复与智能体协作的复杂挑战，要求模型精准理解问题陈述并生成有效补丁，这涉及对代码语义的深层解析与动态环境适应。在构建过程中，挑战包括从大规模原始数据中提取并格式化消息序列，确保工具调用格式的标准化，以及通过随机采样保持数据代表性，同时维护损失掩码等训练元数据的完整性，以适配如Axolotl等先进训练框架的需求。

常用场景

经典使用场景

在软件工程与智能代理研究领域，Sera-4.5A-Full-T1-v3-1000数据集为指令微调提供了高质量的基准资源。该数据集源自Sera-4.5A-Full-T1，专注于代码生成与修复任务，其经典使用场景在于训练大型语言模型执行自动化软件工程操作。通过采用OpenAI原生消息格式，数据集保留了完整的工具调用序列与训练掩码标记，使得研究者能够直接利用axolotl框架进行高效的监督微调，从而优化模型在代码补全、错误修复等复杂任务上的表现。

衍生相关工作

围绕该数据集，研究社区已经衍生出多项经典工作。例如，基于axolotl框架的微调实践被广泛采纳，以探索不同模型架构在代码任务上的适应性。同时，结合SWE-bench等评估基准，研究者利用该数据集开发了更高效的代码修复代理，推动了智能软件工程工具的发展。这些工作不仅扩展了数据集的应用范围，也为后续的代码生成与代理研究提供了重要的方法论参考。

数据集最近研究