five

Sera-4.6-Lite-T2-v4-1000

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/laion/Sera-4.6-Lite-T2-v4-1000
下载链接
链接失效反馈
官方服务:
资源简介:
laion/Sera-4.6-Lite-T2-v4-1000是allenai/Sera-4.6-Lite-T2数据集的一个子集,包含1,000条数据(源数据集共36,083条)。该数据集的主要目的是将OpenAI的`tool_calls`预渲染为Hermes/Qwen3风格的`<tool_call>...</tool_call>`标签,并将工具响应包装为`<tool_response>...</tool_response>`,以便用于SFT模型的训练。数据格式为原始JSONL,每条数据包含`messages`列表,其中每条消息有`role`(system、user、assistant)、`content`和`train`字段。工具观察以`role: user`和`<tool_response>...</tool_response>`包装表示。数据集适用于文本生成任务,特别是与工具调用相关的场景。

laion/Sera-4.6-Lite-T2-v4-1000 is a subset of the allenai/Sera-4.6-Lite-T2 dataset, containing 1,000 entries (the original dataset has 36,083 entries). The main purpose of this dataset is to pre-render OpenAIs `tool_calls` into Hermes/Qwen3-style `<tool_call>...</tool_call>` tags and wrap tool responses in `<tool_response>...</tool_response>` for use in training SFT models. The data format is raw JSONL, with each entry containing a `messages` list where each message has `role` (system, user, assistant), `content`, and `train` fields. Tool observations are represented with `role: user` and `<tool_response>...</tool_response>` wrapping. The dataset is suitable for text generation tasks, particularly those involving tool calls.
提供机构:
LAION eV
创建时间:
2026-04-23
原始信息汇总

数据集概述:laion/Sera-4.6-Lite-T2-v4-1000

基本信息

  • 许可证: Apache-2.0
  • 任务类型: 文本生成
  • 标签: SFT、Agent、SWE-bench、Axolotl、Hermes-tool-calls
  • 数据集大小: 1,000行(源数据集共36,083行)
  • 数据格式: 原始JSONL格式

数据集来源

  • 该数据集是 allenai/Sera-4.6-Lite-T2 的行子集。
  • 采样方式:确定性随机采样,seed=42,从完整的36,083行源数据中按行索引抽取。

数据处理说明

  • 数据集已将OpenAI的 tool_calls 预渲染 到内容字符串中,采用Hermes/Qwen3风格的 <tool_call>...</tool_call> 标记。
  • 工具响应被包装为 <tool_response>...</tool_response> 格式。
  • 这一处理步骤是连接公开的Sera-4.6-Lite-T2数据集与Axolotl训练之间的缺失环节,确保模型能够学习发出工具调用。

数据字段结构

  • 每行包含:messages: list[{role, content, train}]
  • 角色类型: system | user | assistant
  • 工具观测: 表示为 role: user,并使用 <tool_response>...</tool_response> 包装(遵循SERA约定)
  • 训练标记: train: bool 作用于每条消息,作为Axolotl message_field_training: train 的逐消息损失掩码

使用方式(Axolotl配置)

yaml datasets:

  • path: laion/Sera-4.6-Lite-T2-v4-1000 data_files:
    • sera-4.6-lite-t2_v4_1000.jsonl type: chat_template field_messages: messages ds_type: json message_field_training: train chat_template: chatml
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自 Allen AI 发布的 Sera-4.6-Lite-T2 数据集,是上游 SERA-8B 模型的训练数据子集。构建过程中,采用确定性随机采样策略(种子固定为42),从原始36,083条数据中抽取1,000条形成本轻量版本。尤为关键的是,数据集中 OpenAI 格式的 tool_calls 字段被预先渲染为 Hermes/Qwen3 风格的 <tool_call>...</tool_call> 内联标记,工具响应则被封装为 <tool_response>...</tool_response>。这一预处理步骤弥补了公开数据集与 Axolotl 训练框架之间的格式鸿沟,使得模型在训练时能够有效学习工具调用能力。
特点
本数据集以原始 JSONL 格式存储,每条记录包含 messages 字段,其值为由 role(system/user/assistant)、content 及 train 三要素构成的对话列表。其中,工具观察结果以 role:user 形式呈现,并配以 <tool_response> 标记包裹,严格遵循 SERA 规范。特别地,每条消息附带的 train 布尔标志可作为 Axolotl 按消息粒度控制损失掩码的依据。该设计确保了直接用于监督微调时,模型能够精准识别并学习工具调用与响应的交互模式,避免了传统 chat_template 导致的结构化信息丢失问题。
使用方法
推荐通过 Axolotl 框架加载本数据集进行微调。在配置文件中,需指定 type 为 chat_template,并利用 field_messages 字段指向 messages,同时将 message_field_training 设置为 train 以启用逐消息损失掩码。数据文件为 sera-4.6-lite-t2_v4_1000.jsonl,无需额外预处理即可与 chatml 聊天模板无缝对接。研究者亦可直接读取 JSONL 文件,解析 messages 列表,提取 system/user/assistant 对话轮次及内嵌的 tool_call 与 tool_response 标记,开展自定义的训练或评估实验。
背景与挑战
背景概述
Sera-4.6-Lite-T2-v4-1000数据集由LAION团队于近期创建,是原始allenai/Sera-4.6-Lite-T2数据集的一个子集,后者曾用于训练SERA-8B模型。该数据集的核心研究问题聚焦于提升大型语言模型在软件工程任务中的工具调用能力,特别是通过预渲染结构化工具调用(如OpenAI的tool_calls格式)为Hermes/Qwen3风格的<tool_call>标记,并包裹工具响应为<tool_response>,从而弥合公开数据集与Axolotl训练框架之间的格式鸿沟。作为精简版(1000条样本),它旨在为社区提供一个轻量级但完整的示例,展示如何将轨迹数据转化为可直接用于监督微调(SFT)的格式,对推进代理型语言模型的研究具有示范意义。
当前挑战
该数据集面对的挑战包括:1) 领域问题层面,传统的SFT数据往往忽略结构化工具调用信息,导致模型无法正确学习和生成工具调用序列,限制了语言模型在软件工程代理任务中的实用性和可靠性。2) 构建过程中,上游Sera-4.6-Lite-T2数据集工具调用信息以结构化字段存储,而Axolotl等主流训练框架的chatml模板无法解析此类字段,若不经预渲染处理,模型将无法学习工具调用模式,因此必须设计一套转换逻辑(如transform_traj_hermes)将工具调用嵌入对话文本;此外,数据集采用确定性随机抽样方式(种子42)从36,083条源数据中选取1,000条子集,需确保子集代表性的同时控制计算成本,并处理嵌套行索引与采样一致性等细节问题。
常用场景
经典使用场景
Sera-4.6-Lite-T2-v4-1000 数据集专为文本生成任务中的工具调用学习而设计,尤其在智能体(Agent)系统的训练中扮演关键角色。该数据集源自 Ai2 的 Sera-4.6-Lite-T2,并经过精心的预处理,将 OpenAI 风格的 tool_calls 预渲染为 Hermes/Qwen3 风格的 <tool_call>...</tool_call> 标记,同时将工具响应封装为 <tool_response>...</tool_response>。这一转换步骤使得原本在训练中容易被丢弃的结构化工具调用字段得以保留,从而让模型能够有效学习如何生成工具调用指令。数据集以 ChatML 格式组织消息序列,包含 system、user 和 assistant 角色,其中工具观察结果也以 user 角色的形式呈现。每个消息均附带 per-message loss mask(train 字段),便于在 axolotl 框架中实现精细化的损失掩码训练。该子集从 36,083 行的原始数据中随机抽样 1,000 行,采用确定性随机种子以确保可复现性,为小规模实验与快速原型验证提供了理想的数据基础。
衍生相关工作
该数据集的预处理方法直接借鉴并扩展了 Ai2 在 SERA-8B 模型训练中的数据后处理流程,具体参考了 sera/datagen/data/postprocess/utils.py 中的 transform_traj_hermes 函数。这一函数定义了 tool_call_format: hermes 的标准转换范式,使得原本仅存在于 AllenAI 内部工作流中的关键步骤得以公开化、标准化。本数据集作为这一转换的直接产物,成为连接原始 Sera-4.6-Lite-T2 与 axolotl 训练框架之间的桥梁。后续工作可在此基础上探索不同的工具调用标记格式(如 function calling 或 code interpreter 风格),研究工具调用层级的多轮交互模式,以及评估不同损失掩码策略对工具学习效果的影响。此外,该数据集的小规模子集设计也支持了关于数据采样策略、提示工程和训练超参数调优等衍生研究,成为推动工具增强型语言模型研究的重要实验平台。
数据集最近研究
最新研究方向
在大语言模型智能体训练领域,Sera-4.6-Lite-T2-v4-1000作为关键数据子集,聚焦于优化工具调用能力的监督微调流程。该数据集通过预渲染Hermes/Qwen3风格的工具调用令牌,解决了传统训练中因结构化工具体字段被丢弃而导致的模型无法学习工具调用的核心瓶颈。当前前沿研究方向集中于利用此类预处理数据集提升模型在动态工具交互环境中的鲁棒性,特别是在SWE-bench等代码工程基准测试中实现更精准的agent行为,从而推动自主智能体在复杂任务场景下的实用化进程。这一数据精炼方法为构建高效、可复现的智能体训练管线树立了新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作