five

Sera-4.6-Lite-T2-v4-316

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/laion/Sera-4.6-Lite-T2-v4-316
下载链接
链接失效反馈
官方服务:
资源简介:
laion/Sera-4.6-Lite-T2-v4-316是allenai/Sera-4.6-Lite-T2数据集的一个子集,专为训练SERA-8B模型而设计。该数据集将OpenAI的`tool_calls`预渲染为Hermes/Qwen3风格的`<tool_call>...</tool_call>`标记,并将工具响应包装为`<tool_response>...</tool_response>`。数据集包含316行数据(源自36,083行的源数据集),格式为原始JSONL,每行包含`messages: list[{role, content, train}]`,其中角色包括`system | user | assistant`,工具观察以`role: user`表示,并带有`<tool_response>...</tool_response>`包装。`train: bool`字段用于axolotl的`message_field_training: train`损失掩码。数据集适用于文本生成任务,特别是与工具调用相关的场景。

laion/Sera-4.6-Lite-T2-v4-316 is a subset of the allenai/Sera-4.6-Lite-T2 dataset, specifically designed for training the SERA-8B model. This dataset pre-renders OpenAIs `tool_calls` into Hermes/Qwen3-style `<tool_call>...</tool_call>` tags and wraps tool responses as `<tool_response>...</tool_response>`. The dataset contains 316 rows of data (derived from a source dataset of 36,083 rows) in raw JSONL format, with each row containing `messages: list[{role, content, train}]`, where roles include `system | user | assistant`, and tool observations are represented with `role: user` and wrapped in `<tool_response>...</tool_response>`. The `train: bool` field is used for axolotls `message_field_training: train` loss masking. The dataset is suitable for text generation tasks, particularly those involving tool calls.
提供机构:
LAION eV
创建时间:
2026-04-23
原始信息汇总

数据集概述:laion/Sera-4.6-Lite-T2-v4-316

基本信息

  • 许可协议:Apache-2.0
  • 任务类别:文本生成(text-generation)
  • 标签:sft、agent、swe-bench、axolotl、hermes-tool-calls

数据集来源

该数据集是 allenai/Sera-4.6-Lite-T2 的行子集。上游数据集被用于训练 SERA-8B 模型。

数据预处理

  • 将 OpenAI 的 tool_calls 预渲染为 Hermes/Qwen3 风格的 <tool_call>...</tool_call> 线令牌,并嵌入到内容字符串中。
  • 工具响应被包裹为 <tool_response>...</tool_response>
  • 此预处理步骤对应于 Ai2 的 sera/datagen/data/postprocess/utils.py::transform_traj_hermes 函数(默认 tool_call_format: "hermes"),这是从公开的 Sera-4.6-Lite-T2 数据集到 axolotl 训练之间缺失的环节。若缺少此预渲染,axolotl 的 chat_template: chatml 会丢弃结构化的 tool_calls 字段,导致 SFT 模型无法学习生成工具调用。

数据规模

  • 总行数:316 行(来源数据集为 36,083 行)
  • 采样方式:确定性随机采样,种子为 42,按行索引从完整的 36,083 行源数据中提取。

数据格式

  • 格式:原始 JSONL
  • 每行结构messages: list[{role, content, train}]
    • 角色systemuserassistant
    • 工具观测:以 role: user 表示,内容由 <tool_response>...</tool_response> 包裹(遵循 SERA 惯例)
    • 训练掩码:每条消息的 train: bool 字段是逐消息的损失掩码,供 axolotl 的 message_field_training: train 使用

使用示例(axolotl 配置)

yaml datasets:

  • path: laion/Sera-4.6-Lite-T2-v4-316 data_files:
    • sera-4.6-lite-t2_v4_316.jsonl type: chat_template field_messages: messages ds_type: json message_field_training: train chat_template: chatml
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自allenai/Sera-4.6-Lite-T2完整数据集,是其中经过精心筛选的316条子集。其构建过程的核心创新在于将原本以结构化字段存储的OpenAI tool_calls信息,预渲染为Hermes/Qwen3风格的内联令牌形式,即通过<tool_call>...</tool_call>和<tool_response>...</tool_response>将工具调用与响应嵌入对话文本中。这一转换弥补了公开数据集与Axolotl训练框架之间的格式鸿沟,确保模型在监督微调过程中能够学习到工具调用的生成能力。数据采样采用确定性随机策略,设置种子为42,对原始36,083条数据进行行索引抽取,从而保障了结果的可复现性。
特点
Sera-4.6-Lite-T2-v4-316数据集最显著的特点在于其面向Agent场景的工具调用数据格式预处理。每条记录以原始JSONL格式存储,包含完整的消息序列,角色涵盖system、user与assistant,其中工具观察结果以user角色配合<tool_response>标签呈现。特别地,每条消息均附带train布尔字段,用于指示Axolotl框架在训练时对该条消息是否施加损失掩码,实现了精确的逐消息训练控制。这一设计使得模型在微调过程中能够精准区分对话中的系统指令、用户输入、模型回答及工具交互,从而更有效地学习工具调用行为。
使用方法
该数据集专为使用Axolotl框架进行指令微调而优化。用户只需在Axolotl配置文件中指定数据集路径及对应的JSONL文件名,将type设置为chat_template,并把field_messages字段指向messages键,同时启用message_field_training参数以利用内置的train掩码机制。配合chatml对话模板,即可实现对工具调用数据的端到端训练。得益于预渲染的tool_call令牌格式,无需额外处理结构化字段,即可让模型在生成过程中自然学会调用外部工具并解析工具响应,显著简化了Agent模型的训练流程。
背景与挑战
背景概述
Sera-4.6-Lite-T2-v4-316数据集由LAION团队于近期创建,源自Allen AI开发的Sera-4.6-Lite-T2数据集,专注于智能体(Agent)与软件工程基准(SWE-bench)领域的文本生成任务。该数据集的核心研究问题在于如何高效地将工具调用(tool_calls)结构预渲染为Hermes/Qwen3风格的令牌格式,从而使监督微调(SFT)模型能够习得并生成工具调用指令。通过针对Axolotl训练框架进行优化,该数据集解决了原始数据中结构化字段被丢弃导致模型无法学习工具调用的关键缺陷,在智能体训练流程中扮演了桥梁角色,对提升语言模型在工具使用场景中的表现具有重要推动作用。
当前挑战
该数据集所解决的领域挑战在于,传统SFT训练中chat_template会丢弃结构化的tool_calls字段,导致模型无法生成准确的工具调用指令,限制了智能体在SWE-bench等复杂环境中的自主决策能力。构建过程中面临的核心挑战包括:其一,将原始36,083条数据中OpenAI格式的tool_calls预渲染为Hermes-style线令牌,并确保tool_response包裹格式与SERA数据规范一致;其二,为每条消息分配train布尔标记以实现Axolotl的逐消息损失掩码,精确控制训练信号;其三,通过确定性子采样(seed=42)从海量数据中抽取代表性316行子集,同时保持嵌套子集结构的可复现性。
常用场景
经典使用场景
在语言模型与工具调用能力相结合的演进中,Sera-4.6-Lite-T2-v4-316数据集为研究者提供了一条精巧的微调途径。作为取自allenai/Sera-4.6-Lite-T2的行子集,该数据集核心价值在于将原始的OpenAI tool_calls结构预渲染为Hermes/Qwen3风格的<tool_call>与<tool_response>标记,使得模型能够在标准的ChatML模板下完整学习工具调用行为,弥补了原始数据集与Axolotl训练框架之间的格式鸿沟。该子集精选316条代表性轨迹,兼顾数据多样性与训练效率,特别适合用于高效监督微调实验,支撑agent系统中工具调用能力的快速原型验证。
实际应用
在实际应用层面,该数据集主要服务于基于大型语言模型的智能代理系统开发。通过在此数据集上微调,模型能够习得根据用户需求主动调用外部工具并理解工具返回结果的能力,广泛应用于自动编程验证(SWE-bench场景)、API调用编排、数据库查询执行、复杂任务分解与工具链管理等前沿agent应用场景中。对于需要部署可收敛、低幻觉率的工具使用型Agent的企业和研究机构,该数据集是构建可靠对话代理的便捷起点。
衍生相关工作
该数据集源自Sera-8B模型的训练数据流水线,其前处理逻辑直接映射了Ai2团队在sera/datagen/data/postprocess/utils.py中定义的transform_traj_hermes方法,是上游公开数据集与下游模型训练之间的关键桥梁。围绕这一格式预渲染思想衍生了Hermes、Qwen3等一系列工具调用格式的标准化尝试,该子集还支持与Axolotl的高效集成,推动了工具型SFT数据集处理流程的标准化。此外,该数据集确定性随机采样策略也为构建结构化子集实验提供了可复现的方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作