TxT360-3efforts

Hugging Face2025-12-11 更新2025-12-12 收录

下载链接：

https://huggingface.co/datasets/LLM360/TxT360-3efforts

下载链接

链接失效反馈

官方服务：

资源简介：

TxT360-3efforts是一个用于训练语言模型的监督微调（SFT）数据集，通过聊天模板控制三种推理努力（低、中、高）。该数据集包含约1000万份文档和100亿个损失标记，涵盖数学、编程、一般聊天、STEM推理、指令跟随、工具使用和安全对齐等九大类别。所有问题来源均来自许可公开数据集或合成生成，并经过质量过滤、去重和去污染处理。答案大多使用GPT-OSS-120B在低、中、高推理努力水平下重新生成。该数据集用于K2-V2 LLM的SFT，展示了随着推理努力的增加，生成长度平滑增加和性能提升的特点。

创建时间：

2025-12-05

原始信息汇总

TxT360-3efforts 数据集概述

数据集基本信息

数据集名称: TxT360-3efforts
发布者: LLM360
发布日期: 2025年12月5日
数据版本: 1.0
许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
许可证链接: https://creativecommons.org/licenses/by/4.0/legalcode

数据集简介

TxT360-3efforts 是一个监督微调数据集，旨在训练语言模型具备三种可通过聊天模板控制的推理能力（低、中、高）。该数据集包含约 1000 万份文档 和 100 亿个损失标记。所有问题来源均收集自宽松许可的公共数据集或通过合成生成，并经过质量过滤、去重和针对评估基准的去污染处理。答案主要由 GPT-OSS-120B 模型在低、中、高三种推理努力水平下重新生成。该数据集用于 LLM360/K2-V2 模型的监督微调。

数据集结构与内容

数据集包含 10 个配置，每个配置包含一个名为“messages”的字符串类型特征，并按质量分为高、中、低三个分片。

各配置详情

agent
- 高: 12,569,529,621 字节，1,401,471 个样本
- 中: 312,620,874 字节，133,670 个样本
- 低: 3,405,089,874 字节，804,047 个样本
- 下载大小: 4,363,630,365 字节
- 数据集大小: 16,287,240,369 字节
chat
- 高: 2,341,768,890 字节，163,499 个样本
- 中: 2,129,083,886 字节，283,460 个样本
- 低: 1,558,498,159 字节，265,531 个样本
- 下载大小: 3,320,945,139 字节
- 数据集大小: 6,029,350,935 字节
code
- 高: 4,580,716,067 字节，202,585 个样本
- 中: 4,038,769,395 字节，339,787 个样本
- 低: 9,388,306,077 字节，1,323,344 个样本
- 下载大小: 6,516,935,604 字节
- 数据集大小: 18,007,791,539 字节
instructions-with-constraints
- 高: 1,945,096,532 字节，320,334 个样本
- 中: 1,694,867,511 字节，249,419 个样本
- 低: 1,297,237,805 字节，305,345 个样本
- 下载大小: 2,311,542,322 字节
- 数据集大小: 4,937,201,848 字节
math
- 高: 878,141,440 字节，42,601 个样本
- 中: 1,486,794,882 字节，167,012 个样本
- 低: 567,950,220 字节，147,342 个样本
- 下载大小: 1,456,798,172 字节
- 数据集大小: 2,932,886,542 字节
math-dialogue
- 高: 1,218,152,139 字节，43,852 个样本
- 中: 1,510,337,911 字节，103,035 个样本
- 下载大小: 1,218,726,491 字节
- 数据集大小: 2,728,490,050 字节
safety
- 高: 287,565,560 字节，127,200 个样本
- 中: 288,122,540 字节，127,200 个样本
- 低: 288,438,140 字节，127,200 个样本
- 下载大小: 369,447,072 字节
- 数据集大小: 864,126,240 字节
self-identity
- 高: 40,661,136 字节，23,144 个样本
- 中: 40,783,336 字节，23,144 个样本
- 低: 40,812,524 字节，23,144 个样本
- 下载大小: 64,394,706 字节
- 数据集大小: 122,256,996 字节
stem
- 高: 4,152,182,695 字节，457,547 个样本
- 中: 2,921,175,948 字节，754,333 个样本
- 低: 2,428,440,049 字节，1,042,394 个样本
- 下载大小: 4,737,753,961 字节
- 数据集大小: 9,501,798,692 字节
teacher-as-assistant
- 高: 66,242,759 字节，6,926 个样本
- 中: 4,191,723,944 字节，201,494 个样本
- 低: 5,322,838,692 字节，250,216 个样本
- 下载大小: 3,137,921,533 字节
- 数据集大小: 9,580,805,395 字节

数据类别与来源

数据集涵盖九个主要类别，包括数学、编码、通用聊天、STEM推理、指令遵循、工具使用和安全对齐。

数学

数学问答对，聚合自七个来源：Nemotron-Post-Training-v1、MathQA、OpenMathReasoning、SimpleScaling、NuminaMath、BigMathVerified、OpenMathInstruct-2。移除了由商业模型生成的数据分片和子集，并应用了基于子串的去重和基准去污染。

多轮数学对话

多轮数学对话模拟师生互动，由 GPT-OSS-120B 合成生成。产生两种数据类型：作为学生通过对话学习的助手，以及作为教师批判性评估用户解决方案的助手。

代码

代码数据集涵盖通用编程和专门领域，来源包括：rStar-Coder、Bird-SQL、Nemotron-Post-Training-v1、sql-create-context-instruction、verifiable-coding-problems、dolphin-coder、react-code-instructions、self-oss-instruct-sc2-exec-filter50k、tiny-codes、glaive-code-assistant-v3、Magpie-Qwen2.5-Coder-Pro-300K-v0.1、conala-mined-curated、self-instruct-starcoder、code-evol-instruct-oss、xlcost-text-to-code。

聊天

通用对话数据，来自第一轮查询，来源包括：OASST、ShareLM、UltraChat-200k。

STEM

科学、工程和逻辑推理数据，来自选择题和开放式格式，来源包括：Nemotron-CrossThink QA、Llama-Nemotron-Post-Training-Dataset-v1、NCERT、Loong、LogiCLM、Logic701。

带约束的指令遵循

具有程序可验证约束的合成指令遵循数据，使用 GPT-OSS-120B 生成并自动验证，遵循 IFBench 风格流程。还包括 Hermes-Json-Mode 以提高结构化 JSON 输出的可靠性。

工具使用与智能体数据

多轮工具使用和智能体轨迹，来源包括：Nemotron Post Training v1、xLAM 函数调用、基于 CommitPackFT 的模拟智能体编码轨迹、Toucan、Hermes function calling、Glaive、ToolACE。所有示例均转换为 MCP 兼容格式，并经过后处理过滤器以确保工具使用一致性。

自我身份

合成自我身份数据集，通过三步流程构建：1) 基于 Lmsys-1M-chat 和 ShareGPT 的 LLM 作为法官过滤以提取身份相关查询；2) 使用 Qwen2.5-32B 扩展至约 3000 个英文查询；3) 使用 GPT-OSS-120B 根据模型元数据生成回复。包含多语言子集。

安全

安全问答对，结合种子问题和通过 PyRIT 生成的对抗性越狱变体。种子来源包括：AdvBench、Aya Red-Teaming、Do-Not-Answer Dataset、Forbidden Questions。转换包括 Base2048 编码、摩尔斯电码、Unicode 转换、随机大写、语言翻译以及已建立的越狱提示。

数据处理说明

多轮数据转换为多个训练样本。
通过子串匹配过滤 GPT-OSS 伪影。
随机包含自我身份系统提示。
约 98% 的数据在 8K 标记以内。

预期用途

TxT360-3efforts 数据集旨在供社区用于持续改进开放模型。数据可自由用于训练和评估。

引用与致谢

如果在研究中使用本数据集，请引用 K2-V2 论文。

搜集汇总

数据集介绍

构建方式

在构建TxT360-3efforts数据集的过程中，研究团队采用了系统化的数据采集与合成策略。该数据集的核心问题来源于多个经过许可的公开数据集或通过合成方式生成，随后经过严格的质量筛选、去重处理，并针对评估基准进行了去污染操作。答案部分主要利用GPT-OSS-120B模型，在低、中、高三种不同的推理努力水平下重新生成，从而形成了覆盖数学、代码、通用对话、STEM推理、指令遵循、工具使用及安全对齐等九大主要类别的结构化语料。数据被组织为多个配置，每个配置下根据质量分为高、中、低三个子集，确保了数据层次的清晰与可控。

特点

TxT360-3efforts数据集最显著的特点在于其引入了可控制的推理努力层级。通过聊天模板，能够引导语言模型在低、中、高三种不同的认知深度上进行响应，这为研究模型生成内容与计算复杂度之间的关系提供了宝贵资源。数据集规模庞大，包含约一千万份文档和百亿损失标记，且内容高度多样化，涵盖了从多轮数学对话模拟师生互动，到带有可编程验证约束的指令遵循数据，再到经过对抗性转换的安全对齐问答。这种广度与深度的结合，使其成为训练具备细粒度可控生成能力语言模型的理想基础。

使用方法

该数据集主要用于语言模型的监督式微调，其使用方法与标准训练流程兼容。研究者可以通过HuggingFace平台加载特定的数据配置，例如‘code’或‘math-dialogue’，并选择对应质量等级的子集进行训练。数据以消息序列的格式存储，便于直接适配常见的聊天模板。在实际应用中，通过调整提示模板中的控制标记，可以指定模型在特定推理努力水平下生成响应，从而探索模型性能与生成长度、答案质量之间的关联。此外，数据集中包含的多轮对话和工具调用轨迹，也适合用于训练具备复杂交互和规划能力的智能体模型。

背景与挑战

背景概述

TxT360-3efforts数据集由LLM360研究团队于2025年12月发布，旨在为大规模语言模型的监督式微调提供高质量、多模态的指令数据。该数据集整合了约一千万份文档，涵盖数学推理、代码生成、通用对话、STEM学科、指令遵循、工具调用及安全对齐等九大核心领域。其创新之处在于通过GPT-OSS-120B模型为每个问题生成低、中、高三种不同推理努力程度的答案，从而实现了对模型生成长度与复杂度的可控调节。该数据集成功应用于K2-V2语言模型的训练，显著提升了模型在复杂任务中的推理性能与适应性，为开放社区推动语言模型的可控生成与泛化能力奠定了重要基础。

当前挑战

该数据集致力于解决语言模型在多样化任务中实现可控推理与高质量生成的挑战，其核心难题在于如何系统性地构建覆盖广泛领域且具备精确难度梯度的训练样本。在构建过程中，研究团队面临多重挑战：首先，需从大量异构开源数据源中筛选、去重并净化数据，以避免基准测试污染并确保内容原创性；其次，设计并实施多轮数学对话、约束性指令遵循等复杂场景的合成生成流程，要求模型在角色扮演与反馈机制中保持逻辑一致性；此外，安全对齐部分需对抗性生成多样化越狱变体，以增强模型对有害查询的抵御能力，同时维持回答的合规性与稳定性。

常用场景

经典使用场景

在大型语言模型（LLM）的监督微调领域，TxT360-3efforts数据集以其独特的可控推理努力设计，为模型训练提供了精细化的调控维度。该数据集最经典的应用场景在于训练语言模型根据预设的提示模板，动态调整其生成内容的深度与长度，实现低、中、高三种不同推理努力级别的可控输出。这一特性使得研究人员能够系统性地探索模型能力与计算资源消耗之间的平衡关系，为构建高效且性能可预测的智能体奠定了基础。

衍生相关工作

基于TxT360-3efforts数据集，衍生出了一系列探索模型可控生成与效率优化的经典研究工作。其中最直接的成果是K2-V2语言模型，该模型成功验证了通过数据驱动实现推理努力可控的可行性。此外，该数据集的结构设计也启发了后续关于多粒度指令遵循、动态上下文长度调整以及节能推理策略等方面的研究，为开源社区构建更透明、更可控的大型模型生态系统提供了重要的范例与基准。

数据集最近研究