TxT360-3efforts
收藏TxT360-3efforts 数据集概述
数据集基本信息
- 数据集名称: TxT360-3efforts
- 发布者: LLM360
- 发布日期: 2025年12月5日
- 数据版本: 1.0
- 许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
- 许可证链接: https://creativecommons.org/licenses/by/4.0/legalcode
数据集简介
TxT360-3efforts 是一个监督微调数据集,旨在训练语言模型具备三种可通过聊天模板控制的推理能力(低、中、高)。该数据集包含约 1000 万份文档 和 100 亿个损失标记。所有问题来源均收集自宽松许可的公共数据集或通过合成生成,并经过质量过滤、去重和针对评估基准的去污染处理。答案主要由 GPT-OSS-120B 模型在低、中、高三种推理努力水平下重新生成。该数据集用于 LLM360/K2-V2 模型的监督微调。
数据集结构与内容
数据集包含 10 个配置,每个配置包含一个名为“messages”的字符串类型特征,并按质量分为高、中、低三个分片。
各配置详情
-
agent
- 高: 12,569,529,621 字节,1,401,471 个样本
- 中: 312,620,874 字节,133,670 个样本
- 低: 3,405,089,874 字节,804,047 个样本
- 下载大小: 4,363,630,365 字节
- 数据集大小: 16,287,240,369 字节
-
chat
- 高: 2,341,768,890 字节,163,499 个样本
- 中: 2,129,083,886 字节,283,460 个样本
- 低: 1,558,498,159 字节,265,531 个样本
- 下载大小: 3,320,945,139 字节
- 数据集大小: 6,029,350,935 字节
-
code
- 高: 4,580,716,067 字节,202,585 个样本
- 中: 4,038,769,395 字节,339,787 个样本
- 低: 9,388,306,077 字节,1,323,344 个样本
- 下载大小: 6,516,935,604 字节
- 数据集大小: 18,007,791,539 字节
-
instructions-with-constraints
- 高: 1,945,096,532 字节,320,334 个样本
- 中: 1,694,867,511 字节,249,419 个样本
- 低: 1,297,237,805 字节,305,345 个样本
- 下载大小: 2,311,542,322 字节
- 数据集大小: 4,937,201,848 字节
-
math
- 高: 878,141,440 字节,42,601 个样本
- 中: 1,486,794,882 字节,167,012 个样本
- 低: 567,950,220 字节,147,342 个样本
- 下载大小: 1,456,798,172 字节
- 数据集大小: 2,932,886,542 字节
-
math-dialogue
- 高: 1,218,152,139 字节,43,852 个样本
- 中: 1,510,337,911 字节,103,035 个样本
- 下载大小: 1,218,726,491 字节
- 数据集大小: 2,728,490,050 字节
-
safety
- 高: 287,565,560 字节,127,200 个样本
- 中: 288,122,540 字节,127,200 个样本
- 低: 288,438,140 字节,127,200 个样本
- 下载大小: 369,447,072 字节
- 数据集大小: 864,126,240 字节
-
self-identity
- 高: 40,661,136 字节,23,144 个样本
- 中: 40,783,336 字节,23,144 个样本
- 低: 40,812,524 字节,23,144 个样本
- 下载大小: 64,394,706 字节
- 数据集大小: 122,256,996 字节
-
stem
- 高: 4,152,182,695 字节,457,547 个样本
- 中: 2,921,175,948 字节,754,333 个样本
- 低: 2,428,440,049 字节,1,042,394 个样本
- 下载大小: 4,737,753,961 字节
- 数据集大小: 9,501,798,692 字节
-
teacher-as-assistant
- 高: 66,242,759 字节,6,926 个样本
- 中: 4,191,723,944 字节,201,494 个样本
- 低: 5,322,838,692 字节,250,216 个样本
- 下载大小: 3,137,921,533 字节
- 数据集大小: 9,580,805,395 字节
数据类别与来源
数据集涵盖九个主要类别,包括数学、编码、通用聊天、STEM推理、指令遵循、工具使用和安全对齐。
数学
数学问答对,聚合自七个来源:Nemotron-Post-Training-v1、MathQA、OpenMathReasoning、SimpleScaling、NuminaMath、BigMathVerified、OpenMathInstruct-2。移除了由商业模型生成的数据分片和子集,并应用了基于子串的去重和基准去污染。
多轮数学对话
多轮数学对话模拟师生互动,由 GPT-OSS-120B 合成生成。产生两种数据类型:作为学生通过对话学习的助手,以及作为教师批判性评估用户解决方案的助手。
代码
代码数据集涵盖通用编程和专门领域,来源包括:rStar-Coder、Bird-SQL、Nemotron-Post-Training-v1、sql-create-context-instruction、verifiable-coding-problems、dolphin-coder、react-code-instructions、self-oss-instruct-sc2-exec-filter50k、tiny-codes、glaive-code-assistant-v3、Magpie-Qwen2.5-Coder-Pro-300K-v0.1、conala-mined-curated、self-instruct-starcoder、code-evol-instruct-oss、xlcost-text-to-code。
聊天
通用对话数据,来自第一轮查询,来源包括:OASST、ShareLM、UltraChat-200k。
STEM
科学、工程和逻辑推理数据,来自选择题和开放式格式,来源包括:Nemotron-CrossThink QA、Llama-Nemotron-Post-Training-Dataset-v1、NCERT、Loong、LogiCLM、Logic701。
带约束的指令遵循
具有程序可验证约束的合成指令遵循数据,使用 GPT-OSS-120B 生成并自动验证,遵循 IFBench 风格流程。还包括 Hermes-Json-Mode 以提高结构化 JSON 输出的可靠性。
工具使用与智能体数据
多轮工具使用和智能体轨迹,来源包括:Nemotron Post Training v1、xLAM 函数调用、基于 CommitPackFT 的模拟智能体编码轨迹、Toucan、Hermes function calling、Glaive、ToolACE。所有示例均转换为 MCP 兼容格式,并经过后处理过滤器以确保工具使用一致性。
自我身份
合成自我身份数据集,通过三步流程构建:1) 基于 Lmsys-1M-chat 和 ShareGPT 的 LLM 作为法官过滤以提取身份相关查询;2) 使用 Qwen2.5-32B 扩展至约 3000 个英文查询;3) 使用 GPT-OSS-120B 根据模型元数据生成回复。包含多语言子集。
安全
安全问答对,结合种子问题和通过 PyRIT 生成的对抗性越狱变体。种子来源包括:AdvBench、Aya Red-Teaming、Do-Not-Answer Dataset、Forbidden Questions。转换包括 Base2048 编码、摩尔斯电码、Unicode 转换、随机大写、语言翻译以及已建立的越狱提示。
数据处理说明
- 多轮数据转换为多个训练样本。
- 通过子串匹配过滤 GPT-OSS 伪影。
- 随机包含自我身份系统提示。
- 约 98% 的数据在 8K 标记以内。
预期用途
TxT360-3efforts 数据集旨在供社区用于持续改进开放模型。数据可自由用于训练和评估。
引用与致谢
如果在研究中使用本数据集,请引用 K2-V2 论文。



