DataFlow-PostTrain

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/lhpku20010120/DataFlow-PostTrain

下载链接

链接失效反馈

官方服务：

资源简介：

Infinity-Instruct-2 是一个精心策划和合成的指令遵循数据集，涵盖化学、物理和数学领域，专为大型语言模型的监督微调（SFT）设计。数据集包含直接从 CAMEL-AI 数据集中提取的基线数据，以及通过多阶段合成管道生成的合成数据。数据格式采用 ShareGPT 风格的 JSONL 格式，包含 instruction、input 和 output 字段。input 字段包含问题或问题陈述，通常包含 LaTeX 格式的数学/化学表达式；output 字段包含模型生成的答案，可能包括显式的思维链推理。数据集通过多种策略生成新颖且科学基础的问题，并通过强大的推理语言模型生成答案。数据集适用于需要科学准确性和数学可解性的任务，如科学问答和推理任务。

创建时间：

2026-03-30

原始信息汇总

Infinity-Instruct-2 数据集概述

数据集简介

Infinity-Instruct-2 是一个经过整理和合成的指令遵循数据集，涵盖化学、物理和数学领域，专为大型语言模型的有监督微调而设计。

数据集构成

数据集包含以下文件：

领域	文件	类型	样本数量	大小
化学	`chemistry/camel-ai-chemistry-baseline.jsonl`	基线（直接提取）	20,000	44 MB
化学	`chemistry/camel-chemistry-synth-20k.jsonl`	合成	20,000	386 MB
化学	`chemistry/camel-chemistry-synth-20k_filtered.jsonl`	合成 + 过滤	13,025	175 MB
物理	`physics/camel-ai-physic-baseline.jsonl`	基线（直接提取）	20,000	49 MB
数学	`math/openr1-cot.jsonl`	思维链推理	124,170	2.0 GB

数据格式

所有文件均为 JSONL 格式，遵循 ShareGPT 风格模式： json { "instruction": "", "input": "<问题或问题陈述>", "output": "<答案，可能包含<think>...</think><answer>...</answer>格式>" }

instruction：在本数据集中始终为空字符串；完整问题置于 input 中。
input：问题或题目，通常包含 LaTeX 格式的数学/化学表达式。
output：模型生成的答案。对于推理密集型数据，输出可能包含包裹在 <think>...</think> 中的显式思维链，随后是 <answer>...</answer> 中的最终答案。

数据来源与合成方法

基线数据（直接提取）

camel-ai-chemistry-baseline.jsonl 和 camel-ai-physic-baseline.jsonl 分别直接提取自 CAMEL-AI 的化学和物理数据集，未经任何修改。它们作为合成流程的种子/参考分布。

合成化学数据

合成化学数据使用 DataFlow 框架生成，自定义算子位于 DataFlow/baai_temp/。流程包含三个阶段：

问题生成：使用 LLM 将 CAMEL-AI 化学数据集中的种子问题转化为新颖、有科学依据的化学问题。每个种子问题通过随机采样的一种或多种转换策略进行处理。
答案生成：每个合成问题由一个强大的推理 LLM 回答，生成包含显式思维链推理的长篇答案。
过滤：camel-chemistry-synth-20k_filtered.jsonl 是完整合成文件经过质量过滤后的子集，保留了 13,025 个高质量样本。

数学数据

数学数据集包含 124,170 个竞赛风格和奥林匹克级别的数学问题，配有详细的思维链解决方案。问题涵盖几何、代数、数论、组合数学和应用数学。输出格式一致使用 <think>...</think> <answer>...</answer> 进行逐步推理。

流程代码

合成算子位于 DataFlow/baai_temp/：

chemistry_basepipeline.py：化学问题生成与答案生成的主流程。
physics_basepipeline.py：物理问题生成与答案生成的主流程。
chemistry_question_generator.py：化学问题合成的 DataFlow 算子。
physics_question_generator.py：物理问题合成的 DataFlow 算子。
prompt_temp.py：化学/物理问题生成和分类的提示模板。
category_fuzz.py：化学/物理类别分类的模糊匹配工具。
reanswer.py：使用更强模型重新生成答案的工具。

该流程基于 DataFlow 框架构建。

使用示例

python import json with open("chemistry/camel-chemistry-synth-20k_filtered.jsonl") as f: for line in f: sample = json.loads(line) question = sample["input"] answer = sample["output"] # 用于 SFT 训练...

备注

所有合成问题均设计为科学准确且数学可解。
整个数据集使用 LaTeX 格式处理方程和化学表达式。
该数据集旨在与 LLaMA-Factory 等框架配合使用。

搜集汇总

数据集介绍

构建方式

在科学教育数据构建领域，DataFlow-PostTrain数据集通过多阶段合成流程精心构建。其基础数据直接提取自CAMEL-AI的化学与物理数据集，作为合成流程的种子。化学合成数据采用DataFlow框架，通过化学问题生成器对种子问题施加随机策略组合，包括改变化学参数、引入实际约束、反转问题逻辑等五种科学转换，每个种子生成两个新颖问题。随后由高性能推理模型生成包含思维链的详细解答，并经过质量过滤保留高置信度样本。数学数据则整合了竞赛级题目及其结构化推理过程。

特点

该数据集在科学指令微调领域展现出鲜明的专业特征。其覆盖化学、物理与数学三大核心理科领域，问题设计强调科学准确性与数学可解性，广泛采用LaTeX格式呈现复杂公式与化学表达式。数据格式遵循ShareGPT风格，输出部分创新性地融入了显式思维链标记，通过<think>与<answer>标签清晰分离推理过程与最终答案，尤其适合训练模型的分步推理能力。合成数据通过策略组合实现了问题的深度变换与领域交叉，显著提升了问题的多样性与复杂性层次。

使用方法

针对大语言模型的监督微调应用，该数据集提供了清晰的使用路径。数据以JSONL格式存储，用户可通过标准文件读取方式加载，每条记录包含指令、输入和输出三个字段，其中指令字段留空，完整问题置于输入字段。在训练框架中，可直接将输入作为提示词，输出作为目标响应进行对齐训练。对于包含思维链的数据，训练时可选择保留完整输出以增强模型推理能力，或仅提取最终答案部分进行精炼训练。该数据集兼容主流微调框架，建议在预处理时注意保留LaTeX格式的特殊标记以确保科学内容的完整性。

背景与挑战

背景概述

DataFlow-PostTrain数据集是面向大语言模型监督微调而构建的指令遵循数据集，专注于化学、物理和数学三个科学领域。该数据集由研究团队于近期开发，依托DataFlow框架实现数据合成，旨在提升模型在复杂科学问题上的推理与解答能力。其核心研究问题在于如何生成高质量、多样化的科学问题及其链式思维答案，以弥补现有数据在深度与广度上的不足，对推动科学教育辅助工具和专业化人工智能应用具有显著影响力。

当前挑战

该数据集致力于解决科学领域问题解答的挑战，具体包括模型在跨学科知识整合、复杂数学推导及化学物理实验模拟中的准确性与逻辑一致性难题。在构建过程中，挑战主要集中于合成数据的科学严谨性保障，如确保化学参数变更的物理真实性、问题逻辑反转的合理性，以及通过过滤机制维持数据质量，同时还需处理大规模链式思维标注的生成成本与格式统一性问题。

常用场景

经典使用场景

在科学教育技术领域，DataFlow-PostTrain数据集为大型语言模型的监督微调提供了核心资源。该数据集聚焦于化学、物理和数学学科，通过合成指令遵循数据，专门用于训练模型理解和解决复杂科学问题。其经典使用场景在于模型的能力对齐，研究者利用数据集中的链式思维标注和结构化输出，引导模型生成具有逻辑推理步骤的答案，从而提升模型在STEM领域的专业问答性能。

解决学术问题

该数据集有效应对了科学领域大语言模型知识对齐的挑战。传统模型在专业学科上常出现事实性错误或推理断裂，DataFlow-PostTrain通过提供经过科学验证的问题与详尽的解题过程，为模型训练注入了领域专业知识。它解决了模型在跨学科综合问题上的泛化能力不足，以及缺乏逐步推理透明度的学术痛点，为可解释人工智能在科学计算中的应用奠定了数据基础。

衍生相关工作

围绕DataFlow-PostTrain数据集，已衍生出多项聚焦科学推理的经典研究工作。例如，基于其链式思维数据格式，研究者开发了专门评估模型科学问题求解能力的基准测试。同时，该数据集启发了对合成数据质量过滤方法的研究，以及针对多步骤科学问题求解的模块化训练框架。这些工作共同推动了面向专业领域的指令微调技术演进，并促进了开源科学大模型生态的繁荣。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集