DataFlow-PostTrain
收藏Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/lhpku20010120/DataFlow-PostTrain
下载链接
链接失效反馈官方服务:
资源简介:
Infinity-Instruct-2 是一个精心策划和合成的指令遵循数据集,涵盖化学、物理和数学领域,专为大型语言模型的监督微调(SFT)设计。数据集包含直接从 CAMEL-AI 数据集中提取的基线数据,以及通过多阶段合成管道生成的合成数据。数据格式采用 ShareGPT 风格的 JSONL 格式,包含 instruction、input 和 output 字段。input 字段包含问题或问题陈述,通常包含 LaTeX 格式的数学/化学表达式;output 字段包含模型生成的答案,可能包括显式的思维链推理。数据集通过多种策略生成新颖且科学基础的问题,并通过强大的推理语言模型生成答案。数据集适用于需要科学准确性和数学可解性的任务,如科学问答和推理任务。
创建时间:
2026-03-30
原始信息汇总
Infinity-Instruct-2 数据集概述
数据集简介
Infinity-Instruct-2 是一个经过整理和合成的指令遵循数据集,涵盖化学、物理和数学领域,专为大型语言模型的有监督微调而设计。
数据集构成
数据集包含以下文件:
| 领域 | 文件 | 类型 | 样本数量 | 大小 |
|---|---|---|---|---|
| 化学 | chemistry/camel-ai-chemistry-baseline.jsonl |
基线(直接提取) | 20,000 | 44 MB |
| 化学 | chemistry/camel-chemistry-synth-20k.jsonl |
合成 | 20,000 | 386 MB |
| 化学 | chemistry/camel-chemistry-synth-20k_filtered.jsonl |
合成 + 过滤 | 13,025 | 175 MB |
| 物理 | physics/camel-ai-physic-baseline.jsonl |
基线(直接提取) | 20,000 | 49 MB |
| 数学 | math/openr1-cot.jsonl |
思维链推理 | 124,170 | 2.0 GB |
数据格式
所有文件均为 JSONL 格式,遵循 ShareGPT 风格模式: json { "instruction": "", "input": "<问题或问题陈述>", "output": "<答案,可能包含<think>...</think><answer>...</answer>格式>" }
instruction:在本数据集中始终为空字符串;完整问题置于input中。input:问题或题目,通常包含 LaTeX 格式的数学/化学表达式。output:模型生成的答案。对于推理密集型数据,输出可能包含包裹在<think>...</think>中的显式思维链,随后是<answer>...</answer>中的最终答案。
数据来源与合成方法
基线数据(直接提取)
camel-ai-chemistry-baseline.jsonl和camel-ai-physic-baseline.jsonl分别直接提取自 CAMEL-AI 的化学和物理数据集,未经任何修改。它们作为合成流程的种子/参考分布。
合成化学数据
合成化学数据使用 DataFlow 框架生成,自定义算子位于 DataFlow/baai_temp/。流程包含三个阶段:
- 问题生成:使用 LLM 将 CAMEL-AI 化学数据集中的种子问题转化为新颖、有科学依据的化学问题。每个种子问题通过随机采样的一种或多种转换策略进行处理。
- 答案生成:每个合成问题由一个强大的推理 LLM 回答,生成包含显式思维链推理的长篇答案。
- 过滤:
camel-chemistry-synth-20k_filtered.jsonl是完整合成文件经过质量过滤后的子集,保留了 13,025 个高质量样本。
数学数据
数学数据集包含 124,170 个竞赛风格和奥林匹克级别的数学问题,配有详细的思维链解决方案。问题涵盖几何、代数、数论、组合数学和应用数学。输出格式一致使用 <think>...</think> <answer>...</answer> 进行逐步推理。
流程代码
合成算子位于 DataFlow/baai_temp/:
chemistry_basepipeline.py:化学问题生成与答案生成的主流程。physics_basepipeline.py:物理问题生成与答案生成的主流程。chemistry_question_generator.py:化学问题合成的 DataFlow 算子。physics_question_generator.py:物理问题合成的 DataFlow 算子。prompt_temp.py:化学/物理问题生成和分类的提示模板。category_fuzz.py:化学/物理类别分类的模糊匹配工具。reanswer.py:使用更强模型重新生成答案的工具。
该流程基于 DataFlow 框架构建。
使用示例
python import json with open("chemistry/camel-chemistry-synth-20k_filtered.jsonl") as f: for line in f: sample = json.loads(line) question = sample["input"] answer = sample["output"] # 用于 SFT 训练...
备注
- 所有合成问题均设计为科学准确且数学可解。
- 整个数据集使用 LaTeX 格式处理方程和化学表达式。
- 该数据集旨在与 LLaMA-Factory 等框架配合使用。
搜集汇总
数据集介绍

构建方式
在科学教育数据构建领域,DataFlow-PostTrain数据集通过多阶段合成流程精心构建。其基础数据直接提取自CAMEL-AI的化学与物理数据集,作为合成流程的种子。化学合成数据采用DataFlow框架,通过化学问题生成器对种子问题施加随机策略组合,包括改变化学参数、引入实际约束、反转问题逻辑等五种科学转换,每个种子生成两个新颖问题。随后由高性能推理模型生成包含思维链的详细解答,并经过质量过滤保留高置信度样本。数学数据则整合了竞赛级题目及其结构化推理过程。
特点
该数据集在科学指令微调领域展现出鲜明的专业特征。其覆盖化学、物理与数学三大核心理科领域,问题设计强调科学准确性与数学可解性,广泛采用LaTeX格式呈现复杂公式与化学表达式。数据格式遵循ShareGPT风格,输出部分创新性地融入了显式思维链标记,通过<think>与<answer>标签清晰分离推理过程与最终答案,尤其适合训练模型的分步推理能力。合成数据通过策略组合实现了问题的深度变换与领域交叉,显著提升了问题的多样性与复杂性层次。
使用方法
针对大语言模型的监督微调应用,该数据集提供了清晰的使用路径。数据以JSONL格式存储,用户可通过标准文件读取方式加载,每条记录包含指令、输入和输出三个字段,其中指令字段留空,完整问题置于输入字段。在训练框架中,可直接将输入作为提示词,输出作为目标响应进行对齐训练。对于包含思维链的数据,训练时可选择保留完整输出以增强模型推理能力,或仅提取最终答案部分进行精炼训练。该数据集兼容主流微调框架,建议在预处理时注意保留LaTeX格式的特殊标记以确保科学内容的完整性。
背景与挑战
背景概述
DataFlow-PostTrain数据集是面向大语言模型监督微调而构建的指令遵循数据集,专注于化学、物理和数学三个科学领域。该数据集由研究团队于近期开发,依托DataFlow框架实现数据合成,旨在提升模型在复杂科学问题上的推理与解答能力。其核心研究问题在于如何生成高质量、多样化的科学问题及其链式思维答案,以弥补现有数据在深度与广度上的不足,对推动科学教育辅助工具和专业化人工智能应用具有显著影响力。
当前挑战
该数据集致力于解决科学领域问题解答的挑战,具体包括模型在跨学科知识整合、复杂数学推导及化学物理实验模拟中的准确性与逻辑一致性难题。在构建过程中,挑战主要集中于合成数据的科学严谨性保障,如确保化学参数变更的物理真实性、问题逻辑反转的合理性,以及通过过滤机制维持数据质量,同时还需处理大规模链式思维标注的生成成本与格式统一性问题。
常用场景
经典使用场景
在科学教育技术领域,DataFlow-PostTrain数据集为大型语言模型的监督微调提供了核心资源。该数据集聚焦于化学、物理和数学学科,通过合成指令遵循数据,专门用于训练模型理解和解决复杂科学问题。其经典使用场景在于模型的能力对齐,研究者利用数据集中的链式思维标注和结构化输出,引导模型生成具有逻辑推理步骤的答案,从而提升模型在STEM领域的专业问答性能。
解决学术问题
该数据集有效应对了科学领域大语言模型知识对齐的挑战。传统模型在专业学科上常出现事实性错误或推理断裂,DataFlow-PostTrain通过提供经过科学验证的问题与详尽的解题过程,为模型训练注入了领域专业知识。它解决了模型在跨学科综合问题上的泛化能力不足,以及缺乏逐步推理透明度的学术痛点,为可解释人工智能在科学计算中的应用奠定了数据基础。
衍生相关工作
围绕DataFlow-PostTrain数据集,已衍生出多项聚焦科学推理的经典研究工作。例如,基于其链式思维数据格式,研究者开发了专门评估模型科学问题求解能力的基准测试。同时,该数据集启发了对合成数据质量过滤方法的研究,以及针对多步骤科学问题求解的模块化训练框架。这些工作共同推动了面向专业领域的指令微调技术演进,并促进了开源科学大模型生态的繁荣。
以上内容由遇见数据集搜集并总结生成



