five

DataFlow-PostTrain

收藏
Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/lhpku20010120/DataFlow-PostTrain
下载链接
链接失效反馈
官方服务:
资源简介:
Infinity-Instruct-2 是一个精心策划和合成的指令遵循数据集,涵盖化学、物理和数学领域,专为大型语言模型的监督微调(SFT)设计。数据集包含直接从 CAMEL-AI 数据集中提取的基线数据,以及通过多阶段合成管道生成的合成数据。数据格式采用 ShareGPT 风格的 JSONL 格式,包含 instruction、input 和 output 字段。input 字段包含问题或问题陈述,通常包含 LaTeX 格式的数学/化学表达式;output 字段包含模型生成的答案,可能包括显式的思维链推理。数据集通过多种策略生成新颖且科学基础的问题,并通过强大的推理语言模型生成答案。数据集适用于需要科学准确性和数学可解性的任务,如科学问答和推理任务。
创建时间:
2026-03-30
原始信息汇总

Infinity-Instruct-2 数据集概述

数据集简介

Infinity-Instruct-2 是一个经过整理和合成的指令遵循数据集,涵盖化学物理数学领域,专为大型语言模型的有监督微调而设计。

数据集构成

数据集包含以下文件:

领域 文件 类型 样本数量 大小
化学 chemistry/camel-ai-chemistry-baseline.jsonl 基线(直接提取) 20,000 44 MB
化学 chemistry/camel-chemistry-synth-20k.jsonl 合成 20,000 386 MB
化学 chemistry/camel-chemistry-synth-20k_filtered.jsonl 合成 + 过滤 13,025 175 MB
物理 physics/camel-ai-physic-baseline.jsonl 基线(直接提取) 20,000 49 MB
数学 math/openr1-cot.jsonl 思维链推理 124,170 2.0 GB

数据格式

所有文件均为 JSONL 格式,遵循 ShareGPT 风格模式: json { "instruction": "", "input": "<问题或问题陈述>", "output": "<答案,可能包含<think>...</think><answer>...</answer>格式>" }

  • instruction:在本数据集中始终为空字符串;完整问题置于 input 中。
  • input:问题或题目,通常包含 LaTeX 格式的数学/化学表达式。
  • output:模型生成的答案。对于推理密集型数据,输出可能包含包裹在 <think>...</think> 中的显式思维链,随后是 <answer>...</answer> 中的最终答案。

数据来源与合成方法

基线数据(直接提取)

  • camel-ai-chemistry-baseline.jsonlcamel-ai-physic-baseline.jsonl 分别直接提取自 CAMEL-AI 的化学和物理数据集,未经任何修改。它们作为合成流程的种子/参考分布。

合成化学数据

合成化学数据使用 DataFlow 框架生成,自定义算子位于 DataFlow/baai_temp/。流程包含三个阶段:

  1. 问题生成:使用 LLM 将 CAMEL-AI 化学数据集中的种子问题转化为新颖、有科学依据的化学问题。每个种子问题通过随机采样的一种或多种转换策略进行处理。
  2. 答案生成:每个合成问题由一个强大的推理 LLM 回答,生成包含显式思维链推理的长篇答案。
  3. 过滤camel-chemistry-synth-20k_filtered.jsonl 是完整合成文件经过质量过滤后的子集,保留了 13,025 个高质量样本。

数学数据

数学数据集包含 124,170 个竞赛风格和奥林匹克级别的数学问题,配有详细的思维链解决方案。问题涵盖几何、代数、数论、组合数学和应用数学。输出格式一致使用 <think>...</think> <answer>...</answer> 进行逐步推理。

流程代码

合成算子位于 DataFlow/baai_temp/

  • chemistry_basepipeline.py:化学问题生成与答案生成的主流程。
  • physics_basepipeline.py:物理问题生成与答案生成的主流程。
  • chemistry_question_generator.py:化学问题合成的 DataFlow 算子。
  • physics_question_generator.py:物理问题合成的 DataFlow 算子。
  • prompt_temp.py:化学/物理问题生成和分类的提示模板。
  • category_fuzz.py:化学/物理类别分类的模糊匹配工具。
  • reanswer.py:使用更强模型重新生成答案的工具。

该流程基于 DataFlow 框架构建。

使用示例

python import json with open("chemistry/camel-chemistry-synth-20k_filtered.jsonl") as f: for line in f: sample = json.loads(line) question = sample["input"] answer = sample["output"] # 用于 SFT 训练...

备注

  • 所有合成问题均设计为科学准确数学可解
  • 整个数据集使用 LaTeX 格式处理方程和化学表达式。
  • 该数据集旨在与 LLaMA-Factory 等框架配合使用。
搜集汇总
数据集介绍
main_image_url
构建方式
在科学教育数据构建领域,DataFlow-PostTrain数据集通过多阶段合成流程精心构建。其基础数据直接提取自CAMEL-AI的化学与物理数据集,作为合成流程的种子。化学合成数据采用DataFlow框架,通过化学问题生成器对种子问题施加随机策略组合,包括改变化学参数、引入实际约束、反转问题逻辑等五种科学转换,每个种子生成两个新颖问题。随后由高性能推理模型生成包含思维链的详细解答,并经过质量过滤保留高置信度样本。数学数据则整合了竞赛级题目及其结构化推理过程。
特点
该数据集在科学指令微调领域展现出鲜明的专业特征。其覆盖化学、物理与数学三大核心理科领域,问题设计强调科学准确性与数学可解性,广泛采用LaTeX格式呈现复杂公式与化学表达式。数据格式遵循ShareGPT风格,输出部分创新性地融入了显式思维链标记,通过<think>与<answer>标签清晰分离推理过程与最终答案,尤其适合训练模型的分步推理能力。合成数据通过策略组合实现了问题的深度变换与领域交叉,显著提升了问题的多样性与复杂性层次。
使用方法
针对大语言模型的监督微调应用,该数据集提供了清晰的使用路径。数据以JSONL格式存储,用户可通过标准文件读取方式加载,每条记录包含指令、输入和输出三个字段,其中指令字段留空,完整问题置于输入字段。在训练框架中,可直接将输入作为提示词,输出作为目标响应进行对齐训练。对于包含思维链的数据,训练时可选择保留完整输出以增强模型推理能力,或仅提取最终答案部分进行精炼训练。该数据集兼容主流微调框架,建议在预处理时注意保留LaTeX格式的特殊标记以确保科学内容的完整性。
背景与挑战
背景概述
DataFlow-PostTrain数据集是面向大语言模型监督微调而构建的指令遵循数据集,专注于化学、物理和数学三个科学领域。该数据集由研究团队于近期开发,依托DataFlow框架实现数据合成,旨在提升模型在复杂科学问题上的推理与解答能力。其核心研究问题在于如何生成高质量、多样化的科学问题及其链式思维答案,以弥补现有数据在深度与广度上的不足,对推动科学教育辅助工具和专业化人工智能应用具有显著影响力。
当前挑战
该数据集致力于解决科学领域问题解答的挑战,具体包括模型在跨学科知识整合、复杂数学推导及化学物理实验模拟中的准确性与逻辑一致性难题。在构建过程中,挑战主要集中于合成数据的科学严谨性保障,如确保化学参数变更的物理真实性、问题逻辑反转的合理性,以及通过过滤机制维持数据质量,同时还需处理大规模链式思维标注的生成成本与格式统一性问题。
常用场景
经典使用场景
在科学教育技术领域,DataFlow-PostTrain数据集为大型语言模型的监督微调提供了核心资源。该数据集聚焦于化学、物理和数学学科,通过合成指令遵循数据,专门用于训练模型理解和解决复杂科学问题。其经典使用场景在于模型的能力对齐,研究者利用数据集中的链式思维标注和结构化输出,引导模型生成具有逻辑推理步骤的答案,从而提升模型在STEM领域的专业问答性能。
解决学术问题
该数据集有效应对了科学领域大语言模型知识对齐的挑战。传统模型在专业学科上常出现事实性错误或推理断裂,DataFlow-PostTrain通过提供经过科学验证的问题与详尽的解题过程,为模型训练注入了领域专业知识。它解决了模型在跨学科综合问题上的泛化能力不足,以及缺乏逐步推理透明度的学术痛点,为可解释人工智能在科学计算中的应用奠定了数据基础。
衍生相关工作
围绕DataFlow-PostTrain数据集,已衍生出多项聚焦科学推理的经典研究工作。例如,基于其链式思维数据格式,研究者开发了专门评估模型科学问题求解能力的基准测试。同时,该数据集启发了对合成数据质量过滤方法的研究,以及针对多步骤科学问题求解的模块化训练框架。这些工作共同推动了面向专业领域的指令微调技术演进,并促进了开源科学大模型生态的繁荣。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作