Darwin-Science
收藏github2026-01-28 更新2026-01-29 收录
下载链接:
https://github.com/GAIR-NLP/Data-Darwinism
下载链接
链接失效反馈官方服务:
资源简介:
高质量的科学语料库,包含完整的数处理方法。大小为496B tokens的经过处理的科学数据,内容涵盖学术书籍、研究论文(STEM、医学、工程)。处理过程包括从L0到L5的层次级别(选择、精炼、认知完成)。
High-quality scientific corpus equipped with complete data processing methodologies. It contains processed scientific data totaling 496 billion tokens, covering academic books and research papers across STEM, medicine and engineering disciplines. The processing workflow covers hierarchical levels from L0 to L5, namely selection, refinement and cognitive completion.
创建时间:
2026-01-27
原始信息汇总
Data Darwinism 数据集概述
📖 项目简介
Data Darwinism 是一个用于数据和基础模型协同进化的概念框架与实践方法。该项目旨在解决现代人工智能中的一个关键瓶颈:概念密集领域的可学习性差距。科学文献虽然信息丰富,但原始科学数据由于隐含推理、噪声和高压缩性,在预训练中提供的增益微乎其微。为此,项目引入了一个十级分类法(L0–L9)来组织数据转换过程。
🧬 数据处理层次
Data Darwinism 将数据处理概念化为一个进化阶梯,数据从 L0 上升到 L9 的过程中,体量减少,而信息密度和可学习性增加。
| 层级 | 阶段 | 描述 | 关键操作 |
|---|---|---|---|
| L0–L3 | 选择与保留 | 过滤原始数据。 | 启发式过滤、去重。 |
| L4 | 生成式精炼 | 去除噪声并修复碎片化内容。 | 基于大语言模型的噪声去除、公式修复。 |
| L5 | 认知补全 | 扩展隐含推理。 | 术语显式化、弥合逻辑间隙。 |
| L6–L9 | 合成进化 | (未来工作)模型驱动的合成。 | 创造新环境/世界。 |
📦 已发布成果
1. Darwin-Science 语料库与处理流程
高质量科学语料库及完整的数据处理方法。
- 规模: 4960 亿个经过处理的科学数据词元。
- 内容: 学术书籍、研究论文(涵盖 STEM、医学、工程学)。
- 处理: 完整的开源流程,实现了从 L0 到 L5 的层次(选择、精炼、认知补全)。
- 链接:
- 🤗 数据集地址:https://huggingface.co/datasets/GAIR/Darwin-Science
2. daVinci-Science 模型
为严格验证数据质量而从头开始预训练的基础模型,提供无污染的基线。
- 模型: daVinci-Science-3B, daVinci-Science-7B
- 目的: 用于衡量科学数据处理影响的纯净基线模型。
- 链接:
- 🤗 daVinci-Science-3B 地址:https://huggingface.co/GAIR/daVinci-origin-3B
- 🤗 daVinci-Science-7B 地址:https://huggingface.co/GAIR/daVinci-origin-7B
3. Darwin-Science-Eval 评测基准
用于领域对齐评估的综合性科学评测套件。
- 规模: 15 万个专家级评测样本。
- 来源: 具有已验证质量的、预留的科学文献。
- 链接:
- 🤗 评测数据集地址:https://huggingface.co/datasets/GAIR/Darwin-Science-Eval
📊 结果与关键发现
研究在 daVinci-Science 模型基础上,使用 Darwin-Science 语料库进行了 6000 亿词元的持续预训练。
性能提升
| 评测指标 | 3B 模型增益 | 7B 模型增益 |
|---|---|---|
| 通用基准(20+个) | +2.12 | +2.95 |
| Darwin-Science-Eval | +5.60 | +8.40 |
基于证据的指导原则
通过对照实验,确立了以下科学预训练法则:
- 层次结构至关重要: 从 L0 提升到 L5 带来了总计 +1.36 的增益,证明仅使用原始数据是不够的。
- 无饱和现象: 在 6000 亿词元的训练中,性能增益持续加速,未见收益递减迹象。
- 规模乘数效应: 较大模型(7B)比较小模型(3B)能从科学数据中提取不成比例的更多价值。
- 教师模型质量: L5 阶段教师模型的质量很重要(例如,Qwen3-235B 比 GPT-OSS-120B 带来 +0.52 的增益)。
- 黄金比例: 50% 的科学内容比例 能优化领域专业化与通用能力之间的平衡。
搜集汇总
数据集介绍

构建方式
在科学数据预训练领域,原始文献虽蕴含丰富信息,却常因隐含推理、噪声干扰及高度压缩而难以被模型有效吸收。Darwin-Science数据集的构建遵循“数据达尔文主义”框架,通过一套十级分类体系(L0-L9)系统化提升数据的可学习性。具体而言,该流程始于L0-L3阶段的基础筛选与去重,进而运用生成式精炼技术修复文本碎片并剔除噪声;核心环节则聚焦于L5级的认知补全,利用大型语言模型显式扩展术语定义、弥合逻辑断层,从而将隐含的科学推理转化为明晰表达。这一层层递进的处理策略,最终汇聚成规模达4960亿标记的高质量科学语料库。
特点
Darwin-Science数据集的核心特征在于其通过结构化处理显著提升了科学文本的信息密度与模型可学性。该数据集内容涵盖学术专著与研究论文,重点聚焦于科学、技术、工程及医学等概念密集领域。其独特价值体现在经过生成式精炼与认知补全后,文本中的噪声与模糊性得以大幅降低,逻辑链条更为完整连贯。尤为重要的是,数据集配套发布了同源评估基准与从头训练的基线模型,为科学数据质量的影响提供了纯净、可量化的验证环境。实证研究表明,基于该数据集训练的模型在专业评估中性能提升显著,且未见收益递减,印证了其处理方法的有效性。
使用方法
研究者可通过Hugging Face平台便捷获取Darwin-Science数据集及其配套资源。该数据集主要用于大规模语言模型的持续预训练,以注入深厚的科学领域知识。在实际应用中,建议遵循研究中揭示的“黄金比例”,将约50%的科学内容与通用语料混合进行训练,以在领域专业化与通用能力间取得平衡。配套的daVinci-Science基线模型为评估数据质量影响提供了无污染的对比基准,而Darwin-Science-Eval评估套件则可用于对模型科学理解能力进行领域对齐的精准测评。整个数据处理管道亦已开源,支持用户根据自身需求进行定制化调整或复现研究流程。
背景与挑战
背景概述
在人工智能领域,科学文本因其蕴含的深度概念与复杂逻辑而成为预训练模型的宝贵资源,然而原始科学数据往往因隐含推理、噪声干扰和高密度压缩而难以被模型有效学习,这一现象被称为“可学习性鸿沟”。为应对这一挑战,GAIR研究机构于近期提出了“数据达尔文主义”框架,并据此构建了Darwin-Science数据集。该数据集规模达496B令牌,涵盖STEM、医学及工程等学科的高质量学术文献,通过生成式精炼与认知补全等系统性处理,旨在提升科学数据的可学习性与信息密度,为领域专用的大模型预训练提供了关键的数据基础。
当前挑战
Darwin-Science数据集致力于解决科学领域文本预训练中的核心难题,即如何将信息丰富但隐含逻辑的原始学术数据转化为模型可高效吸收的结构化知识。其构建过程面临多重挑战:在数据选择层面,需从海量文献中筛选出高质量、低噪声的原始内容;在数据处理阶段,必须通过生成式精炼去除文本碎片与噪声,并利用认知补全技术显式化术语定义与逻辑关联,以弥合文本中的推理间隙。这些步骤要求精密的算法设计与大规模计算资源,确保处理后的数据既能保留科学严谨性,又能显著提升模型在专业评估中的性能表现。
常用场景
经典使用场景
在科学文本预训练领域,Darwin-Science数据集最经典的使用场景是作为高质量、高信息密度的语料库,用于训练或继续预训练科学领域的基础模型。该数据集通过生成式精炼和认知补全等高级处理,将原始科学文献转化为机器可高效学习的结构化知识,显著提升了模型在STEM、医学和工程等概念密集领域的理解与推理能力。研究人员常利用该数据集进行对比实验,验证数据进化层次对模型性能的影响,从而探索科学数据价值最大化的方法论。
解决学术问题
Darwin-Science数据集有效解决了科学文本预训练中的“可学习性鸿沟”问题。原始科学数据因隐含推理、噪声和高压缩性,往往难以直接用于模型训练,导致信息增益微弱。该数据集通过系统化的十级分类处理框架,特别是L4和L5层级的生成式精炼与认知补全,显式地补全了科学文本中的逻辑间隙与术语内涵,从而将数据的信息密度与可学习性提升至新高度。这为学术界提供了实证依据,证明数据质量进化是释放科学文本价值、突破领域专用模型性能瓶颈的关键路径。
衍生相关工作
围绕Darwin-Science数据集,已衍生出一系列重要的研究工作与资源体系。其提出的数据达尔文主义框架本身便是一项开创性工作,为数据处理的进化路径建立了系统化理论。基于该数据集训练的daVinci-Science模型家族(如3B与7B参数版本)提供了纯净的基线模型,用于严谨评估数据质量对模型性能的影响。此外,配套发布的完整数据处理开源管道、以及大规模科学评估基准,共同构成了一个完整的研究生态系统,激励后续工作在数据合成进化(L6-L9)、跨模态科学理解等领域持续探索。
以上内容由遇见数据集搜集并总结生成



