HainaWeb-Sci

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/ZhejiangLab/HainaWeb-Sci

下载链接

链接失效反馈

官方服务：

资源简介：

HainaWeb-Sci是一个约1.1万亿标记的科学网络语料库，旨在增强大型语言模型（LLM）训练中的科学知识获取和推理能力。它通过专门为科学数据设计的数据中心化处理流程构建，提高了科学内容的密度，保留了数学表达式等复杂结构，并支持跨14个主要科学领域的细粒度、学科感知的数据选择。数据集包含约7.09亿个经过高度筛选的科学文档，每个样本包含主文本内容、标准网络元数据和专业注释。适用于非商业和研究用途，包括LLM的预训练和持续预训练、科学知识增强和推理研究等。

HainaWeb-Sci is a scientific web corpus with approximately 1.1 trillion tokens, designed to enhance scientific knowledge acquisition and reasoning capabilities in large language model (LLM) training. Unlike general web corpora that contain a large amount of non-scientific and low-information content, HainaWeb-Sci is constructed through a data-centric processing pipeline specifically designed for scientific data. This pipeline increases the density of scientific content, preserves complex structures such as mathematical expressions, and supports fine-grained, discipline-aware data selection across 14 major scientific fields. The dataset contains approximately 709 million highly filtered scientific documents, each including main text content, standard web metadata, and specialized annotations generated by the HainaWeb-Sci pipeline. Experimental results show that models trained with HainaWeb-Sci perform well on both scientific and general tasks. The dataset is suitable for non-commercial and research purposes, including pre-training and continuous pre-training of LLMs, scientific knowledge enhancement, and reasoning research.

创建时间：

2026-04-23

原始信息汇总

HainaWeb-Sci 数据集概述

1. 基本信息

数据集名称：HainaWeb-Sci
发布机构：浙江实验室（Zhejiang Lab）
托管地址：https://huggingface.co/datasets/ZhejiangLab/HainaWeb-Sci
许可证：ODC-BY 1.0（仅限非商业和研究用途）
数据规模：约 7.09 亿篇科学文档，约 1.1 万亿 token

2. 数据集来源

数据源：Common Crawl（包括 DCLM-Pool 和原始 CC 转储）
时间范围：2013 年至 2026 年 3 月
快照总数：119 个（DCLM-Pool 89 个 + 30 个近期转储）
原始大小：420.03 TB
语言覆盖：仅英语

3. 数据集构建流程

构建流程包含四个阶段：

阶段	名称	描述
阶段 1	数据准备	WARC 解析、文本提取、URL 过滤、语言识别
阶段 2	质量过滤	结合规则和模型过滤，保留科学内容（符号表达式和结构化推理）
阶段 3	去重	大规模移除冗余内容，提升多样性和训练效率
阶段 4	学科精选	14 个学科的细粒度分类和科学价值评分，量化数据选择信号

4. 学科分布统计

学科	文档数量	Token 数量
航空航天工程	7,638,646	11,285,734,579
农业	55,509,673	78,295,877,326
天文学	15,171,521	22,406,970,881
生物学	84,194,634	142,608,058,092
化学	16,606,788	24,687,209,288
土木工程	23,260,029	30,724,438,084
计算机科学	106,278,369	176,647,687,232
地球科学	26,343,595	41,570,885,808
电气电子工程	61,299,493	87,361,878,842
材料科学	12,787,109	16,345,951,476
数学	26,343,160	43,748,404,680
机械工程	22,630,215	31,550,743,108
医学	229,017,072	340,629,530,275
物理学	22,405,869	39,277,936,976
总计	709,486,173	1,087,141,306,647

5. 数据样本结构

每个样本包含三个主要字段：

text（字符串）：主要文本内容
metadata（字典）：标准 Web 元数据
- Content-Length、Content-Type、WARC-Date、WARC-Target-URI 等
websci_meta（字典）：HainaWeb-Sci 管道生成的专用标注
- language：检测语言及置信度
- discipline：14 个核心 STEM 学科的细粒度多标签分类及概率
- model_quality_score：基于 fastText 的内容质量评分
- sci_quality_score：FineScience 生成的科学价值评分（0-5 分）

6. 实验评估结果

评估设置

模型：Qwen2.5-0.5B（从零训练）
训练数据：400 亿 token
数据混合策略：DCLM : HainaWeb-Sci = 5 : 5

主要性能对比

能力维度	DCLM 100%	FineWeb-Edu 混合 (50%)	HainaWeb-Sci 混合 (50%)	相对增益
综合科学（8 项任务）	21.96	23.02	23.67	+7.79%
学科特定科学（15 项任务）	16.60	17.38	18.04	+8.67%
通用能力（11 项任务）	27.11	27.04	28.08	+3.58%
总平均	21.89	22.48	23.26	+6.26%

关键发现

科学任务提升显著（综合科学 +7.79%，学科特定 +8.67%）
优于教育类语料（FineWeb-Edu），额外提升 +3.47%
通用能力不降反升（+3.58%），表明高质量科学数据不会损害通用能力

7. 使用方式

快速加载（Python）

python from datasets import load_dataset

加载特定学科子集

ds = load_dataset("ZhejiangLab/HainaWeb-Sci", data_files="Web-Sci_AerospaceEngineering_*.jsonl.gz", split="train")

查看文本内容与科学质量评分

print("Text Content: ", ds[0][text][:500], "... ") print("Scientific Quality Score:", ds[0][websci_meta][sci_quality_score])

禁止用途

生成有害、误导或非法内容
侵犯知识产权或违反数据保护法律
训练用于恶意或高风险应用的系统
任何与适用法律或伦理AI原则相冲突的使用

搜集汇总

数据集介绍

构建方式

HainaWeb-Sci的构建遵循一条以数据为中心的精密流水线，始于原始网络数据的获取与标准化处理。通过WARC解析、文本提取、URL过滤及语言识别，原始数据被转化为一致的文本基础。随后，流水线融合基于规则与基于模型的过滤策略，旨在精准保留富含科学语义的内容，尤其是符号表达式与结构化推理。在去重阶段，大规模移除冗余信息以提升语料库的多样性与训练效率。最终，通过引入细粒度的学科分类与科学价值评分机制，HainaWeb-Sci实现了跨越14个学科领域的结构化知识组织，并提供了用于数据选择的定量信号。

使用方法

使用者可通过Hugging Face Datasets库便捷加载HainaWeb-Sci。例如，利用`load_dataset`函数指定学科子集（如航空航天工程）的JSONL文件即可获取数据。每个样本包含原始文本、标准网络元数据以及流水线生成的专业注释信息，包括语言置信度、学科分类结果、通用质量分数与科学价值评分。为平衡科学性与通用性，推荐采用约50%的HainaWeb-Sci与通用语料库（如DCLM）进行混合训练，这一配比已被验证可在多个基准上取得最优综合性能。数据集仅供非商业研究用途，遵循ODC-BY 1.0许可协议。

背景与挑战

背景概述

随着大语言模型（LLM）在科学推理与知识获取领域展现出巨大潜力，训练数据的质量与领域适配性成为制约模型性能的关键瓶颈。通用网络语料虽规模庞大，却充斥着大量非科学及低信息密度内容，难以满足科学任务的深层需求。为应对这一挑战，之江实验室于2026年发布了HainaWeb-Sci数据集，这是一个约1.1万亿词元规模的科学网络语料库，由研究人员通过数据驱动的精心策展流程构建而成。该数据集覆盖14个主要学科，并设计了包括质量过滤、去重及学科细粒度筛选在内的四阶段流水线，旨在提升科学内容密度并保留数学表达式等复杂结构。实验表明，基于HainaWeb-Sci训练的模型在科学任务上平均提升6.26%，同时未牺牲通用能力，这使其成为科学语言模型预训练领域的重要资源，对推动数据中心的语料构建方法具有深远影响。

当前挑战

HainaWeb-Sci数据集所面临的挑战首先体现在领域问题的复杂性上：通用语料库中科学内容稀疏且噪声高，传统过滤方法难以区分高质量科学文档与一般技术文本，尤其需要保留符号表达式与结构化推理内容，这对规则与模型结合的自定义策展流程提出了极高要求。此外，构建过程中遭遇多重技术挑战：原始Common Crawl数据跨越2013至2026年，涉及119个快照、420TB原始数据，需通过WARC解析、URL过滤、语言识别等步骤实现高效文本提取；大规模去重需在709亿文档层级上实现严格的学科内精确去重，以防范记忆效应；学科分类与科学价值评分需依赖如SciPrism与FineScience等专用工具，确保细粒度且跨学科的标注精度，这要求在计算资源与算法效率间取得平衡。

常用场景

经典使用场景

在大型语言模型的预训练与持续预训练研究中，HainaWeb-Sci被广泛用作富含科学知识的语料来源。其经典用法是将该数据集与通用网络语料按一定比例混合，以提升模型在科学推理、数学计算及多学科知识理解方面的综合能力。实验表明，采用50%的HainaWeb-Sci与通用语料混合训练，可在不牺牲通用任务性能的前提下，显著增强模型在航空航天、生物学、医学等14个尖端学科领域的表现。这一策略为构建兼具科学专精与通用能力的语言模型提供了标准化范例。

解决学术问题

该数据集核心解决了大型语言模型在科学知识获取与逻辑推理方面的结构性短板。传统网络语料存在大量非科学、低信息密度的内容，而HainaWeb-Sci通过数据为中心的筛选流水线，有效剔除噪声，保留数学表达式、结构化推理等关键科学要素。其解决的关键学术问题包括：如何在万亿量级语料中实现学科感知的细粒度数据选择？科学数据与通用数据如何平衡以最大化协同效益？该数据集通过实验证明，合理的科学语料配比能使科学基准任务相对提升8.67%，同时推动通用任务进步3.58%，为语言模型的科学化训练提供了理论依据与实践路径。

实际应用

在真实应用层面，HainaWeb-Sci可被直接用于训练面向科研辅助、学术检索与知识问答的专用语言模型。例如，在生物医学领域，基于该数据集训练的模型能更准确地解析临床文献中的专业术语与数据关系；在工程学科中，其可助力自动生成符合学术规范的综述摘要。此外，该数据集尤其适用于构建多学科交叉的智能辅导系统，帮助学生理解复杂科学概念，以及辅助研究人员快速提炼海量文献中的核心洞见。其开放许可（ODC-BY 1.0）进一步降低了学术界与工业界在合规框架内的使用门槛。

数据集最近研究