Science Data Lake

github2026-02-19 更新2026-02-25 收录

下载链接：

https://github.com/J0nasW/science-datalake

下载链接

链接失效反馈

官方服务：

资源简介：

Science Data Lake是一个包含2.93亿篇科学论文和13个科学本体的统一数据湖，数据以Parquet文件格式存储，可通过DuckDB查询。数据集包括来自八个互补数据集的480M+科学出版物和1.3M个科学术语，覆盖多个学科领域。

Science Data Lake is a unified data lake containing 293 million scientific papers and 13 scientific ontologies. The data is stored in Parquet file format and can be queried via DuckDB. This dataset includes over 480 million scientific publications and 1.3 million scientific terms from eight complementary datasets, covering multiple academic disciplines.

创建时间：

2026-02-18

原始信息汇总

Science Data Lake 数据集概述

数据集简介

Science Data Lake 是一个集成了超过4.8亿篇科学出版物和13个科学本体论（130万个术语）的便携式数据湖。它统一了八个互补的学术数据集，并通过DuckDB提供查询接口。

核心数据集构成

数据集包含八个学术数据源和十三个科学本体论，通过148个视图分布在20多个模式中。

主要学术数据集

S2AG (Semantic Scholar)
- 包含2.31亿篇论文，29亿条带有上下文句子的引用边。
- 提供1200万篇论文的全文。
SciSciNet v2
- 包含2.5亿篇论文。
- 提供颠覆性指数、非典型性、睡美人、专利/资助链接等指标。
OpenAlex
- 包含4.79亿个作品（CC0许可），覆盖范围最广。
- 提供主题/机构层级、资助奖项信息。
Papers With Code
- 包含51.3万篇机器学习论文。
- 提供方法-任务-数据集-代码映射（存档快照）。
Retraction Watch
- 包含6.9万条撤稿/更正记录，用于数据质量标记。
Reliance on Science
- 包含4780万条专利到论文的引用记录（全球范围）。
PreprintToPaper
- 包含14.6万条bioRxiv/medRxiv预印本到出版物的映射关系。

科学本体论

包含13个本体论，总计130万个术语：

MeSH: 72.1万个生物医学术语。
ChEBI: 20.5万个化学实体。
NCIT: 20.4万个癌症/生物医学术语。
GO: 4.8万个基因本体术语。
AGROVOC: 4.2万个农业术语。
HPO: 2万个表型术语。
CSO: 1.5万个计算机科学主题。
DOID: 1.5万个疾病术语。
STW: 8000个经济学术语。
MSC2020: 7000个数学术语。
UNESCO: 4500个术语。
PhySH: 4000个物理学术语。
EDAM: 3500个生物信息学术语。

数据快照日期

各数据源的快照时间点如下：

数据集	快照 / 发布日期
OpenAlex	2026-02-03
S2AG (Semantic Scholar)	2025-12-05
SciSciNet v2	2024-11-01
Papers With Code	2025-07
Retraction Watch	2025-02
Reliance on Science	v64
PreprintToPaper	2025-06
13 Ontologies	2026-02

技术架构与存储

所有数据以Parquet文件形式存储在磁盘上（约960 GB）。
datalake.duckdb 文件（约268KB）仅存储指向这些文件的视图定义。
架构映射关系：
- s2ag.* → datasets/s2ag/parquet/**/*.parquet (437 GB)
- sciscinet.* → datasets/sciscinet/{core,large}/*.parquet (151 GB)
- openalex.* → datasets/openalex/parquet/**/*.parquet (262 GB)
- pwc.* → datasets/paperswithcode/parquet/*.parquet (6.2 GB)
- retwatch.* → datasets/retractionwatch/parquet/*.parquet (70 MB)
- ros.* → datasets/reliance_on_science/parquet/*.parquet (2.7 GB)
- p2p.* → datasets/preprint_to_paper/parquet/*.parquet (735 MB)
- {ont}.* → datasets/{ont}/parquet/*.parquet (13个本体论，56 MB)
- xref.doi_map → 跨数据集的联合视图（标准化DOI，5.88亿行）

数据集选择指南

需求	最佳数据集	原因
引用上下文和意图	S2AG	唯一提供文内引用句子的数据集
论文全文	S2AG (s2orc)	1200万篇开放获取论文的正文
AI论文摘要	S2AG (tldrs)	7000万个单句TLDR摘要
颠覆性/新颖性指标	SciSciNet	CD指数、非典型性、睡美人指标
标准化引用影响力	SciSciNet	领域-年份标准化分数、高被引论文标志
专利/资助链接	SciSciNet + RoS	SciSciNet: NIH/NSF链接；RoS: 4780万条全球专利-论文引用
最广的论文覆盖	OpenAlex	4.79亿个作品，CC0许可
主题/领域层级	OpenAlex	4级：领域 -> 领域 -> 子领域 -> 主题
机构地理编码	OpenAlex	12.1万个带经纬度的机构
带金额的资助奖项	OpenAlex	1170万个带金额和PI的奖项
ML方法、任务、代码	Papers With Code	方法-任务-数据集映射，GitHub仓库
撤稿标记	Retraction Watch	6.9万条可通过DOI连接的撤稿记录
预印本追踪	PreprintToPaper	14.6万条带时间的预印本-出版物映射
生物医学术语	MeSH	72.1万个术语，标准医学词汇表
化学化合物	ChEBI	20.5万个带层级的化学实体
癌症术语	NCIT	20.4万个癌症/生物医学术语
生物过程	GO	4.8万个基因本体术语
疾病分类	DOID	1.45万个带交叉引用的疾病术语
CS主题本体论	CSO	1.46万个带层级的CS主题
人类表型	HPO	2万个表型术语
所有本体论	13个模式	`{ont}.{ont}_terms` — 可搜索、浏览、交叉链接

跨数据集链接

DOI链接与格式差异

数据集可通过DOI链接，但格式不同：

数据集	DOI列	格式	示例
S2AG	`papers.doi`	小写，无前缀	`10.1038/nature12373`
SciSciNet	`papers.doi`	小写，带前缀	`https://doi.org/10.1038/nature12373`
OpenAlex	`works.doi`	小写，带前缀	`https://doi.org/10.1038/nature12373`
Retraction Watch	`original_paper_doi`	小写，无前缀	`10.1038/nature12373`
PreprintToPaper	`biorxiv_doi`	小写，无前缀	`10.1101/2020.01.01.123456`

xref.doi_map 视图将所有数据集的DOI标准化为无前缀格式（7个来源，5.88亿行）。

其他连接键

SciSciNet paperid 等于 OpenAlex 作品 ID（无URL前缀）。
PWC openalex_work_id 需要添加前缀：https://openalex.org/ || openalex_work_id。
RoS oaid 是纯数字：W || CAST(oaid AS VARCHAR) 用于与 SciSciNet 连接。

预构建的交叉引用表

表	行数	描述
`xref.unified_papers`	2.93亿	预连接表，包含所有来源的覆盖标志
`xref.topic_ontology_map`	1.62万	通过BGE-large-en-v1.5嵌入将OpenAlex主题映射到本体术语（99.8%主题覆盖率）
`xref.ontology_bridges`	1800	通过共享外部ID（UMLS、Wikidata等）建立的跨本体链接

许可信息

数据集	许可证
S2AG	Semantic Scholar Dataset License（非商业研究使用）
SciSciNet	CC BY 4.0
OpenAlex	CC0 1.0
Papers With Code	CC BY-SA 4.0
MeSH	公共领域
GO, ChEBI, NCIT, EDAM, CSO, PhySH	CC BY 4.0
DOID	CC0 1.0
AGROVOC	CC BY 3.0 IGO
UNESCO Thesaurus	CC BY-SA 3.0 IGO
STW	CC BY 4.0
HPO	自定义（研究免费）
MSC 2020	CC BY-NC-SA 4.0（非商业）
Retraction Watch	开放（通过Crossref）
Reliance on Science	CC BY-NC 4.0（非商业使用）
PreprintToPaper	开放获取