Science Data Lake
收藏github2026-02-19 更新2026-02-25 收录
下载链接:
https://github.com/J0nasW/science-datalake
下载链接
链接失效反馈官方服务:
资源简介:
Science Data Lake是一个包含2.93亿篇科学论文和13个科学本体的统一数据湖,数据以Parquet文件格式存储,可通过DuckDB查询。数据集包括来自八个互补数据集的480M+科学出版物和1.3M个科学术语,覆盖多个学科领域。
Science Data Lake is a unified data lake containing 293 million scientific papers and 13 scientific ontologies. The data is stored in Parquet file format and can be queried via DuckDB. This dataset includes over 480 million scientific publications and 1.3 million scientific terms from eight complementary datasets, covering multiple academic disciplines.
创建时间:
2026-02-18
原始信息汇总
Science Data Lake 数据集概述
数据集简介
Science Data Lake 是一个集成了超过4.8亿篇科学出版物和13个科学本体论(130万个术语)的便携式数据湖。它统一了八个互补的学术数据集,并通过DuckDB提供查询接口。
核心数据集构成
数据集包含八个学术数据源和十三个科学本体论,通过148个视图分布在20多个模式中。
主要学术数据集
- S2AG (Semantic Scholar)
- 包含2.31亿篇论文,29亿条带有上下文句子的引用边。
- 提供1200万篇论文的全文。
- SciSciNet v2
- 包含2.5亿篇论文。
- 提供颠覆性指数、非典型性、睡美人、专利/资助链接等指标。
- OpenAlex
- 包含4.79亿个作品(CC0许可),覆盖范围最广。
- 提供主题/机构层级、资助奖项信息。
- Papers With Code
- 包含51.3万篇机器学习论文。
- 提供方法-任务-数据集-代码映射(存档快照)。
- Retraction Watch
- 包含6.9万条撤稿/更正记录,用于数据质量标记。
- Reliance on Science
- 包含4780万条专利到论文的引用记录(全球范围)。
- PreprintToPaper
- 包含14.6万条bioRxiv/medRxiv预印本到出版物的映射关系。
科学本体论
包含13个本体论,总计130万个术语:
- MeSH: 72.1万个生物医学术语。
- ChEBI: 20.5万个化学实体。
- NCIT: 20.4万个癌症/生物医学术语。
- GO: 4.8万个基因本体术语。
- AGROVOC: 4.2万个农业术语。
- HPO: 2万个表型术语。
- CSO: 1.5万个计算机科学主题。
- DOID: 1.5万个疾病术语。
- STW: 8000个经济学术语。
- MSC2020: 7000个数学术语。
- UNESCO: 4500个术语。
- PhySH: 4000个物理学术语。
- EDAM: 3500个生物信息学术语。
数据快照日期
各数据源的快照时间点如下:
| 数据集 | 快照 / 发布日期 |
|---|---|
| OpenAlex | 2026-02-03 |
| S2AG (Semantic Scholar) | 2025-12-05 |
| SciSciNet v2 | 2024-11-01 |
| Papers With Code | 2025-07 |
| Retraction Watch | 2025-02 |
| Reliance on Science | v64 |
| PreprintToPaper | 2025-06 |
| 13 Ontologies | 2026-02 |
技术架构与存储
- 所有数据以Parquet文件形式存储在磁盘上(约960 GB)。
datalake.duckdb文件(约268KB)仅存储指向这些文件的视图定义。- 架构映射关系:
s2ag.*→datasets/s2ag/parquet/**/*.parquet(437 GB)sciscinet.*→datasets/sciscinet/{core,large}/*.parquet(151 GB)openalex.*→datasets/openalex/parquet/**/*.parquet(262 GB)pwc.*→datasets/paperswithcode/parquet/*.parquet(6.2 GB)retwatch.*→datasets/retractionwatch/parquet/*.parquet(70 MB)ros.*→datasets/reliance_on_science/parquet/*.parquet(2.7 GB)p2p.*→datasets/preprint_to_paper/parquet/*.parquet(735 MB){ont}.*→datasets/{ont}/parquet/*.parquet(13个本体论,56 MB)xref.doi_map→ 跨数据集的联合视图(标准化DOI,5.88亿行)
数据集选择指南
| 需求 | 最佳数据集 | 原因 |
|---|---|---|
| 引用上下文和意图 | S2AG | 唯一提供文内引用句子的数据集 |
| 论文全文 | S2AG (s2orc) | 1200万篇开放获取论文的正文 |
| AI论文摘要 | S2AG (tldrs) | 7000万个单句TLDR摘要 |
| 颠覆性/新颖性指标 | SciSciNet | CD指数、非典型性、睡美人指标 |
| 标准化引用影响力 | SciSciNet | 领域-年份标准化分数、高被引论文标志 |
| 专利/资助链接 | SciSciNet + RoS | SciSciNet: NIH/NSF链接;RoS: 4780万条全球专利-论文引用 |
| 最广的论文覆盖 | OpenAlex | 4.79亿个作品,CC0许可 |
| 主题/领域层级 | OpenAlex | 4级:领域 -> 领域 -> 子领域 -> 主题 |
| 机构地理编码 | OpenAlex | 12.1万个带经纬度的机构 |
| 带金额的资助奖项 | OpenAlex | 1170万个带金额和PI的奖项 |
| ML方法、任务、代码 | Papers With Code | 方法-任务-数据集映射,GitHub仓库 |
| 撤稿标记 | Retraction Watch | 6.9万条可通过DOI连接的撤稿记录 |
| 预印本追踪 | PreprintToPaper | 14.6万条带时间的预印本-出版物映射 |
| 生物医学术语 | MeSH | 72.1万个术语,标准医学词汇表 |
| 化学化合物 | ChEBI | 20.5万个带层级的化学实体 |
| 癌症术语 | NCIT | 20.4万个癌症/生物医学术语 |
| 生物过程 | GO | 4.8万个基因本体术语 |
| 疾病分类 | DOID | 1.45万个带交叉引用的疾病术语 |
| CS主题本体论 | CSO | 1.46万个带层级的CS主题 |
| 人类表型 | HPO | 2万个表型术语 |
| 所有本体论 | 13个模式 | {ont}.{ont}_terms — 可搜索、浏览、交叉链接 |
跨数据集链接
DOI链接与格式差异
数据集可通过DOI链接,但格式不同:
| 数据集 | DOI列 | 格式 | 示例 |
|---|---|---|---|
| S2AG | papers.doi |
小写,无前缀 | 10.1038/nature12373 |
| SciSciNet | papers.doi |
小写,带前缀 | https://doi.org/10.1038/nature12373 |
| OpenAlex | works.doi |
小写,带前缀 | https://doi.org/10.1038/nature12373 |
| Retraction Watch | original_paper_doi |
小写,无前缀 | 10.1038/nature12373 |
| PreprintToPaper | biorxiv_doi |
小写,无前缀 | 10.1101/2020.01.01.123456 |
xref.doi_map 视图将所有数据集的DOI标准化为无前缀格式(7个来源,5.88亿行)。
其他连接键
- SciSciNet
paperid等于 OpenAlex 作品 ID(无URL前缀)。 - PWC
openalex_work_id需要添加前缀:https://openalex.org/ || openalex_work_id。 - RoS
oaid是纯数字:W || CAST(oaid AS VARCHAR)用于与 SciSciNet 连接。
预构建的交叉引用表
| 表 | 行数 | 描述 |
|---|---|---|
xref.unified_papers |
2.93亿 | 预连接表,包含所有来源的覆盖标志 |
xref.topic_ontology_map |
1.62万 | 通过BGE-large-en-v1.5嵌入将OpenAlex主题映射到本体术语(99.8%主题覆盖率) |
xref.ontology_bridges |
1800 | 通过共享外部ID(UMLS、Wikidata等)建立的跨本体链接 |
许可信息
| 数据集 | 许可证 |
|---|---|
| S2AG | Semantic Scholar Dataset License(非商业研究使用) |
| SciSciNet | CC BY 4.0 |
| OpenAlex | CC0 1.0 |
| Papers With Code | CC BY-SA 4.0 |
| MeSH | 公共领域 |
| GO, ChEBI, NCIT, EDAM, CSO, PhySH | CC BY 4.0 |
| DOID | CC0 1.0 |
| AGROVOC | CC BY 3.0 IGO |
| UNESCO Thesaurus | CC BY-SA 3.0 IGO |
| STW | CC BY 4.0 |
| HPO | 自定义(研究免费) |
| MSC 2020 | CC BY-NC-SA 4.0(非商业) |
| Retraction Watch | 开放(通过Crossref) |
| Reliance on Science | CC BY-NC 4.0(非商业使用) |
| PreprintToPaper | 开放获取 |
相关文档
- README.md: 概述和操作指南。
- SCHEMA.md: 完整的表/列参考,专为LLM和AI智能体设计。
- CATALOG.md: 详细查询、特性说明和叙述性文档。
- datasets/*/meta.json: 每个数据集的机器可读元数据。
搜集汇总
数据集介绍
构建方式
在科学文献数据整合领域,Science Data Lake 的构建体现了系统化的数据工程方法。该数据集通过整合八个互补的学术数据集和十三个科学本体,形成了一个统一的数据湖。其核心架构采用 DuckDB 作为查询接口,数据以 Parquet 文件形式存储于磁盘,而数据库文件仅包含指向这些文件的视图定义。这种设计确保了数据集的完全可移植性,用户只需挂载存储驱动器并重新生成视图即可进行查询。数据整合过程涵盖了从语义学者、SciSciNet、OpenAlex 等多个权威来源获取的超过四亿八千万篇科学出版物,并通过详细的更新管道支持数据快照的定期刷新。
特点
Science Data Lake 的显著特点在于其规模宏大且内容多元。数据集不仅囊括了海量的科学出版物记录,还集成了丰富的元数据,如引用上下文、颠覆性指数、专利链接以及完整的科学本体术语体系。其跨数据集链接能力尤为突出,通过统一的 DOI 映射视图和预构建的交叉引用表,实现了不同数据源间的无缝关联。此外,数据集特别注重对大型语言模型和智能体集成的支持,提供了结构化的 SCHEMA.md 文件作为查询指南,使得人工智能系统能够无需先验知识即可编写准确的跨库查询语句。
使用方法
对于研究人员而言,使用 Science Data Lake 主要通过 DuckDB 接口进行。用户可以通过 Python 连接数据库并执行 SQL 查询,或使用配套的命令行工具进行状态检查、信息查询和交互式操作。数据集针对不同的研究需求提供了明确的数据源选择指南,例如,研究引用意图可优先使用 S2AG 数据,而分析科学颠覆性则推荐 SciSciNet。日常操作包括更新数据快照、物化统一交叉引用表以及导出元数据等。数据集的设计充分考虑了可维护性,通过模块化的更新脚本能够便捷地保持数据湖的时效性。
背景与挑战
背景概述
Science Data Lake 数据集由研究人员 Jonas W. 于近期构建并发布,旨在整合多源异构的科学文献与知识本体,形成一个统一、可查询的便携式数据湖。该数据集汇聚了来自八个核心学术数据库的超过四亿八千万篇科学出版物,并融合了十三个涵盖生物医学、化学、计算机科学等领域的科学本体,总计包含一百三十万个术语。其核心研究问题聚焦于解决科学信息学中数据孤岛与跨领域知识关联的难题,通过 DuckDB 接口提供高效查询,为大规模科学计量分析、文献挖掘以及人工智能驱动的科研探索提供了前所未有的数据基础设施。这一集成化努力显著提升了跨数据集研究的可行性与效率,对推动开放科学和计算文献学的发展具有深远影响。
当前挑战
该数据集致力于解决科学文献挖掘与知识发现中的核心挑战,即如何从分散、异构且规模庞大的数据源中实现高效、准确的信息融合与关联查询。具体挑战体现在两方面:其一,在领域问题层面,需克服不同数据源在文献标识符(如 DOI 格式)、元数据架构、许可协议及数据质量上的显著差异,以实现跨库的精准实体链接与一致性分析;其二,在构建过程中,面临大规模数据(约 960 GB)的获取、清洗、标准化与集成技术挑战,包括设计可扩展的更新管道以保持数据时效性,以及创建面向大型语言模型的标准化模式描述(SCHEMA.md),以支持智能代理进行无歧义的自动化查询生成。
常用场景
经典使用场景
在科学计量学与文献信息学领域,Science Data Lake 数据集最经典的使用场景在于跨源学术文献的整合分析。研究者通过其统一的 DuckDB 接口,能够高效查询来自八个互补学术数据库的超过四亿八千万篇科学出版物,并结合十三个科学本体论体系,实现多维度、跨领域的文献计量研究。这种集成架构特别适用于大规模学术影响力分析、学科交叉趋势探测以及科学知识图谱的构建,为宏观层面的科研评价与政策制定提供了坚实的数据基础。
衍生相关工作
基于 Science Data Lake 丰富而统一的数据基础,已衍生出多个方向的经典研究工作。在科学学领域,研究者利用其整合的颠覆性指数与引用上下文数据,对科学突破的产生机制与传播模式进行了更精细的建模。在人工智能辅助科研方面,其结构化模式描述文件(SCHEMA.md)已成为训练或引导AI智能体进行科学文献复杂查询的基准资源。此外,结合多个本体论的知识映射研究,如利用其预构建的‘主题-本体映射表’进行跨学科概念关联分析,也催生了一系列关于科学知识结构演化的新方法与新发现。
数据集最近研究
最新研究方向
在科学计量学与开放科学蓬勃发展的背景下,Science Data Lake数据集凭借其整合的4.8亿余篇科学出版物与13个科学本体,正成为跨领域知识发现与人工智能驱动研究的前沿平台。当前研究聚焦于利用其统一的DuckDB接口与预构建的交叉引用表,开发能够理解复杂科学语义的大型语言模型智能体。这些智能体通过SCHEMA.md等结构化参考,可自主执行跨数据集查询,例如识别高颠覆性论文与开源代码的关联,或追踪从预印本到专利的完整科学影响力链条。该数据集通过融合颠覆性指数、引文语境及本体术语,为量化科学创新动态、构建领域知识图谱以及实现自动化文献综述提供了前所未有的规模化基础设施,深刻影响着科学学与科研信息学的范式演进。
以上内容由遇见数据集搜集并总结生成



