science-datalake

Hugging Face2026-02-19 更新2026-02-20 收录

下载链接：

https://huggingface.co/datasets/J0nasW/science-datalake

下载链接

链接失效反馈

官方服务：

资源简介：

Science Data Lake 是一个统一、便携的科学数据湖，集成了6个学术数据集（约523GB Parquet格式）和13个科学本体（130万个术语），并提供了可复现的ETL流程。数据集包含来自OpenAlex、SciSciNet、Papers With Code、Retraction Watch和Preprint-to-Paper等多个来源的学术论文数据，以及来自CSO、MeSH、GO等13个本体的术语数据。核心表unified_papers包含2.93亿行，通过DOI标准化整合了所有来源的数据，提供标题、发表年份、引用计数、颠覆指数等关键指标。数据集支持使用DuckDB直接查询，并提供了LLM/AI代理集成的结构化参考文件SCHEMA.md。每个数据组件都有特定的许可证（CC0 1.0、CC BY 4.0、CC BY-SA 4.0等），用户需遵守所使用组件的最严格许可条款。数据集适用于学术分析、文献计量学、科学学研究等任务。

创建时间：

2026-02-18

搜集汇总

数据集介绍

构建方式

在学术数据整合领域，Science Data Lake 的构建体现了多源异构数据的系统性融合。该数据集通过可复现的 ETL 管道，整合了来自 OpenAlex、SciSciNet、Papers With Code 等六个核心学术数据源，并辅以十三个科学本体。构建过程首先对原始数据进行下载与标准化处理，特别是对 DOI 进行归一化以消除跨数据集标识符的歧义。随后，通过创建统一的交叉引用表（如 unified_papers）实现实体对齐，并利用嵌入模型（BGE-large-en-v1.5）计算语义相似度，将 OpenAlex 的数千个主题映射到庞大的本体术语体系，从而建立起深度的语义关联网络。

特点

该数据集的核心特征在于其前所未有的跨源整合能力与丰富的衍生指标。它不仅聚合了数亿篇学术文献的元数据，更关键的是融合了各来源独有的量化指标，例如 SciSciNet 提供的颠覆性指数和 atypicality 分数，OpenAlex 的领域加权引用影响力，以及 Papers With Code 的代码可用性标记。这种整合使得研究者能够执行单一数据源无法支持的复杂查询，例如同时分析高颠覆性、拥有开源代码且未被撤稿的论文。此外，数据集以高效的 Parquet 列式存储格式提供，并配备了详尽的模式描述文件，极大地方便了大规模数据分析与人工智能代理的直接调用。

使用方法

对于使用者而言，该数据集提供了灵活便捷的访问与查询途径。用户可以直接通过 DuckDB 等分析引擎，利用 HTTPFS 扩展从 Hugging Face 平台远程读取 Parquet 文件进行即时查询，无需下载全部数据。对于需要完整功能的研究，可克隆其 GitHub 仓库，运行提供的命令行工具，以模块化方式下载、转换特定数据源并重建统一数据库。数据集附带的 SCHEMA.md 文件经过专门优化，能够辅助大型语言模型或 AI 编程助手理解复杂的数据模式，从而通过自然语言指令生成正确的跨表查询 SQL，显著降低了多源学术数据探索的技术门槛。

背景与挑战

背景概述

科学数据湖（Science Data Lake）作为一项整合性学术数据基础设施，由研究者Jonas Wilinski于2026年提出并构建，其核心目标在于解决学术数据孤岛问题。该数据集汇聚了OpenAlex、SciSciNet、Papers With Code等六大权威学术资源，涵盖超过2.93亿篇文献的元数据、引用网络、颠覆性指数及开源代码关联信息，并整合了13个科学本体论体系。通过跨数据集DOI标准化与语义映射技术，该平台为科学学、文献计量学及人工智能驱动的学术发现提供了前所未有的多维度分析能力，标志着开放科学数据生态从分散存储向协同智能查询的重要演进。

当前挑战

科学数据湖面临的挑战主要体现在领域问题与构建过程两个维度。在学术研究领域，该数据集需应对多源异构数据的语义对齐难题，例如如何精准映射不同知识体系中的主题分类与实体关系，以支持跨学科趋势分析与颠覆性成果识别。在技术构建层面，挑战包括海量数据（约523GB）的分布式存储与高效查询优化、差异化的数据许可协议合规性整合，以及基于嵌入模型的本体术语匹配中精度与召回率的平衡。此外，动态学术数据的实时同步与增量更新机制，也对数据管道的鲁棒性与可扩展性提出了持续要求。

常用场景

经典使用场景

在科学计量学与科学学领域，Science Data Lake数据集为跨源学术文献分析提供了典范场景。研究者通过其核心的unified_papers表，能够无缝整合来自OpenAlex、SciSciNet、Papers With Code等多个权威来源的元数据，执行诸如识别高颠覆性指数且附带开源代码的学术论文等复杂查询。这种多维度融合分析，使得深入探究论文的学术影响力、创新性及可复现性成为可能，为大规模科学知识发现奠定了坚实基础。

解决学术问题

该数据集有效应对了科学学研究中的若干核心挑战。它通过统一的DOI规范化与跨数据集连接，解决了多源学术数据孤岛问题，使得大规模、可复现的科学计量分析成为可能。其整合的颠覆性指数、非典型性评分等特色指标，为量化科学创新、识别突破性研究提供了关键工具。同时，嵌入的13个科学本体论及映射关系，极大地促进了跨学科知识关联与语义查询，推动了科学知识图谱构建与理解的前沿探索。

衍生相关工作

该数据集的发布催生了一系列围绕科学知识发现与量化研究的经典工作。基于其整合的多源指标，学者们开展了关于科学颠覆性预测、跨学科知识流动模式以及团队合作与创新产出关系的新型模型研究。其提供的标准化、LLM友好的SCHEMA.md文件，进一步促进了AI智能体在学术大数据查询与分析中的应用，衍生出基于自然语言交互的复杂科学问答系统。这些工作共同推动了数据驱动科学学这一交叉领域向更深入、更自动化方向发展。

以上内容由遇见数据集搜集并总结生成