five

OpenAlex

收藏
Hugging Face2026-02-01 更新2026-02-02 收录
下载链接:
https://huggingface.co/datasets/Mearman/OpenAlex
下载链接
链接失效反馈
官方服务:
资源简介:
OpenAlex图索引与切片存储库是一个基于OpenAlex学术知识图谱的预处理、索引化和切片化数据集。该数据集旨在支持高效的客户端图形探索与可视化,包含原始OpenAlex快照(位于snapshot/目录)及由此衍生的处理后的图索引和切片集(位于index/、layout/、tiles/目录)。数据集涵盖多种实体类型,包括学术作品(约4.49亿条)、作者(约1.08亿条)、机构(102,709条)、期刊/资源库(255,250条)、主题概念(65,026条)等。数据以JSONL.gz和二进制格式存储,包含紧凑实体索引、完整OpenAlex API记录、空间索引、布局坐标和边缘切片等多种形式。数据集适用于学术知识图谱可视化、实体解析、引文分析等任务,采用CC0-1.0许可协议开放使用。

The OpenAlex Graph Index and Tile Repository is a preprocessed, indexed, and tiled dataset based on the OpenAlex academic knowledge graph. This dataset aims to support efficient client-side graph exploration and visualization, and includes the raw OpenAlex snapshot (stored in the snapshot/ directory) as well as the derived processed graph indexes and tile sets (stored in the index/, layout/, and tiles/ directories). The dataset covers multiple entity types, including approximately 449 million scholarly works, 108 million authors, 102,709 institutions, 255,250 journals/repositories, 65,026 topic concepts, and more. The data is stored in JSONL.gz and binary formats, and includes multiple forms such as compact entity indexes, full OpenAlex API records, spatial indexes, layout coordinates, and edge tiles. The dataset is applicable to tasks such as academic knowledge graph visualization, entity resolution, and citation analysis, and is openly available under the CC0-1.0 license.
创建时间:
2026-02-01
原始信息汇总

OpenAlex 数据集概述

数据集基本信息

  • 数据集名称: OpenAlex Dataset
  • 数据集地址: https://huggingface.co/datasets/Mearman/OpenAlex
  • 数据来源: 完整镜像 OpenAlex 学术知识图谱,并包含预构建的图索引和用于客户端可视化的切片存储库。
  • 上游数据: snapshot/ 目录是 OpenAlex S3 快照 的镜像,上游快照大约每月更新一次。
  • 数据许可: 底层 OpenAlex 数据为 CC0 (公共领域) 许可。此处理后的衍生作品以相同许可发布。
  • 引用信息:

    Priem, J., Piwowar, H., & Orr, R. (2022). OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts. ArXiv. https://arxiv.org/abs/2205.01833

数据子集与配置

快照记录 (完整的 OpenAlex 数据)

配置 拆分 记录数 描述
complete records ~5.83亿 所有实体类型合并
works (默认) records ~4.49亿 学术成果——论文、文章、书籍、数据集
authors records ~1.08亿 包含隶属关系和指标的作者档案
institutions records ~10.3万 大学、研究所、医院
sources records ~25.5万 期刊、存储库、会议
topics records ~4.5千 研究主题 (自动分类)
subfields records 252 学术子领域
fields records 26 学术领域
domains records 4 顶级领域
concepts records ~6.5万 主题概念 (旧版,已被 topics 取代)
funders records ~3.2万 资助机构
publishers records ~1.1万 出版公司
  • 记录格式: 每条记录都是完整的 OpenAlex JSON,匹配 REST API 模式。字段因实体类型而异。
  • 源文件: 来自 OpenAlex S3 快照 (2026年1月) 的 gzip 压缩 JSON Lines 文件,按日期分区存储在 snapshot/<实体>/YYYY-MM-DD/ 下。

图索引 (紧凑 ID)

配置 拆分 记录数 模式 描述
index works ~4.49亿 {id, n} 紧凑整数 ID + 标题
authors ~1.08亿 {id, n} 紧凑整数 ID + 名称
institutions ~10.3万 {id, n} 紧凑整数 ID + 名称
sources ~25.5万 {id, n} 紧凑整数 ID + 名称
topics ~4.5千 {id, n} 紧凑整数 ID + 名称
subfields 252 {id, n} 紧凑整数 ID + 名称
fields 26 {id, n} 紧凑整数 ID + 名称
domains 4 {id, n} 紧凑整数 ID + 名称
concepts ~6.5万 {id, n} 紧凑整数 ID + 名称
funders ~3.2万 {id, n} 紧凑整数 ID + 名称
publishers ~1.1万 {id, n} 紧凑整数 ID + 名称
  • 描述: 由流水线生成的紧凑 ID (从0开始的整数),映射自 OpenAlex ID。供图可视化和切片系统内部使用。

实用配置

配置 拆分 模式 描述
search records {w, ids} 倒排词索引——将小写标记映射到紧凑实体 ID
names records {id, name} 按紧凑 ID 键控的显示名称,为切片服务分片

快速开始示例

python from datasets import load_dataset

加载完整的 OpenAlex 成果记录

works = load_dataset("Mearman/OpenAlex", "works", split="records")

流式传输完整数据集 (所有实体类型,约 434 GB 压缩)

ds = load_dataset("Mearman/OpenAlex", "complete", split="records", streaming=True)

加载单个小型实体类型

topics = load_dataset("Mearman/OpenAlex", "topics", split="records")

加载作者的紧凑图索引

authors_index = load_dataset("Mearman/OpenAlex", "index", split="authors")

搜索索引

search = load_dataset("Mearman/OpenAlex", "search", split="records")

存储库结构概览

snapshot/ # 原始 OpenAlex 快照 (gzip 压缩 JSONL,按日期分区) ├── works/ # ~4.49亿学术成果 (~750 GB 压缩) ├── authors/ # ~1.08亿作者档案 (~64 GB 压缩) ├── institutions/ # 10.3万机构 ├── sources/ # 25.5万期刊/存储库 ├── concepts/ # 6.5万主题概念 ├── topics/ # 4.5千主题 ├── funders/ # 3.2万资助者 ├── publishers/ # 1.1万出版商 ├── domains/ # 4个顶级领域 ├── fields/ # 26个领域 └── subfields/ # 252个子领域

index/ ├── entities/ # 小型实体类型 (JSONL.gz: {id, n}) ├── mappings/ # 二进制 ID 映射 (OpenAlex ID → 紧凑 ID) ├── authors/ # 作者索引 (104 个分片,JSONL.gz) ├── works/ # 成果索引 (1,098 个分片,JSONL.gz) ├── edges/ # 引用 + 合作边 (邻接列表) ├── adj/ # 压缩邻接分片 └── search/ # 实体搜索的倒排词索引

layout/ ├── coords-2d.bin # 2D 力导向布局坐标 ├── coords-3d.bin # 3D 力导向布局坐标 ├── layout-2d.json # 布局元数据 ├── layout-3d.json └── density-2d.png # 4K 密度可视化

tiles/ ├── manifest.json ├── lod/{dim}d/ # 包含嵌入坐标的细节层次 ├── nodes/ # 按紧凑 ID 范围的实体元数据 ├── coords/{dim}d/ # 按紧凑 ID 范围的位置数据 ├── spatial/{dim}d/ # 空间索引 (Z-order 曲线切片) ├── edges/ # 按源紧凑 ID 范围的边切片 ├── lookup/ # 紧凑 ID ↔ OpenAlex ID 映射 ├── names/ # 显示名称分片 ├── search/ # 从 index/search 符号链接 └── adj/ # 从 index/adj 符号链接

数据处理流水线

  1. 下载 — 通过 rclone 同步 S3 快照
  2. 提取 — 使用 isal 加速的 gzip 解压
  3. 索引 — 并行实体索引、ID 映射、边提取、搜索索引
  4. 布局 — 多级粗化 + Barnes-Hut 力导向模拟 (2D 和 3D)
  5. 切片 — 维度无关的空间切片,用于渐进式客户端加载

当前状态

🚧 进行中 — 原始快照和索引已上传。布局和切片将在流水线作业完成后添加。

搜集汇总
数据集介绍
main_image_url
构建方式
在学术知识图谱的构建领域,OpenAlex数据集通过系统化的流程整合了全球研究系统的核心实体。该数据集源自OpenAlex的原始快照,经过多阶段处理:首先从S3存储同步原始数据,随后利用并行计算技术进行实体索引和ID映射,提取引用与合作关系边,并构建倒排词索引。进一步通过多层次粗化和Barnes-Hut力导向模拟算法生成二维与三维空间布局,最终形成支持渐进式加载的空间切片结构,为大规模图可视化奠定基础。
特点
OpenAlex数据集展现出多维度特征,其覆盖范围广泛,包含约4.49亿学术成果、1.08亿作者档案以及数十万机构、期刊和概念实体。数据结构采用分层组织,既提供原始快照的完整API记录,也包含经过优化的紧凑索引与切片库。该数据集支持静态HTTP服务,通过空间索引和细节层次划分,能够实现客户端对超过5亿节点图数据的交互式探索,同时具备高效的实体解析与检索能力。
使用方法
针对学术图谱分析与可视化需求,该数据集提供多种使用途径。用户可通过Hugging Face数据集库直接加载紧凑实体索引或完整快照记录,利用Python接口进行数据查询与处理。对于特定应用场景,可选择性下载实体索引或可视化切片文件,并通过本地HTTP服务器部署实现静态资源访问。数据集设计支持与BibGraph等客户端工具集成,便于开展学术网络的可视化探索与交互分析。
背景与挑战
背景概述
OpenAlex数据集作为全球研究系统的开放知识图谱,由OurResearch机构于2022年正式推出,旨在构建一个涵盖学术作品、作者、机构、期刊及其关联关系的综合性开放目录。该数据集的核心研究问题聚焦于整合分散的学术元数据,通过提供结构化的实体索引与关联网络,支持学术影响力分析、研究趋势挖掘及知识发现等任务。其CC0许可协议促进了数据的自由访问与再利用,对科学计量学、信息检索及数字图书馆领域产生了深远影响,成为继Web of Science和Scopus之后的重要开放学术基础设施。
当前挑战
OpenAlex数据集面临的挑战主要体现在两个方面:在领域问题层面,学术知识图谱构建需解决实体消歧、跨语言数据融合及动态更新等复杂问题,例如如何准确关联同一作者的不同署名变体,或整合多源异构的出版元数据。在构建过程中,技术挑战尤为突出,包括处理超过4.5亿学术作品和1亿作者的大规模图数据时,需设计高效的分布式索引算法与压缩存储方案;同时,为支持客户端可视化,需开发多层次空间索引与渐进式加载机制,以平衡数据粒度与实时交互性能。
常用场景
经典使用场景
在学术知识图谱与科学计量学领域,OpenAlex数据集作为全球研究系统的开放目录,其经典使用场景聚焦于构建大规模学术网络的可视化与分析。该数据集通过预处理的索引与分块结构,支持客户端渐进式加载包含数亿节点的引文图与协作网络,为研究者提供了交互式探索学术实体间复杂关联的高效途径。这种设计使得用户能够在静态HTTP服务环境下,直观审视学术成果的传播路径、学科交叉趋势以及研究影响力的动态演变。
解决学术问题
OpenAlex数据集有效应对了学术研究中数据分散与访问壁垒的长期挑战。通过整合数亿篇学术作品、作者、机构及概念,并以统一的结构化形式开放,该资源为科学计量学、文献计量学及科研政策分析提供了坚实的数据基础。其意义在于促进了学术影响力评估、学科发展脉络追溯、合作网络挖掘等核心问题的实证研究,推动了开放科学基础设施的完善,并为跨学科知识发现创造了前所未有的条件。
衍生相关工作
围绕OpenAlex数据集,学术界与工业界已衍生出多项经典工作。例如,基于其构建的交互式可视化系统BibGraph,实现了超大规模学术图谱的实时探索;诸多科学计量研究利用该数据开展了跨国、跨机构的科研合作模式分析;同时,该数据集也作为训练数据,支撑了学术推荐系统、学者画像构建、研究前沿探测等机器学习模型的开发。这些工作共同拓展了开放学术数据在知识发现与决策支持中的应用边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作