open-alex

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/open-index/open-alex

下载链接

链接失效反馈

官方服务：

资源简介：

OpenAlex是一个免费开放的全球学术研究目录，涵盖论文、作者、机构、期刊、主题、出版商和资助者等实体。该数据集将OpenAlex的快照从其原生gzipped JSON Lines格式转换为分片的ZSTD压缩Parquet文件，便于分析。数据集包含7种实体类型，总计约449.9K条记录，每种实体类型都有详细的字段描述。数据适用于特征提取、文本分类和问答等任务，支持通过DuckDB、datasets库或pandas等工具直接查询和处理。数据集还提供了实体间的关系图和详细的数据完整性统计，适合学术研究、文献计量学和科学学等领域的研究与应用。

创建时间：

2026-04-03

原始信息汇总

OpenAlex - 完整学术研究数据库数据集概述

数据集基本信息

数据集名称: OpenAlex - Complete Academic Research Database
数据集地址: https://huggingface.co/datasets/open-index/open-alex
语言: 英语
许可证: CC0-1.0
任务类别: 特征提取、文本分类、问答
规模类别: 1亿条 < n < 10亿条
数据源: openalex
标签: 学术、研究、学者、引用、科学、开放获取、parquet、文献计量学、科学计量学
数据格式: Parquet
快照日期: 2026-04
总记录数: 449.9K（跨7种实体类型）

数据集内容与结构

数据集是OpenAlex快照的完整转换，从原始的gzipped JSON Lines格式转换为分片的、ZSTD压缩的Parquet文件。数据按实体类型组织，每种实体类型是一个独立的配置。

实体类型与记录数

实体	记录数	描述
主题	4.5K	具有层次分类（领域→领域→子领域→主题）的研究主题
出版商	10.7K	具有层级和国家信息的学术出版商
资助机构	32.4K	具有奖项数量和交叉引用的研究资助组织
来源	280.7K	具有ISSN、DOAJ状态和APC定价的期刊、存储库、会议和电子书平台
机构	121.5K	具有ROR ID和地理位置信息的大学、研究中心、公司和政府机构
作者	未明确	具有ORCID ID、h指数、隶属关系和出版统计信息的研究人员
作品	未明确	具有引用、DOI、主题、作者署名和开放获取状态的学术作品（文章、书籍、数据集）

数据文件组织

每个实体类型的数据存储在独立的Parquet文件中，每百万行一个文件。

data/ works/ # 学术作品 authors/ # 研究人员及其指标 sources/ # 期刊、存储库、会议 institutions/ # 大学、实验室、公司 topics/ # 研究主题分类 publishers/ # 学术出版商 funders/ # 资助组织

数据模式详情

主题 (`topics`)

特征: id, display_name, description, keywords, subfield_id, subfield_name, field_id, field_name, domain_id, domain_name, siblings, works_count, cited_by_count, ids, created_date, updated_date

出版商 (`publishers`)

特征: id, display_name, alternate_titles, hierarchy_level, parent_publisher, country_codes, homepage_url, works_count, cited_by_count, h_index, i10_index, lineage, roles, counts_by_year, ids, created_date, updated_date
数据完整性（低于100%填充率的字段）:
- alternate_titles: 10.0%
- parent_publisher: 0.0%
- country_codes: 90.0%
- homepage_url: 80.0%
- counts_by_year: 90.0%

资助机构 (`funders`)

特征: id, display_name, alternate_titles, country_code, description, homepage_url, works_count, cited_by_count, awards_count, h_index, i10_index, roles, counts_by_year, ids, created_date, updated_date
数据完整性（低于100%填充率的字段）:
- alternate_titles: 87.5%
- description: 56.2%
- homepage_url: 53.1%

来源 (`sources`)

特征: id, issn_l, issn, display_name, type, host_organization, host_organization_name, works_count, cited_by_count, is_oa, is_in_doaj, is_core, homepage_url, country_code, h_index, i10_index, apc_usd, alternate_titles, topics, counts_by_year, ids, created_date, updated_date

机构 (`institutions`)

特征: id, ror, display_name, type, country_code, homepage_url, image_url, works_count, cited_by_count, h_index, i10_index, geo_city, geo_region, geo_country, geo_latitude, geo_longitude, associated_institutions, lineage, topics, counts_by_year, roles, ids, created_date, updated_date

作者 (`authors`)

特征: id, orcid, display_name, display_name_alternatives, works_count, cited_by_count, h_index, i10_index, two_yr_mean_citedness, affiliations, last_known_institutions, topics, topic_share, counts_by_year, ids, created_date, updated_date

作品 (`works`)

特征: id, doi, title, publication_year, publication_date, type, language, is_retracted, is_paratext, cited_by_count, fwci, referenced_works_count, authors_count, locations_count, is_oa, oa_status, oa_url, primary_location, best_oa_location, locations, authorships, biblio_volume, biblio_issue, biblio_first_page, biblio_last_page, primary_topic, topics, keywords, referenced_works, related_works, abstract_inverted_index, ids, counts_by_year, sustainable_development_goals, indexed_in, created_date, updated_date

实体关系

OpenAlex将学术研究建模为一个相互关联的图。作品是中心实体，通过作者署名与作者链接，通过位置与期刊和存储库链接，并通过引用网络彼此链接。主题层次结构（领域 > 领域 > 子领域 > 主题）为每个作品和作者提供了四级分类。

使用方式

数据集兼容标准Hugging Face Parquet布局，可直接与以下工具配合使用：

DuckDB: 无需下载即可直接从Hugging Face读取Parquet文件进行查询。
datasets库: 加载完整数据集、单个实体类型或流式传输数据。
huggingface_hub: 下载特定实体类型的数据文件。
pandas + DuckDB: 结合使用进行数据分析和查询。

搜集汇总

数据集介绍

构建方式

在学术信息图谱构建领域，OpenAlex数据集通过整合全球范围内的学术实体及其关联关系而形成。其构建过程始于对原始OpenAlex快照数据的全面转换，该快照数据以gzipped JSON Lines格式存储，涵盖了超过2.5亿篇学术成果。技术团队将这些数据系统地转化为分片、ZSTD压缩的Parquet文件，每个文件容纳约一百万行记录，并依据实体类型——包括学术成果、作者、机构、来源、主题、出版商和资助者——进行组织。这种转换不仅优化了存储效率，还确保了数据在分析工具中的即用性，为大规模学术图谱分析奠定了坚实基础。

使用方法

在学术计量与信息检索实践中，OpenAlex数据集提供了灵活多样的使用途径。研究人员可直接通过DuckDB的`hf://`协议执行SQL查询，无需预先下载数据，便能快速探索高被引成果、作者影响力指标或开放获取趋势。利用Hugging Face的`datasets`库，用户可以流式加载特定实体类型，或将其完整载入内存进行深入分析。对于需要本地处理的场景，`huggingface_hub`工具支持按模式选择性下载数据分片。此外，结合pandas与DuckDB，能够执行复杂的聚合运算与统计描述，从而支撑从宏观科学结构分析到微观学术网络挖掘的各类研究任务。

背景与挑战

背景概述

在学术信息计量学领域，全面且开放的学术研究数据库对于推动科学知识图谱构建、科研影响力评估及开放科学运动至关重要。OpenAlex数据集由非营利组织OurResearch于2022年创建，旨在构建一个覆盖全球学术研究体系的开放目录，作为微软学术图谱（MAG）的替代方案。该数据集整合了超过2.5亿篇学术成果及其完整的引用网络、作者链、机构归属与主题分类，核心研究问题聚焦于如何通过结构化、可互操作的数据模型，实现跨实体（如文献、作者、机构、期刊等）的关联分析与宏观科研趋势洞察。其开放获取特性与大规模覆盖范围，显著促进了科学学、文献计量学及科研政策研究领域的实证分析能力。

当前挑战

OpenAlex数据集致力于解决学术知识图谱构建中的实体消歧、关系抽取与大规模异构数据融合等核心挑战。具体而言，在领域问题层面，该数据集需应对学术实体（如作者、机构）的名称歧义与跨数据源标识符对齐难题，同时确保引用网络的完整性与时序一致性。在构建过程中，挑战主要源于多源学术数据的异构性、数据更新频率与实时性之间的平衡，以及将原始JSON格式的复杂嵌套结构高效转换为分析友好的列式存储格式（如Parquet）。此外，维护数据质量、处理缺失值以及实现跨实体关联查询的优化，亦是数据集持续迭代中的关键难点。

常用场景

经典使用场景

在科学计量学与学术信息检索领域，OpenAlex数据集作为全球学术研究的开放图谱，其经典使用场景体现在对大规模学术文献的引用网络分析与知识发现。研究者通过该数据集整合的著作、作者、机构、期刊等多维实体关系，能够深入探究学科演进脉络，识别高影响力研究集群，并构建跨领域的学术合作网络。例如，利用著作实体中的引用计数与作者隶属关系，可以量化特定主题的研究活跃度与学术影响力，为学科前沿探测提供数据支撑。

解决学术问题

OpenAlex数据集有效解决了学术研究中长期存在的几个关键问题：其一，它提供了统一、开放且结构化的全球学术记录替代方案，弥补了微软学术图谱终止服务后的数据空白；其二，通过集成开放获取状态、基金资助信息及机构地理编码等多维度属性，该数据集支持对科研公平性、知识传播模式及科研投入产出效率的跨区域比较研究；其三，其层次化的主题分类体系使得跨学科知识流动的量化分析成为可能，为理解科学发展的结构动力学提供了微观基础。

实际应用

在实际应用层面，OpenAlex数据集被广泛嵌入于学术评价系统、科研管理平台与开放科学基础设施中。大学与研究机构利用其机构层面的产出与影响力指标进行绩效评估与战略规划；图书馆与信息服务机构借助其完整的期刊与出版者数据构建资源发现系统；政策制定者则通过分析基金资助与研究成果的关联，优化科研经费分配策略。此外，该数据集也为企业研发部门的竞争情报分析提供了学术生态洞察。

数据集最近研究