crossref_metadata_2025

Hugging Face2025-07-26 更新2025-07-27 收录

下载链接：

https://huggingface.co/datasets/bluuebunny/crossref_metadata_2025

下载链接

链接失效反馈

官方服务：

资源简介：

crossref 2025数据集包含了2025年公开的Crossref快照中的文献目录元数据。这些元数据包括数字对象标识符（DOI）、标题、摘要、作者信息、出版月份和年份以及指向出版物页面或DOI解析器的URL。该数据集总大小约为196.94 GB，共有34,308,730条记录，可用于大规模文本挖掘、文献计量分析、元数据丰富和构建引用感知工具。

创建时间：

2025-07-20

原始信息汇总

数据集概述

基本信息

名称: crossref 2025
许可证: apache-2.0
任务类别: sentence-similarity
语言: en
标签: doi, bibliography, literature, crossref
数据规模: 10M<n<100M

数据集内容

总大小: 196.94 GB (parquet文件)
记录数量: 34,308,730
描述: 该数据集包含2025年发布的公共Crossref快照中的书目元数据，提供学术文献的核心字段，包括DOI、标题、摘要、作者、出版月份和年份以及URL。

数据集特征

字段	类型	描述
`doi`	`string`	出版物的数字对象标识符。
`title`	`string`	学术作品的标题。
`abstract`	`string`	摘要文本（如果可用）。
`author`	`list`	作者名称列表或结构化作者元数据。
`month`	`int`	出版月份（1–12）。
`year`	`int`	出版年份（例如2024、2025）。
`url`	`string`	指向出版物页面或DOI解析器的URL。

数据集结构

数据集以Apache Parquet格式提供，支持高效的列存储和模式演化。每个parquet文件块包含完整的模式如下：

数据集创建

数据来源

原始数据: 2025年7月的公共Crossref元数据快照，来自Crossref博客："2025 public data file now available"（约196.94 GB）。
访问方法: 从Academic Torrents下载公共JSON转储。

处理步骤

提取: 解析Crossref转储以提取相关字段（DOI、标题、摘要、作者、月份、年份、URL）。
转换: 标准化字段；作者合并为名称列表。
序列化: 将结果表保存为Parquet格式以提高列效率。
存储: 将parquet文件上传至Hugging Face Datasets并添加相应元数据。

使用示例

python from datasets import load_dataset

dataset = load_dataset( "bluuebunny/crossref_metadata_2025", streaming=True, split=train )

检查记录

print(dataset[0])

按年份筛选

subset_2025 = dataset.filter(lambda x: x["year"] == 2025) print(f"Records published in 2025: {len(subset_2025)}")

引用

如果使用该数据集，请引用Crossref公共数据文件：

@misc{crossref2025, title = {{Crossref} Public Data File 2025}, author = {{Crossref}}, year = 2025, howpublished = {url{https://www.crossref.org/blog/2025-public-data-file-now-available/}}, }

联系方式

代码仓库: https://github.com/mitanshu7/PaperMatch_crossref
数据集作者: Mitanshu Sukhwani

搜集汇总

数据集介绍

构建方式

在学术文献计量分析领域，crossref_metadata_2025数据集基于Crossref 2025年度公开元数据快照构建而成。原始数据通过Crossref官方博客发布的196.94GB JSON格式公开文件获取，经过多阶段精细处理：首先解析原始JSON文件提取核心字段，包括文献DOI标识、标题、摘要、作者列表等关键元数据；随后对字段进行标准化处理，将作者信息统一整合为列表形式；最终采用高效的Parquet列式存储格式进行序列化，显著提升了数据查询与加载效率。整个处理流程的代码已在GitHub开源，确保了数据处理的可复现性。

使用方法

该数据集特别适合大规模学术文本挖掘与文献计量研究。通过Hugging Face Datasets库可便捷加载数据，支持流式读取以应对海量数据场景。用户可根据年份字段快速筛选特定时期文献，或结合标题、摘要文本进行自然语言处理。示例代码演示了如何过滤2025年度出版物，这种灵活的访问方式为文献趋势分析、作者合作网络构建等研究提供了便利。对于需要定制数据分割的研究，建议按照出版年份、学科领域或随机采样等维度进行划分。

背景与挑战

背景概述

Crossref作为全球学术出版领域最具影响力的元数据提供商之一，其2025年发布的公共数据集crossref_metadata_2025标志着学术信息资源开放获取的重要里程碑。该数据集由Crossref机构主导构建，收录了超过3400万条涵盖DOI标识、题名、摘要、作者信息等核心元数据的学术文献记录，为大规模文献计量分析、学术知识图谱构建以及智能检索系统开发提供了基础数据支撑。其采用高效的Parquet列式存储格式，显著提升了海量元数据的处理效率，对推动开放科学运动和学术数据挖掘研究具有深远意义。

当前挑战

该数据集面临的核心挑战主要体现在学术数据治理与技术创新两个维度。在领域问题层面，异构元数据的标准化处理成为关键难点，包括作者姓名消歧、多语言摘要对齐以及跨出版商的字段规范统一等问题。在构建过程中，原始JSON数据的高效解析与转换面临技术挑战，需要平衡196GB庞大体量的存储优化与数据完整性的关系。此外，动态更新的学术文献与静态数据快照之间的时效性矛盾，也为基于该数据集的研究带来了持续性数据更新的需求压力。

常用场景

经典使用场景

在学术文献计量与知识挖掘领域，crossref_metadata_2025数据集凭借其海量结构化元数据，成为研究学术传播规律的核心资源。学者们通过分析3400万条记录的标题、摘要和作者网络，能够追踪学科演进路径，识别跨领域合作模式，或构建文献相似性图谱。其时间跨度特性尤其适合纵向研究学术影响力衰减曲线与知识扩散速率。

解决学术问题

该数据集有效解决了传统文献研究中样本规模受限的瓶颈问题，为验证引文网络理论、学术影响力预测模型提供了实证基础。通过标准化的DOI标识与完整作者列表，研究者可精确量化知识生产的地理分布特征，或开发新型的跨文献关联发现算法，显著提升了学术图谱构建的完整性与时效性。

实际应用

在实际应用中，科技情报机构利用该数据集实时监测新兴研究热点，辅助科研基金决策。学术搜索引擎通过增强的元数据字段优化检索相关性，出版平台则借助作者合作网络识别潜在审稿人。企业研发部门通过大规模文本挖掘，可快速定位技术空白点形成专利布局策略。

数据集最近研究