crossref_metadata_2025_split

Hugging Face2025-07-26 更新2025-07-27 收录

下载链接：

https://huggingface.co/datasets/bluuebunny/crossref_metadata_2025_split

下载链接

链接失效反馈

官方服务：

资源简介：

Crossref 2025公开数据快照的文献元数据，包含学术论文的DOI、标题、摘要、作者列表、出版月份、出版年份和URL等信息，适用于文本挖掘和文献计量分析等研究。

创建时间：

2025-07-21

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 句子相似性
语言: 英语
标签: DOI, 参考文献, 文献, Crossref
数据集名称: crossref 2025
规模分类: 10M<n<100M

数据集内容

总大小: 196.94 GB (parquet文件)
记录数量: 34,308,730
用途: 大规模文本挖掘、文献计量分析、元数据丰富、构建引用感知工具

数据集特征

字段	类型	描述
`doi`	`string`	出版物的数字对象标识符
`title`	`string`	学术作品的标题
`abstract`	`string`	摘要文本（如果可用）
`author`	`list`	作者名称列表或结构化作者元数据
`month`	`int`	出版月份（1–12）
`year`	`int`	出版年份（例如2024, 2025）
`url`	`string`	指向出版物页面或DOI解析器的URL

数据集结构

数据集以Apache Parquet格式提供，支持高效的列存储和模式演化。每个parquet文件块包含完整的模式。

数据集分割

该数据集未提供预定义的分割。用户可以根据出版年份、主题领域或随机抽样进行分割。

数据集创建

数据来源

原始数据: 2025年7月的Crossref公共元数据快照，约196.94 GB。
- 来源: https://www.crossref.org/blog/2025-public-data-file-now-available/
- 访问方法: 从Academic Torrents下载公共JSON转储。

处理步骤

提取: 解析Crossref转储以提取相关字段。
转换: 规范化字段；作者合并为名称列表。
序列化: 将结果表保存为Parquet格式以提高效率。
存储: 将parquet文件上传至Hugging Face Datasets。

使用示例

python from datasets import load_dataset

dataset = load_dataset( "bluuebunny/crossref_metadata_2025", streaming=True, split=train )

检查记录

print(dataset[0])

按年份筛选

subset_2025 = dataset.filter(lambda x: x["year"] == 2025) print(f"Records published in 2025: {len(subset_2025)}")

引用

如果使用该数据集，请引用Crossref公共数据文件：

@misc{crossref2025, title = {{Crossref} Public Data File 2025}, author = {{Crossref}}, year = 2025, howpublished = {url{https://www.crossref.org/blog/2025-public-data-file-now-available/}}, }

联系方式

代码仓库: mitanshu7/PaperMatch_crossref
数据集作者: Mitanshu Sukhwani

搜集汇总

数据集介绍

构建方式

在学术文献计量研究领域，高质量元数据集的构建对推动知识发现至关重要。该数据集基于Crossref 2025年公开的元数据快照，通过系统化的数据处理流程构建而成。原始数据从Academic Torrents平台获取后，研究团队采用多阶段处理策略：首先解析196.94GB的JSON原始文件，精确提取DOI、标题、摘要等核心字段；随后对作者信息进行标准化处理并整合为列表结构；最终采用列式存储的Parquet格式进行序列化，显著提升了数据查询效率。整个过程通过开源工具链实现可复现性，相关代码已在GitHub平台公开。

特点

作为当前最全面的学术文献元数据集之一，其显著特征体现在多维度的结构化信息组织。数据集涵盖3430万条记录，每条记录包含七个关键字段：具有唯一标识功能的DOI、完整文献标题、可检索的摘要文本、规范化的作者列表，以及精确到月份的时间戳和原始文献链接。特别值得注意的是，采用Parquet列式存储格式不仅优化了存储效率，更支持灵活的字段查询和模式演化。数据集完整保留了Crossref原始数据的学术权威性，同时通过技术处理增强了机器可读性，为大规模文献计量分析提供了理想的基础设施。

使用方法

该数据集的设计充分考虑了研究场景的多样性需求。通过Hugging Face数据集库加载时，用户可选择流式读取模式以处理海量数据，并利用内置过滤功能实现按年份等条件的快速检索。典型应用场景包括：使用map-reduce操作进行跨年度文献趋势分析，基于作者字段构建学术合作网络，或结合标题摘要字段训练文本嵌入模型。对于需要定制数据分割的研究，用户可根据实验需求按出版年份、学科领域或随机采样等方式灵活划分数据集。数据集兼容主流数据处理框架，示例代码已提供基础操作范式，显著降低了学术研究的工程门槛。

背景与挑战

背景概述

Crossref作为全球领先的学术文献DOI注册机构，自2000年成立以来持续为学术界提供标准化的文献元数据服务。2025年发布的Crossref元数据集由Mitanshu Sukhwani等研究人员整理，收录了超过3400万条学术文献记录，涵盖标题、摘要、作者、发表时间等核心元数据字段。该数据集的构建旨在满足大规模文本挖掘、文献计量分析和引文网络研究的需求，为数字图书馆、学术搜索引擎和知识图谱构建提供了重要基础。其采用Parquet列式存储格式显著提升了数据查询效率，体现了学术大数据处理的最新技术趋势。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，学术文献的异构性导致元数据质量参差不齐，特别是摘要字段的缺失率较高，且作者姓名存在多种表述形式，这为文本相似度计算和作者消歧等任务带来困难。在构建过程中，原始JSON数据规模达196GB，字段嵌套结构复杂，需要设计高效的解析算法；同时需平衡数据完整性与存储效率，这对Parquet格式的列压缩策略提出了较高要求。此外，动态更新的学术文献体系要求数据集保持版本同步，以确保研究结果的时效性。

常用场景

经典使用场景

在学术文献挖掘领域，crossref_metadata_2025_split数据集因其全面的元数据覆盖成为文献计量分析的黄金标准。研究者通过其结构化的DOI、标题、摘要和作者信息，能够高效构建学术网络图谱，分析学科演进趋势。该数据集特别适用于大规模文本挖掘任务，例如通过自然语言处理技术分析摘要文本的语义关联，或基于作者合作网络预测新兴研究领域。

实际应用

在实际应用中，科技政策制定者借助该数据集进行科研产出评估，通过出版年份与学科分类的交叉分析识别国家战略领域的研发态势。图书馆系统则利用DOI和URL字段构建智能推荐引擎，提升学术资源发现效率。商业机构通过作者合作网络挖掘潜在专家资源，优化人才猎聘的精准度。

衍生相关工作

该数据集催生了多个标志性研究，如《基于异构学术网络的跨学科知识流动模型》利用其作者合作关系构建了学科渗透指数。开源项目PaperMatch开发了基于该数据集的文献匹配系统，实现了高精度学术推荐。另有研究团队结合BERT模型与其摘要文本，建立了学术文献创新性自动评估框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集