five

crossref_metadata_2025_split

收藏
Hugging Face2025-07-26 更新2025-07-27 收录
下载链接:
https://huggingface.co/datasets/bluuebunny/crossref_metadata_2025_split
下载链接
链接失效反馈
官方服务:
资源简介:
Crossref 2025公开数据快照的文献元数据,包含学术论文的DOI、标题、摘要、作者列表、出版月份、出版年份和URL等信息,适用于文本挖掘和文献计量分析等研究。
创建时间:
2025-07-21
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 句子相似性
  • 语言: 英语
  • 标签: DOI, 参考文献, 文献, Crossref
  • 数据集名称: crossref 2025
  • 规模分类: 10M<n<100M

数据集内容

  • 总大小: 196.94 GB (parquet文件)
  • 记录数量: 34,308,730
  • 用途: 大规模文本挖掘、文献计量分析、元数据丰富、构建引用感知工具

数据集特征

字段 类型 描述
doi string 出版物的数字对象标识符
title string 学术作品的标题
abstract string 摘要文本(如果可用)
author list 作者名称列表或结构化作者元数据
month int 出版月份(1–12)
year int 出版年份(例如2024, 2025)
url string 指向出版物页面或DOI解析器的URL

数据集结构

数据集以Apache Parquet格式提供,支持高效的列存储和模式演化。每个parquet文件块包含完整的模式。

root |-- doi: string (nullable = true) |-- title: string (nullable = true) |-- abstract: string (nullable = true) |-- author: array (nullable = true) | |-- element: string (nullable = true) |-- month: int (nullable = true) |-- year: int (nullable = true) |-- url: string (nullable = true)

数据集分割

该数据集未提供预定义的分割。用户可以根据出版年份、主题领域或随机抽样进行分割。

数据集创建

数据来源

处理步骤

  1. 提取: 解析Crossref转储以提取相关字段。
  2. 转换: 规范化字段;作者合并为名称列表。
  3. 序列化: 将结果表保存为Parquet格式以提高效率。
  4. 存储: 将parquet文件上传至Hugging Face Datasets。

使用示例

python from datasets import load_dataset

dataset = load_dataset( "bluuebunny/crossref_metadata_2025", streaming=True, split=train )

检查记录

print(dataset[0])

按年份筛选

subset_2025 = dataset.filter(lambda x: x["year"] == 2025) print(f"Records published in 2025: {len(subset_2025)}")

引用

如果使用该数据集,请引用Crossref公共数据文件:

@misc{crossref2025, title = {{Crossref} Public Data File 2025}, author = {{Crossref}}, year = 2025, howpublished = {url{https://www.crossref.org/blog/2025-public-data-file-now-available/}}, }

联系方式

搜集汇总
数据集介绍
main_image_url
构建方式
在学术文献计量研究领域,高质量元数据集的构建对推动知识发现至关重要。该数据集基于Crossref 2025年公开的元数据快照,通过系统化的数据处理流程构建而成。原始数据从Academic Torrents平台获取后,研究团队采用多阶段处理策略:首先解析196.94GB的JSON原始文件,精确提取DOI、标题、摘要等核心字段;随后对作者信息进行标准化处理并整合为列表结构;最终采用列式存储的Parquet格式进行序列化,显著提升了数据查询效率。整个过程通过开源工具链实现可复现性,相关代码已在GitHub平台公开。
特点
作为当前最全面的学术文献元数据集之一,其显著特征体现在多维度的结构化信息组织。数据集涵盖3430万条记录,每条记录包含七个关键字段:具有唯一标识功能的DOI、完整文献标题、可检索的摘要文本、规范化的作者列表,以及精确到月份的时间戳和原始文献链接。特别值得注意的是,采用Parquet列式存储格式不仅优化了存储效率,更支持灵活的字段查询和模式演化。数据集完整保留了Crossref原始数据的学术权威性,同时通过技术处理增强了机器可读性,为大规模文献计量分析提供了理想的基础设施。
使用方法
该数据集的设计充分考虑了研究场景的多样性需求。通过Hugging Face数据集库加载时,用户可选择流式读取模式以处理海量数据,并利用内置过滤功能实现按年份等条件的快速检索。典型应用场景包括:使用map-reduce操作进行跨年度文献趋势分析,基于作者字段构建学术合作网络,或结合标题摘要字段训练文本嵌入模型。对于需要定制数据分割的研究,用户可根据实验需求按出版年份、学科领域或随机采样等方式灵活划分数据集。数据集兼容主流数据处理框架,示例代码已提供基础操作范式,显著降低了学术研究的工程门槛。
背景与挑战
背景概述
Crossref作为全球领先的学术文献DOI注册机构,自2000年成立以来持续为学术界提供标准化的文献元数据服务。2025年发布的Crossref元数据集由Mitanshu Sukhwani等研究人员整理,收录了超过3400万条学术文献记录,涵盖标题、摘要、作者、发表时间等核心元数据字段。该数据集的构建旨在满足大规模文本挖掘、文献计量分析和引文网络研究的需求,为数字图书馆、学术搜索引擎和知识图谱构建提供了重要基础。其采用Parquet列式存储格式显著提升了数据查询效率,体现了学术大数据处理的最新技术趋势。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,学术文献的异构性导致元数据质量参差不齐,特别是摘要字段的缺失率较高,且作者姓名存在多种表述形式,这为文本相似度计算和作者消歧等任务带来困难。在构建过程中,原始JSON数据规模达196GB,字段嵌套结构复杂,需要设计高效的解析算法;同时需平衡数据完整性与存储效率,这对Parquet格式的列压缩策略提出了较高要求。此外,动态更新的学术文献体系要求数据集保持版本同步,以确保研究结果的时效性。
常用场景
经典使用场景
在学术文献挖掘领域,crossref_metadata_2025_split数据集因其全面的元数据覆盖成为文献计量分析的黄金标准。研究者通过其结构化的DOI、标题、摘要和作者信息,能够高效构建学术网络图谱,分析学科演进趋势。该数据集特别适用于大规模文本挖掘任务,例如通过自然语言处理技术分析摘要文本的语义关联,或基于作者合作网络预测新兴研究领域。
实际应用
在实际应用中,科技政策制定者借助该数据集进行科研产出评估,通过出版年份与学科分类的交叉分析识别国家战略领域的研发态势。图书馆系统则利用DOI和URL字段构建智能推荐引擎,提升学术资源发现效率。商业机构通过作者合作网络挖掘潜在专家资源,优化人才猎聘的精准度。
衍生相关工作
该数据集催生了多个标志性研究,如《基于异构学术网络的跨学科知识流动模型》利用其作者合作关系构建了学科渗透指数。开源项目PaperMatch开发了基于该数据集的文献匹配系统,实现了高精度学术推荐。另有研究团队结合BERT模型与其摘要文本,建立了学术文献创新性自动评估框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作