crossref_metadata_2025
收藏数据集概述
基本信息
- 名称: crossref 2025
- 许可证: apache-2.0
- 任务类别: sentence-similarity
- 语言: en
- 标签: doi, bibliography, literature, crossref
- 数据规模: 10M<n<100M
数据集内容
- 总大小: 196.94 GB (parquet文件)
- 记录数量: 34,308,730
- 描述: 该数据集包含2025年发布的公共Crossref快照中的书目元数据,提供学术文献的核心字段,包括DOI、标题、摘要、作者、出版月份和年份以及URL。
数据集特征
| 字段 | 类型 | 描述 |
|---|---|---|
doi |
string |
出版物的数字对象标识符。 |
title |
string |
学术作品的标题。 |
abstract |
string |
摘要文本(如果可用)。 |
author |
list |
作者名称列表或结构化作者元数据。 |
month |
int |
出版月份(1–12)。 |
year |
int |
出版年份(例如2024、2025)。 |
url |
string |
指向出版物页面或DOI解析器的URL。 |
数据集结构
数据集以Apache Parquet格式提供,支持高效的列存储和模式演化。每个parquet文件块包含完整的模式如下:
root |-- doi: string (nullable = true) |-- title: string (nullable = true) |-- abstract: string (nullable = true) |-- author: array (nullable = true) | |-- element: string (nullable = true) |-- month: int (nullable = true) |-- year: int (nullable = true) |-- url: string (nullable = true)
数据集创建
数据来源
- 原始数据: 2025年7月的公共Crossref元数据快照,来自Crossref博客:"2025 public data file now available"(约196.94 GB)。
- 访问方法: 从Academic Torrents下载公共JSON转储。
处理步骤
- 提取: 解析Crossref转储以提取相关字段(DOI、标题、摘要、作者、月份、年份、URL)。
- 转换: 标准化字段;作者合并为名称列表。
- 序列化: 将结果表保存为Parquet格式以提高列效率。
- 存储: 将parquet文件上传至Hugging Face Datasets并添加相应元数据。
使用示例
python from datasets import load_dataset
dataset = load_dataset( "bluuebunny/crossref_metadata_2025", streaming=True, split=train )
检查记录
print(dataset[0])
按年份筛选
subset_2025 = dataset.filter(lambda x: x["year"] == 2025) print(f"Records published in 2025: {len(subset_2025)}")
引用
如果使用该数据集,请引用Crossref公共数据文件:
@misc{crossref2025, title = {{Crossref} Public Data File 2025}, author = {{Crossref}}, year = 2025, howpublished = {url{https://www.crossref.org/blog/2025-public-data-file-now-available/}}, }
联系方式
- 代码仓库: https://github.com/mitanshu7/PaperMatch_crossref
- 数据集作者: Mitanshu Sukhwani




