crossref_metadata_2025_split
收藏数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 句子相似性
- 语言: 英语
- 标签: DOI, 参考文献, 文献, Crossref
- 数据集名称: crossref 2025
- 规模分类: 10M<n<100M
数据集内容
- 总大小: 196.94 GB (parquet文件)
- 记录数量: 34,308,730
- 用途: 大规模文本挖掘、文献计量分析、元数据丰富、构建引用感知工具
数据集特征
| 字段 | 类型 | 描述 |
|---|---|---|
doi |
string |
出版物的数字对象标识符 |
title |
string |
学术作品的标题 |
abstract |
string |
摘要文本(如果可用) |
author |
list |
作者名称列表或结构化作者元数据 |
month |
int |
出版月份(1–12) |
year |
int |
出版年份(例如2024, 2025) |
url |
string |
指向出版物页面或DOI解析器的URL |
数据集结构
数据集以Apache Parquet格式提供,支持高效的列存储和模式演化。每个parquet文件块包含完整的模式。
root |-- doi: string (nullable = true) |-- title: string (nullable = true) |-- abstract: string (nullable = true) |-- author: array (nullable = true) | |-- element: string (nullable = true) |-- month: int (nullable = true) |-- year: int (nullable = true) |-- url: string (nullable = true)
数据集分割
该数据集未提供预定义的分割。用户可以根据出版年份、主题领域或随机抽样进行分割。
数据集创建
数据来源
- 原始数据: 2025年7月的Crossref公共元数据快照,约196.94 GB。
- 来源: https://www.crossref.org/blog/2025-public-data-file-now-available/
- 访问方法: 从Academic Torrents下载公共JSON转储。
处理步骤
- 提取: 解析Crossref转储以提取相关字段。
- 转换: 规范化字段;作者合并为名称列表。
- 序列化: 将结果表保存为Parquet格式以提高效率。
- 存储: 将parquet文件上传至Hugging Face Datasets。
使用示例
python from datasets import load_dataset
dataset = load_dataset( "bluuebunny/crossref_metadata_2025", streaming=True, split=train )
检查记录
print(dataset[0])
按年份筛选
subset_2025 = dataset.filter(lambda x: x["year"] == 2025) print(f"Records published in 2025: {len(subset_2025)}")
引用
如果使用该数据集,请引用Crossref公共数据文件:
@misc{crossref2025, title = {{Crossref} Public Data File 2025}, author = {{Crossref}}, year = 2025, howpublished = {url{https://www.crossref.org/blog/2025-public-data-file-now-available/}}, }
联系方式
- 代码仓库: mitanshu7/PaperMatch_crossref
- 数据集作者: Mitanshu Sukhwani




