PubGen

Hugging Face2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/zhiweizhang988/PubGen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含学术论文的元数据和相关指标，涵盖标题、期刊、PMID、出版年份、标签、撤稿状态、国家、第一作者和最后作者的推断性别、tsne降维坐标、Leiden聚类结果、注释、子聚类标识、DOI、引用次数、领域引用率、年度预期引用、实际年度引用、相对引用比率、预测分数等字段。数据集规模庞大，训练集包含23,389,083个样本，总大小约为7.91GB。适用于学术影响力分析、科学计量学研究、作者性别差异分析等任务。

创建时间：

2026-04-12

原始信息汇总

PubGen数据集概述

数据集基本信息

数据集名称：PubGen
发布者：zhiweizhang988
数据量：23,389,083 条样本
数据集大小：7,911,150,789 字节
下载大小：2,961,329,033 字节
数据格式：结构化数据
数据拆分：包含一个名为“train”的拆分

数据特征（字段说明）

数据集包含以下字段：

Title：论文标题，字符串类型
Journal：期刊名称，字符串类型
PMID：PubMed标识符，整数类型
Year：出版年份，整数类型
Labels：标签，字符串类型
Retractions：撤稿状态，布尔类型
Countries：国家，字符串类型
InferredGenderFirstAuthor：推断的第一作者性别，字符串类型
InferredGenderLastAuthor：推断的通讯作者/最后作者性别，字符串类型
tsne_1：t-SNE降维第一维坐标，浮点数类型
tsne_2：t-SNE降维第二维坐标，浮点数类型
Leiden：Leiden社区检测结果，整数类型
Annotation：注释，字符串类型
Sub_leiden：子社区标识，字符串类型
doi：数字对象标识符，字符串类型
citation_count：引用次数，浮点数类型
field_citation_rate：领域引用率，浮点数类型
expected_citations_per_year：预期年均引用数，浮点数类型
citations_per_year：年均引用数，浮点数类型
relative_citation_ratio：相对引用比率，浮点数类型
predicted_score：预测分数，浮点数类型
index_level_0：索引级别，整数类型

数据内容与用途

数据来源：基于PubMed的学术出版物数据
核心内容：包含学术论文的元数据、引用指标、作者信息、社区聚类结果和降维特征
应用方向：适用于学术影响力分析、科研趋势研究、作者性别推断分析、科学文献聚类与可视化、撤稿研究等领域

搜集汇总

数据集介绍

构建方式

PubGen数据集的构建过程体现了大规模生物医学文献整合的前沿方法。该数据集通过系统收集PubMed数据库中的学术论文元数据，涵盖标题、期刊、发表年份及作者信息等核心字段。构建过程中运用了自动化数据清洗与标准化流程，确保信息的一致性与准确性。此外，数据集还引入了基于文献计量学的衍生指标，如引用计数与相对引用比率，并整合了t-SNE降维与Leiden社区检测算法，以揭示文献间的潜在关联与学科结构。

特点

PubGen数据集的特点在于其多维度的学术文献表征能力。它不仅提供了论文的基本元数据，还包含了作者性别推断、国家分布及撤稿状态等社会学术属性。数据集通过t-SNE可视化坐标与Leiden聚类标签，实现了文献主题的空间映射与社区划分。同时，丰富的引用指标如领域引用率与预期年引用量，为量化研究影响力提供了细致入微的度量工具。这些特征共同构成了一个既全面又深度的生物医学文献分析平台。

使用方法

使用PubGen数据集时，研究者可依托其结构化字段开展多样化的学术分析。通过标题与标签字段，能够进行文本挖掘与主题建模研究；利用引用相关指标，可以评估论文的学术影响力与趋势预测。t-SNE坐标与Leiden聚类为文献网络分析与可视化探索提供了直接支持。此外，结合作者性别与国家信息，可进一步拓展至科学社会学与科研政策评估等跨学科领域，实现数据驱动的综合性学术洞察。

背景与挑战

背景概述

PubGen数据集作为生物医学文献分析领域的重要资源，由国际研究团队于近年构建，旨在系统整合大规模学术出版物的元数据与引用指标。该数据集的核心研究问题聚焦于通过机器学习方法预测论文的学术影响力，并深入探索科研产出中的性别差异、国际合作模式及撤稿现象等社会计量学议题。其涵盖超过2300万条记录，不仅为文献计量学与科学学提供了前所未有的数据基础，也推动了人工智能在学术评价与科研诚信分析中的应用，对理解现代科学发展的动态格局具有深远影响。

当前挑战

PubGen数据集所针对的领域挑战在于，传统学术影响力评估往往依赖简单引用计数，难以捕捉论文的跨学科贡献或长期价值，且缺乏对作者性别、地域等社会因素的量化分析。在构建过程中，研究人员面临数据异构性整合的难题，需从多源数据库中清洗并统一期刊、作者及引用信息，同时确保年份、国家等字段的准确性。此外，基于姓名推断作者性别的方法存在文化偏差风险，而大规模tsne降维与Leiden聚类算法的应用也要求高效计算与可解释性之间的平衡，这些因素共同构成了数据集构建与使用的复杂性。

常用场景

经典使用场景

在学术出版与文献计量学领域，PubGen数据集为研究者提供了大规模、结构化的科学出版物元数据，其经典使用场景集中于文献聚类与主题演化分析。通过整合标题、期刊、年份、引用指标及t-SNE降维特征，该数据集支持基于机器学习的方法，如无监督学习与网络分析，以识别研究趋势、学科交叉点及学术影响力模式，为科学知识图谱的构建奠定基础。

解决学术问题

PubGen数据集有效解决了学术研究中关于科学产出评估、偏见检测与质量控制的核心问题。它通过纳入撤稿记录、作者性别推断、国家分布及标准化引用指标，助力研究者量化性别与地域差异对学术影响力的作用，同时为识别异常出版行为、促进科研诚信提供了数据支撑，从而推动开放科学与循证科研政策的发展。

衍生相关工作

基于PubGen数据集，衍生了一系列经典研究工作，主要集中在科学学与学术人工智能领域。例如，利用其Leiden聚类与t-SNE特征的研究推动了学科知识图谱的自动构建；结合性别与国家字段的分析催生了关于学术不平等现象的实证研究；而引用预测与撤稿检测模型则促进了学术诚信智能监测工具的开发，这些工作共同拓展了数据驱动科研管理的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集