ForeCite 数据集
收藏arXiv2025-05-14 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.08941v1
下载链接
链接失效反馈官方服务:
资源简介:
ForeCite 数据集是一个包含超过90万篇生物医学论文的语料库,这些论文发表于2000年至2024年之间。数据集经过严格的筛选和预处理,确保了数据的质量。每篇文章都标注了出版日期和截至2024年12月的总引用次数。数据集用于训练预训练的语言模型,以预测学术论文的未来引用率,从而推动科研评价自动化和科学进步。
The ForeCite dataset is a corpus containing over 900,000 biomedical research papers published between 2000 and 2024. The dataset has undergone strict filtering and preprocessing to ensure data quality. Each article is annotated with its publication date and total citation count as of December 2024. This dataset is used to train pre-trained language models for predicting the future citation rates of academic papers, thereby advancing the automation of scientific research evaluation and scientific progress.
提供机构:
纽芬兰纪念大学计算机科学系和数学与统计系
创建时间:
2025-05-14
搜集汇总
数据集介绍

构建方式
ForeCite数据集构建过程采用了系统化的数据采集与预处理流程。研究团队通过Elsevier API检索了2000年至2024年间包含7个生物医学关键词的文献,经过去重、异常值过滤和非英语文献剔除等严格质量控制,最终获得超过90万篇高质量生物医学论文。每篇论文均标注了出版日期和截至2024年12月的总引用次数,并通过自定义XSLT脚本将原始XML格式转换为标准化的Markdown表示形式,保留了章节结构、图表说明等关键文本特征。为优化模型训练效果,研究团队对月均引用率进行了对数转换和标准化处理,使其符合高斯分布特征。
使用方法
使用ForeCite数据集时,研究者可采用端到端的预训练语言模型微调框架。具体流程分为两个阶段:首先冻结基础语言模型参数,仅训练附加的线性预测头;随后解冻整个模型进行联合微调。为提升计算效率,建议采用4位NF4量化和bfloat16算术运算。数据集已按9:1比例预设训练测试分割,研究者可直接用于模型开发。在使用过程中,应特别注意对预测结果进行反标准化处理,将模型输出的对数空间值转换回原始引用量纲。此外,数据集的时间标注支持开展时序保持实验,可用于验证模型在真实场景中的稳健性。
背景与挑战
背景概述
ForeCite数据集由纽芬兰与拉布拉多纪念大学的Gavin Hull和Alex Bihlo团队于2025年提出,旨在通过预训练语言模型预测学术论文的未来引用率。该数据集包含2000年至2024年间发表的90万篇生物医学领域论文,通过Elsevier API收集并经过严格筛选与标准化处理。其核心研究问题是利用文本内容直接预测长期学术影响力,突破了传统方法依赖元数据的局限。该成果以Spearman秩相关系数ρ=0.826刷新了现有技术水平,为自动化科研评估提供了新范式,对科学计量学和学术评价体系发展具有显著推动作用。
当前挑战
该领域面临双重挑战:在学术层面,引用预测需解决文本语义与学术价值关联建模的复杂性,传统方法因忽视全文信息而性能受限;在数据构建层面,需处理多源异构数据的标准化(如XML转Markdown)、长尾分布(引用量的对数变换)及时效性验证(跨年度数据稳健性测试)。特别地,模型对标题和摘要的过度依赖揭示了特征利用不平衡问题,而时间外推实验中性能的逐月衰减(从r=0.713降至0.511)则凸显了动态学术趋势捕捉的难点。
常用场景
经典使用场景
ForeCite数据集在学术文献影响力预测领域具有广泛的应用价值。该数据集通过整合2000年至2024年间超过90万篇生物医学领域的学术论文,构建了一个高质量的语料库。其最经典的使用场景是作为预训练语言模型的基准测试平台,用于评估模型在预测论文未来引用率方面的性能。研究人员可以利用该数据集,通过端到端的训练框架,探索语言模型如何从论文文本内容中提取关键特征,进而预测其长期学术影响力。
解决学术问题
ForeCite数据集有效解决了学术研究中几个关键问题。首先,它突破了传统引用预测方法依赖外部元数据的局限,实现了仅基于文本内容的端到端预测。其次,该数据集通过大规模、高质量的标注数据,显著提升了预测准确率,Spearman等级相关系数达到0.826,较先前最优方法提高了27个百分点。最重要的是,该数据集为理解语言模型如何捕捉学术文本中的影响力特征提供了实证基础,推动了自动化科研评估方法的发展。
实际应用
在实际应用层面,ForeCite数据集展现出多重价值。科研机构可以利用基于该数据集训练的模型,快速识别具有潜在高影响力的研究成果,优化科研资源配置。学术期刊编辑能够借助预测结果,辅助论文筛选和优先出版决策。此外,该数据集还可用于开发学术写作辅助工具,通过分析高引用论文的文本特征,为作者提供改进建议。值得注意的是,这些应用都需谨慎处理伦理问题,避免将预测结果作为唯一的评价标准。
数据集最近研究
最新研究方向
ForeCite数据集的最新研究方向聚焦于利用预训练语言模型预测学术论文的未来引用率,这一领域在学术评价自动化和科学进步加速方面具有重要意义。近期研究通过将预训练的因果语言模型与线性头结合,实现了对900K+生物医学论文平均月引用率的端到端预测,测试相关性达到ρ=0.826,较先前最优方法提升了27个百分点。研究还通过扩展定律分析揭示了模型大小和数据量对性能的一致增益,并通过时间保留实验验证了模型的稳健性。梯度显著性热图分析表明模型对标题和摘要文本存在过度依赖,这为未来研究提供了优化方向。这些成果不仅为学术研究长期影响力的预测设立了新标准,也为科学贡献的高保真自动化评估奠定了基础。
相关研究论文
- 1ForeCite: Adapting Pre-Trained Language Models to Predict Future Citation Rates of Academic Papers纽芬兰纪念大学计算机科学系和数学与统计系 · 2025年
以上内容由遇见数据集搜集并总结生成



