PreprintToPaper dataset
收藏arXiv2025-10-02 更新2025-11-20 收录
下载链接:
https://zenodo.org/records/17185408
下载链接
链接失效反馈官方服务:
资源简介:
PreprintToPaper数据集将bioRxiv预印本与其对应的期刊出版物连接起来,支持大规模分析预印本到出版过程。该数据集包括2016-2018年(大流行前)和2020-2022年(大流行期间)两个时期的145,517个预印本的元数据。每个记录包括标题、摘要、作者、机构、提交日期、许可证和主题类别等书目信息,以及包括期刊名称、出版日期、作者列表等增强的出版物元数据。预印本分为三类:已发表(正式链接到期刊文章)、仅预印本(未发表)和灰色区域(可能已发表但未链接)。为了提高可靠性,计算了标题和作者相似度分数,并创建了一个包含299条记录的人工标注子集,用于评估灰色区域案例。该数据集支持多种应用,包括学术交流研究、开放科学政策、文献计量工具开发和预印本与其已发表版本之间文本变化的自然语言处理研究。
提供机构:
GESIS –Leibniz Institute for the Social Sciences, Cologne, Germany
创建时间:
2025-10-02
搜集汇总
数据集介绍

构建方式
在生命科学领域预印本日益成为研究成果快速传播重要渠道的背景下,PreprintToPaper数据集通过系统化流程构建而成。研究团队运用bioRxiv官方API获取2016-2018年与2020-2022年两个时期的预印本元数据,并利用Crossref API补充已发表论文的详细信息。通过多步骤验证机制,包括基于标题相似度算法识别潜在未链接出版物,结合作者匹配度与作者数量差异等指标,最终形成包含正式发表、仅预印本和灰色地带三类标注的完整数据集。
使用方法
研究者可通过Zenodo平台获取CSV格式的完整数据集,其结构化设计支持多维度学术探索。在政策评估层面,可分析疫情前后预印本转化规律;在学术传播研究中,能追踪从预印本到正式发表的文本演进路径;技术开发领域则适用于文献计量算法测试与相似度匹配模型优化。数据集配备的版本对比字段与时间差值指标,更为自然语言处理研究提供了丰富的文本变迁分析素材。
背景与挑战
背景概述
在生命科学领域,预印本已成为快速传播科研成果的重要渠道,尤其在COVID-19大流行期间,其时效性显著加速了全球科研协作进程。PreprintToPaper数据集由德国莱布尼茨社会科学研究所与华沙理工大学联合团队于2025年创建,通过系统关联bioRxiv预印本与其后续期刊论文,构建了涵盖14.5万条记录的跨时期语料库。该资源聚焦于学术传播动力学研究,首次实现了预印本与正式出版物间元数据的自动化关联,为开放科学政策评估、文献计量工具开发及文本演化分析提供了关键基础设施。
当前挑战
该数据集致力于解决预印本与期刊论文关联验证的核心难题,其技术挑战主要体现在多维度匹配的复杂性:需通过标题相似度计算与作者列表比对来识别未正式关联的‘灰色地带’文献,而姓名缩写差异、机构表述异构性等变量易导致误匹配。在构建过程中,团队需克服bioRxiv元数据缺失期刊DOI的固有局限,通过跨平台API协调与人工标注验证,建立双重校验机制以提升19万条灰色记录的判定准确度,这一过程暴露出当前自动化学术关联系统在语义理解与数据完整性方面的技术瓶颈。
常用场景
经典使用场景
在生命科学领域的学术传播研究中,PreprintToPaper数据集被广泛应用于追踪预印本到正式期刊论文的演变轨迹。该数据集通过整合bioRxiv预印本与Crossref期刊元数据,支持对学术成果发表周期、版本迭代规律及学科差异的量化分析,为研究科学交流生态提供了关键数据支撑。
解决学术问题
该数据集有效解决了预印本与期刊论文关联缺失的学术难题,通过自动化匹配与人工标注相结合的方法,系统识别出已发表、未发表及灰色地带三类预印本状态。其提供的标题相似度、作者匹配度等多维度指标,为研究学术出版延迟、作者署名演变、文本内容优化等经典问题提供了可靠实证基础。
实际应用
在开放科学政策评估领域,该数据集助力机构分析预印本在疫情等特殊时期的传播效能。出版机构可借其优化同行评审流程,学术平台则利用其开发文献关联工具,有效提升学术资源的可发现性与整合度,推动科学知识的高效流动。
数据集最近研究
最新研究方向
在生命科学预印本快速发展的背景下,PreprintToPaper数据集推动了学术传播模式的前沿探索。该资源通过关联bioRxiv预印本与正式期刊论文,揭示了COVID-19大流行期间科学交流的加速现象,尤其是预印本在公共卫生危机中作为知识传播枢纽的核心作用。当前研究聚焦于三个维度:基于标题相似性与作者匹配算法的灰色文献识别技术优化,旨在解决未链接出版记录的发现难题;跨版本文本演变分析,通过对比预印本与正式论文的标题、摘要及作者序列变化,量化学术成果的演化路径;开放科学政策评估,借助疫情前后两阶段数据,实证检验预印本对科研效率与协作模式的长期影响。这些研究不仅深化了对学术出版生态系统的理解,更为自然语言处理技术在学术文本挖掘中的应用提供了基准数据。
相关研究论文
- 1通过GESIS –Leibniz Institute for the Social Sciences, Cologne, Germany · 2025年
以上内容由遇见数据集搜集并总结生成



