five

FRONTIER-RevRec

收藏
arXiv2025-10-19 更新2025-10-22 收录
下载链接:
https://anonymous.4open.science/r/FRONTIER-RevRec-5D05
下载链接
链接失效反馈
官方服务:
资源简介:
FRONTIER-RevRec数据集是一个大规模的同行评审推荐数据集,由Frontiers开放获取出版平台上的真实同行评审记录构建而成。该数据集涵盖了2007年至2025年间的209种期刊,包含177,941名独特的评审员和478,379篇论文。数据集跨越多个学科领域,包括临床医学、生物学、心理学、工程学和社会科学等。FRONTIER-RevRec旨在为评审员推荐研究提供一个全面的基准,促进更有效的学术同行评审系统的开发。

The FRONTIER-RevRec dataset is a large-scale peer review recommendation dataset constructed from real peer review records sourced from the Frontiers open access publishing platform. This dataset covers 209 academic journals from 2007 to 2025, encompassing 177,941 unique reviewers and 478,379 papers. It spans a wide range of academic disciplines, including clinical medicine, biology, psychology, engineering, social sciences, and other related fields. FRONTIER-RevRec aims to serve as a comprehensive benchmark for peer reviewer recommendation research, facilitating the development of more effective academic peer review systems.
提供机构:
天津大学
创建时间:
2025-10-19
搜集汇总
数据集介绍
main_image_url
构建方式
在学术出版流程日益数字化的背景下,FRONTIER-RevRec数据集通过系统化采集Frontiers开放获取出版平台2007至2025年间的真实同行评审记录构建而成。该构建过程采用多阶段数据清洗策略,首先进行领域过滤保留工程学、健康科学等五大核心学科文献,继而实施元数据完整性评估与审稿人画像构建,最后通过审稿活动阈值筛选机制确保数据质量,最终形成包含177,941位审稿人与478,379篇论文的大规模数据集。
使用方法
针对审稿人推荐这一核心任务,数据集支持多种方法论验证框架。研究可采用留一法评估策略,将每位审稿人的一篇论文作为测试样本,其余构成训练集,并通过负采样技术构建平衡数据集。在模型层面,既可验证基于LightGCN等图神经网络的协同过滤方法,也可探索BERT、LLaMA2等语言模型的语义匹配效能,更支持对词级聚合与论文级聚合等不同表征学习策略的系统比较,为学术推荐算法提供全面评估基准。
背景与挑战
背景概述
随着学术出版流程中稿件数量的急剧增长,编辑在寻找具备相关专业知识的审稿人方面面临日益严峻的挑战。FRONTIER-RevRec数据集由天津大学与多机构合作于2025年创建,旨在解决审稿人推荐领域长期缺乏高质量基准数据的问题。该数据集基于Frontiers开放获取出版平台2007至2025年的真实审稿记录构建,涵盖17.7万余名审稿人与47.8万余篇论文,跨越临床医学、生物学、心理学等209种期刊的多元学科领域。通过系统性的网络分析与文本挖掘,该数据集揭示了学术推荐网络与商业推荐系统的本质差异,为开发更高效的学术同行评审系统提供了关键实证基础。
当前挑战
在审稿人推荐领域,现有数据集普遍存在规模有限、学科覆盖狭窄以及缺乏系统评估框架三大挑战。FRONTIER-RevRec构建过程中需克服原始数据碎片化与学科分布不均衡的难题,通过多阶段数据清洗流程处理元数据完整性、冷启动问题及跨学科映射的复杂性。实验表明,基于内容的语义匹配方法显著优于传统协同过滤技术,这源于学术网络特有的拓扑特征——高度碎片化的连接组件与冗长的节点路径削弱了协同信号的判别能力,而语言模型能更有效地捕捉论文内容与审稿人专业知识的语义对齐关系。
常用场景
经典使用场景
在学术出版领域,FRONTIER-RevRec数据集主要应用于审稿人推荐系统的开发与评估。该数据集通过整合来自Frontiers开放获取出版平台的真实审稿记录,构建了包含17.7万余名审稿人和47.8万余篇论文的大规模跨学科语料库。研究人员利用该数据集训练和验证各类推荐算法,通过分析论文内容与审稿人专业背景的语义匹配度,实现精准的审稿人自动推荐。这种基于内容的推荐方法显著提升了传统人工分配审稿人的效率,为学术出版流程的智能化提供了重要支撑。
解决学术问题
该数据集有效解决了审稿人推荐研究领域长期存在的三大关键问题:数据规模不足、学科覆盖狭窄以及方法论比较缺失。通过提供跨临床医学、生物学、心理学、工程学等多学科的完整审稿记录,研究人员能够深入探究不同推荐方法在真实学术环境中的表现差异。实验结果表明,基于语言模型的内容匹配方法显著优于传统的协同过滤技术,这一发现揭示了学术推荐与商业推荐在结构特征上的本质区别,为构建更有效的学术同行评议系统提供了理论依据。
实际应用
在实际应用层面,FRONTIER-RevRec数据集已被广泛应用于学术期刊和会议的审稿流程优化。出版机构利用基于该数据集训练的推荐模型,能够快速识别具有相关专业背景的审稿专家,显著缩短论文评审周期。特别是在处理跨学科投稿时,系统能够准确捕捉论文内容与审稿人研究方向的语义关联,有效解决了传统方法中因学科壁垒导致的审稿人匹配困难问题。这种智能化推荐机制不仅提升了同行评议的质量,也为应对日益增长的学术投稿量提供了可行的技术解决方案。
数据集最近研究
最新研究方向
在学术出版流程优化领域,FRONTIER-RevRec数据集推动了审稿人推荐系统的范式转变。当前研究聚焦于语言模型驱动的语义匹配技术,通过结构分析揭示了学术网络与商业推荐系统的本质差异:审稿网络呈现高度碎片化特征,协同信号显著弱于文本语义信息。实验表明基于LLaMA2的内容匹配方法在各项指标上全面超越传统协同过滤,其中单塔架构通过交互式特征学习实现更精准的跨模态理解。值得注意的是,不同聚合策略在推荐流程中呈现层级化特性——词级聚合适用平均池化捕获密集语义,而论文级聚合需借助LSTM建模审稿人 expertise 的时序演化。这些发现为构建跨学科公平推荐系统提供了理论基石,同时启发了针对新兴领域审稿资源稀缺问题的解决方案探索。
相关研究论文
  • 1
    FRONTIER-RevRec: A Large-scale Dataset for Reviewer Recommendation天津大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作