five

MOPRD

收藏
arXiv2023-11-15 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2212.04972v2
下载链接
链接失效反馈
官方服务:
资源简介:
MOPRD是一个多学科开放同行评审数据集,包含论文元数据、多版本稿件、评审评论、元评审、作者反驳信和编辑决策。

MOPRD is a multidisciplinary open peer review dataset, which contains paper metadata, multiple versions of manuscripts, review comments, meta-reviews, author rebuttal letters, and editorial decisions.
创建时间:
2022-12-10
搜集汇总
数据集介绍
main_image_url
构建方式
在开放同行评议日益普及的学术出版背景下,MOPRD数据集的构建采用了系统化的数据采集与处理流程。研究团队针对PeerJ这一鼓励评议透明的综合性学术出版平台,专门设计了网络爬虫以获取完整的同行评议历史数据。采集过程覆盖论文元数据、初始投稿与修订稿全文、审稿意见、元评议、作者回复信及编辑决策等全流程要素。数据集提供原生版本与处理版本两种形式,后者通过GROBID等工具将PDF文档转换为结构化文本,并以JSON格式整合所有关键信息,最终形成包含6,578篇论文、22,483条审稿意见的多学科完整评议数据集。
使用方法
该数据集为同行评议相关研究提供了多场景应用支持。在审稿意见生成任务中,研究者可采用模块化引导生成方法,将论文按摘要、方法结果、全文等模块分割后,分别训练专用生成模型并整合输出结构化评议。对于元评议生成、编辑决策预测等任务,可利用数据集中的多文档关联特性,采用PRIMERA等多文档表示模型进行端到端学习。在科学计量分析方面,完整的历史评议数据支持跨学科比较研究,而作者回复生成任务则可构建基于问答框架的多输入文本生成模型。数据集提供标准化JSON格式与原生文件包,支持灵活的研究范式适配。
背景与挑战
背景概述
在学术出版领域,开放同行评审作为一种增强透明度的机制,正逐渐获得学术界与出版界的广泛认可。由厦门大学信息学院与外国语学院的研究团队于2023年构建的MOPRD数据集,旨在应对现有同行评审数据在完整性与学科多样性方面的不足。该数据集系统性地收录了涵盖生物学、化学、计算机科学、环境科学、医学等多学科的6578篇论文的完整评审历程,包括元数据、多版本稿件、评审意见、元评审、作者反驳信及编辑决策。MOPRD的创建不仅为自动化论文评审研究提供了关键的数据基础,也通过其跨学科特性推动了相关模型在更广泛学术领域的泛化能力与应用潜力。
当前挑战
MOPRD数据集致力于解决的核心领域挑战是自动化同行评审,特别是评审意见生成这一复杂任务。其面临的具体挑战包括:首先,在领域问题层面,如何使生成模型理解并处理长篇幅学术文本的深层语义,并产出结构严谨、逻辑清晰且具有学科针对性的评审意见;其次,在构建过程中,需克服多源异构数据的整合难题,包括从非结构化网页中精确提取并结构化整个评审链条的数据,以及确保跨学科数据在格式、质量与标注上的一致性。此外,数据集的长期维护与扩展也需应对学术出版平台数据格式持续演变的挑战。
常用场景
经典使用场景
在学术出版与人工智能交叉领域,MOPRD数据集最经典的应用场景是自动化审稿评论生成研究。该数据集通过提供覆盖完整审稿流程的多学科数据,为开发能够理解学术论文内容并生成结构化审稿意见的智能系统奠定了坚实基础。其模块化引导生成方法将论文内容与审稿意见的四个标准模块(基础报告、实验设计、结果有效性、补充意见)精准对应,有效解决了长文本处理与结构化输出的技术难题,成为该领域模型训练与评估的基准平台。
解决学术问题
MOPRD数据集主要解决了开放同行评审研究中数据完整性与学科多样性的两大瓶颈。传统数据集往往仅包含计算机科学领域的审稿意见,且缺失初始投稿、作者反驳信等关键环节数据,限制了研究的普适性与深度。MOPRD通过整合来自PeerJ期刊的多学科论文的完整审稿历史——包括元数据、多版本稿件、审稿意见、元评审、反驳信及编辑决定——为研究审稿过程对论文的演变影响、跨学科评审模式差异以及自动化评审系统的通用性提供了前所未有的数据支撑,推动了同行评审研究从单一学科分析向多学科综合理解的范式转变。
实际应用
在实际应用层面,MOPRD数据集为学术出版生态的多个环节提供了智能化辅助工具。其支撑的自动化审稿评论生成系统能够为编辑和审稿人提供初步参考意见,提升评审效率;基于该数据集的编辑决策预测模型可帮助期刊编辑快速预判稿件命运,优化稿件处理流程;作者反驳信生成功能则为科研人员,尤其是初级研究者,提供了撰写高质量反驳意见的范本与指导。此外,其多学科特性使得开发的工具能更广泛地应用于生物、医学、化学、环境科学等多个领域,超越了以往仅适用于计算机科学的局限。
数据集最近研究
最新研究方向
在学术出版与数字图书馆领域,开放同行评审正逐步成为提升科研透明度的关键机制。MOPRD作为首个大规模跨学科开放同行评审数据集,其前沿研究聚焦于利用人工智能技术实现自动化论文评审流程。当前热点方向包括基于模块化引导的评审意见生成方法,该方法通过分段处理长文本输入并整合结构化输出,显著提升了生成内容在逻辑性与完整性方面的表现。同时,数据集支持元评审生成、编辑决策预测、作者反驳信自动生成及科学计量分析等多维度应用,为跨学科评审模式比较与评审过程量化研究提供了前所未有的数据基础。这些进展不仅推动了自动化评审系统的实用化进程,也为构建更公平、高效的学术交流生态系统奠定了技术基石。
相关研究论文
  • 1
    MOPRD: A multidisciplinary open peer review dataset · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作