five

xxxxxsss/ReviewRebuttal

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/xxxxxsss/ReviewRebuttal
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是最大的真实世界一致性保障的同行评审数据集,涵盖了最广泛的会议范围和最完整的评审阶段,包括初始提交、评审、评分和置信度、方面评分、反驳、讨论、分数变化、元评审和最终决定。数据集包含来自45个会议场地的19,926篇论文的评审和53,818条反驳,数据格式包括论文ID、初始评分、最终评分、统一评分、评审内容和元评审等。

This dataset is the largest real-world consistency-ensured dataset for peer review, which features the widest range of conferences and the most complete review stages, including initial submissions, reviews, ratings and confidence, aspect ratings, rebuttals, discussions, score changes, meta-reviews, and final decisions. The dataset includes reviews for 19,926 papers from 45 venues and 53,818 rebuttals, with data formats encompassing paper IDs, initial scores, final scores, unified scores, review content, and meta-reviews.
提供机构:
xxxxxsss
搜集汇总
数据集介绍
main_image_url
构建方式
ReviewRebuttal 数据集源自学术评审领域,作为目前规模最大的真实世界、一致性保障的同行评审数据集,覆盖了从 2017 年至 2025 年间 45 个顶级会议,收录了 19,926 篇论文的完整评审流程。其构建方式遵循严格的数据清洗与格式统一策略:首先从 OpenReview 平台收集初始投稿版本的论文,并过滤掉参考文献与附录以确保文本纯净;随后将每篇论文对应的多轮评审、评分、置信度、方面评分、反驳讨论、元评审及最终决定等信息结构化为统一的 JSON 字典格式;最后,通过随机采样划分训练集与测试集,分别包含 70,668 条评审记录和 53,818 条反驳对话,形成了一个层次分明、覆盖全阶段的评审数据体系。
特点
该数据集的核心特点在于其无与伦比的完整性与一致性。区别于仅包含部分评审环节的现有数据,ReviewRebuttal 首次囊括了初始投稿、评审意见、评分与置信度、方面评分、作者反驳、讨论、评分数值变化、元评审以及最终录用决定等所有关键阶段,并严格确保每篇论文均为初始投稿版本,从而避免了因多轮修改带来的数据混淆。此外,数据集中包含了统一化的评分(initial_score_unified 与 final_score_unified),使得不同会议的评分标准得以对齐,大幅提升了跨数据集训练的稳定性与可迁移性。
使用方法
使用该数据集可直接加载提供的 JSON 文件进行模型训练与评估。对于评审数据,可使用 REViEWS_train.json 与 REVIEWS_test.json 进行评分预测、评审生成等任务,字段包括 paper_id、initial_score、final_score 及相应的统一化分数。对于反驳数据,REBUTTAL_train.json 和 REBUTTAL_test.json 以多轮对话格式组织,每条记录包含系统提示、用户(作者)与助手(评审人)间的多轮交互,适用于构建动态的、交互式的学术评审助手,如基于 LLM 的自动讨论系统。用户可依据 role 字段区分对话角色,在训练时按照标准对话建模范式对 messages 序列进行编码与生成。
背景与挑战
背景概述
学术论文评审是保障科研质量的核心环节,然而现有数据集多局限于单一会议或缺失关键阶段,难以支持对完整评审过程的建模。ReviewRebuttal数据集由浙江大学张道泽等人于2025年创建,收录了来自45个顶级会议2017至2025年间19,926篇论文的完整评审记录,涵盖初始提交、多轮审稿、评分变更、作者反驳及最终决策等全部阶段。该数据集在规模、会议覆盖范围和阶段完整性上显著超越PeerRead、NLPeer等现有资源,为评审生成、分数预测及元评审等任务提供了坚实的数据基础,推动自动化评审系统从静态分析向动态交互演进。
当前挑战
该数据集面临的挑战首先在于领域问题的复杂性:学术评审涉及主观判断与多轮协商,现有模型难以准确模拟审稿人基于论文内容与作者反驳的动态评分调整,且需处理评分标准跨会议不一致的问题。构建过程中,数据采集需从OpenReview平台爬取45个会议的海量异构文本,并确保每篇论文均为首次提交以维护一致性;同时需过滤附录与参考文献,并构建格式统一的多轮反驳对话结构,数据清洗与标注工作量巨大。如何进一步融合论文全文与评审语义以实现细粒度互动建模,仍是未来关键难题。
常用场景
经典使用场景
在学术同行评审领域,ReviewRebuttal数据集最为经典的应用场景是驱动基于大语言模型的智能评审助手的构建与评估。该数据集涵盖了从论文初稿提交、多轮评审打分、作者逐条回复到最终决策的完整流程,为训练能够理解评审对话上下文、生成建设性反馈并动态调整评分的语言模型提供了丰富且结构化的语料。研究者常利用其多轮辩论对话格式,设计能够模拟真实评审交互的代理系统,从而在可控环境下测试模型对学术争议的推理能力与论证质量。
实际应用
在实际科研生态中,该数据集被广泛应用于辅助投稿前的论文质量自查系统开发。科研人员可以利用其训练出的模型,在正式提交会议前模拟多轮匿名评审,提前识别论文中可能引发争议的方法细节、实验设计不足或表述模糊之处。此外,会议组织者可借助该数据构建自动化的评审匹配与质量监控工具,通过分析历史评审文本中的语言模式与评分偏差,提升审稿分配的公平性并减少极端不专业评审出现的概率,从而间接优化整个学术社区的审稿效率。
衍生相关工作
围绕ReviewRebuttal已衍生出一系列具有代表性的研究工作,例如基于其多轮辩论结构提出的交互式评审代理框架,该框架能够根据作者的回复动态调整批评重点,甚至模拟审稿人在讨论回合中的态度软化或坚持立场。另一类经典工作聚焦于评分变化预测模型,利用初始评分与最终评分之间的跨度,结合答辩对话中的论据强度与语气变化,建模评审观点漂移的潜在诱因。此外,部分工作还将其与元评审数据结合,训练能够自动生成包含综合建议的决策摘要模型,推动了学术评审自动化研究的边界向更复杂的协作推理场景延伸。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作