GitBag/Reviewer2_PGE_raw

Name: GitBag/Reviewer2_PGE_raw
Creator: GitBag
Published: 2024-02-21 01:27:41
License: 暂无描述

Hugging Face2024-02-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GitBag/Reviewer2_PGE_raw

下载链接

链接失效反馈

官方服务：

资源简介：

这是Reviewer2的原始版本数据集，主要用于文本生成任务。数据集包含论文的原始数据，结构包括论文内容、元数据、评论和PDF文件。论文内容详细描述了标题、作者、电子邮件、章节、参考文献等信息，元数据则包括唯一ID、会议、决策、URL等。数据集来源包括PeerRead、NLPeer以及从ICLR和NeurIPS的最新爬取数据。

提供机构：

GitBag

原始信息汇总

Raw Review Dataset for Reviewer2

数据集结构

数据集的文件夹结构如下：

数据集内容

论文内容

标题: 论文的标题
作者: 作者列表
电子邮件: 作者电子邮件列表
章节: 论文的章节列表
- 标题: 章节的标题
- 文本: 章节的文本
参考文献: 论文的参考文献列表
- 标题: 参考文献的标题
- 作者: 参考文献的作者列表
- 地点: 参考文献的发表地点
- 引用表达式: 引用表达式
- 短引用表达式: 短引用表达式
- 年份: 参考文献的发表年份
参考文献提及: 论文中参考文献的位置
- 参考文献ID: 参考文献的数字ID
- 上下文: 论文中参考文献的上下文
- 起始偏移: 上下文的起始索引
- 结束偏移: 上下文的结束索引
年份: 论文的发表年份
摘要文本: 论文的摘要

元数据内容

ID: 论文的唯一ID
会议: 论文的发表地点
决策: 论文的最终决策（接受/拒绝）
URL: 论文PDF的链接
评审URL: 论文评审的链接
标题: 论文的标题
作者: 论文的作者列表

数据集来源

数据集整合了PeerRead和NLPeer的部分内容，以及从ICLR和NeurIPS在OpenReview和NeurIPS Proceedings的最新爬取数据。

引用

如果您在研究中使用了此数据集，请引用以下论文：

@misc{gao2024reviewer2, title={Reviewer2: Optimizing Review Generation Through Prompt Generation}, author={Zhaolin Gao and Kianté Brantley and Thorsten Joachims}, year={2024}, eprint={2402.10886}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在学术评审领域，数据集的构建往往依赖于高质量且结构化的原始资料。本数据集通过整合PeerRead与NLPeer两大权威数据集，并辅以对ICLR和NeurIPS会议在OpenReview平台及NeurIPS论文集上的最新爬取数据，形成了涵盖多会议年份的原始评审资料库。数据以层级文件夹结构组织，每个会议年份下细分元数据、论文全文、评审意见及PDF文件，确保了信息的完整性与可追溯性。

特点

该数据集的核心特点在于其丰富的多模态内容与精细的结构化设计。它不仅收录了论文的标题、作者、摘要、章节文本及参考文献等完整内容，还包含了每篇论文的最终决策结果（接受或拒绝）以及对应的评审意见。数据集通过引用位置标注与上下文关联，实现了论文内容与评审过程的深度链接，为研究学术写作与评审互动提供了多维度的分析基础。

使用方法

在自然语言处理与文本生成任务中，本数据集可作为训练与评估的基础资源。研究者可直接利用其结构化数据，针对论文自动评审、评审生成优化或学术内容分析等任务进行模型微调。数据集中的原始PDF与JSON格式文件支持跨模态分析，而清理后的版本则提供了即用的训练数据，便于快速开展实验与验证。

背景与挑战

背景概述

在人工智能与自然语言处理领域，学术论文的同行评审过程是确保研究质量与科学严谨性的核心环节。GitBag/Reviewer2_PGE_raw数据集由Zhaolin Gao、Kianté Brantley和Thorsten Joachims等研究人员于2024年构建，旨在通过整合PeerRead、NLPeer等现有资源，并结合从ICLR、NeurIPS等顶级会议平台爬取的最新数据，为优化自动评审生成任务提供大规模、结构化的原始语料。该数据集的核心研究问题聚焦于探索如何利用生成式模型自动化辅助学术评审，其多模态结构涵盖了论文全文、元数据及审稿意见，对推动学术写作智能评估与生成技术的发展具有显著影响力。

当前挑战

该数据集致力于解决自动学术评审生成这一复杂领域问题，其挑战在于如何从非结构化的评审文本中提取有效语义模式，并生成符合学术规范、具有批判性思维的审稿意见。在构建过程中，研究人员面临数据异构性整合的难题，需将来自不同来源、格式各异的论文与评审数据进行标准化对齐。同时，确保数据时效性与覆盖广度亦构成关键挑战，要求持续爬取更新会议数据以反映学术前沿动态。此外，原始数据中存在的噪声、缺失信息及隐私内容处理，进一步增加了数据集清洗与标注的复杂性。

常用场景

经典使用场景

在自然语言处理领域，特别是学术文本生成任务中，GitBag/Reviewer2_PGE_raw数据集为研究者提供了丰富的原始审稿数据。该数据集通过整合多个顶级会议如ICLR和NeurIPS的论文、审稿意见及元数据，构建了一个结构化的知识库。经典使用场景包括训练和评估自动审稿生成模型，研究者能够利用论文内容与对应审稿之间的映射关系，探索如何基于给定论文自动生成高质量、结构化的审稿意见。这一过程不仅涉及文本生成技术，还涵盖了学术领域的深度理解，为自动化同行评议系统的开发奠定了数据基础。

实际应用

在实际应用层面，GitBag/Reviewer2_PGE_raw数据集为学术出版和科研管理提供了实用工具。基于该数据集训练的模型可集成到在线投稿系统中，辅助生成初步审稿意见，帮助编辑快速筛选论文或为审稿人提供参考。此外，教育机构可利用这些数据开发培训工具，帮助新手研究者学习如何撰写有效的审稿意见。在工业界，相关技术可扩展至其他文本评估场景，如代码审查或文档质量分析，体现了数据集在提升自动化文本处理能力方面的广泛价值。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，原始论文《Reviewer2: Optimizing Review Generation Through Prompt Generation》提出了基于提示生成的审稿优化方法，为后续研究设立了基准。其他工作则扩展了数据集的用途，包括开发更高效的文本生成架构、探索多模态审稿生成结合PDF内容，以及利用元数据预测论文决策结果。这些衍生研究不仅深化了对自动审稿生成技术的理解，还推动了整个学术NLP领域的发展，形成了以数据驱动为核心的创新生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集