ECNU-SEA/SEA_data

Name: ECNU-SEA/SEA_data
Creator: ECNU-SEA
Published: 2024-12-30 03:21:32
License: 暂无描述

Hugging Face2024-12-30 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/ECNU-SEA/SEA_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四种类型的文件：原始PDF格式的论文、通过Nougat解析后的mmd文件、爬取的原始评审文本以及处理后的评审JSON文件。数据集来源于OpenReview，包括NeurIPS-2023和ICLR-2024的最新论文及其评审。

This dataset is designed for automated peer reviewing and includes four types of files: original paper PDFs, mmd files parsed by Nougat, crawled raw review texts, and processed review JSON files. The data is sourced from the latest papers and their reviews on OpenReview, including NeurIPS-2023 and ICLR-2024.

提供机构：

ECNU-SEA

原始信息汇总

数据集概述

数据集详情

该数据集包含以下四种文件类型：

paper_raw_pdf: 原始论文的PDF格式文件。
paper_nougat_mmd: 通过Nougat解析后的mmd文件。
review_raw_txt: 爬取的原始评审文本。
review_json: 处理后的评审JSON文件，包含“Decision”、“Meta Review”，以及每个评审的“Summary”、“Strengths”、“Weaknesses”、“Questions”、“Soundness”、“Presentation”、“Contribution”、“Confidence”和“Rating”。

数据集来源

数据集从OpenReview爬取了最新的论文及其对应的评审，包括NeurIPS-2023和ICLR-2024。

引用

如果该数据集对您的研究有帮助，请考虑引用如下：

bibtex @misc{yu2024automatedpeerreviewingpaper, title={Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis}, author={Jianxiang Yu and Zichen Ding and Jiaqi Tan and Kangyang Luo and Zhenmin Weng and Chenghua Gong and Long Zeng and Renjing Cui and Chengcheng Han and Qiushi Sun and Zhiyong Wu and Yunshi Lan and Xiang Li}, year={2024}, eprint={2407.12857}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.12857}, }

搜集汇总

数据集介绍

构建方式

在构建ECNU-SEA/SEA_data数据集时，研究团队通过从OpenReview平台爬取最新的论文及其对应的评审信息，涵盖了NeurIPS-2023和ICLR-2024等重要会议。原始论文以PDF格式保存，并通过Nougat工具解析生成mmd文件。评审文本则被分为原始文本和经过处理的JSON文件，后者详细记录了评审决策、元评审、总结、优缺点、问题、合理性、展示、贡献、信心和评分等多维度信息。

使用方法

ECNU-SEA/SEA_data数据集适用于自动化同行评审的研究和模型训练。研究者可以通过解析mmd文件和处理后的JSON文件，提取和分析评审中的关键信息。数据集的多维度评审信息为构建和评估自动化评审模型提供了坚实的基础，有助于提升评审过程的标准化和效率。

背景与挑战

背景概述

在学术出版领域，同行评审是确保研究质量的关键环节。ECNU-SEA/SEA_data数据集由华东师范大学（ECNU）的SEA团队创建，旨在通过自动化技术提升同行评审的效率与标准化。该数据集的核心研究问题是如何利用机器学习技术对同行评审过程进行自动化处理，从而减少人为偏见并提高评审的一致性。数据集包含了从OpenReview平台爬取的最新论文及其对应的评审信息，涵盖了NeurIPS-2023和ICLR-2024等重要会议。通过解析原始PDF文件和处理后的评审文本，该数据集为研究者提供了一个全面的资源，以探索自动化评审系统的开发与优化。

当前挑战

尽管ECNU-SEA/SEA_data数据集为自动化同行评审研究提供了宝贵的资源，但其构建过程中仍面临诸多挑战。首先，从PDF文件中提取结构化信息的准确性是一个主要难题，依赖于Nougat等解析工具的性能。其次，评审文本的多样性和复杂性增加了数据处理的难度，特别是在处理不同评审者的主观评价时。此外，确保数据集的隐私和版权合规性也是一项重要挑战，尤其是在从公开平台爬取数据时。最后，如何设计有效的评估指标来衡量自动化评审系统的性能，仍需进一步研究和探索。

常用场景

经典使用场景

在学术界，ECNU-SEA/SEA_data数据集的经典使用场景主要集中在自动化同行评审的领域。该数据集通过整合原始论文的PDF格式、经过Nougat解析后的mmd文件、爬取的原始评审文本以及经过处理的评审JSON文件，为研究者提供了一个全面且结构化的数据资源。这些数据不仅支持对论文内容的深入分析，还为构建和评估自动化评审系统提供了坚实的基础。

解决学术问题

ECNU-SEA/SEA_data数据集解决了学术研究中关于同行评审过程的标准化、评估和分析的常见问题。通过提供详细的评审信息和论文内容，该数据集使得研究者能够系统地探索评审过程中的偏见、一致性和有效性等关键问题。这不仅有助于提升评审过程的透明度和公正性，还为开发更智能的评审工具提供了数据支持。

实际应用

在实际应用中，ECNU-SEA/SEA_data数据集被广泛用于开发和优化自动化同行评审系统。这些系统能够快速处理大量论文，提供初步的评审意见，从而减轻评审人员的负担。此外，数据集中的详细评审信息也被用于培训和验证机器学习模型，以提高其对评审标准的理解和应用能力。

数据集最近研究