ECNU-SEA/SEA_data
收藏Hugging Face2024-12-30 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/ECNU-SEA/SEA_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含四种类型的文件:原始PDF格式的论文、通过Nougat解析后的mmd文件、爬取的原始评审文本以及处理后的评审JSON文件。数据集来源于OpenReview,包括NeurIPS-2023和ICLR-2024的最新论文及其评审。
This dataset is designed for automated peer reviewing and includes four types of files: original paper PDFs, mmd files parsed by Nougat, crawled raw review texts, and processed review JSON files. The data is sourced from the latest papers and their reviews on OpenReview, including NeurIPS-2023 and ICLR-2024.
提供机构:
ECNU-SEA
原始信息汇总
数据集概述
数据集详情
该数据集包含以下四种文件类型:
- paper_raw_pdf: 原始论文的PDF格式文件。
- paper_nougat_mmd: 通过Nougat解析后的mmd文件。
- review_raw_txt: 爬取的原始评审文本。
- review_json: 处理后的评审JSON文件,包含“Decision”、“Meta Review”,以及每个评审的“Summary”、“Strengths”、“Weaknesses”、“Questions”、“Soundness”、“Presentation”、“Contribution”、“Confidence”和“Rating”。
数据集来源
数据集从OpenReview爬取了最新的论文及其对应的评审,包括NeurIPS-2023和ICLR-2024。
引用
如果该数据集对您的研究有帮助,请考虑引用如下:
bibtex @misc{yu2024automatedpeerreviewingpaper, title={Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis}, author={Jianxiang Yu and Zichen Ding and Jiaqi Tan and Kangyang Luo and Zhenmin Weng and Chenghua Gong and Long Zeng and Renjing Cui and Chengcheng Han and Qiushi Sun and Zhiyong Wu and Yunshi Lan and Xiang Li}, year={2024}, eprint={2407.12857}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.12857}, }
搜集汇总
数据集介绍

构建方式
在构建ECNU-SEA/SEA_data数据集时,研究团队通过从OpenReview平台爬取最新的论文及其对应的评审信息,涵盖了NeurIPS-2023和ICLR-2024等重要会议。原始论文以PDF格式保存,并通过Nougat工具解析生成mmd文件。评审文本则被分为原始文本和经过处理的JSON文件,后者详细记录了评审决策、元评审、总结、优缺点、问题、合理性、展示、贡献、信心和评分等多维度信息。
使用方法
ECNU-SEA/SEA_data数据集适用于自动化同行评审的研究和模型训练。研究者可以通过解析mmd文件和处理后的JSON文件,提取和分析评审中的关键信息。数据集的多维度评审信息为构建和评估自动化评审模型提供了坚实的基础,有助于提升评审过程的标准化和效率。
背景与挑战
背景概述
在学术出版领域,同行评审是确保研究质量的关键环节。ECNU-SEA/SEA_data数据集由华东师范大学(ECNU)的SEA团队创建,旨在通过自动化技术提升同行评审的效率与标准化。该数据集的核心研究问题是如何利用机器学习技术对同行评审过程进行自动化处理,从而减少人为偏见并提高评审的一致性。数据集包含了从OpenReview平台爬取的最新论文及其对应的评审信息,涵盖了NeurIPS-2023和ICLR-2024等重要会议。通过解析原始PDF文件和处理后的评审文本,该数据集为研究者提供了一个全面的资源,以探索自动化评审系统的开发与优化。
当前挑战
尽管ECNU-SEA/SEA_data数据集为自动化同行评审研究提供了宝贵的资源,但其构建过程中仍面临诸多挑战。首先,从PDF文件中提取结构化信息的准确性是一个主要难题,依赖于Nougat等解析工具的性能。其次,评审文本的多样性和复杂性增加了数据处理的难度,特别是在处理不同评审者的主观评价时。此外,确保数据集的隐私和版权合规性也是一项重要挑战,尤其是在从公开平台爬取数据时。最后,如何设计有效的评估指标来衡量自动化评审系统的性能,仍需进一步研究和探索。
常用场景
经典使用场景
在学术界,ECNU-SEA/SEA_data数据集的经典使用场景主要集中在自动化同行评审的领域。该数据集通过整合原始论文的PDF格式、经过Nougat解析后的mmd文件、爬取的原始评审文本以及经过处理的评审JSON文件,为研究者提供了一个全面且结构化的数据资源。这些数据不仅支持对论文内容的深入分析,还为构建和评估自动化评审系统提供了坚实的基础。
解决学术问题
ECNU-SEA/SEA_data数据集解决了学术研究中关于同行评审过程的标准化、评估和分析的常见问题。通过提供详细的评审信息和论文内容,该数据集使得研究者能够系统地探索评审过程中的偏见、一致性和有效性等关键问题。这不仅有助于提升评审过程的透明度和公正性,还为开发更智能的评审工具提供了数据支持。
实际应用
在实际应用中,ECNU-SEA/SEA_data数据集被广泛用于开发和优化自动化同行评审系统。这些系统能够快速处理大量论文,提供初步的评审意见,从而减轻评审人员的负担。此外,数据集中的详细评审信息也被用于培训和验证机器学习模型,以提高其对评审标准的理解和应用能力。
数据集最近研究
最新研究方向
在学术评审自动化领域,ECNU-SEA/SEA_data数据集的最新研究方向聚焦于通过标准化、评估和分析来提升同行评审的自动化水平。该数据集不仅收录了原始论文和评审文本,还通过Nougat解析工具生成了结构化的评审信息,涵盖评审决策、元评审及各项评审指标。这一研究方向旨在通过数据驱动的方法,提高评审过程的透明度和一致性,从而推动学术出版领域的技术革新。
以上内容由遇见数据集搜集并总结生成



