five

ECNU-SEA/SEA_data|自动化同行评审数据集|论文评估数据集

收藏
hugging_face2024-07-19 更新2024-07-22 收录
自动化同行评审
论文评估
下载链接:
https://hf-mirror.com/datasets/ECNU-SEA/SEA_data
下载链接
链接失效反馈
资源简介:
该数据集包含四种类型的文件:原始PDF格式的论文、通过Nougat解析后的mmd文件、爬取的原始评审文本以及处理后的评审JSON文件。数据集来源于OpenReview,包括NeurIPS-2023和ICLR-2024的最新论文及其评审。

This dataset is designed for automated peer reviewing and includes four types of files: original paper PDFs, mmd files parsed by Nougat, crawled raw review texts, and processed review JSON files. The data is sourced from the latest papers and their reviews on OpenReview, including NeurIPS-2023 and ICLR-2024.
提供机构:
ECNU-SEA
原始信息汇总

数据集概述

数据集详情

该数据集包含以下四种文件类型:

  • paper_raw_pdf: 原始论文的PDF格式文件。
  • paper_nougat_mmd: 通过Nougat解析后的mmd文件。
  • review_raw_txt: 爬取的原始评审文本。
  • review_json: 处理后的评审JSON文件,包含“Decision”、“Meta Review”,以及每个评审的“Summary”、“Strengths”、“Weaknesses”、“Questions”、“Soundness”、“Presentation”、“Contribution”、“Confidence”和“Rating”。

数据集来源

数据集从OpenReview爬取了最新的论文及其对应的评审,包括NeurIPS-2023和ICLR-2024。

引用

如果该数据集对您的研究有帮助,请考虑引用如下:

bibtex @misc{yu2024automatedpeerreviewingpaper, title={Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis}, author={Jianxiang Yu and Zichen Ding and Jiaqi Tan and Kangyang Luo and Zhenmin Weng and Chenghua Gong and Long Zeng and Renjing Cui and Chengcheng Han and Qiushi Sun and Zhiyong Wu and Yunshi Lan and Xiang Li}, year={2024}, eprint={2407.12857}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.12857}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建ECNU-SEA/SEA_data数据集时,研究团队通过从OpenReview平台爬取最新的论文及其对应的评审信息,涵盖了NeurIPS-2023和ICLR-2024等重要会议。原始论文以PDF格式保存,并通过Nougat工具解析生成mmd文件。评审文本则被分为原始文本和经过处理的JSON文件,后者详细记录了评审决策、元评审、总结、优缺点、问题、合理性、展示、贡献、信心和评分等多维度信息。
使用方法
ECNU-SEA/SEA_data数据集适用于自动化同行评审的研究和模型训练。研究者可以通过解析mmd文件和处理后的JSON文件,提取和分析评审中的关键信息。数据集的多维度评审信息为构建和评估自动化评审模型提供了坚实的基础,有助于提升评审过程的标准化和效率。
背景与挑战
背景概述
在学术出版领域,同行评审是确保研究质量的关键环节。ECNU-SEA/SEA_data数据集由华东师范大学(ECNU)的SEA团队创建,旨在通过自动化技术提升同行评审的效率与标准化。该数据集的核心研究问题是如何利用机器学习技术对同行评审过程进行自动化处理,从而减少人为偏见并提高评审的一致性。数据集包含了从OpenReview平台爬取的最新论文及其对应的评审信息,涵盖了NeurIPS-2023和ICLR-2024等重要会议。通过解析原始PDF文件和处理后的评审文本,该数据集为研究者提供了一个全面的资源,以探索自动化评审系统的开发与优化。
当前挑战
尽管ECNU-SEA/SEA_data数据集为自动化同行评审研究提供了宝贵的资源,但其构建过程中仍面临诸多挑战。首先,从PDF文件中提取结构化信息的准确性是一个主要难题,依赖于Nougat等解析工具的性能。其次,评审文本的多样性和复杂性增加了数据处理的难度,特别是在处理不同评审者的主观评价时。此外,确保数据集的隐私和版权合规性也是一项重要挑战,尤其是在从公开平台爬取数据时。最后,如何设计有效的评估指标来衡量自动化评审系统的性能,仍需进一步研究和探索。
常用场景
经典使用场景
在学术界,ECNU-SEA/SEA_data数据集的经典使用场景主要集中在自动化同行评审的领域。该数据集通过整合原始论文的PDF格式、经过Nougat解析后的mmd文件、爬取的原始评审文本以及经过处理的评审JSON文件,为研究者提供了一个全面且结构化的数据资源。这些数据不仅支持对论文内容的深入分析,还为构建和评估自动化评审系统提供了坚实的基础。
解决学术问题
ECNU-SEA/SEA_data数据集解决了学术研究中关于同行评审过程的标准化、评估和分析的常见问题。通过提供详细的评审信息和论文内容,该数据集使得研究者能够系统地探索评审过程中的偏见、一致性和有效性等关键问题。这不仅有助于提升评审过程的透明度和公正性,还为开发更智能的评审工具提供了数据支持。
实际应用
在实际应用中,ECNU-SEA/SEA_data数据集被广泛用于开发和优化自动化同行评审系统。这些系统能够快速处理大量论文,提供初步的评审意见,从而减轻评审人员的负担。此外,数据集中的详细评审信息也被用于培训和验证机器学习模型,以提高其对评审标准的理解和应用能力。
数据集最近研究
最新研究方向
在学术评审自动化领域,ECNU-SEA/SEA_data数据集的最新研究方向聚焦于通过标准化、评估和分析来提升同行评审的自动化水平。该数据集不仅收录了原始论文和评审文本,还通过Nougat解析工具生成了结构化的评审信息,涵盖评审决策、元评审及各项评审指标。这一研究方向旨在通过数据驱动的方法,提高评审过程的透明度和一致性,从而推动学术出版领域的技术革新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录