CLAIMCHECK
收藏arXiv2025-03-28 更新2025-03-29 收录
下载链接:
https://github.com/JHU-CLSP/CLAIMCHECK
下载链接
链接失效反馈官方服务:
资源简介:
CLAIMCHECK是一个由约翰霍普金斯大学研究者构建的高质量的多模态数据集,包含被拒的NeurIPS 2023和2024会议提交的论文及其对应的OpenReview评论。数据集经过机器学习专家的丰富注释,关联了评论中发现的与论文主张相关的弱点,并链接到它们所反驳的论文主张。该数据集支持科学主张验证和基于主张的同行评审。数据来源于完整论文文本,而非合成构建,且包含了多样性缺陷类型的丰富标签,以提供对主张的深入分析。该数据集的应用领域主要是科学论文的同行评审,旨在提高对论文主张进行自动化评审的准确性。
CLAIMCHECK is a high-quality multimodal dataset constructed by researchers from Johns Hopkins University. It includes rejected NeurIPS 2023 and 2024 conference paper submissions and their corresponding OpenReview comments. The dataset has been extensively annotated by machine learning experts, linking the weaknesses related to paper claims identified in the comments to the specific paper claims they refute. This dataset supports scientific claim verification and claim-based peer review. The data is sourced from full-length paper texts rather than being synthetically constructed, and contains rich labels of diverse defect types to provide in-depth analysis of the claims. The main application field of this dataset is peer review of scientific papers, aiming to improve the accuracy of automated review for paper claims.
提供机构:
约翰霍普金斯大学
创建时间:
2025-03-28
搜集汇总
数据集介绍

构建方式
CLAIMCHECK数据集的构建基于NeurIPS 2023和2024年提交的论文及其在OpenReview上的评审意见。通过多阶段筛选流程,首先从公开评审中获取初始数据集,随后利用预定义的与声明相关的关键词进行过滤,并进一步通过GPT-4o进行零样本提示,筛选出与自然语言处理(NLP)领域相关的论文和评审。最终数据集由机器学习专家进行详细标注,包括评审中提出的弱点陈述、这些弱点所争议的论文声明,以及弱点的有效性、客观性和类型等细粒度标签。
特点
CLAIMCHECK数据集的特点在于其丰富的标注内容和多模态结构。它不仅包含论文全文和评审意见,还涵盖了论文中的表格、图表和算法等视觉元素及其标题。数据集特别强调了评审弱点与论文声明之间的关联,通过专家标注确保了弱点的针对性和声明的明确性。此外,数据集采用多标签本体对声明可能表现出的弱点类型进行分类,反映了科学评审中常见的复杂性和多样性。
使用方法
CLAIMCHECK数据集支持多种任务,主要包括声明关联(CA)、弱点标注与编辑(WLE)以及声明验证(CV)。在声明关联任务中,模型需要将评审中的弱点与论文中的具体声明相关联;弱点标注与编辑任务要求模型对弱点进行细粒度分类,并根据需要改写弱点以提高其针对性和基础性;声明验证任务则挑战模型从零开始验证论文声明的合理性。数据集的使用方法涉及对论文和评审内容的深入分析,以及对多模态信息的综合处理,为自动化的科学评审和声明验证提供了宝贵的资源。
背景与挑战
背景概述
CLAIMCHECK数据集由约翰霍普金斯大学的研究团队于2025年创建,旨在解决科学论文同行评审中自动生成评论的挑战。该数据集基于NeurIPS 2023和2024年提交的论文及其OpenReview评审,由机器学习专家标注,包含评审中针对论文主张的弱点陈述及其对应的目标主张。CLAIMCHECK的创建填补了科学主张验证和基于主张的同行评审领域的空白,为评估大型语言模型(LLM)在科学论文评审中的表现提供了重要资源。
当前挑战
CLAIMCHECK数据集面临的挑战主要包括两个方面:1) 领域问题的挑战,即如何确保自动生成的评审评论不仅合理,而且基于论文的具体主张,这对于科学论文评审的严谨性至关重要;2) 构建过程中的挑战,包括从真实评审中提取和标注主张相关的弱点,以及开发多标签本体来描述主张可能表现出的弱点类型。此外,数据集的构建还需克服数据来源的限制和专家标注的高成本问题。
常用场景
经典使用场景
CLAIMCHECK数据集在自然语言处理和人工智能领域的学术研究中扮演着重要角色,尤其在自动化同行评审和科学声明验证方面。该数据集通过标注NeurIPS 2023和2024提交的论文及其评审意见,为研究者提供了一个丰富的资源,用于分析和评估大型语言模型(LLM)在科学声明验证和评审生成中的表现。其经典使用场景包括评估模型在关联评审弱点与论文声明、预测弱点类型以及验证声明真实性等方面的能力。
衍生相关工作
CLAIMCHECK数据集衍生了一系列相关研究工作,主要集中在自动化同行评审和科学声明验证领域。例如,一些研究利用该数据集开发了新的算法,用于更准确地关联评审弱点与论文声明。其他工作则聚焦于改进弱点类型的分类模型,或探索如何利用多模态数据(如文本、图表和算法)进行更全面的声明验证。这些衍生工作不仅扩展了数据集的应用范围,还推动了相关领域的技术进步。
数据集最近研究
最新研究方向
近年来,CLAIMCHECK数据集在自然语言处理(NLP)和人工智能(AI)领域引起了广泛关注,特别是在科学论文的自动同行评审和科学声明验证方面。该数据集通过提供来自NeurIPS 2023和2024提交的论文及其评审意见,并辅以机器学习专家的精细标注,为研究社区提供了一个独特的资源。CLAIMCHECK的最新研究方向主要集中在三个方面:评审弱点与论文声明的关联性分析、弱点类型的细粒度标签预测以及基于声明的科学验证。这些研究方向不仅推动了自动同行评审技术的发展,还为大型语言模型(LLM)在科学声明验证任务中的性能评估提供了重要基准。此外,CLAIMCHECK的出现也引发了关于如何确保自动生成的评审意见既具体又基于论文实际声明的讨论,这一热点问题在当前AI辅助学术评审的背景下显得尤为重要。该数据集的影响和意义在于,它为研究社区提供了一个真实、高质量的数据资源,有助于推动自动同行评审和科学声明验证技术的进步,同时也为未来研究提供了新的方向和挑战。
相关研究论文
- 1CLAIMCHECK: How Grounded are LLM Critiques of Scientific Papers?约翰霍普金斯大学 · 2025年
以上内容由遇见数据集搜集并总结生成



