CLAIMCHECK

Name: CLAIMCHECK
Creator: 约翰霍普金斯大学
Published: 2025-03-28 01:29:45
License: 暂无描述

arXiv2025-03-28 更新2025-03-29 收录

下载链接：

https://github.com/JHU-CLSP/CLAIMCHECK

下载链接

链接失效反馈

官方服务：

资源简介：

CLAIMCHECK是一个由约翰霍普金斯大学研究者构建的高质量的多模态数据集，包含被拒的NeurIPS 2023和2024会议提交的论文及其对应的OpenReview评论。数据集经过机器学习专家的丰富注释，关联了评论中发现的与论文主张相关的弱点，并链接到它们所反驳的论文主张。该数据集支持科学主张验证和基于主张的同行评审。数据来源于完整论文文本，而非合成构建，且包含了多样性缺陷类型的丰富标签，以提供对主张的深入分析。该数据集的应用领域主要是科学论文的同行评审，旨在提高对论文主张进行自动化评审的准确性。

CLAIMCHECK is a high-quality multimodal dataset constructed by researchers from Johns Hopkins University. It includes rejected NeurIPS 2023 and 2024 conference paper submissions and their corresponding OpenReview comments. The dataset has been extensively annotated by machine learning experts, linking the weaknesses related to paper claims identified in the comments to the specific paper claims they refute. This dataset supports scientific claim verification and claim-based peer review. The data is sourced from full-length paper texts rather than being synthetically constructed, and contains rich labels of diverse defect types to provide in-depth analysis of the claims. The main application field of this dataset is peer review of scientific papers, aiming to improve the accuracy of automated review for paper claims.

提供机构：

约翰霍普金斯大学

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

CLAIMCHECK数据集的构建基于NeurIPS 2023和2024年提交的论文及其在OpenReview上的评审意见。通过多阶段筛选流程，首先从公开评审中获取初始数据集，随后利用预定义的与声明相关的关键词进行过滤，并进一步通过GPT-4o进行零样本提示，筛选出与自然语言处理（NLP）领域相关的论文和评审。最终数据集由机器学习专家进行详细标注，包括评审中提出的弱点陈述、这些弱点所争议的论文声明，以及弱点的有效性、客观性和类型等细粒度标签。

特点

CLAIMCHECK数据集的特点在于其丰富的标注内容和多模态结构。它不仅包含论文全文和评审意见，还涵盖了论文中的表格、图表和算法等视觉元素及其标题。数据集特别强调了评审弱点与论文声明之间的关联，通过专家标注确保了弱点的针对性和声明的明确性。此外，数据集采用多标签本体对声明可能表现出的弱点类型进行分类，反映了科学评审中常见的复杂性和多样性。

使用方法

CLAIMCHECK数据集支持多种任务，主要包括声明关联（CA）、弱点标注与编辑（WLE）以及声明验证（CV）。在声明关联任务中，模型需要将评审中的弱点与论文中的具体声明相关联；弱点标注与编辑任务要求模型对弱点进行细粒度分类，并根据需要改写弱点以提高其针对性和基础性；声明验证任务则挑战模型从零开始验证论文声明的合理性。数据集的使用方法涉及对论文和评审内容的深入分析，以及对多模态信息的综合处理，为自动化的科学评审和声明验证提供了宝贵的资源。

背景与挑战

背景概述

CLAIMCHECK数据集由约翰霍普金斯大学的研究团队于2025年创建，旨在解决科学论文同行评审中自动生成评论的挑战。该数据集基于NeurIPS 2023和2024年提交的论文及其OpenReview评审，由机器学习专家标注，包含评审中针对论文主张的弱点陈述及其对应的目标主张。CLAIMCHECK的创建填补了科学主张验证和基于主张的同行评审领域的空白，为评估大型语言模型（LLM）在科学论文评审中的表现提供了重要资源。

当前挑战

CLAIMCHECK数据集面临的挑战主要包括两个方面：1) 领域问题的挑战，即如何确保自动生成的评审评论不仅合理，而且基于论文的具体主张，这对于科学论文评审的严谨性至关重要；2) 构建过程中的挑战，包括从真实评审中提取和标注主张相关的弱点，以及开发多标签本体来描述主张可能表现出的弱点类型。此外，数据集的构建还需克服数据来源的限制和专家标注的高成本问题。

常用场景

经典使用场景

CLAIMCHECK数据集在自然语言处理和人工智能领域的学术研究中扮演着重要角色，尤其在自动化同行评审和科学声明验证方面。该数据集通过标注NeurIPS 2023和2024提交的论文及其评审意见，为研究者提供了一个丰富的资源，用于分析和评估大型语言模型（LLM）在科学声明验证和评审生成中的表现。其经典使用场景包括评估模型在关联评审弱点与论文声明、预测弱点类型以及验证声明真实性等方面的能力。

衍生相关工作

CLAIMCHECK数据集衍生了一系列相关研究工作，主要集中在自动化同行评审和科学声明验证领域。例如，一些研究利用该数据集开发了新的算法，用于更准确地关联评审弱点与论文声明。其他工作则聚焦于改进弱点类型的分类模型，或探索如何利用多模态数据（如文本、图表和算法）进行更全面的声明验证。这些衍生工作不仅扩展了数据集的应用范围，还推动了相关领域的技术进步。

数据集最近研究