five

counter-revreview-logic

收藏
arXiv2025-08-29 更新2025-09-03 收录
下载链接:
https://github.com/UKPLab/counter-revreview-logic
下载链接
链接失效反馈
官方服务:
资源简介:
本研究提出了一种新的数据集,名为'counter-revreview-logic',用于评估自动评审生成器(ARGs)在识别研究论文中逻辑错误的能力。数据集基于从ACL、EMNLP、NeurIPS和ICLR等主要会议中获取的AI和NLP领域的最新出版物。该数据集通过自动生成的反事实研究论文创建,其中故意引入逻辑错误,以测试ARGs对论文逻辑完整性的识别能力。

This study proposes a novel dataset named 'counter-revreview-logic' for evaluating the capability of Automatic Review Generators (ARGs) to identify logical fallacies in research papers. The dataset is built upon recent AI and NLP publications collected from top academic conferences such as ACL, EMNLP, NeurIPS, and ICLR. It is developed from automatically generated counterfactual research papers, where logical fallacies are intentionally inserted, aiming to test ARGs' ability to recognize the logical integrity of these research papers.
提供机构:
UKP Lab, Department of Computer Science and National Research Center for Applied Cybersecurity ATHENE Technical University of Darmstadt
创建时间:
2025-08-29
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过自动化反事实生成框架构建,首先从顶级AI与NLP会议(如ACL、EMNLP、NeurIPS和ICLR)的已接受论文中提取研究逻辑图,包括方法、结果、结论和发现四个核心组件。随后利用大型语言模型对原始论文进行外科手术式编辑,针对性破坏研究逻辑中的支持关系(如将相关性主张篡改为因果主张),同时保持论文的清晰度与新颖性不变,最终生成包含逻辑缺陷的反事实论文版本。
特点
数据集涵盖133篇高质量学术论文及其931个反事实变体,其中391个为逻辑关键编辑版本,540个为表面中性编辑版本。每个反事实版本均通过人工验证确保逻辑破坏的准确性(88%通过)、合理性(91.3%通过)和最小编辑性(79.4%通过)。其独特之处在于严格隔离研究逻辑错误与其他干扰因素,为评估自动评审系统的推理能力提供纯净且可控制的实验环境。
使用方法
该数据集专用于测试自动论文评审系统(ARGs)检测研究逻辑缺陷的能力。使用者可将原始论文与反事实版本输入ARGs生成评审报告,通过比较两者在评审维度(如逻辑相关方面数量、情感倾向和总体评分)的差异,量化系统对逻辑错误的敏感性。此外,数据集支持反事实评估框架的部署,可用于模型训练数据增强、错误分析及人机协作评审机制的开发。
背景与挑战
背景概述
counter-revreview-logic数据集由德国达姆施塔特工业大学UKP实验室于2025年创建,旨在评估大型语言模型在学术同行评审中识别研究逻辑缺陷的能力。该数据集基于ACL、EMNLP、NeurIPS和ICLR等顶级会议的实证研究论文,通过构建反事实版本系统测试自动评审生成系统(ARGs)的推理能力。其创新性在于将论文科学性形式化为研究逻辑图,为自然语言处理领域的学术质量评估提供了标准化基准,对推动可信人工智能在学术出版中的应用具有重要价值。
当前挑战
该数据集核心挑战在于解决自动评审系统对研究逻辑缺陷的检测盲区问题,包括论证链断裂、因果误判和结论过度外推等复杂推理任务。构建过程中需克服三大技术难点:一是如何在不改变论文其他属性的前提下精准破坏研究逻辑的完整性;二是确保反事实编辑的极小化和语义合理性;三是建立跨会议、跨领域的统一评估框架以消除领域特异性偏差。这些挑战对自然语言生成与推理技术的协同发展提出了更高要求。
常用场景
经典使用场景
在学术论文自动评审领域,counter-revreview-logic数据集通过构建反事实研究逻辑缺陷的论文变体,为评估大型语言模型在同行评审中的推理能力提供了基准测试平台。该数据集的核心应用场景在于系统检测自动评审生成系统是否能够识别论文内部的研究逻辑不一致性,例如实验结果与结论之间的支撑关系断裂、方法论缺陷导致的推理漏洞等问题。
衍生相关工作
基于该数据集衍生的经典工作包括多智能体协同评审框架TreeReviewer、微调模型Reviewer2的强化训练,以及深度推理系统DeepReviewer的迭代优化。这些工作通过引入反事实样本进行对抗训练,显著提升了模型对研究逻辑一致性的判别能力,推动了自动评审系统从表面特征匹配向深度逻辑验证的范式转变。
数据集最近研究
最新研究方向
在学术同行评审自动化领域,counter-revreview-logic数据集聚焦于大语言模型在检测研究逻辑缺陷方面的能力评估。该数据集通过构建反事实论文版本,系统性地引入研究逻辑错误(如结论与结果的不一致、因果关系的误述等),从而隔离并测试自动评审生成模型的核心推理能力。前沿研究揭示,尽管现有模型在表面错误检测方面表现良好,但在识别深层次逻辑一致性问题上存在显著局限,这一发现对AI辅助评审系统的实际应用提出了重要警示。该数据集推动了针对模型推理能力的精细化评估范式,并为构建人类与AI协同的评审机制提供了理论基础。
相关研究论文
  • 1
    Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation FrameworkUKP Lab, Department of Computer Science and National Research Center for Applied Cybersecurity ATHENE Technical University of Darmstadt · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作