基于论证攻击的推理任务数据集

Name: 基于论证攻击的推理任务数据集
Creator: 伯努利数学、计算机科学与人工智能研究所，格罗宁根大学; 信息与计算机科学系，乌得勒支大学
Published: 2025-05-03 03:04:34
License: 暂无描述

arXiv2025-05-03 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.01539v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由伯努利数学、计算机科学与人工智能研究所和信息与计算机科学系的研究人员创建，旨在评估生成式语言模型在法律推理方面的能力。数据集包含2500个线性攻击图和2500个非线性攻击图，每个图包含1到25个论证。数据集通过将攻击图自动转换为自然语言提示来生成，以测试模型在不同复杂度下的推理能力。

This dataset was created by researchers from the Bernoulli Institute for Mathematics, Computer Science and Artificial Intelligence and the Department of Information and Computer Science. It is designed to evaluate the legal reasoning capabilities of generative language models. The dataset contains 2500 linear attack graphs and 2500 non-linear attack graphs, with each graph encompassing 1 to 25 arguments. It was generated by automatically converting attack graphs into natural language prompts to test the model's reasoning abilities across varying levels of complexity.

提供机构：

伯努利数学、计算机科学与人工智能研究所，格罗宁根大学; 信息与计算机科学系，乌得勒支大学

创建时间：

2025-05-03

搜集汇总

数据集介绍

构建方式

该数据集通过动态生成线性和非线性论证攻击图构建而成，结合形式化论证语义与自然语言处理技术。研究者首先定义论证攻击图的结构，其中节点代表证人证言，边表示论证间的攻击关系。随后利用包含474个独特姓名和90种陈述的本体论，将形式化论证图转化为自然语言推理谜题。为确保多样性，每个论证图生成多个提示变体，并通过参数化控制论证图复杂度以实现可扩展性。

特点

数据集具有动态可变性、复杂度可扩展性和形式无歧义性三大特征。动态生成机制有效避免了数据污染问题，参数化设计支持从简单到复杂的多层级推理任务评估。论证攻击图的形式化语义为每个问题提供了明确的解释标准，而自然语言转换则增强了任务的现实适用性。特别设计的线性与非线性结构可系统检测语言模型在不同推理场景中的表现差异。

使用方法

该数据集主要用于评估生成式语言模型的论证推理能力。使用者可通过调整论证数量和攻击图结构参数生成定制化测试集，将自然语言提示输入待测模型后比对标准答案。典型应用场景包括：检测模型对证人证言链式推理的准确性，分析非线性论证结构的处理能力，以及评估提示词顺序对推理表现的影响。数据集内置的自动评估指标（准确率、F1值等）支持量化分析模型的推理缺陷。

背景与挑战

背景概述

基于论证攻击的推理任务数据集由荷兰格罗宁根大学与乌得勒支大学的研究团队于2025年提出，旨在评估生成式语言模型在法律领域的推理能力。该数据集通过动态生成的线性与非线性论证攻击图，构建了形式化语义明确的自然语言推理谜题，其核心创新在于采用参数化方法实现任务复杂度的可扩展性，并利用本体论实现内容多样性以防止数据污染。作为首个将抽象论证框架理论与法律证言分析相结合的基准工具，该研究揭示了当前最先进语言模型在结构化逻辑推理中的脆弱性，为法律人工智能系统的可靠性评估提供了方法论基础。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决生成式模型在法律论证中存在的'幻觉推理'问题，即模型可能产生形式上合理但逻辑错误的结论，这种缺陷在需要严格演绎推理的法律场景中尤为致命；在构建技术层面，研究团队需攻克论证攻击图向自然语言的无损转换难题，包括保持形式语义的严格一致性、实现论证路径的复杂度参数化控制，以及通过本体论词汇替换生成海量语义等效但表层表达迥异的测试用例。实验表明，即使是最先进的GPT-4o和Claude-3.5模型，在超过4个论证节点的非线性结构中正确率骤降至50%以下，暴露出当前模型对复杂逻辑结构的解析缺陷。

常用场景

经典使用场景

基于论证攻击的推理任务数据集在评估生成式语言模型的推理能力方面具有重要应用。该数据集通过动态生成的线性与非线性论证攻击图，模拟法律领域中的证人证言推理场景，测试模型在复杂逻辑结构下的表现。例如，模型需判断是否应采信首位证人的陈述，当后续证人依次质疑前者的可信性时，其推理链条的稳健性将受到严格检验。这种结构化任务能有效揭示模型在处理法律论证时的系统性缺陷。

解决学术问题

该数据集解决了生成式语言模型在法律推理中的关键学术问题：其形式化基准通过参数化复杂度设计，避免了传统静态数据集的数据污染风险，为评估模型真实推理能力提供可靠框架。研究证实，即使最先进的GPT-4o和Claude-3.5模型在非线性论证图（如多路径攻击结构）中错误率显著上升，这为理解模型在逻辑完备性、论证链处理等认知局限提供了实证依据。

衍生相关工作

该研究催生了多个重要衍生方向：在方法论层面，启发了动态基准生成技术向更复杂的法律论证框架（如ASPIC+）扩展；在模型优化领域，推动了如o1-preview等专用推理模型的开发；同时促进了混合系统（如结合神经符号推理的DALLMA框架）的研究，这些工作均引用该数据集作为核心评估工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集