Explainable Argumentation Computation Benchmark
收藏arXiv2024-12-22 更新2024-12-25 收录
下载链接:
http://arxiv.org/abs/2412.16725v1
下载链接
链接失效反馈官方服务:
资源简介:
Explainable Argumentation Computation Benchmark是由浙江大学团队开发的一个用于训练和评估大语言模型(LLMs)在抽象论证框架(AAF)中计算扩展能力的基准数据集。该数据集包含60,000个训练样本和2,000个测试样本,涵盖了从6到25个论证的多种难度级别的抽象论证框架。每个样本包括指令、问题、解释和答案四个部分,旨在通过详细的算法解释来增强模型的可解释性和泛化能力。数据集的创建过程包括随机生成论证框架、去除重复样本并计算真实语义标签。该数据集主要应用于法律决策、政策合规分析和伦理决策等需要可废止推理的实际场景,旨在提升LLMs在论证计算中的准确性和透明度。
Explainable Argumentation Computation Benchmark is a benchmark dataset developed by the Zhejiang University team for training and evaluating Large Language Models (LLMs) on their capacity to compute extensions in Abstract Argumentation Frameworks (AAF). This dataset includes 60,000 training samples and 2,000 test samples, covering Abstract Argumentation Frameworks of varying difficulty levels with 6 to 25 arguments each. Each sample consists of four parts: instruction, question, explanation, and answer, aiming to enhance the model's interpretability and generalization ability through detailed algorithmic explanations. The dataset creation process involves randomly generating argumentation frameworks, removing duplicate samples, and calculating ground-truth semantic labels. This benchmark is primarily applied in real-world scenarios requiring defeasible reasoning, such as legal decision-making, policy compliance analysis and ethical decision-making, with the goal of improving the accuracy and transparency of LLMs in argumentation computation.
提供机构:
浙江大学
创建时间:
2024-12-22
搜集汇总
数据集介绍

构建方式
Explainable Argumentation Computation Benchmark 数据集的构建基于抽象论证框架(AAF),旨在评估大语言模型(LLM)在论证计算中的能力。数据集通过随机生成不同复杂度的论证框架,涵盖6到25个参数的AAF,并计算其语义扩展。每个样本包含图描述语言表示的AAF、递归算法的执行信息以及解释过程。数据集分为训练集和测试集,分别包含60,000和2,000个样本,确保多样性和挑战性。数据组织采用指令调优模板,包含指令、问题、解释和答案四个部分,便于LLM的监督微调。
特点
该数据集的核心特点在于其解释性机制,通过详细的算法执行过程和解释,增强了LLM在论证计算中的透明性。数据集涵盖多种语义扩展任务,包括基础语义(如grounded和complete语义)的计算,并通过标注算法提供详细的解释。每个样本不仅包含AAF的描述,还附有递归算法的执行步骤和合法性验证,使得LLM能够在计算过程中生成解释性文本。此外,数据集通过多样化的图描述语言(如GraphML、Graphviz DOT和JSON)表示AAF,增强了数据的可读性和适应性。
使用方法
该数据集的使用方法主要围绕LLM的微调和评估展开。在训练阶段,LLM通过指令和问题作为输入,生成解释和答案作为输出,从而学习论证计算的算法过程和解释能力。实验表明,带有解释的训练显著提高了模型的泛化能力和准确性。在评估阶段,数据集用于测试LLM在零样本提示和微调后的表现,重点考察其在基础语义扩展任务中的准确性和解释能力。通过对比不同模型的表现,研究揭示了解释性训练在提升模型透明性和推理能力方面的关键作用。
背景与挑战
背景概述
Explainable Argumentation Computation Benchmark 数据集由浙江大学的研究团队于2024年创建,旨在探索大语言模型(LLMs)在抽象论证计算中的潜力。该数据集的核心研究问题是如何利用LLMs计算不同抽象论证语义的扩展,并通过详细的算法解释增强模型的可解释性。研究团队通过构建包含多样化抽象论证框架的基准数据集,展示了LLMs在论证计算中的能力,尤其是在可解释性方面的优势。该数据集对法律决策、政策合规分析和伦理决策等实际应用领域具有重要影响,推动了人工智能在可解释性推理方向的发展。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,抽象论证计算本身具有复杂性,尤其是在处理可废止推理时,LLMs容易产生幻觉和推导错误,导致语义计算的准确性不足。其次,在数据集构建过程中,研究团队需要生成大量具有不同难度的论证框架,并确保每个样本包含详细的算法解释。这不仅增加了数据生成的复杂性,还要求模型在训练过程中能够有效理解并解释符号计算过程。此外,如何通过微调提升LLMs在语义计算中的表现,同时保持其可解释性,也是一个重要的技术挑战。
常用场景
经典使用场景
Explainable Argumentation Computation Benchmark 数据集在抽象论证框架(AAF)的语义计算中具有经典的应用场景。该数据集通过提供多样化的论证框架和详细的算法解释,支持大语言模型(LLMs)在计算论证语义时的训练与评估。其核心任务包括计算基础扩展(grounded extensions)和完全扩展(complete extensions),并通过标签算法逐步解释计算过程。这种场景特别适用于需要可解释性推理的领域,如法律决策、政策分析和伦理推理。
解决学术问题
该数据集解决了大语言模型在形式逻辑推理任务中的局限性问题,尤其是在抽象论证语义计算中的透明性和解释性不足。通过引入算法解释机制,数据集显著提升了模型在语义计算中的准确性和泛化能力。研究表明,带有解释的训练模型在语义计算任务中表现优于仅依赖问答对训练的模型,有效减少了神经网络常见的黑箱问题,为可解释性人工智能的发展提供了重要支持。
衍生相关工作
该数据集衍生了一系列相关经典工作,推动了论证计算与深度学习结合的研究。例如,AGNN 和 EGNN 等图神经网络方法在论证语义计算中的应用,展示了神经网络在预测论点可接受性方面的潜力。此外,近期研究如 GPT4Graph 和 Logic-LM 进一步探索了大语言模型在图结构数据和逻辑推理任务中的能力。这些工作不仅扩展了论证计算的应用范围,也为可解释性人工智能的发展提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



