NLAS-MULTI
收藏arXiv2024-02-22 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.8364002
下载链接
链接失效反馈官方服务:
资源简介:
NLAS-MULTI是由邓迪大学论证技术中心创建的多语言论证方案语料库,包含3810个自动生成的自然语言论证方案。该数据集涵盖20种不同的论证结构,涉及50个主题和两种立场(支持与反对),旨在解决论证挖掘、生成和分析领域中数据复杂性、规模限制和语言多样性问题。数据集的创建过程涉及使用GPT-3.5-TURBO和GPT-4等大型生成语言模型,通过两轮迭代生成和专家验证确保数据质量。NLAS-MULTI的应用领域广泛,可用于自动识别论证方案、深化论证分析的细节层次,以及作为未来论证挖掘研究的基准。
NLAS-MULTI is a multilingual argumentation scheme corpus developed by the Centre for Argument Technology at the University of Dundee, containing 3,810 automatically generated natural language argumentation schemes. It covers 20 distinct argumentation structures, spans 50 topics, and includes two stances (pro and con), aiming to address the challenges of data complexity, scale constraints, and linguistic diversity in the domains of argumentation mining, generation, and analysis. The construction of this dataset utilized large generative language models including GPT-3.5-TURBO and GPT-4, and ensured data quality via two rounds of iterative generation and expert validation. NLAS-MULTI has broad application prospects, which can be used for the automatic identification of argumentation schemes, the enhancement of the granularity of argumentation analysis, and as a benchmark for future argumentation mining research.
提供机构:
邓迪大学论证技术中心
创建时间:
2024-02-22
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,构建高质量的论证数据集常面临标注复杂性与规模限制的挑战。NLAS-MULTI数据集采用了一种创新的自动生成方法,基于沃尔顿论证方案模型,结合GPT-3.5-TURBO与GPT-4大型生成语言模型,通过精心设计的提示工程生成多语言自然语言论证。生成过程分为两个迭代阶段:首轮使用GPT-3.5-TURBO生成论证后由专家进行结构、主题与立场验证,无效样本在次轮由GPT-4重新生成并再次验证。该方法覆盖20种论证方案、50个主题及正反立场,最终形成了包含3,810个论证的大规模语料库,有效降低了人工标注的成本与时间消耗。
特点
NLAS-MULTI数据集作为当前最大的公开自然语言论证方案语料库,具备显著的多语言与结构化特征。该数据集涵盖英语与西班牙语两种语言,每个论证均严格遵循沃尔顿论证方案的理论框架,具有明确的逻辑结构(如前提与结论)。语料库包含20类常见论证模式,涉及社会、科技、伦理等50个多样化主题,且每个主题均包含支持与反对的立场论证,形成了丰富的对立关系。数据规模达到253,516词,论证实例兼具结构一致性与内容多样性,为论证挖掘与分析任务提供了深度与广度兼具的资源基础。
使用方法
NLAS-MULTI数据集适用于论证挖掘、自然语言生成及论证结构分类等研究任务。在论证分类任务中,可将每个论证的文本组件(如主要前提、次要前提与结论)拼接为序列输入,利用预训练模型如RoBERTa进行微调,实现20类论证方案的自动识别。数据集的划分可遵循主题无关或主题相关的策略,后者通过交叉验证评估模型的泛化能力。此外,该语料库可作为生成模型的监督数据,用于训练自动论证生成系统,或作为评估基准检验论证分析算法的性能。其多语言特性也支持跨语言论证研究的对比实验。
背景与挑战
背景概述
在自然语言处理与计算论辩学交叉领域,高质量、大规模且深度标注的论辩语料库长期稀缺,制约了论辩挖掘、生成与分析等任务的进展。为此,邓迪大学论辩技术中心与瓦伦西亚理工大学VRAIN研究所的研究团队于2024年共同创建了NLAS-MULTI数据集。该数据集旨在通过自动化方法,构建一个基于沃尔顿论辩方案模型的多语言自然语言论辩语料库,核心研究问题聚焦于如何高效生成结构严谨、主题多样且立场分明的自然语言论辩实例,以克服传统人工标注在规模、成本与语言多样性上的局限。作为目前公开可用的最大规模论辩方案语料库,NLAS-MULTI为深入探索论辩结构识别、多语言论辩生成等前沿方向提供了关键资源,显著推动了计算论辩学向更细粒度、更可控的范式演进。
当前挑战
NLAS-MULTI数据集致力于解决自然语言论辩分析中论辩方案自动识别与生成的挑战,其核心在于对复杂论辩推理模式进行结构化建模与多语言实例化。构建过程中的挑战主要体现在两方面:其一,在领域问题层面,需确保生成的论辩严格遵循沃尔顿论辩方案的逻辑结构,同时准确匹配指定主题与立场,这对生成模型的语义理解与结构控制能力提出了极高要求;其二,在技术实现层面,研究团队需设计有效的提示工程策略,引导大语言模型精确实例化论辩方案中的抽象变量,并应对不同语言(如英语与西班牙语)及不同论辩类型在生成难度上的显著差异,例如‘不一致承诺’类论辩因立场定义模糊而更易产生无效输出,需通过多轮迭代与人工验证来保障语料质量与一致性。
常用场景
经典使用场景
在自然语言处理与计算论证领域,NLAS-MULTI数据集为论证挖掘与生成任务提供了关键资源。该数据集通过自动生成并人工验证的多语言论证结构,广泛应用于论证方案的自动识别与分类研究。其经典使用场景包括训练和评估基于深度学习的模型,如RoBERTa等预训练语言模型,以精准识别20种不同的论证方案类型,从而推动论证结构分析的自动化进程。
解决学术问题
NLAS-MULTI数据集有效应对了论证挖掘领域长期存在的标注数据稀缺、规模有限及多语言覆盖不足等挑战。通过结合沃尔顿论证方案模型与大型生成语言模型,该数据集提供了大规模、结构化的多语言论证实例,支持对复杂论证推理模式的深入分析。其意义在于为自然语言论证的自动分析与生成建立了可靠基准,促进了跨语言与跨领域的论证技术研究。
衍生相关工作
围绕NLAS-MULTI数据集,已衍生出一系列经典研究工作,主要集中在论证方案的自动分类与生成优化方向。例如,基于该数据集训练的RoBERTa变体模型在论证方案分类任务中取得了优异性能,为后续研究提供了强基线。同时,该数据集的生成方法论启发了结合提示工程与论证结构的混合生成框架,推动了可控论证生成技术的发展,并在多语言论证挖掘任务中拓展了应用边界。
以上内容由遇见数据集搜集并总结生成



