QT30: A corpus of argument and conflict in broadcast debate

github2024-03-25 更新2024-05-31 收录

下载链接：

https://github.com/arg-tech/aif-arg-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库分析了广播辩论中的论证和冲突，使用了2020年和2021年BBC的Question Time节目的30集。包含19,842个话语和280,000个单词。

This corpus analyzes arguments and conflicts in broadcast debates, utilizing 30 episodes of the BBC's Question Time program from 2020 and 2021. It comprises 19,842 utterances and 280,000 words.

创建时间：

2024-03-13

原始信息汇总

数据集概述

可用数据集

QT30: A corpus of argument and conflict in broadcast debate
- 年份: 2022
- 描述: 包含分析对话式论证和广播政治辩论的语料库，使用2020年和2021年BBC的Question Time节目中的30集。包含19,842个话语和280,000个单词。
- 下载链接: Link
- 参考文献: BibTeX
- 相关论文: Link

共享任务概述

DialAM-2024
- 描述: 首个在对话论证挖掘中的共享任务，其中论证和对话信息在一个领域独立的框架中一起建模。包含两个子任务：命题（论证）关系的识别和语用（言语行为）关系的识别。

预训练模型概述

ArgumentMining-EN-ARI-AIF-RoBERTa_L
- 描述: 使用英语（EN）数据训练的论证挖掘模型，用于论证关系识别（ARI）任务，使用US2016和QT30语料库。
- 参考文献: BibTeX

数据集格式

所有数据集遵循AIF格式，详细解释可在AIF格式解释部分找到。AIF格式是一种用于表示论证图的格式，其中包含节点和边，用于描述论证结构。

数据集特点

ADUs（Argumentative Discourse Units）: 文本中的最小单位，具有命题内容和离散的论证功能。
I-nodes和L-nodes: I-nodes包含处理后的内容，L-nodes包含原始文本。
过渡（Transitions）: 表示ADUs之间的功能关系，形成论证图的边。
命题关系: 包括推理、冲突和重述，用于描述I-nodes之间的关系。

数据集表示

xAIF格式: 使用JSON文件结构，包含节点、边、参与者和言论等元素，用于详细描述论证图。

结论

ARG Tech提供的数据集专注于广播辩论中的论证和冲突分析，采用AIF格式进行数据表示，支持深入的论证结构分析和模型训练。

搜集汇总

数据集介绍

构建方式

QT30数据集通过分析BBC的'Question Time'节目中的30个片段，构建了一个包含辩论和冲突的语料库。该数据集从2020年和2021年的节目中提取了19,842个话语和280,000个单词，采用Argument Interchange Format (AIF)格式进行标注。AIF格式将文本分解为论辩话语单元（ADUs），并通过I-nodes和L-nodes的分离，以及过渡节点（TA nodes）和命题关系节点（RA, CA, MA nodes）的引入，构建了一个复杂的论辩图。这种结构化的方式使得数据集能够捕捉到辩论中的推理、冲突和重述等关系。

特点

QT30数据集的显著特点在于其精细的结构化标注方式，能够捕捉辩论中的复杂关系。数据集中的每个话语都被分解为论辩话语单元（ADUs），并通过I-nodes和L-nodes的分离，以及过渡节点和命题关系节点的引入，构建了一个论辩图。这种结构化的方式不仅能够捕捉到辩论中的推理、冲突和重述等关系，还能够分析话语的语用功能和风格。此外，数据集遵循AIF格式，便于与其他论辩分析工具和模型进行兼容和交互。

使用方法

QT30数据集的使用方法相对复杂，主要适用于需要深入分析辩论和冲突的研究。首先，用户需要熟悉AIF格式，了解如何解析和处理论辩图中的节点和边。数据集提供了详细的文档和教程，帮助用户理解如何从原始文本中提取论辩话语单元（ADUs），并构建论辩图。用户可以通过编程工具（如Python）读取和解析AIF格式的JSON文件，进一步分析辩论中的推理、冲突和重述关系。此外，数据集还提供了预训练模型和共享任务，帮助用户在特定任务上进行更深入的研究和应用。

背景与挑战

背景概述

QT30数据集是由ARG Tech研究中心创建的，专注于广播辩论中的论证与冲突分析。该数据集基于2020年和2021年BBC的'Question Time'节目中的30集内容，包含了19,842条发言和280,000个单词。ARG Tech研究中心在论证技术的哲学和语言理论、计算模型及其在人工智能系统中的应用方面具有深厚的研究背景，并与IBM、BBC和联合国等组织建立了合作关系。QT30数据集的创建旨在为广播辩论中的论证结构和冲突分析提供丰富的语料库，推动论证技术在法律、国防和媒体等多个领域的应用。

当前挑战

QT30数据集在构建过程中面临多项挑战。首先，如何从广播辩论中准确提取和标注论证结构是一个复杂的问题，涉及对发言内容的深度理解和多层次的语义分析。其次，数据集需要遵循Argument Interchange Format (AIF)格式，这要求对论证单元（ADU）进行精细的划分和关系建模，包括信息节点（I-nodes）和言辞节点（L-nodes）的区分，以及它们之间的过渡和命题关系。此外，数据集的规模和多样性也带来了处理和存储上的挑战，尤其是在处理大规模文本和复杂关系图时，如何确保数据的一致性和可扩展性是一个重要的技术难题。

常用场景

经典使用场景

QT30数据集的经典使用场景主要集中在广播辩论中的论点和冲突分析。该数据集通过分析BBC的'Question Time'节目中的30集内容，提供了19,842条发言和280,000个单词的详细标注，适用于研究辩论中的论点结构、冲突关系以及言语行为。研究者可以利用该数据集进行论点挖掘、对话分析以及言语行为识别等任务，特别是在政治辩论和社会讨论的语境中。

解决学术问题

QT30数据集解决了多个学术研究中的关键问题，特别是在论点技术和计算模型领域。通过提供详细的论点标注和冲突分析，该数据集帮助研究者理解论点在对话中的动态变化、论点间的推理和冲突关系，以及言语行为的识别。这些研究不仅深化了对论点结构和功能的理解，还为开发更智能的论点分析工具和对话系统提供了基础数据支持。

衍生相关工作

QT30数据集的发布催生了一系列相关研究和工作，特别是在论点挖掘和对话分析领域。基于该数据集，研究者开发了多种预训练模型，如ArgumentMining-EN-ARI-AIF-RoBERTa_L，用于论点关系识别任务。此外，该数据集还支持了多个共享任务，如DialAM-2024，推动了对话论点挖掘的标准化和自动化。这些工作不仅扩展了论点技术的应用范围，还为未来的论点分析研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集