USElecDeb, UC-UNSC

github2022-11-16 更新2024-05-31 收录

下载链接：

https://github.com/mpoiaganova/political-argument-mining

下载链接

链接失效反馈

官方服务：

资源简介：

USElecDeb包含1960至2016年美国总统辩论的演讲，根据演讲的辩论结构进行标注，包含如主张和前提等标签。UC-UNSC是本项目开发的一个新的辩论标注语料库，选取了2014至2018年关于乌克兰冲突的联合国安理会外交演讲，并进行了类似的标注。

The USElecDeb dataset encompasses speeches from U.S. presidential debates from 1960 to 2016, annotated according to the debate structure of the speeches, including labels such as claims and premises. UC-UNSC is a newly developed debate annotation corpus for this project, which selects diplomatic speeches from the United Nations Security Council on the Ukraine conflict from 2014 to 2018 and has been similarly annotated.

创建时间：

2022-05-29

原始信息汇总

数据集概述

数据集用途

本数据集用于政治领域的论点挖掘研究，具体包括论点检测（判断语句是否为论点）和论点成分识别（判断论点语句是主张还是前提）。

数据集内容

数据集包含两个主要部分：

USElecDeb
- 包含1960年至2016年美国总统辩论的演讲数据。
- 数据集根据演讲的论点结构进行标注，包含主张和前提等标签。
- 用于句子级别的实验，使用sentence_db_candidate.csv文件，该文件提供文本、标签及原始的训练、测试和验证分割。
UC-UNSC
- 包含2014年至2018年联合国安全理事会关于乌克兰冲突的外交演讲。
- 共选取144篇演讲，同样进行论点标注，包含主张、前提或两者皆非的标签。
- 提供原始的.txt文件和.xmi文件及其相应的标注，以及两个准备使用的数据集文件：sentence_full.csv和component_full.csv。

数据集处理

开发了两个Python函数来处理.xmi文件和原始.txt文件，输出为准备使用的.csv文件。

模型训练与测试

使用BERT和RoBERTa模型进行训练和测试。
模型训练和测试基于上述两个数据集。
研究模型在同一领域数据上的泛化能力。

数据集使用

提供了三个Python笔记本，分别对应不同的任务设置。
推荐使用Google Colab以利用免费GPU资源进行模型复现。

搜集汇总

数据集介绍

构建方式

USElecDeb和UC-UNSC数据集的构建基于政治领域的文本挖掘任务，特别是针对辩论和外交演讲中的论点检测与成分识别。USElecDeb数据集涵盖了1960年至2016年间美国总统选举辩论的演讲文本，并按照论点的结构进行了标注，包括主张和前提。UC-UNSC数据集则是通过收集2014年至2018年间联合国安理会关于乌克兰冲突的144篇外交演讲，并采用与USElecDeb相似的标注方法进行人工标注。数据集提供了原始文本文件及其对应的标注文件，并通过Python脚本将标注文件转换为易于使用的CSV格式。

特点

USElecDeb和UC-UNSC数据集的特点在于其专注于政治领域的论点挖掘，具有明确的标注体系，能够支持句子级别和论点单元级别的分析。USElecDeb数据集提供了丰富的总统辩论文本，涵盖了多个历史时期的政治辩论，适合研究政治论点的演变。UC-UNSC数据集则聚焦于国际外交场景，提供了关于乌克兰冲突的详细演讲数据，适合研究国际关系中的论点结构。两个数据集均提供了详细的标注信息，包括句子级别的标签和论点成分的长度信息，便于深入分析。

使用方法

USElecDeb和UC-UNSC数据集的使用方法主要围绕BERT和RoBERTa模型的微调与应用展开。用户可以通过提供的Python框架进行句子级别的论点检测和成分识别任务。数据集附带了三个Python笔记本，分别对应不同的任务设置，包括论点与非论点的分类、主张与前提的分类，以及论点单元级别的分类。用户可以通过Google Colab环境加载笔记本并准备数据，根据任务需求选择不同的预训练模型进行实验。此外，数据集还提供了详细的超参数设置文件，便于复现实验结果。

背景与挑战

背景概述

USElecDeb和UC-UNSC数据集是政治领域论证挖掘研究中的重要资源，分别由德国波茨坦大学的研究团队在2019年和后续项目中开发。USElecDeb数据集涵盖了1960年至2016年间美国总统选举辩论的演讲内容，标注了论点结构，包括主张和前提。UC-UNSC数据集则聚焦于2014年至2018年间联合国安理会关于乌克兰冲突的外交演讲，同样标注了论证成分。这两个数据集为自然语言处理领域中的论证检测和成分识别任务提供了丰富的语料支持，推动了政治文本分析的研究进展。

当前挑战

在论证挖掘领域，USElecDeb和UC-UNSC数据集面临的主要挑战包括：1）论证检测的复杂性，尤其是在政治文本中，论点与非论点的界限往往模糊，需要模型具备较高的语义理解能力；2）论证成分识别的难度，特别是在多语言、多文化背景下，外交演讲中的主张和前提可能具有隐含的逻辑结构，增加了标注和模型训练的复杂性；3）数据集的构建过程中，人工标注的一致性和准确性是关键挑战，尤其是在处理长文本和多层次论证结构时，标注者的主观判断可能影响数据的质量。此外，模型的泛化能力也是重要挑战，如何将训练好的模型应用于其他政治领域或跨领域任务仍需进一步研究。

常用场景

经典使用场景

在政治话语分析领域，USElecDeb和UC-UNSC数据集被广泛应用于论证挖掘任务。这些数据集通过标注美国总统辩论和联合国安理会外交演讲中的论点结构，为研究者提供了丰富的语料资源。经典使用场景包括利用BERT和RoBERTa模型进行句子级别的论证检测和论证成分识别，帮助研究者深入理解政治辩论中的论点构建和逻辑推理。

衍生相关工作

基于USElecDeb和UC-UNSC数据集，研究者们开展了多项经典工作。例如，Haddadan等人（2019）利用USElecDeb数据集开发了首个大规模政治辩论论证挖掘模型，为后续研究奠定了基础。此外，UC-UNSC数据集的引入进一步拓展了论证挖掘的应用范围，推动了跨领域模型的研究。这些工作不仅丰富了政治话语分析的理论框架，还为相关领域的实践应用提供了重要参考。

数据集最近研究