mlburnham/PoliStance_Affect

Name: mlburnham/PoliStance_Affect
Creator: mlburnham
Published: 2024-07-20 02:31:19
License: 暂无描述

Hugging Face2024-07-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mlburnham/PoliStance_Affect

下载链接

链接失效反馈

官方服务：

资源简介：

PoliStance Affect数据集用于训练一个蕴含分类器，以识别对政治家的支持或反对态度。数据来源包括Kawintiranon (2022)的推文、MTSD数据集，以及从第115、116和117届国会的政治家每周通讯中提取的推文和句子。数据集经过三重编码，包括原始数据集编译者、GPT-4和用于解决差异的第三轮编码。数据集中的政治家推特账号已被替换为他们的名字。数据集包含训练集、验证集和测试集，分别有17164、4291和5383个样本。数据集的标签包括立场（反对、中立、支持）和蕴含（蕴含、不蕴含）。测试集还包含训练集和验证集中未包含的6位政治家的文档。

Dataset for training an entailment classifier to recognize approval/disapproval of politicians. Documents are Tweets from Kawintiranon (2022), the MTSD dataset, as well as Tweets and sentences taken weekly newsletters for select politicians from the 115th, 116th, and 117th congress. Documents are triple coded -- once from the original compilers of the dataset, once from GPT-4, and a third time to adjudicate discrepancies between the two. The dataset contains train, validation, and test sets, with the test set including documents about 6 politicians not included in the training or validation data.

提供机构：

mlburnham

原始信息汇总

PoliStance Affect 数据集概述

数据集名称

名称: PoliStance Affect

任务类别

分类: zero-shot-classification

许可

许可: MIT

配置

默认配置:
- 数据文件:
  - 训练集: data/train-*
  - 验证集: data/validation-*
  - 测试集: data/test-*

数据集信息

特征:
- premise: 字符串
- target: 字符串
- hypothesis: 字符串
- stance: 32位整数
- label: 64位整数
分割:
- 训练集:
  - 字节数: 5392570
  - 样本数: 17164
- 验证集:
  - 字节数: 1327661
  - 样本数: 4291
- 测试集:
  - 字节数: 1633230
  - 样本数: 5383
下载大小: 4211025
数据集大小: 8353461

数据集描述

目的: 用于训练蕴涵分类器，识别对政治人物的赞同或反对。
来源: 来自Kawintiranon (2022)的推文，MTSD数据集，以及115th、116th和117th国会选定政治人物的每周通讯中的推文和句子。
编码: 文档经过三次编码，一次由原始数据集编译者进行，一次由GPT-4进行，第三次用于裁决两者之间的差异。
政治人物推特处理: 政治人物的推特账号已被替换为他们的名字。

立场标签

-1: 反对: 文档对目标持批评态度。
0: 中立: 文档未表达对目标的意见，或无法根据给定上下文确定表达的意见。
1: 支持: 文档表达对目标的支持。表达在法案或信件上的合作被视为支持。

测试集

额外内容: 测试集包含关于训练集和验证集中未包含的6位政治人物的文档。
- Ted Cruz
- Hakeem Jeffries
- Madison Cawthorn
- Alexandria Ocasio-Cortez
- Mitt Romney
- Kyrsten Sinema

搜集汇总

数据集介绍

构建方式

PoliStance Affect数据集的构建基于对政治人物的推文和周报内容的深度分析，这些数据来源于Kawintiranon（2022）的MTSD数据集以及特定政治人物的推文和周报。数据经过三重编码处理，首先由原始数据集编译者进行编码，其次通过GPT-4进行编码，最后通过第三方进行差异仲裁，以确保数据的高质量和一致性。

使用方法

PoliStance Affect数据集适用于零样本分类任务，特别适合用于训练蕴含分类器以识别对政治人物的批准或反对态度。用户可以通过加载数据集的训练、验证和测试分割来构建和评估模型，利用提供的特征如前提、目标、假设、立场和蕴含信息进行模型训练和测试。

背景与挑战

背景概述

PoliStance Affect数据集由mlburnham发布，专注于训练蕴含分类器以识别对政治人物的支持或反对态度。该数据集的构建基于Kawintiranon（2022）的MTSD数据集，以及从第115至117届国会中精选政治人物的推文和每周通讯。数据集中的文档经过三重编码，分别由原始数据集编译者、GPT-4进行标注，并进行第三次校正以解决前两次标注中的差异。该数据集的发布旨在推动自然语言处理领域在政治立场识别方面的研究，特别是在零样本分类任务中的应用，为相关领域的研究提供了丰富的资源和挑战。

当前挑战

PoliStance Affect数据集在构建过程中面临多项挑战。首先，数据来源多样，包括推文和政治人物的通讯，这要求对不同文本类型的处理和标注具有一致性。其次，三重编码过程确保了标注的准确性，但也增加了数据处理的复杂性和时间成本。此外，数据集中包含的政治人物立场识别任务，特别是在零样本分类场景下，要求模型具备高度的泛化能力，以应对训练集中未见过的政治人物。这些挑战不仅推动了数据集构建技术的进步，也为后续研究提供了丰富的实验场景和优化方向。

常用场景

经典使用场景

PoliStance Affect数据集在政治立场分析领域具有广泛的应用前景。其经典使用场景包括训练和评估零样本分类模型，以识别和区分对特定政治人物的支持、反对或中立态度。通过分析推文和新闻简报中的文本内容，模型能够捕捉到细微的情感倾向和立场表达，从而为政治舆情分析提供有力支持。

解决学术问题

该数据集有效解决了政治立场自动分类这一学术难题。通过提供多源数据和多重编码的标注，PoliStance Affect不仅提升了模型的泛化能力，还为研究者提供了一个标准化的基准，用于评估和比较不同立场分类算法的效果。这对于推动自然语言处理技术在政治科学领域的应用具有重要意义。

实际应用

在实际应用中，PoliStance Affect数据集可用于构建政治舆情监控系统，帮助政府、媒体和研究机构实时追踪公众对特定政治人物或政策的态度变化。此外，该数据集还可应用于政治竞选策略的制定，通过分析选民的立场倾向，为候选人提供有针对性的沟通和宣传建议。

数据集最近研究