five

mlburnham/PoliStance_Affect|政治立场分析数据集|文本分类数据集

收藏
hugging_face2024-07-20 更新2024-03-04 收录
政治立场分析
文本分类
下载链接:
https://hf-mirror.com/datasets/mlburnham/PoliStance_Affect
下载链接
链接失效反馈
资源简介:
PoliStance Affect数据集用于训练一个蕴含分类器,以识别对政治家的支持或反对态度。数据来源包括Kawintiranon (2022)的推文、MTSD数据集,以及从第115、116和117届国会的政治家每周通讯中提取的推文和句子。数据集经过三重编码,包括原始数据集编译者、GPT-4和用于解决差异的第三轮编码。数据集中的政治家推特账号已被替换为他们的名字。数据集包含训练集、验证集和测试集,分别有17164、4291和5383个样本。数据集的标签包括立场(反对、中立、支持)和蕴含(蕴含、不蕴含)。测试集还包含训练集和验证集中未包含的6位政治家的文档。

Dataset for training an entailment classifier to recognize approval/disapproval of politicians. Documents are Tweets from Kawintiranon (2022), the MTSD dataset, as well as Tweets and sentences taken weekly newsletters for select politicians from the 115th, 116th, and 117th congress. Documents are triple coded -- once from the original compilers of the dataset, once from GPT-4, and a third time to adjudicate discrepancies between the two. The dataset contains train, validation, and test sets, with the test set including documents about 6 politicians not included in the training or validation data.
提供机构:
mlburnham
原始信息汇总

PoliStance Affect 数据集概述

数据集名称

  • 名称: PoliStance Affect

任务类别

  • 分类: zero-shot-classification

许可

  • 许可: MIT

配置

  • 默认配置:
    • 数据文件:
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*

数据集信息

  • 特征:

    • premise: 字符串
    • target: 字符串
    • hypothesis: 字符串
    • stance: 32位整数
    • label: 64位整数
  • 分割:

    • 训练集:
      • 字节数: 5392570
      • 样本数: 17164
    • 验证集:
      • 字节数: 1327661
      • 样本数: 4291
    • 测试集:
      • 字节数: 1633230
      • 样本数: 5383
  • 下载大小: 4211025

  • 数据集大小: 8353461

数据集描述

  • 目的: 用于训练蕴涵分类器,识别对政治人物的赞同或反对。
  • 来源: 来自Kawintiranon (2022)的推文,MTSD数据集,以及115th、116th和117th国会选定政治人物的每周通讯中的推文和句子。
  • 编码: 文档经过三次编码,一次由原始数据集编译者进行,一次由GPT-4进行,第三次用于裁决两者之间的差异。
  • 政治人物推特处理: 政治人物的推特账号已被替换为他们的名字。

立场标签

  • -1: 反对: 文档对目标持批评态度。
  • 0: 中立: 文档未表达对目标的意见,或无法根据给定上下文确定表达的意见。
  • 1: 支持: 文档表达对目标的支持。表达在法案或信件上的合作被视为支持。

标签

  • 0: 蕴涵
  • 1: 不蕴涵

测试集

  • 额外内容: 测试集包含关于训练集和验证集中未包含的6位政治人物的文档。
    • Ted Cruz
    • Hakeem Jeffries
    • Madison Cawthorn
    • Alexandria Ocasio-Cortez
    • Mitt Romney
    • Kyrsten Sinema
AI搜集汇总
数据集介绍
main_image_url
构建方式
PoliStance Affect数据集的构建基于对政治人物的推文和周报内容的深度分析,这些数据来源于Kawintiranon(2022)的MTSD数据集以及特定政治人物的推文和周报。数据经过三重编码处理,首先由原始数据集编译者进行编码,其次通过GPT-4进行编码,最后通过第三方进行差异仲裁,以确保数据的高质量和一致性。
使用方法
PoliStance Affect数据集适用于零样本分类任务,特别适合用于训练蕴含分类器以识别对政治人物的批准或反对态度。用户可以通过加载数据集的训练、验证和测试分割来构建和评估模型,利用提供的特征如前提、目标、假设、立场和蕴含信息进行模型训练和测试。
背景与挑战
背景概述
PoliStance Affect数据集由mlburnham发布,专注于训练蕴含分类器以识别对政治人物的支持或反对态度。该数据集的构建基于Kawintiranon(2022)的MTSD数据集,以及从第115至117届国会中精选政治人物的推文和每周通讯。数据集中的文档经过三重编码,分别由原始数据集编译者、GPT-4进行标注,并进行第三次校正以解决前两次标注中的差异。该数据集的发布旨在推动自然语言处理领域在政治立场识别方面的研究,特别是在零样本分类任务中的应用,为相关领域的研究提供了丰富的资源和挑战。
当前挑战
PoliStance Affect数据集在构建过程中面临多项挑战。首先,数据来源多样,包括推文和政治人物的通讯,这要求对不同文本类型的处理和标注具有一致性。其次,三重编码过程确保了标注的准确性,但也增加了数据处理的复杂性和时间成本。此外,数据集中包含的政治人物立场识别任务,特别是在零样本分类场景下,要求模型具备高度的泛化能力,以应对训练集中未见过的政治人物。这些挑战不仅推动了数据集构建技术的进步,也为后续研究提供了丰富的实验场景和优化方向。
常用场景
经典使用场景
PoliStance Affect数据集在政治立场分析领域具有广泛的应用前景。其经典使用场景包括训练和评估零样本分类模型,以识别和区分对特定政治人物的支持、反对或中立态度。通过分析推文和新闻简报中的文本内容,模型能够捕捉到细微的情感倾向和立场表达,从而为政治舆情分析提供有力支持。
解决学术问题
该数据集有效解决了政治立场自动分类这一学术难题。通过提供多源数据和多重编码的标注,PoliStance Affect不仅提升了模型的泛化能力,还为研究者提供了一个标准化的基准,用于评估和比较不同立场分类算法的效果。这对于推动自然语言处理技术在政治科学领域的应用具有重要意义。
实际应用
在实际应用中,PoliStance Affect数据集可用于构建政治舆情监控系统,帮助政府、媒体和研究机构实时追踪公众对特定政治人物或政策的态度变化。此外,该数据集还可应用于政治竞选策略的制定,通过分析选民的立场倾向,为候选人提供有针对性的沟通和宣传建议。
数据集最近研究
最新研究方向
在政治立场与情感分析领域,mlburnham/PoliStance_Affect数据集的最新研究方向聚焦于利用先进的自然语言处理技术,特别是零样本分类方法,来精准识别和分类公众对政治人物的支持或反对态度。该数据集通过整合来自Twitter和政治新闻简报的多源数据,采用GPT-4进行三重编码,以确保标注的准确性和一致性。这一研究不仅推动了情感分析技术在政治领域的应用,还为理解公众舆论对政治决策的影响提供了新的视角。通过引入未在训练集中出现的政治人物数据,研究者们进一步探索了模型的泛化能力和对新情境的适应性,这对于预测和分析未来政治动态具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

MinneApple 苹果检测数据集

MinneApple 是一个用于苹果检测和分割的基准数据集。该数据集使用多边形掩码为每个对象实例进行标注,以帮助进行精确的对象检测、定位、和分割。此外,该数据集提供了基于补丁的聚类水果计数数据。该数据集在 1000 张图像中包含超过 41,0000 个带标注的对象实例。

超神经 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录