five

USE24-XD

收藏
arXiv2026-02-12 更新2026-02-15 收录
下载链接:
https://github.com/Sensify-Lab/USE24-XD
下载链接
链接失效反馈
官方服务:
资源简介:
USE24-XD是由特拉华大学与马克斯·普朗克人口研究所联合构建的大规模多标签社交媒体数据集,聚焦2024年美国总统选举周期中的有害内容。该数据集包含近10万条来自X平台的帖子,涵盖阴谋论、煽动性言论、仇恨言论等五大细分类别,通过六种大型语言模型(LLM)进行自动化标注,并经过34名众包人员验证。数据采集时间为2024年10月至2025年7月,包含时空元数据和情感分析特征,60%的帖子被标记至少一个有害类别。该资源旨在支持选举虚假信息检测、多标签分类等社会计算研究,推动在线内容治理技术的发展。

USE24-XD is a large-scale multi-label social media dataset jointly constructed by the University of Delaware and the Max Planck Institute for Demographic Research, focusing on harmful content during the 2024 U.S. presidential election cycle. The dataset contains nearly 100,000 posts from the X Platform, covering five fine-grained categories including conspiracy theories, inflammatory speech, hate speech and others. It was automatically annotated using six large language models (LLMs) and validated by 34 crowdworkers. The data was collected between October 2024 and July 2025, and includes spatiotemporal metadata and sentiment analysis features; 60% of the posts are labeled with at least one harmful category. This resource aims to support social computing research such as election disinformation detection and multi-label classification, and promote the development of online content governance technologies.
提供机构:
特拉华大学; 马克斯·普朗克人口研究所
创建时间:
2026-02-12
原始信息汇总

U.S. Election 2024 X.com Dataset (USE24-XD) 数据集概述

数据集简介

  • 数据集名称:U.S. Election 2024 X.com Dataset (USE24-XD)
  • 数据来源:X.com(原Twitter)
  • 数据规模:近100,000条公开帖子
  • 时间范围:2024年10月17日至2025年7月16日
  • 覆盖时期:涵盖2024年美国总统选举的选举前和选举后时期
  • 筛选条件:帖子需同时提及“election”和“2024”
  • 相关论文:https://arxiv.org/abs/2602.11962

数据内容与结构

主数据集文件

  • 文件:https://github.com/Sensify-Lab/USE24-XD/blob/main/U.S_Election_2024_Xcom_Dataset.csv
  • 样本文件:https://github.com/Sensify-Lab/USE24-XD/blob/main/U.S_Election_2024_Xcom_Dataset_Sample100.csv

文本内容字段

  • id — 帖子的唯一标识符
  • created_at — 帖子创建时间戳
  • text — 原始帖子文本
  • text_clean — 用于分析的预处理文本
  • word_count — 清理后文本的单词数
  • hashtags — 提取的标签
  • entities.mentions — 帖子中的用户提及

元数据字段

  • author_id — 作者唯一标识符
  • username — [出于隐私原因已编辑]
  • name — 作者的显示名称
  • verified — 账户是否已验证
  • possibly_sensitive — 敏感媒体内容标志
  • lang — 检测到的语言
  • edit_history_tweet_ids — 编辑历史标识符

位置信息字段

  • user_location — 自由文本形式的自我报告位置
  • user_location_USA_state — 可识别时解析出的美国州名

参与度指标字段

  • public_metrics.retweet_count — 转发数
  • public_metrics.reply_count — 回复数
  • public_metrics.like_count — 点赞数
  • public_metrics.quote_count — 引用帖子数
  • public_metrics.bookmark_count — 书签数
  • public_metrics.impression_count — 展示次数

情感分析字段

  • sentiment_vader_raw — 连续的VADER情感分数
  • sentiment_vader_label — 分类情感标签(positiveneutralnegative

基于LLM的标注字段

采用群体智慧聚合方法,结合表现最佳的大型语言模型输出和人工评估,构建了跨五个类别的稳健多标签数据集。列为二进制指标(1 = 存在0 = 不存在):

  • Speculation — 推测
  • Sensationalism — 煽情主义
  • Conspiracy — 阴谋论
  • Hate_Speech — 仇恨言论
  • Satire — 讽刺

中间数据文件

LLM个体标注文件

  • 文件:https://github.com/Sensify-Lab/USE24-XD/blob/main/Intermediary/LLM_Individual_Annotation.csv
  • 样本文件:https://github.com/Sensify-Lab/USE24-XD/blob/main/Intermediary/LLM_Individual_Annotation_Sample100.csv
  • 内容:每个模型预测帖子是否属于五个类别中的一个或多个:Conspiracy, Sensationalism, Hate Speech, Speculation, Satire。列为二进制指标(1 = 存在0 = 不存在)。
  • 包含模型
    • GPT-4o Mini
    • GPT-4o
    • Gemini 2.0 Flash
    • Gemini 2.5 Pro
    • Llama 3.1 (8B)
    • Llama 3.3 (70B)

人工标注子集文件

  • 文件:https://github.com/Sensify-Lab/USE24-XD/blob/main/Intermediary/Human_Annotation_Subset.csv
  • 规模:1,000条帖子(约1%)的随机样本,由三位人工标注员标注。
  • 内容:包含个体标注以及多数投票标签。列为二进制指标(1 = 存在0 = 不存在)。
  • 字段
    • 多数投票标签:conspiracy_majority, hate_speech_majority, satire_majority, sensationalism_majority, speculation_majority
    • 个体标注:conspiracy1, conspiracy2, conspiracy3等。

标注方法

  • 标注类型:有害内容多标签标注
  • 标注数量:五个类别
  • 标注方法:使用六个大型语言模型(LLMs)的集成生成标注,并结合人工标注子集进行验证和比较。

注意事项与限制

  • 数据使用基础层流式API收集。
  • 地理分析应谨慎解释,因为位置是自我报告的。
  • 联系方式:kylewang@udel.edu

许可信息

  • 本项目采用MIT许可证。详情见:https://github.com/Sensify-Lab/USE24-XD/blob/main/LICENSE.md

引用方式

bibtex @misc{wang2026wisdomllmcrowdlarge, title={Wisdom of the LLM Crowd: A Large Scale Benchmark of Multi-Label U.S. Election-Related Harmful Social Media Content}, author={Qile Wang and Prerana Khatiwada and Carolina Coimbra Vieira and Benjamin E. Bagozzi and Kenneth E. Barner and Matthew Louis Mauriello}, year={2026}, eprint={2602.11962}, archivePrefix={arXiv}, primaryClass={cs.HC}, url={https://arxiv.org/abs/2602.11962}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在数字时代,社交媒体已成为政治信息传播的关键渠道,然而其中夹杂的误导性内容对民主进程构成严峻挑战。USE24-XD数据集的构建旨在应对这一挑战,通过系统化方法收集了2024年美国总统选举周期内近10万条X平台(原Twitter)的帖子。数据采集依托实时API,以“election”和“2024”为关键词进行过滤,确保内容与选举议题高度相关。为降低人工标注成本并实现规模化分类,研究团队创新性地采用六种大型语言模型(LLM)进行零样本学习标注,涵盖阴谋论、煽情主义、仇恨言论、推测性内容及讽刺五大类别。通过众包平台对部分样本进行人工验证,并运用群体智慧方法聚合LLM标注结果,最终构建了一个包含时空元数据且60%帖子至少带有一个标签的多标签数据集。
特点
USE24-XD数据集在选举有害内容研究领域展现出显著特色。其规模庞大,涵盖近10万条帖子,并附有发布时间、用户地理位置及互动指标等丰富元数据,为时空分析提供了坚实基础。数据标注采用多标签框架,帖子可同时属于多个类别,精准捕捉了有害内容的复杂性。尤为突出的是,该数据集通过LLM群体标注与人工验证相结合的方式,确保了标注的一致性与可靠性,LLM间评分者信度均值高达0.70,在推测性内容类别上召回率可达0.90。此外,数据集公开了标注者的政治意识形态等人口统计学信息,为探究主观判断偏差提供了独特视角,深化了对有害内容认知机制的理解。
使用方法
USE24-XD数据集为社会科学与计算语言学交叉研究提供了宝贵资源。研究者可将其用于训练和评估多标签有害内容检测模型,特别是在选举相关语境下,模型可针对阴谋论、仇恨言论等特定类别进行性能优化。数据集中的时空元数据支持传播动力学分析,有助于揭示有害内容在选举周期中的扩散模式与影响因素。标注者人口统计学信息使得探究意识形态、政治立场等社会因素对内容判断的塑造成为可能,为理解标注主观性提供了实证基础。此外,该数据集可作为基准,用于比较不同LLM在敏感内容标注任务上的表现,推动自动化标注工具的研发与优化。
背景与挑战
背景概述
在数字时代,社交媒体已成为政治信息传播与公共舆论塑造的关键场域,其中选举相关有害内容的泛滥对民主进程构成了严峻威胁。为应对这一挑战,特拉华大学等机构的研究团队于2024年构建了USE24-XD数据集,旨在系统性地标注与2024年美国总统大选周期相关的近十万条社交媒体帖子。该数据集聚焦于阴谋论、煽情主义、仇恨言论、猜测性内容及讽刺文本五大细粒度类别,其核心研究问题在于探索大型语言模型作为自动化标注工具在识别多标签有害内容方面的效能与可靠性。通过集成六种前沿大语言模型的群体智慧,并辅以众包人工验证,该数据集为理解在线政治话语的复杂性、开发高效的内容审核系统提供了宝贵的基准资源,推动了计算社会科学与 misinformation 检测领域的交叉研究。
当前挑战
USE24-XD数据集致力于解决社交媒体中多标签有害政治内容检测的核心挑战,其首要难题在于如何对主观性强、边界模糊的语义类别(如讽刺与煽情)进行一致且可扩展的标注。传统人工标注方法成本高昂且易受标注者政治立场、意识形态等人口统计学特征影响,导致标注结果存在系统性偏差。在数据集构建过程中,研究者面临多重技术障碍:社交媒体API的访问限制与高昂成本制约了数据规模;不同大语言模型在零样本提示下的输出稳定性与内部一致性存在显著差异;需设计复杂的群体共识算法以聚合异构的模型预测,并确保最终标注结果与人类判断具有可比性。此外,数据本身的无结构特性与时空元数据的稀疏性,进一步增加了高质量、多维度信息抽取的难度。
常用场景
经典使用场景
在社交媒体内容分析与选举安全研究领域,USE24-XD数据集为多标签有害内容检测提供了关键基准。该数据集通过整合2024年美国总统选举周期内近十万条X平台帖文,并采用大型语言模型进行系统标注,构建了涵盖阴谋论、煽情主义、仇恨言论、推测性内容与讽刺文本的五维分类体系。其经典应用场景集中于评估自动化内容审核系统的效能,研究者可借助该数据集训练机器学习模型,以识别选举相关讨论中隐含的误导性叙事与潜在社会危害,为平台治理与政策制定提供数据驱动的决策支持。
实际应用
该数据集的实际价值体现在支撑社交媒体平台的内容安全机制优化与选举诚信保障实践中。互联网企业可基于其多标签标注框架开发实时监测系统,针对选举期间涌现的煽动性言论与虚假信息进行早期预警。政府部门与独立事实核查机构则能利用数据集中时空元数据与情感分析特征,追踪地域性有害内容的传播轨迹,评估干预措施的有效性。此外,教育机构可将其作为数字素养培训素材,帮助公众辨识政治话语中的修辞策略与潜在误导。
衍生相关工作
围绕USE24-XD数据集衍生的经典研究集中在人工智能辅助标注范式的创新与跨平台有害内容比较分析领域。部分学者借鉴其“群体智慧”聚合策略,开发了基于多模型投票的弱监督标注管道,显著提升了低资源语言下的内容审核效率。另有研究扩展其分类框架至短视频平台,通过融合多模态特征探索政治讽刺与虚假信息的协同传播机制。这些工作不仅验证了数据集的泛化能力,更推动了计算社会科学与自然语言处理在民主治理研究中的深度融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作