five

POLITISKY24

收藏
arXiv2025-06-09 更新2025-06-11 收录
下载链接:
https://doi.org/10.5281/zenodo.15616911
下载链接
链接失效反馈
官方服务:
资源简介:
POLITISKY24是一个关于2024年美国总统大选的立场检测数据集,收集自Bluesky平台,主要针对卡玛拉·哈里斯和唐纳德·特朗普两位候选人。数据集包含16,044个用户-目标立场对,并丰富了参与度元数据、交互图和用户发布历史。该数据集是通过结合高级信息检索和大型语言模型创建的,可以生成带有支持理由和文本跨度的立场标签,以便于透明度。数据集的创建过程包括使用基于哈希标签的算法过滤用户,然后利用LLMs根据用户历史中的高质量片段来确定立场。数据集适用于政治立场分析,特别是在新兴平台上对政治话语的分析,并为理解复杂的政治交流提供了见解。

POLITISKY24 is a stance detection dataset focused on the 2024 United States presidential election, collected from the Bluesky platform and targeting two candidates: Kamala Harris and Donald Trump. The dataset contains 16,044 user-target stance pairs, and is enriched with engagement metadata, interaction graphs, and user posting histories. This dataset was developed by combining advanced information retrieval and large language models, which can generate stance labels accompanied by supporting justifications and text spans to ensure transparency. The dataset construction process first filters users via a hashtag-based algorithm, then leverages LLMs to determine stances based on high-quality snippets extracted from users' posting histories. This dataset is suitable for political stance analysis, particularly the analysis of political discourse on emerging platforms, and provides insights for understanding complex political communication.
提供机构:
伊朗德黑兰大学和伊朗基础科学研究所
创建时间:
2025-06-09
原始信息汇总

POLITISKY24: U.S. Political Bluesky Dataset with User Stance Labels

数据集概述

  • 名称: POLITISKY24 (Political Stance Analysis on Bluesky for 2024)
  • 版本: v2
  • 发布日期: June 9, 2025
  • 类型: 数据集
  • 许可: Creative Commons Attribution 4.0 International
  • DOI: 10.5281/zenodo.15616911

数据集描述

POLITISKY24 是一个针对2024年美国总统选举的立场检测数据集,重点关注两位关键政治人物:Kamala Harris 和 Donald Trump。数据集包含16,044个用户-目标立场对,并提供了详细的元数据,如用户发帖历史和互动图(点赞、转发和引用)。

关键特性

  • 立场标签生成: 结合了信息检索(IR)技术和大型语言模型(LLMs),提供置信度分数、推理解释和文本片段。
  • 标注准确率: LLM辅助标注准确率为81%。
  • 用户数量: 8,561名活跃Bluesky用户。

文件内容

  1. user_post_history_dataset.parquet: 8,561名活跃Bluesky用户的发帖历史。
  2. user_post_list_for_stance_detection.parquet: 每个用户最多1,000条近期英文帖子ID列表。
  3. user_network_dataset.parquet: 用户互动数据(点赞、转发和引用)。
  4. human_annotated_validation_user_stance_dataset.parquet: 445名验证用户的立场标签(890对),分为三类:1(支持)、2(反对)、3(中立)。
  5. llm_annotated_validation_user_stance_dataset.parquet: LLM标注的445名验证用户的立场标签(890对),包含推理解释、源推文、文本片段和置信度分数。
  6. llm_annotated_full_user_stance_dataset.parquet: 8,022名用户的立场标签(16,044对),排除验证集。
  7. human_annotated_validation_stance_relevancy_dataset (post-target entity pairs).parquet: 175条验证帖子的立场标签(350对)。
  8. human_annotated_validation_stance_relevancy_dataset (query-post stance relevancy pairs).parquet: 700条查询-帖子立场相关性对。

统计信息

  • 总浏览量: 150
  • 总下载量: 351
  • 总数据量: 235.8 GB

引用

Rostami, P., Rahimzadeh, V., Adibi, A., & Shakery, A. (2025). POLITISKY24: U.S. Political Bluesky Dataset with User Stance Labels [Data set]. Zenodo. https://doi.org/10.5281/zenodo.15616911

搜集汇总
数据集介绍
main_image_url
构建方式
POLITISKY24数据集的构建采用了多阶段流程,首先通过Bluesky平台的Feed Generator服务收集了2024年11月12日至27日期间三个政治主题feed的325,065条原始数据。采用≥10条发帖的活跃用户筛选标准,最终确定8,561名核心用户,并完整爬取其历史发帖(含18,416,787条帖子)及社交互动图谱(包含869,367条点赞和498,084条转发边)。用户立场标注采用两阶段验证机制:先由专家基于政治性标签筛选446名验证用户,再通过KaLM-mini-v1.5嵌入模型检索立场相关文本片段,最终由DeepSeek-Chat-v3模型生成包含支持依据的三分类立场标签(支持/反对/中立),整体标注准确率达81%。
使用方法
研究者可通过Zenodo平台获取数据集分层使用:基础层包含原始帖文与用户元数据,适用于政治话语分析;中间层提供LLM生成的立场标签及支持性文本片段(平均每用户7.39条上下文),支持立场检测模型训练;网络层包含带权有向图(节点=8,561用户,边=互动频次),支持图神经网络研究。典型应用场景包括:基于时间切片分析立场演化(利用2022-2024全周期数据),对比点赞/转发网络的立场传播差异(利用0.024/0.015的随机网络聚类系数基线),或开发融合文本与图结构的混合检测模型(准确率81%的基线可供参照)。
背景与挑战
背景概述
POLITISKY24数据集由德黑兰大学和基础科学研究所的研究团队于2025年创建,旨在解决政治立场检测领域的关键问题。该数据集聚焦2024年美国总统选举,收集了来自新兴社交平台Bluesky的16,044条用户-目标立场对,涵盖Kamala Harris和Donald Trump两位主要候选人。作为首个针对2024年大选的立场检测资源,其创新性体现在用户级立场分析、交互图结构以及包含参与元数据的多维度标注。该数据集通过结合信息检索与大型语言模型技术,实现了81%标注准确率,为政治传播学、社交计算等领域的算法开发和理论验证提供了重要基准。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决新兴社交平台用户立场检测中的语境稀疏性问题,传统推文级分析难以捕捉去中心化平台的政治表达模式;同时需克服选举周期中立场表达的动态性与模糊性。在构建过程中,技术挑战包括:1) Bluesky平台数据获取需设计新型信息检索管道以替代传统Twitter API;2) 用户级立场标注需处理长文本序列的语义聚合,开发基于LLM的标注系统时面临计算效率与解释性平衡问题;3) 政治立场的主观性导致标注一致性维护困难,需设计多层验证机制确保标签可靠性。
常用场景
经典使用场景
POLITISKY24数据集在政治立场检测领域具有重要价值,尤其在2024年美国总统选举期间,该数据集被广泛用于分析Bluesky平台上用户对Kamala Harris和Donald Trump的立场。研究者利用该数据集进行用户级立场检测,通过整合用户的完整发帖历史和互动数据,能够更全面地理解用户的政治倾向。数据集中的16,044个用户-目标立场对,结合互动图和元数据,为政治传播研究提供了丰富资源。
解决学术问题
POLITISKY24数据集解决了政治立场检测中的多个关键问题。首先,它填补了新兴平台Bluesky上用户级立场数据的空白,克服了传统推文级分析的局限性。其次,数据集通过结合信息检索和大型语言模型,实现了高精度的立场标注(准确率达81%),并提供了透明的标注理由和文本片段。此外,数据集的及时性和开放性为政治传播、舆论分析和用户画像等研究提供了重要支持。
实际应用
POLITISKY24数据集在实际应用中具有广泛潜力。政治竞选团队可以利用该数据集分析选民态度,优化竞选策略。媒体机构可以通过立场检测追踪公众对候选人的情感变化,生成更具针对性的报道。此外,该数据集还可用于社交媒体平台的算法优化,帮助识别和过滤极端或虚假信息,从而提升平台的内容治理能力。
数据集最近研究
最新研究方向
POLITISKY24数据集作为首个针对2024年美国总统选举的Bluesky平台用户立场标注资源,开辟了去中心化社交媒体政治立场分析的新范式。其创新性体现在三方面:采用用户级立场分析框架,通过整合用户完整发帖历史及互动图谱,突破了传统推文级分析的碎片化局限;构建基于大语言模型的透明标注管道,不仅生成立场标签,同时提供支持性文本片段和推理过程,实现了81%的标注准确率;填补了新兴社交平台Bluesky在政治传播研究中的数据空白,为分析去中心化网络中的政治话语传播机制提供了独特视角。该数据集与当前计算社会科学领域的热点高度契合,包括社交媒体算法治理、政治极化演变研究以及大语言模型在社会计算中的应用验证,尤其为选举期间跨平台比较研究和用户立场动态追踪提供了关键基础设施。
相关研究论文
  • 1
    PolitiSky24: U.S. Political Bluesky Dataset with User Stance Labels伊朗德黑兰大学和伊朗基础科学研究所 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作