波斯政治推特数据集（X）

Name: 波斯政治推特数据集（X）
Creator: 德黑兰大学工程学院电气与计算机工程系，德黑兰，伊朗；德黑兰，伊朗，基础科学研究所计算机科学系
Published: 2025-05-10 00:51:24
License: 暂无描述

arXiv2025-05-10 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.06184v1

下载链接

链接失效反馈

官方服务：

资源简介：

波斯政治推特数据集（X）是一个包含与2024年伊朗总统选举相关的政治内容的全面数据集。该数据集由德黑兰大学工程学院电气与计算机工程系以及基础科学研究所计算机科学系的Vahid Rahimzadeh等人创建，旨在为社交网络用户画像方法提供评估和实施的数据基础。数据集包括来自参与选举活动的政治活跃用户超过600万条推文，并通过半监督过滤方法筛选出与政治相关的推文。该数据集可用于分析伊朗数字政治景观中的政治参与和情感，并为研究用户画像方法提供宝贵的资源。

提供机构：

德黑兰大学工程学院电气与计算机工程系，德黑兰，伊朗；德黑兰，伊朗，基础科学研究所计算机科学系

创建时间：

2025-05-10

搜集汇总

数据集介绍

构建方式

波斯政治推特数据集（X）的构建采用了多阶段的半监督方法，旨在高效处理大规模社交媒体数据。首先，通过数据收集阶段获取了超过600万条与2024年伊朗总统选举相关的推文，涵盖三位主要候选人的支持者群体。随后，构建了一个波斯政治领域的特定知识库，利用Wikidata实体和波斯维基百科内容扩展语义覆盖。关键步骤是通过基于BERT嵌入的相似性计算，采用半监督过滤算法识别并保留政治相关内容，最终形成包含170万条推文的精炼数据集。这一流程显著降低了人工标注需求，同时确保了数据的领域相关性。

特点

该数据集的核心特点体现在其领域专注性和语义丰富性上。作为首个针对波斯政治话语的大规模推特数据集，它精准捕捉了伊朗总统选举期间的多维度政治表达。数据集通过知识库驱动的过滤机制，实现了政治与非政治内容的高效分离（精确度达93%），并保留了用户交互图谱等社交网络结构特征。特别值得注意的是，数据覆盖了改革派与原则派两大政治阵营的平衡表达，为政治立场分析提供了独特视角。推文元数据的完整性以及多阶段质量验证机制，进一步提升了数据集的科研应用价值。

使用方法

该数据集支持多种社会计算任务的开展。研究者可基于过滤后的政治推文进行用户画像构建，利用配套的交互图谱分析信息传播模式，或结合时间维度研究政治话语演变。数据集特别适配大语言模型应用场景：抽象化方法可将用户历史生成自然语言概要，提取式方法则能筛选代表性推文进行立场分析。配套提供的15项政治立场声明为基准评估任务奠定了基础，包括开放书问答和立场检测等。使用前建议参照论文中的分层采样策略，并注意文化特定性可能对跨地域研究带来的影响。

背景与挑战

背景概述

波斯政治推特数据集（Persian Political Twitter Dataset）由德黑兰大学电气与计算机工程学院的研究团队于2025年创建，旨在分析2024年伊朗总统选举期间的政治话语模式与用户立场。该数据集收录了超过600万条来自3000名政治活跃用户的推文，通过半监督过滤方法最终提炼出170万条政治相关内容。研究团队创新性地采用领域定义声明（Domain-Defining Statements）作为分析框架，结合大型语言模型（LLM）的推理能力，实现了用户画像的可解释自然语言生成。该数据集不仅为社交媒体用户画像研究提供了波斯语领域的重要基准，其构建方法更突破了传统技术对标注数据的依赖，为政治传播学、计算社会科学等跨学科研究提供了新型分析范式。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，波斯语政治立场检测存在文化特异性，西方训练的LLM容易对'改革派'等本土政治概念产生认知偏差；同时短文本的语义稀疏性导致传统文本匹配方法在立场识别任务中准确率受限。在构建过程层面，研究者需解决推特数据的多模态噪声过滤问题，特别是非政治内容的干扰；知识库构建需要平衡覆盖广度与语义深度，而半监督标注中阈值参数（θ=0.7）的确定需通过大量实证验证。此外，LLM生成长文本时的注意力机制限制，使得模型在处理用户历史推文时可能出现关键信息丢失，这对抽象式画像的可靠性提出了严峻考验。

常用场景

经典使用场景

波斯政治推特数据集（X）在社交媒体分析和政治传播研究中具有重要价值，尤其在分析用户政治立场和情感倾向方面表现突出。该数据集通过半监督过滤方法，从数百万条推文中筛选出与政治相关的内容，为研究者提供了高质量的标注数据。其经典使用场景包括政治立场检测、用户画像构建以及政治话语模式分析。通过结合大型语言模型（LLM）的推理能力，该数据集能够生成抽象和提取两种形式的用户画像，为政治传播研究提供了全新的分析工具。

解决学术问题

该数据集解决了社交媒体用户画像研究中长期存在的几个关键问题。首先，它通过半监督过滤方法显著减少了对大规模标注数据的依赖，提高了模型的适应性。其次，生成的用户画像具有高度可解释性，解决了传统方法中特征不可解释的难题。此外，该方法突破了预定义类别的限制，能够根据数据本身生成领域定义陈述，为跨领域研究提供了可能。这些创新不仅提升了用户画像的质量，还为计算社会科学研究提供了新的方法论支持。

衍生相关工作

该数据集衍生了一系列相关研究工作，主要集中在三个方向：一是基于LLM的政治立场检测方法优化，如结合知识图谱增强模型的政治领域理解能力；二是跨语言政治话语比较研究，通过迁移学习将该数据集的分析框架应用于其他语言环境；三是多模态政治传播分析，将文本数据与图像、视频等多媒体内容相结合。这些衍生工作不仅扩展了原数据集的应用范围，还推动了社交媒体分析方法的创新发展，为政治传播研究开辟了新的路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集