Secim2023
收藏arXiv2022-11-22 更新2024-07-24 收录
下载链接:
https://github.com/ViralLab/Secim2023_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Secim2023是由萨班哲大学创建的第一个公开数据集,专门用于研究土耳其大选。该数据集旨在捕捉即将到来的土耳其选举中的社交媒体动态,包括政治辩论、宣传、诽谤活动和选举操纵。数据集内容丰富,包括用户活动、推文量、城市级趋势话题、网络活动等,旨在帮助研究人员开发工具以防止在线操纵,并收集新颖信息以通知公众。数据集的应用领域广泛,涉及政治科学、选举预测、公共意见分析等,旨在解决选举中的信息操纵和公众意见形成等问题。
Secim2023 is the first publicly accessible dataset developed by Sabancı University, dedicated exclusively to research on Turkish general elections. This dataset aims to capture social media dynamics surrounding the upcoming Turkish general elections, including political debates, propaganda efforts, defamation campaigns, and election manipulation activities. The dataset encompasses diverse content, such as user activities, tweet volumes, city-level trending topics, online network behaviors, and more. Its core objectives include assisting researchers in developing tools to mitigate online manipulation, as well as collecting novel information to inform the general public. The dataset has broad application prospects across multiple fields, including political science, election forecasting, public opinion analysis, and others, and is designed to address key issues such as information manipulation during elections and the formation of public opinion.
提供机构:
萨班哲大学
创建时间:
2022-11-22
原始信息汇总
Secim2023_Dataset
概述
- 名称:Secim2023_Dataset
- 目的:用于研究土耳其大选的公共数据集
背景
- 选举背景:土耳其即将举行的议会和总统选举
- 社会媒体角色:社会媒体在塑造公众辩论中扮演重要角色,政治行为者越来越多地使用社会媒体
- 重要性:社会媒体成为选举宣传、政治辩论、诽谤活动和选举操纵的重要组成部分
数据集用途
- 研究:供社会媒体研究人员研究即将到来的选举
- 工具开发:开发防止在线操纵的工具
- 信息收集:收集新颖信息以告知公众
数据集特点
- 持续更新:致力于不断改进数据收集并定期更新,直至选举
- 研究方向:研究人员可以检查政治行为者之间的社会和沟通网络,追踪当前趋势,并调查对选举完整性的新兴威胁
引用信息
- 作者:Najafi, A., Mugurtay, N., Demirci, E., Demirkiran, S., Karadeniz, H. A., & Varol, O.
- 出版年份:2022年
- 预印本:arXiv:2211.13121
搜集汇总
数据集介绍

构建方式
在土耳其即将迎来总统与议会选举的背景下,社交媒体正深刻塑造公共辩论。为系统捕捉这一关键时期的政治动态,研究者基于Twitter API v1.1与v2.0,结合关键词与政治人物列表,构建了Secim2023数据集。数据采集涵盖多维度:利用流式API收集包含政治实体或相关关键词的推文;通过趋势话题API每十分钟获取土耳其境内12个城市及全国的热门话题;定期抓取936位政治人物的好友与粉丝信息,构建社交网络;并开发爬虫每日从土耳其最高法院官网获取政党成员统计数据。此外,数据集还利用预训练模型对账户进行机器人评分与人口统计学推断,以及对推文进行情感、主题与命名实体分析。
使用方法
研究者可借助该数据集开展多维度分析。首先,通过重水化推文ID(使用Hydrator或Twarc工具)恢复原始内容,进行情感分析与话题建模,追踪选举议题的演变。其次,利用政治人物的社交网络数据,可构建基于Jaccard相似度的党派聚类网络,观察联盟内部与跨联盟的互动模式。趋势话题数据支持城市间相似性分析,识别本地化与全国性话题的传播路径。此外,结合机器人评分与人口统计学推断,可深入探究自动化账户对政治话语的影响,例如分析特定政党是否遭受针对性的机器人攻击。数据集还提供政党成员统计时间序列,便于关联线下组织动态与线上活动。所有数据均通过Github公开维护,并接受社区建议持续更新。
背景与挑战
背景概述
在社交媒体深刻重塑政治传播生态的背景下,土耳其即将迎来2023年总统与议会大选,社交平台已成为政治宣传、舆论博弈乃至信息操纵的关键场域。由萨班哲大学Onur Varol团队于2022年创建的Secim2023数据集,是首个系统研究土耳其大选社交媒体动态的公开资源。该数据集聚焦于捕捉选举期间Twitter平台上的政治讨论、网络结构及自动化账户活动,旨在揭示政治行为体之间的社交网络、趋势话题的时空扩散规律,以及潜在选举干预行为。其发布为计算社会科学、政治传播与自然语言处理领域提供了独特的数据基础,尤其填补了土耳其语境下大规模选举相关社交媒体实证研究的空白,对理解新兴民主国家的数字政治生态具有重要学术价值。
当前挑战
该数据集面临的核心挑战首先源于领域问题的复杂性:如何从海量、嘈杂的社交媒体数据中准确识别与选举相关的政治讨论,并区分真实用户与自动化机器人账户的混合影响。土耳其政治语境下,主流媒体受控、极化严重,使得话题标注与倾向性分析极易受到意识形态偏见干扰。其次,构建过程遭遇多重技术障碍:Twitter API对数据共享的严格限制导致仅能提供推文ID,需依赖第三方工具重建原始数据,而删除的推文将永久丢失;平台算法对执政党成员的系统性偏向,迫使研究团队必须人工构建关键词与用户列表以弥补采样偏差;此外,埃隆·马斯克收购Twitter后带来的平台政策不确定性,持续威胁着数据采集的连续性与API访问权限的稳定性。
常用场景
经典使用场景
Secim2023数据集是首个面向土耳其大选的公开社交媒体数据集,聚焦于2023年土耳其总统及议会选举期间的Twitter平台政治动态。其经典使用场景涵盖政治传播网络分析、选举趋势追踪及在线操纵行为检测。研究者可利用该数据集构建政治行动者之间的社交与信息网络,分析党派联盟结构、舆论极化现象以及热点话题的城市级扩散模式。此外,数据集提供的每日推文流、用户画像及趋势话题记录,为探究选举周期内公众情绪演变与议题生命周期提供了量化基础,尤其适用于理解多党制背景下社交媒体对选民行为的塑造作用。
解决学术问题
该数据集系统性地解决了选举研究领域的关键学术问题,包括政治机器人活动的量化评估、党派粉丝网络的同质性分析以及虚假信息传播的早期预警。通过整合BotometerLite等自动化检测工具,Secim2023揭示了政治人物关注者中机器账户的分布规律,为区分有机参与与协同操纵行为提供了实证依据。同时,数据集支持的跨党派网络相似性计算,有效刻画了土耳其政治联盟的数字化边界,回应了关于“回音室效应”与意识形态隔离的长期争论。其城市级趋势话题数据更推动了地域性政治动员机制的研究,弥补了非西方选举情境下社交媒体数据稀缺的缺口。
实际应用
在实际应用层面,Secim2023数据集为选举监督机构、事实核查组织及新闻媒体提供了实时监测工具的开发基础。基于该数据集的趋势话题分析模块,可用于识别人为制造的虚假热点(astroturfing),辅助揭露旨在误导公众的协调性信息操作。政党竞选团队亦可利用数据集中的社交网络拓扑特征,优化数字宣传策略,例如通过识别高影响力用户群体实现精准动员。此外,数据集衍生的用户人口统计推断模型(如m3inference)已应用于土耳其语社交媒体用户的年龄、性别预测,服务于市场调研与公共政策评估等商业与社会治理场景。
数据集最近研究
最新研究方向
在社交媒体深度嵌入政治生态的背景下,Secim2023数据集聚焦于2023年土耳其大选前的网络舆论博弈,成为研究选举操纵、虚假信息传播与政治极化的重要资源。当前前沿方向集中于利用该数据集揭示自动化账户(社会机器人)对选举话语的干预机制,例如通过BotometerLite检测机器人账户在政治人物社交网络中的渗透模式,并结合自然语言处理分析其内容倾向(支持或攻击特定候选人)。此外,研究者借助该数据集的动态追踪特性(如每日趋势话题、城市级舆论差异与政党支持者网络演化),探索社交媒体如何放大政治联盟的对抗性叙事,以及算法推荐如何加剧选民的信息茧房效应。该数据集的意义在于为跨学科研究提供了首个系统化土耳其选举语料库,助力开发早期预警工具以识别线上操纵行为,进而维护选举公正性。
相关研究论文
- 1#Secim2023: First Public Dataset for Studying Turkish General Election萨班哲大学 · 2022年
以上内容由遇见数据集搜集并总结生成



