five

German Twittersphere dataset on trending topics

收藏
arXiv2025-05-20 更新2025-05-22 收录
下载链接:
http://arxiv.org/abs/2505.14280v1
下载链接
链接失效反馈
官方服务:
资源简介:
本研究的数据集包含从2021年3月29日至2023年7月12日的德国Twitter趋势话题相关的推文。数据集涵盖了超过两年时间内的每日趋势话题,收集了19,105,532条推文。研究通过对这些推文进行主题模型分析,提取了主要讨论的问题,并利用转发网络来分析用户对这些问题的观点。数据集揭示了Twitter上公众意见的极化现象,指出政治问题的高度一致性与以往调查结果相反。研究还指出,这种一致性由两类活跃用户——产生意识形态内容的影响者和促进内容传播的放大者——推动。数据集的创建过程涉及从Twitter Trend API和Twitter Search API收集数据,并使用BERTopic库进行主题模型分析。数据集的应用领域在于理解社交媒体上公众意见形成的机制,为平台监管提供参考。

The dataset for this study contains tweets related to trending topics on German Twitter spanning from March 29, 2021 to July 12, 2023. It covers daily trending topics across a period of over two years, with a total of 19,105,532 collected tweets. This study conducted topic modeling analysis on these tweets to extract key discussed issues, and utilized retweet networks to analyze users' viewpoints on these issues. The dataset reveals the polarization of public opinion on Twitter, pointing out that the high degree of consensus on political issues contradicts findings from previous surveys. It also notes that this consensus is driven by two types of active users: influencers who generate ideological content, and amplifiers who facilitate the spread of such content. The dataset was created by gathering data via the Twitter Trend API and Twitter Search API, and performing topic modeling analysis using the BERTopic library. The application scenarios of this dataset focus on understanding the mechanisms of public opinion formation on social media, providing references for platform regulation.
提供机构:
Max Planck Institute for Mathematics in the Sciences, Leipzig, Germany; Laboratoire Lattice, École Normale Supérieure - PSL - CNRS - Univ. Sorbonne Nouvelle, Montrouge, France; m´edialab, Sciences Po, Paris, France; Weizenbaum Institute for the Networked Society, Berlin, Germany
创建时间:
2025-05-20
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过Twitter Trend API和Search API收集了2021年3月至2023年7月间德国地区的每日热门话题及相关推文。研究团队每日定时抓取德国地区的热门话题,并保留当日出现频率最高的五个话题。随后,使用精确关键词查询收集相关推文,时间跨度为话题出现当日及次日共48小时。最终数据集包含2693个子数据集,总计19,105,532条推文。数据处理过程中,研究人员对相同短语在一天内出现的趋势进行了合并,以确保数据的唯一性和准确性。
特点
该数据集聚焦于德国Twitter圈的热门话题,特别关注政治极化现象。通过主题建模和转发网络分析,数据集揭示了用户在不同议题上的立场分布。研究发现,德国Twitter圈主要分为左倾和右倾两大阵营,政治议题呈现高度对齐现象。数据集的一个显著特点是识别了两类核心用户:内容创作者(影响者)和内容传播者(倍增者),他们在塑造网络舆论中扮演关键角色。此外,数据集涵盖了广泛的主题领域,包括气候变化、新冠疫情、乌克兰战争等热点议题,为研究社交媒体上的舆论动态提供了丰富素材。
使用方法
该数据集适用于多种研究场景。研究者可利用主题建模技术提取讨论的主要议题,并通过转发网络分析用户立场。具体而言,可以构建用户转发网络,使用社区检测算法识别意见集群,进而测量议题间的对齐程度。数据集特别适合研究社交媒体极化现象、议题对齐机制以及不同类型用户在舆论形成中的作用。使用BERTopic等先进主题建模工具可有效处理推文短文本特性,而基于UMAP和HDBScan的聚类方法则适用于推文语义空间分析。此外,研究者还可通过计算用户对齐矩阵,量化用户在多个议题上的立场一致性。
背景与挑战
背景概述
German Twittersphere dataset on trending topics是由Max Planck Institute for Mathematics in the Sciences等机构的研究人员于2025年发布的一项研究数据集,旨在探讨德国Twitter(现为X)平台上热门话题的极化现象及其驱动机制。该数据集涵盖了2021年3月至2023年7月期间德国Twitter上的每日热门话题,通过分析用户的转发行为,揭示了在线公共领域中的极化现象。研究发现,德国Twitter用户主要分为左倾和右倾两大阵营,且政治议题呈现出高度的一致性。这一发现挑战了传统调查研究中关于议题一致性的假设,为理解社交媒体上的舆论形成机制提供了新的视角。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题的挑战:如何准确识别和量化社交媒体上的极化现象,尤其是在多议题背景下,如何区分真实的极化与算法或用户行为导致的表面极化;2) 构建过程中的挑战:处理大规模社交媒体数据的复杂性,包括数据收集的完整性(如API限制导致的潜在数据缺失)、话题建模的准确性(短文本的语义分析难题),以及网络聚类算法的有效性(如何区分真实的意见群体与算法生成的伪群体)。此外,数据集中用户行为的多样性和动态性也为分析带来了额外的复杂性。
常用场景
经典使用场景
German Twittersphere dataset on trending topics 主要用于研究社交媒体上的政治极化现象和议题对齐。该数据集通过分析德国推特上的热门话题,揭示了用户在这些话题上的立场和互动模式。经典使用场景包括通过转推网络分析用户的政治倾向,识别极化现象,并探讨议题之间的关联性。
实际应用
在实际应用中,German Twittersphere dataset on trending topics 可以用于社交媒体平台的监管和政策制定。通过识别极化和议题对齐的模式,平台可以更好地理解用户行为,并采取措施减少有害内容的传播。此外,该数据集还可以用于政治竞选和社会运动的策略分析,帮助理解公众意见的形成和传播。
衍生相关工作
该数据集衍生了许多相关研究,特别是在社交媒体极化和议题对齐领域。例如,Chen et al. (2021) 使用类似的数据集研究了芬兰推特圈的气候变化和移民议题的对齐现象。此外,Salloum, Chen, and Kivelä (2024) 的研究也借鉴了该数据集的方法,探讨了社交媒体上精英用户的极化行为。这些研究进一步验证了数据集的科学价值和广泛应用前景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作