five

2024 U.S. Presidential Election Telegram Dataset

收藏
arXiv2024-10-31 更新2024-11-02 收录
下载链接:
https://github.com/leonardo-blas/usc-tg-24-us-election
下载链接
链接失效反馈
官方服务:
资源简介:
2024 U.S. Presidential Election Telegram Dataset是由南加州大学HUMANS实验室创建的一个大型公开数据集,专注于2024年美国总统选举相关的Telegram讨论。该数据集包含超过30,000个聊天群组和5亿条消息,涵盖聊天详情、用户信息等。数据集的创建过程通过Telegram API和关键词搜索进行,旨在捕捉与选举相关的讨论。该数据集的应用领域主要集中在政治讨论的分析,旨在研究Telegram在选举期间对公众舆论的影响。

The 2024 U.S. Presidential Election Telegram Dataset is a large-scale public dataset developed by the HUMANS Lab at the University of Southern California, focusing on Telegram discussions related to the 2024 United States Presidential Election. This dataset contains over 30,000 chat groups and 500 million messages, covering chat details, user information and other relevant content. The dataset was constructed via the Telegram API and keyword searches, aiming to capture election-related discussions. Its primary application fields center on the analysis of political discourse, with the goal of studying the impact of Telegram on public opinion during election periods.
提供机构:
南加州大学HUMANS实验室
创建时间:
2024-10-31
原始信息汇总

2024年美国总统选举相关的一亿条Telegram消息数据集

数据集概述

该数据集包含关于2024年美国总统选举的一亿条Telegram消息。

数据集下载

数据集可通过以下链接获取: https://academictorrents.com/details/969ef8cbef89bcd6dc88e85e30a37a630c0ba76f

数据使用协议

该数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)。使用该数据集需遵守以下规定:

  • 引用以下文献: Blas, Leonardo, Luca Luceri, and Emilio Ferrara. Unearthing a Billion Telegram Posts about the 2024 U.S. Presidential Election: Development of a Public Dataset. 2024. arXiv, https://arxiv.org/abs/2410.23638.
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过查询Telegram API并使用telethon库进行数据采集,采用了一种递归的雪球采样方法。初始数据集通过与选举相关的关键词进行全局搜索,识别出公开可访问的聊天群组(种子聊天)。每当在种子聊天中发现指向其他可访问聊天群组的链接时,这些链接会被添加到待抓取的聊天列表中,从而递归地发现新的聊天群组并将其纳入数据集。数据收集过程从2024年8月2日开始,持续到2024年10月31日,期间不断更新已发现的聊天群组中的新消息。
特点
该数据集包含了超过30,000个聊天群组和超过5亿条消息,涵盖了聊天详情、用户头像、消息内容及用户信息。其独特之处在于,它构建了一个聊天网络,并分析了500个最核心的聊天群组,揭示了这些群组之间的消息共享模式。此外,数据集还记录了聊天群组的语言分布,其中英语和俄语占据了主导地位,且有约22%的消息未识别出语言,主要包含表情符号、URL或附件。
使用方法
研究人员可以通过访问GitHub仓库获取该数据集,并利用其进行深入的政治讨论分析。数据集提供了详细的聊天网络关系,有助于研究者理解不同聊天群组之间的互动模式。此外,数据集中的语言分布和常用词汇频率分析,为研究者提供了关于讨论主题和语言使用的重要线索。研究者应特别注意数据清洗,以减少关键词驱动的大规模数据收集中固有的噪音影响。
背景与挑战
背景概述
随着2024年美国大选的临近,Telegram这一以其宽松的审查政策和与潜在非法活动的长期关联而闻名的平台,已成为社会和政治讨论的重要战场。由南加州大学HUMANS实验室的Leonardo Blas、Luca Luceri和Emilio Ferrara领导的团队,开发了2024 U.S. Presidential Election Telegram Dataset,该数据集包含了超过30,000个聊天和5亿条消息,涵盖了聊天详情、用户信息等。这一数据集的创建旨在为研究社区、监管机构和媒体提供一个前所未有的机会,以深入研究Telegram在选举期间的政治讨论动态,从而更好地理解其对民主讨论的影响。
当前挑战
该数据集在构建过程中面临多重挑战。首先,Telegram的宽松审查政策导致平台上充斥着阴谋论、极端党派和边缘叙事,这增加了数据分析的复杂性。其次,数据收集过程中遇到的网络中断、服务器错误、私人聊天管理员的拒绝加入请求等问题,都影响了数据的完整性和准确性。此外,由于Telegram用户名的可重用性和公共聊天可能拥有多个用户名,数据集在处理这些模糊性时也面临挑战。最后,尽管数据集提供了大量信息,但其关键词驱动的收集方法可能导致数据中存在噪音,需要研究人员进行适当的过滤和清理。
常用场景
经典使用场景
该数据集的经典使用场景在于对2024年美国大选期间Telegram平台上的政治讨论进行深入分析。通过收集和分析超过30,000个聊天群组和5亿条消息,研究者能够追踪和理解选举相关信息的传播路径、影响力中心以及潜在的舆论操纵行为。这种大规模的数据集为研究政治讨论的动态变化、信息传播的网络结构以及公众舆论的形成提供了前所未有的机会。
衍生相关工作
该数据集的发布催生了一系列相关的经典研究工作。例如,研究者利用这些数据进行了关于Telegram平台上政治讨论的网络分析,揭示了信息传播的关键路径和影响力中心。此外,还有研究探讨了Telegram在选举期间作为舆论操纵工具的潜在风险,以及如何通过技术手段识别和应对这些风险。这些研究不仅丰富了我们对社交媒体在政治事件中作用的认识,也为未来的相关研究提供了重要的数据和方法论基础。
数据集最近研究
最新研究方向
随着2024年美国总统选举的临近,Telegram平台上的政治讨论日益成为研究焦点。最新研究方向集中在通过大规模数据集分析Telegram上的政治言论,以揭示潜在的极端主义和虚假信息传播模式。该数据集包含超过30,000个聊天和5亿条消息,涵盖了从2023年11月1日开始的选举相关讨论。研究者们利用网络分析技术,识别出500个最具影响力的聊天群组,并对其中的消息进行深入分析,以评估这些群组在塑造公众舆论和影响选举结果方面的潜在作用。此外,研究还关注了不同语言和地理区域内的讨论差异,以及这些讨论如何与现实世界的政治事件相互作用。通过这种方式,研究不仅有助于理解Telegram在选举中的角色,还为政策制定者和媒体提供了宝贵的洞察,以应对可能的选举干扰和信息操纵。
相关研究论文
  • 1
    Unearthing a Billion Telegram Posts about the 2024 U.S. Presidential Election: Development of a Public Dataset南加州大学HUMANS实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作