A billion Telegram messages about the 2024 US presidential election

github2024-11-08 更新2024-11-28 收录

下载链接：

https://github.com/leonardo-blas/usc-tg-24-us-election

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含关于2024年美国总统选举的约4.9亿条Telegram消息，涉及约29,900个聊天群组，总大小约为850GB。数据集正在持续收集，预计到年底将收集约10亿条消息。数据集遵循CC BY-NC-SA 4.0许可协议，并要求用户在使用时引用相关论文。

This dataset contains approximately 490 million Telegram messages related to the 2024 United States Presidential Election, covering around 29,900 chat groups, with a total size of about 850 GB. The dataset is being continuously collected, and it is estimated that around 1 billion messages will be collected by the end of the year. This dataset is released under the CC BY-NC-SA 4.0 license, and users are required to cite the relevant papers when using it.

创建时间：

2024-10-31

原始信息汇总

2024年美国总统选举相关Telegram消息数据集

数据集概述

数据集名称: 2024年美国总统选举相关Telegram消息数据集
数据集版本: v1
数据量: 约4.9亿条消息，约29,900个聊天记录，约850GB
数据集状态: 数据收集正在进行中，预计年底前收集约10亿条消息

数据集下载

下载地址:
- Academic Torrents
- Google Drive

数据使用协议

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Public License (CC BY-NC-SA 4.0)
引用要求: 使用数据集时需引用以下论文：
- Leonardo Blas, Luca Luceri, and Emilio Ferrara. Unearthing a Billion Telegram Posts about the 2024 U.S. Presidential Election: Development of a Public Dataset. 2024. https://doi.org/10.48550/arXiv.2410.23638.

数据处理指南

文件合并: 使用以下命令合并分割文件： bash cat scraped_part_* > scraped.tar.zst
文件解压: 使用以下命令解压合并后的文件： bash tar --use-compress-program=unzstd -xvf scraped.tar.zst
解压后文件大小: 解压后的scraped文件夹约850GB
额外解压: 部分Telegram对象在SQLite数据库中以JSON序列化、UTF-8编码和zlib压缩存储，完全解压后可能占用三倍空间
建议: 如果存储空间有限，建议在运行时解压和分析Telegram对象，或使用decompress.py解压.db文件

数据集特性

聊天记录排名: 使用chats.db和get_top_chats.py脚本可确定前N个聊天记录，默认N为500

致谢

感谢: 感谢全球的种子下载者对数据集的镜像支持

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对Telegram平台上关于2024年美国大选的广泛消息收集。通过持续的数据抓取和整合，截至发布时，数据集已包含约4.9亿条消息，涵盖近3万聊天群组，总容量达850GB。值得注意的是，由于部分文件损坏，初始版本经历了约5000万条消息和3000个聊天群组的清理，确保了数据集的完整性和准确性。随着收集工作的持续进行，预计到年底，数据集将扩展至约10亿条消息。

特点

此数据集的显著特点在于其规模庞大和实时更新。不仅涵盖了广泛的消息内容，还通过独特的数据处理技术，如JSON序列化、UTF-8编码和zlib压缩，确保了数据的高效存储和传输。此外，数据集还提供了详细的聊天群组影响力排名，通过分析独特的入站链接数来衡量，为研究者提供了深入分析社交网络影响力的工具。

使用方法

使用该数据集时，用户需首先合并分割的文件，并通过特定的解压缩命令进行处理。对于存储空间有限的用户，建议在运行时动态解压缩Telegram对象，以节省存储资源。此外，若时间戳列非必要，建议在分析前将其删除，以优化存储效率。数据集还附带了Python脚本，用于提取和分析顶级聊天群组，用户可根据需求调整脚本参数，进行定制化分析。

背景与挑战

背景概述

在2024年美国总统选举的背景下，Leonardo Blas、Luca Luceri和Emilio Ferrara等研究人员创建了一个庞大的Telegram消息数据集，旨在深入分析公众对此次选举的讨论和情绪。该数据集的构建始于选举前夕，预计将持续至年底，最终收集约10亿条消息。这一数据集不仅涵盖了约29,900个聊天群组，还包含了约4.9亿条消息，总数据量达850GB。通过这一数据集，研究人员能够更全面地理解社交媒体在重大政治事件中的角色和影响，为相关领域的研究提供了宝贵的资源。

当前挑战

尽管该数据集在规模和内容上具有显著优势，但其构建过程中也面临诸多挑战。首先，数据集的初始版本因文件损坏而损失了约5000万条消息和3000个聊天群组，这表明数据完整性和质量控制是主要难题。其次，数据集的存储和处理需求巨大，尤其是在解压缩所有zlib压缩条目后，数据量可能增加三倍，这对存储和计算资源提出了高要求。此外，实时分析和处理这些数据需要高效的算法和工具支持，以确保分析的准确性和效率。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在政治舆情分析与预测领域。研究者可以利用这数十亿条关于2024年美国大选的Telegram消息，深入分析选民情绪、舆论趋势以及社交媒体对选举结果的影响。通过自然语言处理技术，可以提取关键词、情感极性及话题热度，从而构建模型预测选举结果或评估特定政策的社会反响。

实际应用

在实际应用中，该数据集可用于政府和非政府组织的舆情监控与危机管理。通过实时分析Telegram上的选举相关讨论，相关部门可以及时识别和应对潜在的舆论危机，优化公共沟通策略。此外，媒体机构可以利用这些数据进行深度报道，揭示选民的真实关切和潜在的政治动态，从而提升新闻报道的深度和广度。

衍生相关工作

基于该数据集，已衍生出多项经典工作，包括社交媒体舆情预测模型、政治传播网络分析以及选民行为模拟等。例如，有研究利用这些数据构建了基于机器学习的选举结果预测模型，显著提升了预测精度。此外，还有学者通过分析Telegram上的对话网络，揭示了关键意见领袖的影响力分布，为理解社交媒体在政治动员中的作用提供了新的视角。

以上内容由遇见数据集搜集并总结生成