Brazilian Social Media Anti-vaccine Information Disorder Dataset - Telegram (2020-2025)

Name: Brazilian Social Media Anti-vaccine Information Disorder Dataset - Telegram (2020-2025)
Creator: 坎皮纳斯州立大学·人工智能实验室; 米纳斯吉拉斯联邦大学·神经科学系; 圣保罗州立大学
Published: 2026-01-26 23:59:28
License: 暂无描述

arXiv2026-01-26 更新2026-01-28 收录

下载链接：

https://doi.org/10.25824/redu/5JIVDT

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由巴西坎皮纳斯州立大学等机构联合构建，收录2020至2025年间119个巴西反疫苗Telegram频道的近400万条帖子，包含文本内容、元数据及多媒体文件，数据总量达5.5TB。研究团队通过关键词检索和滚雪球抽样确定数据源，采用Telethon工具进行采集，并利用语言检测模型和大型语言模型进行数据标注。该资源旨在帮助分析疫苗错误信息的传播机制，支持公共卫生领域制定科学应对策略，推动疫苗接种信任重建。数据集严格遵循伦理准则，开放用于非商业研究。

This dataset was jointly developed by the University of Campinas (UNICAMP) in Brazil and other institutions. It contains nearly 4 million posts from 119 Brazilian anti-vaccine Telegram channels spanning from 2020 to 2025, including text content, metadata and multimedia files, with a total data volume of 5.5 TB. The research team identified data sources via keyword searches and snowball sampling, collected the data using the Telethon tool, and conducted data annotation with language detection models and large language models (LLMs). This resource aims to facilitate analysis of the dissemination mechanisms of vaccine misinformation, support the formulation of scientific response strategies in the public health domain, and promote the restoration of trust in vaccination. The dataset strictly adheres to ethical guidelines and is openly accessible for non-commercial research purposes.

提供机构：

坎皮纳斯州立大学·人工智能实验室; 米纳斯吉拉斯联邦大学·神经科学系; 圣保罗州立大学

创建时间：

2026-01-26

搜集汇总

数据集介绍

构建方式

在公共卫生信息学领域，追踪社交媒体中的疫苗错误信息对于理解其传播机制至关重要。该数据集的构建始于对巴西主要事实核查机构在2024年发布的164篇疫苗相关核查文章的分析，以识别核心错误信息主题。基于此，研究团队采用种子列表、关键词搜索和滚雪球抽样相结合的策略，从Telegram平台识别出119个活跃的巴西反疫苗公共频道。数据收集覆盖了2020年1月至2025年6月这一关键时期，利用基于Python和Telethon库的自定义工具，系统性地爬取了约四百万条帖子及其关联的媒体文件与元数据。后续处理包括使用langdetect库进行语言识别，并借助专门针对巴西葡萄牙语优化的Sabiá-3大语言模型，对帖子是否与疫苗相关进行了自动化标注，最终形成了一个结构化的JSON Lines格式数据集。

特点

该数据集的核心特征在于其规模、深度与针对性。它囊括了从COVID-19大流行初期至2025年中期，巴西反疫苗社群在Telegram这一关键平台上的近四百万条交流记录，时间跨度完整。数据内容极为丰富，不仅包含原始文本，还涵盖了图像、视频、音频等多种媒体形式及其详细的传播元数据，如转发次数、浏览量、互动反应等，为分析信息传播动力学提供了多维视角。尤为突出的是，数据集通过自动化流程标注了超过40万条与疫苗直接相关的帖子，并进行了严格的匿名化与个人身份信息移除处理，在确保研究价值的同时恪守了数据伦理与隐私保护规范。

使用方法

该数据集为跨学科研究提供了坚实的基础资源。在自然语言处理领域，研究者可利用其海量文本进行情感分析、主题建模或训练针对葡萄牙语错误信息的检测模型。社会科学家能够深入剖析在线社群的动态演化、回声室效应以及反疫苗叙事的形成与扩散模式。基于消息的转发与回复关系，可构建用户交互网络，用于识别有影响力的节点与潜在的协同造势活动。此外，关联的媒体文件可用于检测支持反疫苗观点的生成式人工智能合成内容。数据集遵循知识共享署名-非商业性使用许可，通过机构知识库提供访问，要求使用者签署伦理协议，确保其仅用于非商业性学术研究，以支持制定基于证据的公共卫生沟通策略。

背景与挑战

背景概述

在公共卫生领域，巴西国家免疫计划曾作为全球典范，然而自2020年起，该国疫苗接种覆盖率显著下滑，逆转了数十年来的健康成就。这一危机与社交媒体上疫苗相关错误信息的泛滥密切相关，其中Telegram平台因其数据可及性成为关键观测窗口。为此，巴西坎皮纳斯州立大学Recod.ai人工智能实验室的研究团队于2025年创建了“巴西社交媒体反疫苗信息紊乱数据集——Telegram（2020-2025）”。该数据集系统采集了2020年至2025年间119个巴西反疫苗Telegram频道的近四百万条帖子，涵盖文本内容、元数据及关联媒体，旨在揭示错误信息的传播机制与演变轨迹，为制定基于证据的公共卫生干预策略提供核心资源。

当前挑战

该数据集致力于应对疫苗错误信息传播这一复杂社会技术挑战，其核心在于解析虚假内容如何塑造公众认知并加剧疫苗犹豫。构建过程中面临多重障碍：在数据获取层面，Telegram平台的API速率限制与大型媒体文件下载显著延长了采集周期；动态环境如频道删除、更名或转为私密状态导致数据流中断；隐私保护要求对用户身份进行匿名化处理，并需移除时间戳等敏感信息以符合伦理规范。此外，存储容量限制迫使研究团队忽略超过50MB的媒体文件，而平台功能迭代亦造成早期帖子的互动元数据缺失。这些挑战共同凸显了在动态且敏感的社交媒体生态中进行大规模、合规数据收集的固有难度。

常用场景

经典使用场景

在公共卫生信息学与计算社会科学领域，该数据集为剖析疫苗错误信息的传播机制提供了关键实证基础。研究者可借助其包含的约四百万条Telegram帖子，深入追踪反疫苗叙事在巴西社交媒体中的扩散路径、演化模式及社群互动特征，从而揭示虚假内容如何通过转发、回复等网络行为形成信息流行病。

解决学术问题

该数据集有效应对了疫苗犹豫研究中数据稀缺与平台可及性的双重挑战，使学者能够定量分析错误信息与疫苗接种率下降之间的关联。通过标注疫苗相关帖子并整合多模态元数据，它支持对虚假声明主题分类、情感极化及跨平台比较的实证研究，为制定基于证据的公共卫生干预策略提供了数据驱动洞见。

衍生相关工作

基于该数据集，学界已衍生出多项聚焦于葡萄牙语自然语言处理模型训练、社交媒体回声腔效应量化以及生成式人工智能合成内容检测的经典研究。这些工作不仅深化了对巴西信息生态系统的理解，也为全球南方国家的数字健康治理研究提供了可迁移的方法论框架。

以上内容由遇见数据集搜集并总结生成