意大利Telegram生态系统数据集

Name: 意大利Telegram生态系统数据集
Creator: 意大利国家研究委员会信息与电信研究所
Published: 2025-04-28 16:58:18
License: 暂无描述

arXiv2025-04-28 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.19594v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由意大利国家研究委员会信息与电信研究所的Lorenzo Alvisi, Serena Tardelli和Maurizio Tesconi收集，包含2023年意大利Telegram公共聊天室中发布的超过1.86亿条意大利语消息。该数据集旨在研究意大利Telegram生态系统的结构，包括社区结构、主题驱动聚类、网络动态、意识形态倾向和毒性模式。数据集包含政治和非政治领域的信息，通过构建一个有向加权转发网络并使用大型语言模型来描述单个聊天室的主题和意识形态倾向，同时使用Perspective API评估消息的毒性，并探索仇恨言论在社区中的分布及其主要目标。

This dataset was collected by Lorenzo Alvisi, Serena Tardelli, and Maurizio Tesconi from the Institute of Informatics and Telematics, National Research Council of Italy. It contains over 186 million Italian-language messages published in public Telegram chatrooms in Italy during 2023. The dataset aims to study the structure of the Italian Telegram ecosystem, encompassing community structure, topic-driven clustering, network dynamics, ideological tendencies, and toxicity patterns. Covering information from both political and non-political domains, the dataset constructs a directed weighted forwarding network, uses Large Language Models (LLMs) to describe the topics and ideological orientations of individual chatrooms, leverages the Perspective API to evaluate message toxicity, and investigates the distribution of hate speech across communities and its primary targets.

提供机构：

意大利国家研究委员会信息与电信研究所

创建时间：

2025-04-28

搜集汇总

数据集介绍

构建方式

意大利Telegram生态系统数据集的构建采用了雪球抽样策略，从公开的Telegram聊天室中收集了2023年全年的186万条消息，覆盖了13,151个聊天室。数据收集过程始于两个主要来源：Telegram Italia和TGStat，分别提供了20,229和1,241个意大利语聊天室的初始种子。通过验证聊天室的活跃度和语言一致性，筛选出4,360个有效种子，随后通过消息转发机制扩展数据集，最终形成了覆盖多个主题的全面数据集。

特点

该数据集的特点在于其规模和多样性，涵盖了从政治辩论到娱乐、体育、宗教等多个主题的聊天内容。通过使用网络分析、大型语言模型（LLM）和毒性检测工具，数据集不仅提供了聊天内容的文本信息，还包括了聊天室之间的转发网络结构、政治倾向标签以及毒性评分。此外，数据集特别关注了意大利文化背景下的仇恨言论目标，揭示了针对特定民族、宗教和性取向的仇恨模式。

使用方法

该数据集的使用方法包括网络分析、主题建模和政治倾向分类。研究人员可以利用内置的转发网络研究信息传播模式，使用预训练的语言模型进行主题和情感分析，或利用Perspective API检测消息的毒性。此外，数据集还适用于跨文化比较研究，特别是在线仇恨言论和极端主义内容的传播机制。使用时需注意数据隐私和伦理问题，确保符合相关法律法规。

背景与挑战

背景概述

意大利Telegram生态系统数据集由Lorenzo Alvisi、Serena Tardelli和Maurizio Tesconi等研究人员于2023年创建，旨在填补对Telegram平台在意大利语境下广泛生态系统的理解空白。该数据集包含来自13,151个聊天群的1.86亿条消息，通过大规模网络分析、大型语言模型和毒性检测工具，揭示了意大利Telegram圈中的主题社区形成、意识形态对齐及有害言论传播的机制。研究团队来自意大利IMT高等研究院和国家研究委员会信息科学与技术研究所，其工作首次系统性地绘制了意大利Telegram生态的意识形态互动、毒性言论分布及仇恨目标特征，为跨文化语境下的在线毒性研究提供了重要基准。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域问题方面，Telegram缺乏内容审核导致错误信息、极端主义和毒性言论的扩散，研究需同时解决意识形态极化检测、跨主题毒性分布量化及多目标仇恨言论识别等复合问题；构建过程方面，数据采集受限于公开群组的可获取性，无法覆盖私有聊天内容，且需处理多语言分类、语义标准化（如身份攻击目标的术语映射）以及大规模网络分析的算力需求。此外，LLM标注可能引入文化偏见，特别是在敏感的身份分类任务中，需结合文献定义的标准类别进行后处理校正。

常用场景

经典使用场景

意大利Telegram生态系统数据集为研究人员提供了一个独特的视角，用于分析Telegram平台上的政治话语、错误信息和极端主义内容的传播。通过该数据集，研究者可以深入探讨不同主题社区的形成、意识形态的同质性以及有害言论的分布。数据集特别适用于网络分析、大型语言模型应用以及毒性检测工具的研究，为理解意大利文化背景下的在线行为提供了丰富的数据支持。

衍生相关工作

该数据集衍生了一系列相关研究，包括对Telegram上极端主义网络的分析、错误信息传播的模式研究以及跨语言社区中的毒性行为比较。例如，已有研究利用该数据集探讨了意大利和英语Telegram社区中的阴谋论传播，以及加密货币诈骗网络的跨平台行为。这些工作不仅扩展了数据集的应用范围，还为未来的研究提供了重要的参考和基础。

数据集最近研究