Schwurbelarchiv

Name: Schwurbelarchiv
Creator: 格拉茨大学IDea_Lab
Published: 2025-04-08 17:11:46
License: 暂无描述

arXiv2025-04-08 更新2025-04-11 收录

下载链接：

https://doi.org/10.5281/zenodo.14704628

下载链接

链接失效反馈

官方服务：

资源简介：

Schwurbelarchiv是一个德语语言的Telegram数据集，由格拉茨大学IDea_Lab的研究人员创建。该数据集包含6000多个群组和频道，4000万条文本信息以及超过300万份转录的音频文件，主要来源于一个名为'Schwurbelarchiv'的数据收集计划。数据集涵盖了从2015年9月23日到2022年8月5日的时间段，支持对在线社交动态和内容传播的多模态分析，有助于研究人员探索错误信息、政治极端主义、意见适应以及Telegram上的社交网络结构等社会现象。

Schwurbelarchiv is a German-language Telegram dataset created by researchers at the IDea_Lab of the University of Graz. This dataset contains over 6,000 groups and channels, 40 million text messages, and more than 3 million transcribed audio files, primarily sourced from a data collection initiative named "Schwurbelarchiv". The dataset covers the period from September 23, 2015 to August 5, 2022, and supports multimodal analysis of online social dynamics and content dissemination, enabling researchers to explore social phenomena such as misinformation, political extremism, opinion adaptation, and social network structures on Telegram.

提供机构：

格拉茨大学IDea_Lab

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

Schwurbelarchiv数据集的构建采用了雪球抽样方法，从一组以德语阴谋论为主题的Telegram群组和频道开始，通过自动化工具识别并加入相关聊天群组以收集信息。数据收集过程涉及批量下载和持续流式传输，确保覆盖广泛的讨论内容。此外，数据集还包含了多媒体内容的转录，如语音消息和视频文件，通过开源模型Whisper-large-v3-turbo进行高效处理，显著扩展了文本语料库的规模。

使用方法

研究人员可利用该数据集进行多模态分析，探索阴谋论话语的传播机制、社会网络结构及极端主义内容的演变。数据集支持从语言学、政治学和社会计算等多个角度展开研究，特别是通过比较文本与转录内容，揭示不同媒介在信息传播中的角色。为确保伦理合规，建议使用匿名化后的数据进行研究，避免个人身份识别，同时注意消息删除可能带来的数据偏差问题。

背景与挑战

背景概述

Schwurbelarchiv数据集由奥地利格拉茨大学IDea_Lab的研究团队于2025年创建，旨在为德语区阴谋论研究提供多模态社交媒体数据支持。该数据集收录了2015至2022年间6000余个Telegram群组与频道的4000万条文本消息及300万条转录音频文件，其名称源自德语'Schwurbeln'（意为无意义言论）。作为目前唯一包含多媒体内容的公开Telegram数据集，其创新性地整合了语音消息转录技术，显著拓展了虚假信息传播、政治极端主义等社会计算研究的维度。该资源已通过Zenodo平台开放获取，为数字传播学、计算社会科学等领域提供了关键基础设施。

当前挑战

该数据集面临双重挑战：在研究层面，需解决多媒体内容分析的技术瓶颈，包括语音消息的语义解析与非文本信息的特征提取；在构建层面，存在消息删除导致的样本偏差（频道消息7个月留存率仅83%）、用户匿名化造成的身份识别模糊（相同用户名无法区分实际用户），以及数据收集方法不透明引发的覆盖度质疑（仅能捕获47.9%的转发消息原始内容）。此外，24TB的原始数据规模与.warc特殊格式对存储计算提出严峻要求，而伦理审查与CC0许可协议的协调也增加了数据合规使用的复杂性。

常用场景

经典使用场景

Schwurbelarchiv数据集作为德语Telegram平台上阴谋论相关讨论的大规模语料库，其经典使用场景主要聚焦于社会网络分析与信息传播研究。通过6000余个群组和频道的40万条文本消息及300万条音频转录文件，研究者能够深入追踪德语区阴谋论话语的传播路径与演化模式。该数据集特别适用于分析COVID-19疫情期间虚假信息的扩散机制，例如通过跨群组转发网络揭示关键意见领袖的影响范围。

解决学术问题

该数据集有效解决了数字社会学领域的关键挑战：一是突破了传统文本数据对多媒体内容分析的局限，首次实现音频与视频内容的可计算化处理；二是通过覆盖2015-2022年德语区阴谋论讨论全周期，为研究极端事件（如疫情、政治危机）与在线话语的关联性提供纵向证据；三是其包含的转发网络元数据使得信息流拓扑建模成为可能，弥补了现有研究对隐蔽传播网络结构认知的不足。

实际应用

在实践层面，Schwurbelarchiv已被应用于德国政府网络安全部门的虚假信息监测系统开发。其多模态特性支持构建更精准的内容风险预警模型，例如通过语音转录文本识别新兴阴谋论叙事框架。奥地利格拉茨大学团队利用该数据集开发的动态社群检测算法，成功预测了2022年德国议会抗议事件的线上动员趋势。

数据集最近研究