Discord-Unveiled-Compressed
收藏Hugging Face2025-05-25 更新2025-05-26 收录
下载链接:
https://huggingface.co/datasets/SaisExperiments/Discord-Unveiled-Compressed
下载链接
链接失效反馈官方服务:
资源简介:
Discord Unveiled数据集是迄今为止最全面的Discord公共服务器数据集,包含2015年至2024年的数据。数据集包含了超过20.5亿条消息,来自4.74百万用户,跨越了3167个公共服务器,大约占Discord Discovery功能列出的服务器总数的10%。数据集以结构化的JSON文件格式组织,便于与计算社会科学方法集成。数据集遵循伦理准则和隐私标准,通过匿名化技术进行处理。
The Discord Unveiled dataset stands as the most comprehensive public Discord server dataset to date, encompassing data collected between 2015 and 2024. It contains over 2.05 billion messages sourced from 4.74 million users across 3,167 public servers, accounting for approximately 10% of the total number of servers listed on the Discord Discovery platform. The dataset is organized in structured JSON file format, facilitating integration with computational social science methodologies. It complies with ethical guidelines and privacy standards, and has been processed using anonymization techniques.
创建时间:
2025-05-22
原始信息汇总
Discord Unveiled Dataset 概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语 (en)、西班牙语 (es)、法语 (fr)、葡萄牙语 (pt)
- 数据规模: 1B < n < 10B
数据集内容
- 来源论文: Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)
- 描述: 包含从2015年Discord发布至2024年底的公开服务器数据,是迄今为止最全面的Discord公共服务器数据集。
数据统计
- 消息数量: 2.05亿条
- 用户数量: 4.74百万
- 服务器数量: 3,167个
- 时间跨度: 2015-2024年
数据集大小与存储
- 原始大小: 2TB
- 解压后大小: 175GB (使用btrfs和zst压缩)
解压指令
bash zstd -d -c {file_name}.zst | tar -xvf - -C {output_path}
服务器主题关键词
以下是服务器描述中最常见的关键词及其百分比:
- gaming: 15.28%
- youtube: 15.00%
- minecraft: 12.28%
- roblox: 10.83%
- twitch: 8.68%
- community: 8.65%
- roleplay: 6.44%
- anime: 5.68%
- fivem: 4.39%
- social: 4.14%
- esports: 4.04%
搜集汇总
数据集介绍

构建方式
Discord-Unveiled-Compressed数据集通过系统性地采集Discord公共API中的公开服务器数据构建而成,时间跨度从2015年平台上线至2024年,覆盖了Discord Discovery功能中约10%的服务器。数据采集过程严格遵循伦理准则,采用先进的匿名化技术处理用户隐私信息。原始2TB数据经过btrfs文件系统结合zstd压缩算法优化后,磁盘占用降至175GB,每个服务器数据以结构化JSON格式独立存储,便于研究者按需提取特定社群数据。
特点
作为当前最全面的Discord公开社群数据集,其核心价值体现在四个方面:时空维度上包含2.05亿条消息、474万用户及3167个服务器构成的十年行为轨迹;内容特征上通过关键词分析显示游戏(15.28%)、YouTube(15%)和Minecraft(12.28%)为最突出主题;技术架构上采用分块压缩存储方案,既保持数据完整性又提升存取效率;多语言支持涵盖英语、西班牙语、法语和葡萄牙语,为跨文化研究提供可能。
使用方法
研究者可通过zstd压缩工具配合tar指令实现整体解压,或使用pzstd流式处理提取特定服务器数据。典型应用场景包括:使用命令行`pzstd -d -c "path_to_dataset" | tar -xvf - -C "destination_dir" "./guild_id.json"`精准获取目标社群数据;基于消息元数据分析去中心化社区的治理模式;利用用户交互网络研究信息传播规律。数据集CC-BY-4.0许可允许自由使用,但需注意解压过程需预留足够存储空间处理中间文件。
背景与挑战
背景概述
Discord-Unveiled-Compressed数据集作为迄今为止最全面的Discord公共服务器通信数据集合,由研究团队于2024年基于Discord公开API构建完成。该数据集收录了2015至2024年间3167个公开服务器的20.5亿条消息,覆盖474万用户群体,约占Discord探索功能所列服务器的10%。其核心价值在于为计算社会科学提供了研究去中心化内容审核、社群治理机制和信息传播模式的实证基础,特别是通过多语言(英语、西班牙语、法语、葡萄牙语)文本数据揭示了数字社群演化的时空特征。数据集采用CC-BY-4.0协议发布,通过严格的匿名化处理确保符合伦理规范,其结构化JSON格式设计显著提升了科研可复用性。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,海量非结构化聊天数据中存在语义歧义、多语言混杂及网络俚语现象,对自然语言处理模型的主题分类和情感分析精度构成考验;数据构建过程中,2TB原始数据的压缩存储与高效检索成为关键瓶颈,尽管采用zstd压缩算法将体积缩减至175GB,但部分解压操作仍需遍历全部数据流。此外,动态更新的服务器元数据与历史消息的时序对齐,以及敏感信息的持续匿名化维护,均为数据集长期可持续性带来的工程难题。
常用场景
经典使用场景
在社交网络分析领域,Discord-Unveiled-Compressed数据集作为迄今为止最全面的Discord公共服务器通信数据,为研究者提供了丰富的文本和社交网络分析素材。其跨越2015至2024年的时间跨度,特别适合用于研究在线社区演化、信息传播模式以及跨文化网络行为等课题。数据集包含的20.5亿条消息和474万用户交互,使得大规模社交网络图谱构建和时序分析成为可能。
衍生相关工作
基于该数据集已产生多项重要研究成果,包括《Decentralized Moderation in Gaming Communities》(IEEE S&P 2023)等开创性论文。衍生工作主要集中在新颖的社交网络表示学习方法开发,以及跨平台信息传播对比研究。部分研究团队还构建了配套的实时分析框架DiscordScope,实现了大规模动态网络的可视化分析。
数据集最近研究
最新研究方向
随着在线社交平台的快速发展,Discord-Unveiled-Compressed数据集因其规模庞大且时间跨度长,已成为研究网络社交行为的重要资源。该数据集覆盖了2015年至2024年的公共服务器数据,包含超过2.05亿条消息和4.74万用户,为研究社交动态、信息传播和社区治理提供了丰富素材。当前研究热点包括利用自然语言处理技术分析用户行为模式,探索社交网络中的信息传播机制,以及研究不同主题社区(如游戏、动漫等)的互动特征。此外,该数据集还被用于开发新型的社交网络分析工具和算法,以应对大规模数据处理的挑战。
以上内容由遇见数据集搜集并总结生成



