five

Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)|社交媒体分析数据集|通信数据数据集

收藏
arXiv2025-02-02 更新2025-02-11 收录
社交媒体分析
通信数据
下载链接:
https://discord.com/
下载链接
链接失效反馈
资源简介:
Discord Unveiled是一个全面公开的通信数据集,由巴西联邦米纳斯吉拉斯大学的研究团队创建。该数据集包含从2015年至2024年底的超过20.52亿条消息,涉及473.5万个独特用户和3167个公共服务器。数据通过Discord的公共API收集,并采用匿名化技术确保隐私保护。数据集以结构化的JSON文件形式组织,方便与计算社会科学方法无缝集成。该数据集的创建旨在填补Discord研究领域的数据空白,为分析和研究Discord社区治理、信息传播等社会动态提供了一个坚实的时态和主题框架。
提供机构:
Universidade Federal de Minas Gerais - UFMG Belo Horizonte, Brazil
创建时间:
2025-02-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
Discord Unveiled 数据集的构建过程分为三个主要阶段:数据收集、匿名化和组织。数据收集阶段首先通过 Discord 的 Discovery 功能获取服务器信息,然后对服务器进行随机抽样,最后通过 Discord API 收集这些服务器中的公开频道文本消息。匿名化阶段则通过替换用户名、哈希用户 ID 和消息 ID 等方式保护用户隐私。数据组织阶段将数据整理成 JSON 文件,每个文件对应一个服务器,文件名以服务器 ID 命名,确保数据的可靠性和一致性。
特点
Discord Unveiled 数据集的特点包括:数据规模庞大,包含超过 20.52 亿条消息,来自 4.74 百万用户,跨越 3,167 个公共服务器;时间跨度长,从 2015 年至 2024 年,能够分析社区动态和用户行为随时间的变化;语言多样性丰富,除了英语外,还有西班牙语、法语和葡萄牙语等多种语言;主题多样性广泛,涵盖游戏、艺术、音乐、社交等多个领域,能够研究不同类型的社区互动。
使用方法
Discord Unveiled 数据集的使用方法包括:首先,研究者需要了解数据集的结构和字段含义,可以通过阅读数据集的文档和附录来获取相关信息。其次,研究者可以使用 JSON 解析库将数据集导入到编程语言中,例如 Python 的 json 库。然后,研究者可以根据自己的研究需求对数据进行筛选、清洗和预处理。最后,研究者可以使用各种分析工具和方法对数据进行分析,例如文本分析、网络分析、机器学习等,以揭示社区动态、用户行为和信息传播等规律。
背景与挑战
背景概述
Discord Unveiled数据集是一个全面记录了公共通讯平台Discord上2015年至2024年期间用户交流的宝贵资源。该数据集由巴西米纳斯吉拉斯联邦大学的研究团队创建,收集了超过2.05亿条消息,涉及4.74亿用户,覆盖了3167个公共服务器,约占Discord发现功能列出服务器的10%。这个数据集的时间跨度和主题框架为研究分散式管理、社区治理、信息传播和社会动态提供了坚实的基础。数据收集严格遵守了Discord的公共API指南,并通过匿名化技术保护了用户隐私。该数据集以结构化的JSON文件组织,便于计算社会科学方法的集成。初步分析揭示了用户参与度、机器人使用和语言多样性的显著趋势,英语为主,同时西班牙语、法语和葡萄牙语也有大量代表。此外,社会、艺术、音乐和表情包等社区主题的普遍性突显了Discord超越其游戏起源的扩张。
当前挑战
Discord Unveiled数据集的创建和利用面临着一些挑战。首先,数据集的规模和多样性要求研究者具备处理和分析大规模文本数据的能力。其次,尽管数据集已经进行了匿名化处理,但仍需谨慎处理以避免用户隐私泄露的风险。此外,由于Discord的API可能在未来发生变化,因此数据集的长期可用性和可访问性需要进一步考虑。最后,由于Discord是一个不断发展的平台,其社区和用户的动态变化可能导致数据集在某些方面无法完全反映当前情况。因此,研究者需要认识到这些局限性,并在分析过程中加以考虑。
常用场景
经典使用场景
在在线社交互动研究领域,'Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)'数据集提供了宝贵的资源。该数据集涵盖了从Discord平台成立到2024年底的公共服务器数据,包含了超过20亿条消息,由474万用户在3167个公共服务器上产生。这使得研究人员能够分析用户参与度、机器人利用率和语言多样性等趋势,并深入研究Discord作为一个独特社交平台的动态变化。
衍生相关工作
基于'Discord Unveiled'数据集,未来的研究可以包括开发更先进的自然语言处理和机器学习模型,以分析社交互动和社区动态。此外,该数据集可以用于构建特定领域的聊天机器人、推荐系统和自动调节工具,从而促进计算技术与人类沟通和在线互动研究的结合。
数据集最近研究
最新研究方向
该数据集的最新研究方向主要集中在探索Discord平台上用户驱动的社区治理和去中心化内容的传播。研究者在分析Discord平台上用户之间的互动模式、社区构建和语言使用上取得了进展,揭示了社区治理模式如何影响社交动态和内容传播。此外,研究也关注了Discord机器人(bots)在社区管理和用户互动中的作用,以及如何通过自然语言处理和机器学习技术来分析这些机器人对社区的影响。这些研究不仅提供了对Discord平台运作机制的深入理解,也为研究社交媒体如何影响社会和文化提供了新的视角。
相关研究论文
  • 1
    Discord Unveiled: A Comprehensive Dataset of Public Communication (2015-2024)Universidade Federal de Minas Gerais - UFMG Belo Horizonte, Brazil · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

2017-2020年内蒙古当地杂豆的原料特性及生物活性物质分析数据集

参照国标对内蒙古当地的豌豆、赤小豆、绿豆、红芸豆及扁豆等五种杂豆的原料特性和生物活性物质含量进行测定,并进行对比分析。

国家农业科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录