five

Twitch Gamers

收藏
arXiv2021-02-17 更新2024-06-21 收录
下载链接:
https://github.com/benedekrozemberczki/datasets
下载链接
链接失效反馈
官方服务:
资源简介:
Twitch Gamers是由爱丁堡大学创建的一个中等规模的社会网络数据集,专注于在线游戏直播者。该数据集包含约168,000个节点和679万条边,节点属性丰富,包括账户状态、广播语言等。数据集通过爬虫技术从Twitch平台收集,经过严格的数据清洗,确保数据质量。该数据集适用于评估节点嵌入算法的预测性能,特别是在节点分类和回归问题上的应用,如识别无效账户、预测广播语言等。

Twitch Gamers is a medium-scale social network dataset focused on online game streamers, created by the University of Edinburgh. It contains approximately 168,000 nodes and 6.79 million edges, with rich node attributes including account status, broadcast language, and more. The dataset was collected from the Twitch platform via web crawling techniques, and underwent rigorous data cleaning to ensure data quality. This dataset is suitable for evaluating the predictive performance of node embedding algorithms, particularly their applications in node classification and regression tasks, such as identifying invalid accounts and predicting broadcast languages.
提供机构:
爱丁堡大学
创建时间:
2021-01-09
搜集汇总
数据集介绍
main_image_url
构建方式
Twitch Gamers数据集通过爬取Twitch平台上的用户社交网络构建而成。研究团队于2018年4月使用雪球采样方法,从用户Lowko开始,逐步扩展至最大的连通组件。在数据清洗过程中,剔除了缺失属性的节点、非对称关系以及非最大连通组件的节点,最终形成了一个包含约16.8万个节点和679万条边的无向单一连通社交网络。该数据集确保了所有节点属性完整,为后续的节点嵌入和分类任务提供了高质量的数据基础。
特点
Twitch Gamers数据集具有多个显著特点。首先,它包含了丰富的节点属性,如用户标识符、是否为死账户、广播语言、联盟状态、是否包含显式内容、创建日期、最后更新日期、观看次数和账户寿命等。这些属性为多种机器学习任务提供了多样的目标变量,包括二分类、多分类和回归问题。其次,数据集的结构特性使得它非常适合评估邻近保持和结构角色基础的节点嵌入算法,为研究者提供了测试和验证新算法的理想平台。
使用方法
Twitch Gamers数据集适用于多种机器学习任务,包括节点分类、回归分析、链接预测和社区检测等。研究者可以使用该数据集来评估和比较不同的节点嵌入技术,如邻近保持嵌入(如DeepWalk、Walklets)和结构角色基础嵌入(如Role2Vec、MUSAE)。通过使用开源的Karate Club库,研究者可以方便地提取节点特征并进行实验。此外,数据集的公开性使得全球研究者都能访问和利用这一资源,推动节点嵌入技术的发展和应用。
背景与挑战
背景概述
在图挖掘领域,节点嵌入技术已成为处理复杂网络的核心工具,特别是在保持邻近性和结构角色方面。Twitch Gamers数据集由爱丁堡大学的Benedek Rozemberczki和Rik Sarkar于2021年创建,旨在评估新型节点嵌入算法在社交网络中的表现。该数据集包含了一个中等规模的在线游戏直播者社交网络,具有多个潜在的目标属性,如死账户、广播语言、联盟状态和显式内容等。通过这一数据集,研究者可以测试节点嵌入算法在节点分类和顶点级别回归问题上的预测性能,从而推动节点嵌入技术的发展。
当前挑战
Twitch Gamers数据集面临的挑战主要集中在两个方面。首先,构建过程中需确保数据的完整性和一致性,如去除缺失属性节点和非对称关系,这要求严格的数据清洗步骤。其次,该数据集旨在解决节点嵌入技术在多属性预测中的挑战,包括但不限于死账户识别、显式内容用户筛选和广播语言预测。这些任务不仅需要高效的特征提取方法,还需应对数据稀疏性和类别不平衡等问题,以确保嵌入特征的鲁棒性和预测准确性。
常用场景
经典使用场景
Twitch Gamers数据集的经典使用场景主要集中在评估和比较不同节点嵌入技术在社交网络中的表现。该数据集通过提供丰富的节点属性,如广播语言、联盟状态和内容类型,使得研究人员能够测试和验证近邻保持和结构角色基础的节点嵌入算法在节点分类和回归任务中的有效性。
实际应用
在实际应用中,Twitch Gamers数据集可以用于识别不活跃账户、筛选包含特定内容的频道以及预测主播使用的语言。这些应用场景不仅有助于平台优化内容推荐和用户管理,还能为广告商和内容创作者提供有价值的市场分析工具,从而提升用户体验和商业效益。
衍生相关工作
基于Twitch Gamers数据集,研究者们开发了多种节点嵌入算法,如Diff2Vec、DeepWalk、Walklets和RandNE等,这些算法在保持节点间近邻关系和结构角色方面表现出色。此外,数据集还促进了结构角色基础嵌入技术如Role2Vec、ASNE、MUSAE和FEATHER的发展,这些技术在处理复杂社交网络中的节点分类和回归任务时显示出显著优势。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作