five

Twitch Gamers|在线游戏直播数据集|社会网络分析数据集

收藏
arXiv2021-02-17 更新2024-06-21 收录
在线游戏直播
社会网络分析
下载链接:
https://github.com/benedekrozemberczki/datasets
下载链接
链接失效反馈
资源简介:
Twitch Gamers是由爱丁堡大学创建的一个中等规模的社会网络数据集,专注于在线游戏直播者。该数据集包含约168,000个节点和679万条边,节点属性丰富,包括账户状态、广播语言等。数据集通过爬虫技术从Twitch平台收集,经过严格的数据清洗,确保数据质量。该数据集适用于评估节点嵌入算法的预测性能,特别是在节点分类和回归问题上的应用,如识别无效账户、预测广播语言等。
提供机构:
爱丁堡大学
创建时间:
2021-01-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
Twitch Gamers数据集通过爬取Twitch平台上的用户社交网络构建而成。研究团队于2018年4月使用雪球采样方法,从用户Lowko开始,逐步扩展至最大的连通组件。在数据清洗过程中,剔除了缺失属性的节点、非对称关系以及非最大连通组件的节点,最终形成了一个包含约16.8万个节点和679万条边的无向单一连通社交网络。该数据集确保了所有节点属性完整,为后续的节点嵌入和分类任务提供了高质量的数据基础。
特点
Twitch Gamers数据集具有多个显著特点。首先,它包含了丰富的节点属性,如用户标识符、是否为死账户、广播语言、联盟状态、是否包含显式内容、创建日期、最后更新日期、观看次数和账户寿命等。这些属性为多种机器学习任务提供了多样的目标变量,包括二分类、多分类和回归问题。其次,数据集的结构特性使得它非常适合评估邻近保持和结构角色基础的节点嵌入算法,为研究者提供了测试和验证新算法的理想平台。
使用方法
Twitch Gamers数据集适用于多种机器学习任务,包括节点分类、回归分析、链接预测和社区检测等。研究者可以使用该数据集来评估和比较不同的节点嵌入技术,如邻近保持嵌入(如DeepWalk、Walklets)和结构角色基础嵌入(如Role2Vec、MUSAE)。通过使用开源的Karate Club库,研究者可以方便地提取节点特征并进行实验。此外,数据集的公开性使得全球研究者都能访问和利用这一资源,推动节点嵌入技术的发展和应用。
背景与挑战
背景概述
在图挖掘领域,节点嵌入技术已成为处理复杂网络的核心工具,特别是在保持邻近性和结构角色方面。Twitch Gamers数据集由爱丁堡大学的Benedek Rozemberczki和Rik Sarkar于2021年创建,旨在评估新型节点嵌入算法在社交网络中的表现。该数据集包含了一个中等规模的在线游戏直播者社交网络,具有多个潜在的目标属性,如死账户、广播语言、联盟状态和显式内容等。通过这一数据集,研究者可以测试节点嵌入算法在节点分类和顶点级别回归问题上的预测性能,从而推动节点嵌入技术的发展。
当前挑战
Twitch Gamers数据集面临的挑战主要集中在两个方面。首先,构建过程中需确保数据的完整性和一致性,如去除缺失属性节点和非对称关系,这要求严格的数据清洗步骤。其次,该数据集旨在解决节点嵌入技术在多属性预测中的挑战,包括但不限于死账户识别、显式内容用户筛选和广播语言预测。这些任务不仅需要高效的特征提取方法,还需应对数据稀疏性和类别不平衡等问题,以确保嵌入特征的鲁棒性和预测准确性。
常用场景
经典使用场景
Twitch Gamers数据集的经典使用场景主要集中在评估和比较不同节点嵌入技术在社交网络中的表现。该数据集通过提供丰富的节点属性,如广播语言、联盟状态和内容类型,使得研究人员能够测试和验证近邻保持和结构角色基础的节点嵌入算法在节点分类和回归任务中的有效性。
实际应用
在实际应用中,Twitch Gamers数据集可以用于识别不活跃账户、筛选包含特定内容的频道以及预测主播使用的语言。这些应用场景不仅有助于平台优化内容推荐和用户管理,还能为广告商和内容创作者提供有价值的市场分析工具,从而提升用户体验和商业效益。
衍生相关工作
基于Twitch Gamers数据集,研究者们开发了多种节点嵌入算法,如Diff2Vec、DeepWalk、Walklets和RandNE等,这些算法在保持节点间近邻关系和结构角色方面表现出色。此外,数据集还促进了结构角色基础嵌入技术如Role2Vec、ASNE、MUSAE和FEATHER的发展,这些技术在处理复杂社交网络中的节点分类和回归任务时显示出显著优势。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

LUNA16

LUNA16(肺结节分析)数据集是用于肺分割的数据集。它由 1,186 个肺结节组成,在 888 次 CT 扫描中进行了注释。

OpenDataLab 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录