five

cogsci13/Gowalla-Edges

收藏
Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/cogsci13/Gowalla-Edges
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: user dtype: int64 - name: connected_user dtype: int64 splits: - name: train num_bytes: 30410464 num_examples: 1900654 download_size: 11370181 dataset_size: 30410464 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: 特征字段: - 名称:user(用户),数据类型:int64(64位整数) - 名称:connected_user(关联用户),数据类型:int64(64位整数) 数据集拆分: - 拆分名称:train(训练集),字节大小:30410464,样本数量:1900654 下载大小:11370181 数据集存储大小:30410464 配置项: - 配置名称:default(默认配置) 数据文件: - 拆分集:train(训练集),文件路径:data/train-*
提供机构:
cogsci13
原始信息汇总

数据集概述

数据集特征

  • user: 数据类型为 int64。
  • connected_user: 数据类型为 int64。

数据集分割

  • train:
    • 数据量: 30410464 字节
    • 示例数量: 1900654

数据集大小

  • 下载大小: 11370181 字节
  • 数据集总大小: 30410464 字节

配置信息

  • config_name: default
  • data_files:
    • split: train
    • path: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在社交网络分析领域,Gowalla-Edges数据集源于位置社交平台Gowalla的用户签到记录。该数据集通过提取用户间的连接关系构建而成,具体而言,每条记录代表一对用户之间的社交边,其中包含用户标识符及其关联用户标识符。数据以边列表形式组织,覆盖了大规模用户交互网络,反映了真实世界社交图谱的结构特征。构建过程注重数据的完整性与一致性,确保了网络拓扑的准确表征。
特点
Gowalla-Edges数据集以其稀疏且动态的社交网络结构著称,涵盖了数百万条用户连接边,体现了高维稀疏性。数据特征包括用户标识符和关联用户标识符两个核心字段,以简单边列表格式呈现,便于网络分析算法的直接应用。该数据集捕捉了真实社交互动中的非对称性与社区形成模式,为研究复杂网络中的连接性、中心性及传播动力学提供了丰富素材。其规模适中,既保证了计算可行性,又保留了社交网络的复杂性。
使用方法
该数据集适用于社交网络分析、图机器学习及推荐系统等研究场景。使用时,可直接加载边列表数据,将其转换为图结构,以进行社区检测、链接预测或影响力分析等任务。研究人员可利用图神经网络模型处理用户连接关系,探索社交行为的时空模式。数据以标准分割形式提供,支持训练与评估流程,确保实验的可重复性。在应用过程中,需注意数据预处理,以适配特定算法的输入要求。
背景与挑战
背景概述
在社交网络分析领域,理解用户间的连接模式对于揭示人类行为与社会结构至关重要。Gowalla-Edges数据集源于2013年,由计算社会科学研究者基于地理位置社交平台Gowalla构建,旨在捕捉用户间的友谊关系网络。该数据集的核心研究问题聚焦于通过大规模真实社交互动数据,探索网络形成机制、社区检测及信息传播动力学。作为早期开放的位置社交数据集之一,它为复杂网络理论与实证研究提供了关键数据支撑,推动了社交网络建模与推荐系统算法的发展。
当前挑战
Gowalla-Edges数据集所解决的领域问题在于社交网络链接预测与社区结构分析,其挑战包括处理网络稀疏性、动态演化建模以及跨平台泛化能力。在构建过程中,研究人员面临数据稀疏与噪声干扰的难题,需从原始签到记录中精确提取稳定的社交边,同时确保用户隐私保护与数据匿名化处理。此外,数据的时间维度缺失限制了时序行为分析的深度,而平台用户样本偏差也可能影响网络代表性的普适性。
常用场景
经典使用场景
在社交网络分析领域,Gowalla-Edges数据集作为位置签到服务Gowalla的用户连接关系记录,为研究复杂网络结构提供了经典范例。该数据集通过捕捉用户间的社交边,常被用于探索网络拓扑特性,如社区检测、节点中心性分析以及信息传播模型验证,为理解在线社交行为的空间与时间模式奠定了数据基础。
实际应用
在实际应用中,Gowalla-Edges数据集为位置推荐系统、城市规划和流行病传播模拟提供了关键支持。基于用户连接与签到模式,企业可优化个性化位置服务;城市规划者能分析人群流动与社交聚集热点;公共卫生部门则可模拟疾病通过社交接触的扩散路径,提升应急响应能力。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括基于地理社交网络的社区发现算法、位置预测模型以及影响力传播分析。这些工作不仅深化了对签到行为与社交互动耦合机制的理解,还为后续的时空数据挖掘、推荐系统优化等领域提供了方法论借鉴与基准测试标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作