cogsci13/Gowalla-Edges
收藏Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/cogsci13/Gowalla-Edges
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: user
dtype: int64
- name: connected_user
dtype: int64
splits:
- name: train
num_bytes: 30410464
num_examples: 1900654
download_size: 11370181
dataset_size: 30410464
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 名称:user(用户),数据类型:int64(64位整数)
- 名称:connected_user(关联用户),数据类型:int64(64位整数)
数据集拆分:
- 拆分名称:train(训练集),字节大小:30410464,样本数量:1900654
下载大小:11370181
数据集存储大小:30410464
配置项:
- 配置名称:default(默认配置)
数据文件:
- 拆分集:train(训练集),文件路径:data/train-*
提供机构:
cogsci13
原始信息汇总
数据集概述
数据集特征
- user: 数据类型为 int64。
- connected_user: 数据类型为 int64。
数据集分割
- train:
- 数据量: 30410464 字节
- 示例数量: 1900654
数据集大小
- 下载大小: 11370181 字节
- 数据集总大小: 30410464 字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*
搜集汇总
数据集介绍

构建方式
在社交网络分析领域,Gowalla-Edges数据集源于位置社交平台Gowalla的用户签到记录。该数据集通过提取用户间的连接关系构建而成,具体而言,每条记录代表一对用户之间的社交边,其中包含用户标识符及其关联用户标识符。数据以边列表形式组织,覆盖了大规模用户交互网络,反映了真实世界社交图谱的结构特征。构建过程注重数据的完整性与一致性,确保了网络拓扑的准确表征。
特点
Gowalla-Edges数据集以其稀疏且动态的社交网络结构著称,涵盖了数百万条用户连接边,体现了高维稀疏性。数据特征包括用户标识符和关联用户标识符两个核心字段,以简单边列表格式呈现,便于网络分析算法的直接应用。该数据集捕捉了真实社交互动中的非对称性与社区形成模式,为研究复杂网络中的连接性、中心性及传播动力学提供了丰富素材。其规模适中,既保证了计算可行性,又保留了社交网络的复杂性。
使用方法
该数据集适用于社交网络分析、图机器学习及推荐系统等研究场景。使用时,可直接加载边列表数据,将其转换为图结构,以进行社区检测、链接预测或影响力分析等任务。研究人员可利用图神经网络模型处理用户连接关系,探索社交行为的时空模式。数据以标准分割形式提供,支持训练与评估流程,确保实验的可重复性。在应用过程中,需注意数据预处理,以适配特定算法的输入要求。
背景与挑战
背景概述
在社交网络分析领域,理解用户间的连接模式对于揭示人类行为与社会结构至关重要。Gowalla-Edges数据集源于2013年,由计算社会科学研究者基于地理位置社交平台Gowalla构建,旨在捕捉用户间的友谊关系网络。该数据集的核心研究问题聚焦于通过大规模真实社交互动数据,探索网络形成机制、社区检测及信息传播动力学。作为早期开放的位置社交数据集之一,它为复杂网络理论与实证研究提供了关键数据支撑,推动了社交网络建模与推荐系统算法的发展。
当前挑战
Gowalla-Edges数据集所解决的领域问题在于社交网络链接预测与社区结构分析,其挑战包括处理网络稀疏性、动态演化建模以及跨平台泛化能力。在构建过程中,研究人员面临数据稀疏与噪声干扰的难题,需从原始签到记录中精确提取稳定的社交边,同时确保用户隐私保护与数据匿名化处理。此外,数据的时间维度缺失限制了时序行为分析的深度,而平台用户样本偏差也可能影响网络代表性的普适性。
常用场景
经典使用场景
在社交网络分析领域,Gowalla-Edges数据集作为位置签到服务Gowalla的用户连接关系记录,为研究复杂网络结构提供了经典范例。该数据集通过捕捉用户间的社交边,常被用于探索网络拓扑特性,如社区检测、节点中心性分析以及信息传播模型验证,为理解在线社交行为的空间与时间模式奠定了数据基础。
实际应用
在实际应用中,Gowalla-Edges数据集为位置推荐系统、城市规划和流行病传播模拟提供了关键支持。基于用户连接与签到模式,企业可优化个性化位置服务;城市规划者能分析人群流动与社交聚集热点;公共卫生部门则可模拟疾病通过社交接触的扩散路径,提升应急响应能力。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括基于地理社交网络的社区发现算法、位置预测模型以及影响力传播分析。这些工作不仅深化了对签到行为与社交互动耦合机制的理解,还为后续的时空数据挖掘、推荐系统优化等领域提供了方法论借鉴与基准测试标准。
以上内容由遇见数据集搜集并总结生成



