five

PRES

收藏
Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/capitalone/PRES
下载链接
链接失效反馈
官方服务:
资源简介:
个人和关系事件序列数据集,包含两个主要文件夹:processed/和tasks/。processed/文件夹包含每个数据集的原始事件序列,没有特定的任务处理。tasks/文件夹定义了从每个数据集派生的各种预测任务,每个子文件夹对应一个数据集,并包含特定任务的目录。数据集包括Brightkite、Gowalla、Amazon Clothing、Amazon Electronics和GitHub,分别包含地理位置签到、社交网络好友关系、亚马逊产品评论和GitHub用户活动等信息。
创建时间:
2025-11-01
原始信息汇总

Personal and Relational Event Sequence Datasets 概述

数据集简介

该数据集集合支持个人和关系事件序列建模研究,包含原始事件数据和预定义预测任务。

数据集组成

原始数据文件

  • processed/文件夹包含5个未处理的完整事件序列文件:
    • amazon-clothing_all_events.csv
    • amazon-electronics_all_events.csv
    • brightkite_all_events.csv
    • gowalla_all_events.csv
    • github_all_events.csv

任务数据文件

  • tasks/文件夹包含针对各数据集的预测任务:
    • amazon-clothing:共同评论预测、产品评分预测
    • amazon-electronics:共同评论预测、产品评分预测
    • brightkite:签到预测、好友推荐
    • gowalla:签到预测、好友推荐
    • github:协作预测

数据特征

数据格式

  • 每行包含字段:用户ID、时间戳、事件集类型、事件名称、其他用户ID
  • 事件集类型分为"personal"和"relational"

任务特性

  • 提供预分割的训练、验证和测试集
  • 包含个人和关系事件的独立文件
  • 提供预生成的负样本文件用于评估

数据集详情

pres-brightkite

  • 来源:Brightkite位置社交网络平台
  • 数据:位置签到和好友关系历史
  • 处理:将经纬度坐标转换为Geohash-8编码
  • 规模:58,228用户,5,130,866事件
  • 时间戳:仅个人事件包含

pres-gowalla

  • 来源:Gowalla社交网络平台
  • 数据:位置签到和好友关系历史
  • 处理:与pres-brightkite相同
  • 规模:196,591用户,8,342,943事件

pres-amazon-clothing

  • 来源:亚马逊服装鞋帽珠宝类产品评论
  • 时间范围:1996年5月至2014年7月
  • 个人事件:产品ID和评分序列
  • 关系事件:共同评论模式(至少评论3个相同产品)
  • 规模:185,986用户,1,591,947事件

pres-amazon-electronics

  • 来源:亚马逊电子产品类别评论
  • 个人事件:产品ID和评分序列
  • 关系事件:共同评论模式
  • 规模:254,064用户,2,938,178事件

pres-github

  • 来源:GH Archive(2025年1月)
  • 个人事件:推送、创建分支、创建仓库、拉取请求、问题、分支等操作
  • 关系事件:项目协作(同一仓库至少5次提交或拉取请求)
  • 规模:3,669,079用户,102,878,895事件
  • 时间戳:仅个人事件包含

许可信息

  • 许可证:CC-BY-4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在个人与关系事件序列建模研究领域,PRES数据集通过系统整合多源异构数据构建而成。其核心处理流程涵盖原始事件数据的规范化转换:地理位置数据采用Geohash-8编码实现空间离散化,社交关系数据保留原始拓扑结构,商品评论数据则转化为产品ID与评分的组合序列。每个子数据集均严格遵循双重事件类型划分原则,将用户行为解构为个人事件与关系事件两大类别,并通过统一的数据模式确保跨领域数据的可比性与一致性。
特点
该数据集最显著的特征在于其多维事件序列的并行记录机制,同时捕捉用户个体行为轨迹与社会交互网络。数据架构采用分层存储设计,原始事件层完整保留时序信息与实体关联,任务层则提供预分割的实验基准与负采样样本。各子数据集均呈现显著的领域特异性:地理位置社交网络聚焦移动轨迹与朋友关系,电子商务平台侧重消费偏好与协同行为,开源社区则体现开发活动与协作模式。这种多模态的事件表征为复杂用户行为建模提供了丰富的语义维度。
使用方法
研究者可通过分层数据接口灵活调用数据集资源,原始事件文件支持自定义的数据预处理与特征工程,而预定义任务文件夹则提供即用的实验基准。针对不同研究目标,用户可单独分析个人事件序列的时序模式,或结合关系事件构建动态图神经网络。评估阶段可直接利用预生成的负样本实现标准化度量,亦可通过修改任务配置适配新的预测场景。这种模块化设计既保证了实验的可复现性,又为方法创新保留了充足空间。
背景与挑战
背景概述
PRES数据集集合由斯坦福大学网络分析平台(SNAP)与GH Archive等机构联合构建,聚焦于个人与关系事件序列建模这一前沿计算社会学议题。该数据集整合了Brightkite、Gowalla的位置签到社交网络数据,亚马逊商品评论数据以及GitHub开发者协作数据,通过将地理坐标转化为Geohash编码、定义共同评审模式等技术手段,系统性地构建了多维度人类行为时序记录。其创新性地统一了个人行为轨迹与社会关系演化的表征框架,为动态网络分析、序列推荐系统等研究提供了跨领域基准数据支撑。
当前挑战
在解决序列行为预测问题时,数据集需应对异构事件融合的复杂性:个人事件具备时间维度而关系事件缺乏时序标注,这种非对称性对联合建模提出严峻挑战。构建过程中面临多源数据标准化难题,包括将原始地理坐标转化为层次化Geohash编码时需平衡精度与计算效率,定义共同评审或协作关系时需通过阈值筛选消除噪声干扰。此外,GitHub海量事件流的实时采集与存储、社交网络数据中用户隐私保护等工程与伦理问题亦构成显著障碍。
常用场景
经典使用场景
在社交网络与电子商务分析领域,PRES数据集通过整合个人行为序列与关系交互事件,为动态网络建模提供了丰富素材。其经典应用体现在利用Brightkite和Gowalla的地理签到数据构建用户移动模式预测模型,同时通过亚马逊评论数据中的共评关系挖掘潜在兴趣社群。这类研究常采用时序图神经网络或Hawkes过程,对用户未来行为进行概率性推断。
解决学术问题
该数据集有效解决了复杂社交系统中隐式关系建模的学术难题。通过将用户签到轨迹编码为地理哈希序列,突破了传统坐标表示的空间连续性限制;在电子商务场景中,共评事件的量化定义为社交推荐系统提供了可计算的关联维度。这些创新使得研究者能够同时捕捉个体行为的时序特性与群体互动的网络结构,为联合建模个人决策与社会影响机制奠定基础。
衍生相关工作
该数据集催生了系列创新研究,例如结合时空注意力机制的签到预测模型(STAN),以及融合社交关系的图神经网络推荐系统(GraphRec)。在学术社区中,基于PRES的基准测试推动了动态图嵌入方法(如JODIE)的发展,其提供的负采样框架更成为关系事件建模的标准评估范式,被后续研究广泛采纳。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作