five

EasyTPP

收藏
arXiv2024-01-24 更新2024-07-29 收录
下载链接:
https://github.com/ant-research/EasyTemporalPointProcess
下载链接
链接失效反馈
官方服务:
资源简介:
EasyTPP是一个集成了多个数据集的中央存储库,专注于时间点过程模型的研究和评估。该数据集包含来自不同领域的真实世界数据,如商业、社交等,共有5个广泛使用的数据集。这些数据集用于模型的训练和测试,支持研究者在时间序列分析领域的研究。EasyTPP不仅提供数据,还包括模型、评估程序和文档,旨在促进时间点过程模型的透明比较和可重复研究。

EasyTPP is a centralized repository integrating multiple datasets, dedicated to the research and evaluation of temporal point process models. This repository includes real-world data from diverse domains such as business, social media, and others, totaling five widely adopted datasets. These datasets are utilized for model training and testing, supporting researchers' studies in the field of time series analysis. Beyond providing data, EasyTPP also offers model implementations, evaluation pipelines, and documentation, aiming to facilitate transparent comparison and reproducible research for temporal point process models.
提供机构:
蚂蚁集团
创建时间:
2023-07-17
原始信息汇总

数据集概述

数据集列表

我们预处理了一个合成数据集和五个真实世界数据集,这些数据集来自广泛引用的作品,涵盖了不同的应用领域和时间统计特征:

  • 合成数据集:一个由Tick库模拟的单变量Hawkes过程。
  • Retweet (Zhou, 2013):时间戳用户转发事件。
  • Taxi (Whong, 2014):时间戳出租车接客事件。
  • StackOverflow (Leskovec, 2014):时间戳用户在StackOverflow上的徽章奖励事件。
  • Taobao (Xue et al, 2022):时间戳用户在Taobao平台上的在线购物行为事件。
  • Amazon (Xue et al, 2022):时间戳用户在Amazon平台上的在线购物行为事件。

此外,根据用户请求,我们还处理了两个非人为数据集:

  • Earthquake (USGS):1996年至2023年美国连续地区的地震事件。
  • Volcano eruption (The Smithsonian Institution):近几百年来全球的火山喷发事件。

所有数据集都预处理为广泛用于TPP研究的Gatech格式,并保存在Google Drive上,具有公共访问权限。

搜集汇总
数据集介绍
main_image_url
构建方式
在连续时间事件序列建模领域,EasyTPP数据集通过整合多个经典与新兴的真实世界数据集构建而成。其构建过程遵循严格的标准化流程,涵盖了从商业交易到社交网络等多个应用场景。数据集首先对原始事件序列进行统一格式化处理,采用与自然语言处理领域相似的填充与掩码机制,确保不同长度的序列能够以批次形式高效输入模型。这一过程不仅包括时间戳与事件类型的对齐,还引入了注意力掩码以避免模型窥见未来信息,从而为时序点过程的公平比较奠定了可靠的数据基础。
特点
EasyTPP数据集的特点体现在其多样性与综合性上。该数据集囊括了合成数据及五个真实世界数据集,覆盖了电子商务、社交媒体、交通出行等多个领域,事件类型数量从1到22不等,序列长度与统计特性各异。这种多样性使得数据集能够全面评估时序点过程模型在不同场景下的泛化能力。此外,数据集经过精心预处理,提供了统一的序列分割与评估协议,支持包括对数似然、下一事件预测以及长时程预测在内的多维度评估任务,为研究社区提供了一个高度可比且可复现的基准平台。
使用方法
使用EasyTPP数据集时,研究人员可通过其提供的标准化接口轻松加载数据并进行模型训练与评估。数据集支持PyTorch和TensorFlow两大主流深度学习框架,用户可继承基础模型类快速实现自定义时序点过程模型。评估流程涵盖数据预处理、模型训练、超参数调优及性能测量等多个环节,其中集成了包括减薄算法在内的多种采样方法,以及蒙特卡洛积分等似然计算技术。通过配置简单的运行脚本,用户能够复现现有先进模型的实验结果,或探索新模型在多样化数据上的表现,从而推动事件序列建模领域的可复现研究与技术进展。
背景与挑战
背景概述
在连续时间事件序列建模领域,时序点过程(TPP)已成为刻画金融交易、用户行为等复杂动态的核心数学模型。随着神经TPP模型的涌现,该领域虽在学术界与应用界影响深远,却长期缺乏统一的基准平台,导致模型比较与结果复现困难,阻碍了研究进展。为此,蚂蚁集团与阿里巴巴团队于2024年提出了EasyTPP基准库,旨在构建首个集数据、模型与评估于一体的中心化资源库,通过标准化接口、丰富评估指标与模块化设计,推动时序点过程研究的可复现性与方法创新。
当前挑战
EasyTPP致力于解决时序点过程领域模型评估标准缺失的核心挑战,包括神经TPP与经典模型在拟合优度、事件预测等任务上缺乏公平比较基准,以及长时程预测中自回归模型误差累积问题。在构建过程中,需克服多源数据集格式异构性整合、强度函数积分项高效计算、稀疏事件序列的填充与掩码机制设计,以及支持PyTorch与TensorFlow双框架的等效实现等技术难题,确保基准的严谨性与扩展性。
常用场景
经典使用场景
在连续时间事件序列建模领域,EasyTPP数据集作为首个综合性基准测试平台,其经典使用场景聚焦于为各类神经时序点过程模型提供标准化评估框架。该平台整合了涵盖电子商务、社交媒体、交通出行等多元领域的真实数据集,如Amazon用户评论、Retweet转发行为及Taxi行程记录等,研究者可通过统一接口加载数据,系统评估模型在事件序列拟合度、下一事件预测精度以及长时域序列生成等核心任务上的性能表现。
衍生相关工作
围绕EasyTPP衍生的经典研究工作主要集中于神经时序点过程模型的架构创新与评估范式拓展。平台已集成RMTPP、神经霍克斯过程、自注意力霍克斯过程等八类主流模型实现,并在此基础上催生了针对长时域预测的混合归一化概率模型等后续研究。其模块化设计思想进一步激发了如连续时间状态演化模型、强度无关学习范式等新方法的快速原型开发,推动了事件序列建模领域从孤立模型设计向系统性基准驱动的范式转变。
数据集最近研究
最新研究方向
在时序点过程领域,EasyTPP作为首个开源基准库,其前沿研究聚焦于突破传统架构设计的局限,探索事件序列建模的新范式。随着神经TPP模型在拟合与预测性能上逐渐饱和,研究重心正转向构建跨领域的事件序列基础模型,旨在通过大规模多样化数据集的预训练提升模型的泛化能力。同时,结合外部多模态信息源(如传感器数据、知识库与大语言模型)以增强事件序列的语义理解与预测精度,成为当前热点。此外,将TPP模型嵌入现实世界的干预反馈循环中,学习因果动态以驱动决策优化,也展现了重要的应用前景。这些方向不仅推动了方法论的革新,也为医疗、金融等领域的复杂事件分析提供了更强大的工具。
相关研究论文
  • 1
    EasyTPP: Towards Open Benchmarking Temporal Point Processes蚂蚁集团 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作