five

EBES

收藏
arXiv2024-10-04 更新2024-10-08 收录
下载链接:
https://github.com/On-Point-RND/EBES
下载链接
链接失效反馈
官方服务:
资源简介:
EBES数据集由斯科尔科沃科学技术研究所创建,旨在为事件序列评估提供标准化的基准测试工具。该数据集包含七个不同领域的数据集,包括医疗、金融、零售和合成数据集,总共有数百万条事件记录。数据集的创建过程包括数据预处理、缺失值处理和特征编码等步骤。EBES数据集主要应用于事件序列的分类和回归任务,旨在解决医疗、金融、电商等领域的实际问题,如患者死亡率预测、欺诈检测和用户行为分析。

The EBES dataset was developed by the Skolkovo Institute of Science and Technology (Skoltech) as a standardized benchmarking tool for event sequence evaluation. It includes seven datasets across diverse domains, such as medical, financial, retail, and synthetic datasets, containing a total of millions of event records. The construction process of the EBES dataset covers steps including data preprocessing, missing value imputation, and feature encoding. This dataset is mainly applied to event sequence classification and regression tasks, and is intended to address practical challenges in fields like healthcare, finance, and e-commerce, including patient mortality prediction, fraud detection, and user behavior analysis.
提供机构:
斯科尔科沃科学技术研究所
创建时间:
2024-10-04
搜集汇总
数据集介绍
main_image_url
构建方式
EBES数据集的构建方式体现了对事件序列数据复杂性的深刻理解与应对策略。该数据集不仅包括了从医疗、金融到零售等多个真实世界领域的预处理数据集,还创新性地引入了合成数据集,如合成摆锤数据集,以评估时间敏感方法的性能。这些数据集的构建旨在涵盖事件序列的多样性和复杂性,确保模型在不同场景下的鲁棒性和泛化能力。通过这种方式,EBES数据集为事件序列模型的标准化评估提供了坚实的基础。
特点
EBES数据集的显著特点在于其全面性和多样性。它不仅包含了最大公开的银行业数据集,还涵盖了医疗、零售和合成数据集,确保了数据的多领域覆盖和广泛适用性。此外,数据集的构建过程中特别强调了时间序列和顺序组件的重要性,通过设计特定的压力测试来评估模型对这些组件的依赖程度。这种设计使得EBES数据集在评估模型性能时能够提供深入的分析和见解,从而推动事件序列建模领域的研究进展。
使用方法
使用EBES数据集进行模型评估时,用户可以通过统一的接口轻松添加数据集和集成新方法,这极大地简化了基准测试的过程。首先,用户需要根据数据集的特性进行预处理,确保数据格式的一致性。随后,利用EBES提供的超参数优化(HPO)和蒙特卡洛交叉验证(Monte Carlo cross-validation)方法,对模型进行细致的调优和评估。最终,通过多次运行和统计显著性测试,确保评估结果的可靠性和稳定性。这种系统化的评估流程有助于确保模型在实际应用中的有效性和鲁棒性。
背景与挑战
背景概述
事件序列(Event Sequences)作为一种数据结构,广泛存在于医疗、金融和用户交互日志等多个现实领域。这些序列通常具有不规则的采样间隔和混合的分类与数值特征。尽管时间数据建模技术取得了显著进展,但目前缺乏用于评估这些技术在事件序列上性能的标准化基准。这导致不同论文之间的结果比较复杂,可能误导该领域的进展。EBES(EASY BENCHMARKING FOR EVENT SEQUENCES)由Dmitry Osin、Igor Udovichenko、Viktor Moskvoretskii、Egor Shvetsov和Evgeny Burnaev等研究人员在Skolkovo Institute of Science and Technology和HSE University开发,旨在通过提供标准化的评估场景和协议,简化事件序列的基准测试。EBES不仅包括一个新颖的合成数据集,还提供了预处理的现实世界数据集,包括最大的公开银行数据集。该工具通过统一的接口简化了基准测试、数据集添加和方法集成,旨在促进可重复研究,加速进展并增加实际应用的影响力。
当前挑战
EBES面临的挑战包括确保数据集的高质量和准确性,以避免误导性的基准测试结果。构建过程中,研究人员通过开发合成数据集和分析数据集的统计特性来解决数据质量问题。此外,数据集的多样性和数据量的规模也是挑战之一,不同领域和复杂度的数据集需要不同的处理方法。开放访问数据的要求确保了数据的全球可用性,但也需要处理不同数据集的访问权限问题。在基准设计方面,模型评估和超参数调优是关键,随机性可能导致模型结果的较大方差,因此需要进行多次运行以确保结果的统计显著性。随着数据集规模的增加,模型的扩展性也是一个重要问题,不同算法在数据增长时的表现差异需要深入研究。
常用场景
经典使用场景
EBES数据集在事件序列分析领域中被广泛应用于回归和分类任务。其经典使用场景包括医疗健康中的患者监测、金融交易中的欺诈检测以及用户交互日志中的行为预测。通过提供标准化的评估协议和多样化的数据集,EBES使得研究人员能够在统一的框架下比较不同模型的性能,从而推动事件序列建模技术的发展。
解决学术问题
EBES数据集解决了事件序列数据建模中的一个关键学术问题,即缺乏统一的基准测试工具。传统上,不同研究团队使用不同的评估协议和数据集,导致研究结果难以比较,阻碍了该领域的进步。EBES通过提供标准化的评估场景和协议,确保了不同研究之间的可比性,从而促进了事件序列建模技术的透明和可重复研究。
衍生相关工作
EBES数据集的引入催生了多项相关研究工作,特别是在事件序列建模和时间序列分析领域。例如,一些研究利用EBES进行模型比较和优化,提出了新的算法和架构,如mTAND和PrimeNet。此外,EBES还促进了跨领域的研究合作,推动了事件序列数据在医疗、金融和电子商务等领域的应用创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作