FinSurvival Challenge 2025
收藏arXiv2026-02-27 更新2026-02-28 收录
下载链接:
https://icaif25.org
下载链接
链接失效反馈官方服务:
资源简介:
FinSurvival 2025数据集是由伦斯勒理工学院等机构联合构建的Web3时序分析基准,包含来自Aave v3协议的2180万笔DeFi交易记录。该数据集通过16项生存预测任务建模用户行为跃迁,完整记录了链上借贷行为与后续结果(如清算或还款)的时间间隔,具有右截尾和时序漂移特性。数据经过严格的时序分割和审查处理,采用固定评估管道确保可复现性,为研究开放式金融系统中的用户留存、风险累积等时序挑战提供了高保真实验场。
The FinSurvival 2025 dataset is a Web3 time-series analysis benchmark jointly developed by Rensselaer Polytechnic Institute and other institutions, containing 21.8 million DeFi transaction records from the Aave v3 protocol. This dataset models user behavior transitions through 16 survival prediction tasks, fully recording the time intervals between on-chain lending behaviors and their subsequent outcomes such as liquidation or repayment, and exhibits right-censored and temporal drift characteristics. The data has undergone rigorous temporal splitting and curation processing, and a fixed evaluation pipeline is adopted to ensure reproducibility, providing a high-fidelity experimental testbed for researching temporal challenges in open financial systems including user retention and risk accumulation.
提供机构:
伦斯勒理工学院; Codabench·MLChallenges; 瓦萨学院
创建时间:
2026-02-27
搜集汇总
数据集介绍
构建方式
在去中心化金融(DeFi)领域,时间序列数据的完整性对风险建模至关重要。FinSurvival Challenge 2025数据集构建于Aave v3协议在Polygon网络上的2180万笔交易记录之上,通过精心设计的生存分析框架,将用户行为转化为16项时间到事件的预测任务。该数据集采用严格的时间划分策略,训练数据覆盖2022年3月至2024年7月,测试数据则延伸至2025年8月,有效避免了数据泄漏并模拟了真实部署中的时序泛化挑战。特征工程环节提取了90个结构化特征,涵盖用户历史活动、市场流动性指标以及交易层面的时序编码,确保了数据在保留原始事件流丰富性的同时具备可建模性。
特点
该数据集的核心特点在于其深度整合了Web3生态系统中的时序动态与生存分析范式。数据集不仅捕获了DeFi协议中用户从借款、存款到还款或清算的完整行为轨迹,还显式处理了右删失现象,即部分用户在观察窗口内未发生目标事件。这种设计使得数据集能够真实反映非平稳环境下的长期风险演化,例如市场波动与协议更新所引发的概念漂移。此外,16项任务构成了一个竞争风险框架,用户在同一索引事件后可能面临多种互斥结果,这增强了数据在模拟复杂用户生命周期方面的表达能力。数据集通过公开可验证的链上事件流,提供了高保真的时序沙盒,为研究流失、风险累积等广泛网络现象提供了实证基础。
使用方法
该数据集主要用于评估和比较各类生存模型在时序Web3智能任务上的性能。研究者或参赛者需针对每项任务,基于给定的用户特征与索引事件时间,预测其到特定结局事件(如清算或还款)的持续时间。评估采用一致性指数(C-index),该指标专注于模型在存在删失的情况下对事件发生顺序的排序能力,而非绝对时间预测精度,因而对DeFi交易中常见的重尾分布具有鲁棒性。使用流程通常包括加载时序划分的数据、进行必要的特征工程或直接利用提供的90个特征,然后训练如XGBoost加速失效时间模型、Cox比例风险模型或深度生存网络等算法,最终在固定测试集上计算平均C-index以衡量模型性能。数据集通过Codabench平台提供,确保了评估流程的标准化与可复现性。
背景与挑战
背景概述
在时间序列网络分析领域,理解用户行为、内容与系统的动态演化日益依赖于大规模纵向数据。由伦斯勒理工学院、Codabench及瓦萨学院的研究团队于2025年推出的FinSurvival Challenge 2025数据集,旨在为去中心化网络平台(Web3)提供高保真的时间智能基准测试。该数据集基于Aave v3协议的2180万笔交易记录,构建了16项生存预测任务,以建模用户在借贷、存款等行为间的状态转移时间。其核心研究问题聚焦于在存在删失和非平稳性的长时域环境下,精准预测时间到事件的发生,从而推动时间序列分析方法在Web3及更广泛网络领域的迁移与应用。该数据集作为案例研究,不仅深化了对去中心化金融风险管理的理解,也为时间网络分析提供了可复现的实证基础。
当前挑战
FinSurvival数据集致力于解决去中心化金融领域中时间到事件建模的核心挑战,即在高度非平稳、存在删失的复杂环境下,准确预测用户行为转移的时间。具体挑战包括:其一,领域问题的挑战体现在Web3系统具有对抗性、策略性行为以及快速演化的协议动态,传统生存分析模型的平稳性假设在此失效,要求模型能够处理概念漂移与长时域依赖;其二,数据构建过程中面临多重困难,包括从原始链上交易流中提取并整合多层级特征、处理大量右删失观测以确保时间一致性,以及设计严格的时序划分以避免数据泄露,同时需在保持数据真实性的前提下平衡计算可扩展性与评估的稳定性。
常用场景
实际应用
在实际应用层面,FinSurvival数据集为去中心化金融的风险管理和用户行为分析提供了直接工具。金融机构和协议开发者可利用该数据集训练模型,预测用户的清算风险或违约时间,从而优化借贷参数、设计更稳健的激励机制。此外,其时间到事件的抽象可迁移至更广泛的网络分析场景,例如在线平台的用户流失预测、内容生命周期的衰减建模,以及推荐系统中的参与度时序分析。通过公开可验证的链上事件流,该数据集支持构建透明且可审计的风险评估系统,为DeFi协议的实际部署和监管合规提供数据驱动的决策支持。
衍生相关工作
围绕FinSurvival数据集,衍生了一系列经典研究工作,主要集中在特征工程和模型优化方向。优胜方案如Balancehero团队提出的分层特征工程框架,通过重建用户和市场状态,生成了超过一万个特征,显著提升了XGBoost加速失效时间模型的性能。AutoFinSurv方案则专注于自动化超参数优化,利用贝叶斯搜索强化Cox比例风险模型的鲁棒性。此外,FinBoost方案探索了集成策略,结合保守、平衡和激进的风险姿态,通过加权平均提升预测稳定性。这些工作不仅推动了生存分析在DeFi领域的应用,还为时间网络智能的基准设计提供了重要原则,如强调纵向真实性、显式审查处理以及跨领域可迁移性。
以上内容由遇见数据集搜集并总结生成



