five

RED-2400

收藏
arXiv2026-05-12 更新2026-05-15 收录
下载链接:
https://zenodo.org/record/19989075
下载链接
链接失效反馈
官方服务:
资源简介:
RED-2400是由独立研究员Arati Kamat创建的首个公开基准数据集,专注于算法化拒绝交易事件,填补了传统过滤设计仅关注接受侧数据的空白。该数据集包含6,659个拒绝事件,关联169,122条拒绝后价格和流动性观测记录,以及1,836个生命周期快照,数据源自2026年4月10日至5月2日期间对Solana去中心化交易所的持续日志记录。数据集通过匿名化处理保护操作机密性,采用确定性五级分类规则(如挽救、错过、持平)对事件进行标注。该数据集主要应用于量化金融和算法决策系统领域,支持过滤规则精度审计、反事实评估研究,并助力解决样本选择偏差问题,为去中心化交易中的过滤器设计提供实证基础。

RED-2400 is the first publicly available benchmark dataset created by independent researcher Arati Kamat, focusing on algorithmic trade rejection events, which fills a critical gap in traditional filtering designs that have hitherto only focused on acceptance-side data. This dataset contains 6,659 rejection events, associated with 169,122 post-rejection price and liquidity observation records, as well as 1,836 lifecycle snapshots. The data is collected via continuous logging of a Solana decentralized exchange between April 10 and May 2, 2026. The dataset anonymizes trading operations to protect operational confidentiality, and labels events using a deterministic five-level classification rule (e.g., salvage, missed, break-even). This dataset is primarily utilized in the fields of quantitative finance and algorithmic decision-making systems, supporting filtering rule accuracy auditing, counterfactual evaluation research, helping mitigate sample selection bias issues, and providing an empirical foundation for filter design in decentralized trading.
提供机构:
独立研究员
创建时间:
2026-05-12
原始信息汇总

数据集概述:RED-2400

基本信息

  • 数据集名称: RED-2400: A Public Benchmark of Algorithmically-Rejected Trading Events with Outcome Labels
  • 版本: v1(发布于 2026-05-02)
  • DOI: 10.5281/zenodo.19989075
  • 资源类型: Dataset
  • 语言: English
  • 许可协议: Creative Commons Attribution 4.0 International (CC-BY-4.0)

数据集内容

  • 数据规模: 包含 6,659 个由算法拒绝的交易事件,这些事件源自 Solana 去中心化交易所的实时过滤器堆栈。
  • 观测时间: 2026-04-10 至 2026-05-02(UTC),持续观测。
  • 结果标签: 每个拒绝事件关联了拒绝后的价格和流动性轨迹,共 169,041 个结果观测值,跨越 1,836 个墓穴追踪器快照。结果标签遵循五级分类规则:saved (windowed)、saved (early-death)、missed、flat、unclassifiable。
  • 匿名化处理:
    • 过滤器标签匿名化为 filter_1 至 filter_8(按拒绝量降序排列)。
    • 源收集器标识符匿名化为 source_a 和 source_b。
    • 流动性和 24 小时交易量经过 log2 分箱处理,以保留重尾分布形状,同时阻止阈值推断。
    • 过滤器内部的模型输出(信号分数、权重、校准阈值)以及 priceChange* 衍生变量已被移除。
  • 数据完整性: 提供了三个 CSV 文件的 SHA-256 校验和(位于 checksums.txt 中)。
  • 系列性质: 这是计划中的数据集系列的第一个窗口,后续窗口将扩展时间范围并支持按制度分层的分析。

文件列表

文件名 大小 描述
checksums.txt 343 Bytes SHA-256 校验和文件
graveyard_lifecycle.csv 187.7 kB 墓穴生命周期数据
LICENSE 404 Bytes 许可协议文件
README.md 1.6 kB 数据集说明文档
rejection_outcomes.csv 33.1 MB 拒绝事件结果数据
rejections.csv 651.0 kB 拒绝事件数据

相关作品

  • 出版物: https://ssrn.com/abstract=6638259
  • 补充数据集: https://doi.org/10.5281/zenodo.19987697

关键词

  • filter design
  • counterfactual evaluation
  • reject-inference
  • algorithmic decision systems
  • cryptocurrency markets
  • benchmark dataset
搜集汇总
数据集介绍
main_image_url
构建方式
RED-2400数据集的构建基于对Solana公链DEX交易滤网中算法拒绝事件的连续日志采集,时间跨度为2026年4月10日至5月2日。数据采集过程记录了每个被滤除决策事件的拒绝时间戳、后拒绝阶段的价格与流动性轨迹,并通过确定性规则将结果分类为五个层次:窗口化保存、早逝保存、错过、平稳及不可分类。数据集由三个关联表组成——拒绝事件表(6,659行)、后拒绝结果表(169,122行)以及墓地生命周期快照表(1,836行),提供了从拒绝到后续市场行为的完整观测链,克服了传统仅关注接受侧数据的偏差。
特点
该数据集的核心特性在于其填补了算法拒绝决策领域公开基准的空白。与仅捕捉接受侧性能的现有滤网数据集不同,RED-2400首次提供了被拒绝交易事件及其后拒绝结果轨迹的公开数据集。每个事件都包含可验证的拒绝时间戳、持续的连续市场价格与流动性观测,以及基于峰-参考价格比和谷-参考价格比(24小时窗口内)的确定性五级结果标签。数据匿名化处理保护了运营机密,数值字段采用对数二值量化以保留分布形态,但过滤内部模型输出等敏感参数已被移除,确保可复现性而不泄露原始决策逻辑。
使用方法
使用RED-2400数据集时,研究人员可依据Kamat(2026c)提出的五级分类规则直接复现滤网精度审计。具体操作流程为:加载rejection_outcomes.csv文件,筛选出24小时窗口内具有至少两个观测值(n≥2)或单个观测且年龄≤60分钟的事件,对每个事件应用分类规则,按拒绝原因分组统计结果标签。该规则完全依赖可观测的后拒绝特征,不涉及原始滤网逻辑或任何被删除字段。研究人员还可利用墓地生命周期表重建代币离开价格预言机的时间戳,以支撑早逝保存标签的复现。整个复现过程约需20行Pandas代码,在笔记本电脑上运行时间不足两分钟。
背景与挑战
背景概述
在量化金融与算法决策系统领域,过滤门控机制被广泛用于筛选交易事件,然而传统基准数据集仅聚焦于接受侧的表现,完全忽视了被算法拒绝事件的后续结果,导致样本选择偏差长期存在于模型验证中。由独立研究者Arati Kamat于2026年创建的RED-2400数据集,首次填补了这一空白。该数据集基于Solana去中心化交易所的实时过滤堆栈,在2026年4月10日至5月2日期间连续采集了6,659次算法拒绝事件,并追踪了169,122条拒绝后的价格与流动性观测轨迹,以及1,836个生命周期快照。通过五级分类标签(窗口拯救、早期死亡、错失、持平、不可分类),RED-2400为研究者提供了直接复现过滤精度审计的能力,成为首个公开的、包含拒绝侧结果标注的算法交易基准,对推动反事实评估和过滤设计研究具有里程碑式意义。
当前挑战
该数据集面临的核心挑战源自其解决的领域问题:在过滤门控系统中,拒绝侧结果因不可观测而长期被忽视,导致模型验证存在系统性偏差。传统方法依赖概率假设重构缺失数据,而RED-2400虽利用链上可观测特性实现了直接测量,但后拒绝轨迹仍受限于24小时观测窗口和单一资产类别(Solana DEX),难以捕捉长期漂移或跨市场泛化。构建过程中,为保护实时决策系统的运营机密,过滤器的内部信号分数、权重向量及阈值均被删除,仅保留匿名化标签(filter_1至filter_8),这限制了深层机制分析。此外,早期死亡分类依赖60分钟临界阈值,部分观测时间过短的事件被归为不可分类类别,需研究人员采用右删失生存方法或处理随机缺失假设,增加了结果解释的不确定性。
常用场景
经典使用场景
在量化金融与算法决策系统领域,RED-2400作为首个公开的算法拒绝事件基准数据集,为研究者提供了独特的反事实评估工具。其核心应用场景包括对去中心化交易所(DEX)中过滤规则精度的独立复现审计,以及基于拒绝事件后价格与流动性轨迹的五类别结果标签分类。研究者可通过该数据集直接验证过滤器的精确度主张,并计算在24小时观测窗口内的保存、错过、平缓及不可分类等事件分布,从而替代传统仅依赖接受侧数据的片面评估范式。
解决学术问题
RED-2400直面了算法决策系统中长期存在的样本选择偏差难题,即Heckman(1979)所指出的仅基于接受侧数据评估导致的结果缺失问题。该数据集通过记录拒绝事件后的完整价格与流动性轨迹,直接测量反事实结果,而非依赖概率模型进行推断。它解决了消费者信贷拒绝推断(Crook and Banasik, 2004)和反事实学习框架(Beygelzimer and Langford, 2009)中无法观测后拒绝路径的局限,为过滤规则精度的无偏审计、分类规则校准以及拒绝侧生存分析提供了可复现的实证基础,推动了算法公平性与鲁棒性验证的方法论进步。
衍生相关工作
RED-2400的发布催生了一系列衍生研究工作。Kamat(2026c)基于该数据集提出了五类别结果标签分类规则,开创了拒绝侧精度审计的新框架。后续工作可包含将时间窗口从23天扩展至60+天的长期精漂移分析,以及跨资产类别的泛化性研究。此外,该数据集为生存分析模型在金融拒绝侧的应用提供了实证土壤,促使研究者开发拒绝后价格轨迹的右删失处理技术。同时,基于RED-2400训练的过滤规则校准模型,有望推动去中心化金融中自适应风险管理系统的迭代与优化。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作