mev-tape
收藏Hugging Face2026-05-16 更新2026-05-17 收录
下载链接:
https://huggingface.co/datasets/Chainticks/mev-tape
下载链接
链接失效反馈官方服务:
资源简介:
Chainticks MEV Tape 是一个专注于加密货币领域最大可提取价值(MEV)的数据集,收录了来自公共中继的MEV数据行,起始于Flashbots交付的有效载荷投标追踪。该数据集以Parquet格式存储,数据文件按日期分区组织,路径结构为 payloads/date=YYYY-MM-DD/part-*.parquet,并附带描述数据模式的 _schema.json、清单文件 _manifest.json 以及指示最新数据日期的 LATEST_DATE.txt。数据内容明确限定为 source_kind 字段值为 public_relay 的行,不包括任何场所REST/API转售数据。数据集适用于金融分析、市场监控和智能体上下文等任务,建议作为追加式市场上下文使用,在数据处理时需注意时间戳为UTC时区并保留 source_kind 信息以供下游分析。数据提供方Chainticks声明其独立性,与数据所涉及的协议、中继、场所或政府机构无关联。数据集标签涵盖金融、加密货币、Parquet格式等,采用CC BY 4.0许可协议。
创建时间:
2026-05-11
原始信息汇总
数据集概述:Chainticks MEV Tape
基本信息
- 许可证:CC-BY-4.0
- 标签:金融、加密货币、Parquet、DuckDB、Pandas、Polars、Agent-friendly
- 主页地址:https://huggingface.co/datasets/Chainticks/mev-tape
数据集内容
- 包含公开中继(public relay)的MEV(最大可提取价值)数据行,起始于Flashbots交付的有效负载出价痕迹。
- 仅包含
source_kind为public_relay的行,不包含从场所REST/API转售的数据。
数据格式与结构
- 存储格式:Parquet(列式存储,兼容DuckDB、Pandas、Polars等工具)
- 文件布局:
payloads/date=YYYY-MM-DD/part-0000.parquet(数据文件,按日期分区)_schema.json(数据模式描述文件)_manifest.json(清单文件)LATEST_DATE.txt(最新日期文件)
使用示例(Python)
python import pandas as pd
DATE = "YYYY-MM-DD" URL = "https://huggingface.co/datasets/Chainticks/mev-tape/resolve/main/payloads/date={DATE}/part-0000.parquet" df = pd.read_parquet(URL) print(df.head())
- 读取数据时需先读取
LATEST_DATE.txt获取最新日期,再加载对应分区的Parquet文件。 - 时间戳应视为UTC时间,并在下游分析中保留
source_kind字段。
数据来源与属性
- 数据来源:公共中继数据,起始于Flashbots。
- 独立性声明:Chainticks是一个独立机构,与数据集所涉及的任何协议、中继、场所或政府机构均无关联。
搜集汇总
数据集介绍

构建方式
该数据集名为Chainticks MEV Tape,专为金融与加密领域设计,聚焦于公开中继的MEV(矿工可提取价值)数据。其构建以Flashbots交付的有效载荷竞标痕迹为起点,采用Parquet格式存储,按日期分区组织为`payloads/date=YYYY-MM-DD/part-0000.parquet`结构。数据来源严格限定于`public_relay`类型的记录,确保不含来自交易场所的REST/API转售数据,并通过`_schema.json`和`_manifest.json`文件提供清晰的元数据与清单,同时以`LATEST_DATE.txt`标记最新数据日期,便于增量式数据加载。
使用方法
使用该数据集时,推荐以追加方式加载市场上下文:首先读取`LATEST_DATE.txt`获取最新分区日期,随后参考`_schema.json`理解数据模式,并通过Pandas的`read_parquet`函数加载对应日期的Parquet文件,如`pd.read_parquet(URL)`所示。在分析过程中,需将时间戳视为UTC标准,并保留`source_kind`字段以区分数据来源。该方法确保用户能在不依赖第三方API的情况下,高效处理大规模加密金融数据,适用于代理策略开发或历史MEV研究。
背景与挑战
背景概述
随着区块链技术的迅猛发展,以太坊等智能合约平台上的最大可提取价值(MEV)问题日益受到学界与业界的关注。MEV指矿工或验证者通过调整交易顺序、插入或审查交易来获取的额外利润,其存在不仅影响去中心化金融(DeFi)生态的公平性,还对网络共识机制构成潜在威胁。在此背景下,由独立研究机构Chainticks于2024年创建的MEV Tape数据集应运而生。该数据集聚焦于Flashbots等公共中继所传递的区块载荷竞标轨迹,系统性地记录了MEV提取活动的原始证据。其核心研究问题在于揭示MEV的生成模式、规模分布及参与者行为,从而为量化分析MEV对区块链网络的影响提供结构化数据基础。作为首个公开可访问的标准化MEV时序数据集,它已迅速成为区块链经济安全、博弈论及协议设计等领域的关键数据资源,推动了相关实证研究的可复现性与深度。
当前挑战
MEV Tape数据集面临的核心领域挑战在于区块链前端运行的隐蔽性与动态演化性。MEV提取高度依赖交易排序权力,然而公共中继仅暴露了竞标胜出载荷的有限信息,大量通过私有内存池或跨链策略执行的非公开MEV活动被排除在外,导致数据集存在天然的选择性偏差。此外,不同验证者与中继的竞标策略差异巨大,使得同一时间窗口内的MEV模式难以统一建模,对下游分析中的因果推断构成显著障碍。在构建过程中,Chainticks面临的技术挑战包括:高频交易数据的实时抓取与格式标准化,需将来自多个异构中继的非结构化日志统一转换为高效的Parquet列式存储格式;跨时区时间戳的精确对齐与延迟处理,以保证数据时间线的一致性;以及大规模数据集的可扩展性管理,每日多分区存储要求兼顾查询效率与存储成本,同时避免因中继API限速或节点故障导致的采集空洞。
常用场景
经典使用场景
在去中心化金融(DeFi)生态系统中,最大可提取价值(MEV)的捕获与分配已成为一个核心研究焦点。mev-tape数据集为研究人员提供了一条从Flashbots中继交付的区块提议竞价轨迹,用于系统性地审视MEV的分布格局。该数据集最经典的运用,在于揭示验证者、搜索者和区块构建者之间的利益博弈,从而量化公共中继上MEV的规模与频率。通过分析这些数据,研究者能够描绘出不同时间尺度下MEV活动的演变趋势,并识别出特定交易策略(如三明治攻击或套利)对网络公平性的影响。这一使用场景为理解以太坊等区块链网络的经济安全性提供了实证基础。
解决学术问题
该数据集精准地填补了MEV实证研究中的数据真空,解决了长期困扰学术界的“黑箱”问题。过往研究多依赖于零散的链上数据或假设性模型,难以准确衡量MEV的实际提取量与影响。mev-tape通过提供结构化的竞价历史,使学者能够量化验证者通过操纵交易顺序所获得的额外收益,并评估这种收益对普通用户交易成本的传导效应。其开放性和精细的时间粒度,促成了关于MEV对网络去中心化属性侵蚀程度的严格分析,推动了关于如何设计更加鲁棒的区块拍卖机制的理论讨论。数据集的引入,标志着该领域从思辨性探讨转向了可复现、可检验的计量分析新阶段。
实际应用
在应用层面,mev-tape赋能了多种现实世界中的金融科技工具与策略。交易员和量化基金可利用该数据集训练预测模型,识别高概率的MEV提取窗口,从而优化自身的交易路由策略以规避损失或参与其中。钱包提供商和DeFi协议开发者能够依据竞价数据分析网络拥挤状态,动态调整Gas费用与滑点容忍度,提升用户交易的成功率与收益。此外,数据审计公司利用这些记录来监测中继节点的行为合规性,确保区块生产过程的透明度。从风险管理的角度看,该数据集帮助机构评估在特定协议上进行大额交易时面临的前置交易风险,成为构建反MEV策略不可或缺的基础设施。
数据集最近研究
最新研究方向
当前,加密货币领域的最小值可提取价值(MEV)研究正从理论分析迈向实证工程化阶段。该数据集系统性捕获了Flashbots等公共中继的区块有效载荷竞价轨迹,成为解码以太坊PoS时代MEV分配机制的核心工具。前沿方向聚焦于利用链上可验证数据构建MEV市场透明度量体系,例如通过竞价痕迹追溯区块构建者的策略演化、量化排序器与验证者之间的租金分配。结合Dune Analytics等平台的实时仪表盘,研究者可追踪代币对、UniSwap v3流动性池中的抢跑行为模式,进而为EIP-1559后的MEV灼烧机制、PBS(提议者-构建者分离)治理效果提供可复现的因果推断基准,推动区块链交易排序经济学从黑箱讨论转向数据驱动的公共政策评估。
以上内容由遇见数据集搜集并总结生成



