TxRCA-Bench

github2026-04-18 更新2026-04-23 收录

下载链接：

https://github.com/sahuang/txrca-bench

下载链接

链接失效反馈

官方服务：

资源简介：

TxRCA-Bench是一个用于评估AI代理在DeFi漏洞交易级根本原因分析上的基准数据集。它包含70个在以太坊和BSC上的真实漏洞交易案例，涵盖8个漏洞类别，每个案例都有真实根本原因、易受攻击代码和丰富的链上证据的注释。

TxRCA-Bench is a benchmark dataset for evaluating AI Agents' transaction-level root cause analysis (RCA) capabilities regarding decentralized finance (DeFi) vulnerabilities. It contains 70 real-world vulnerable transaction cases on Ethereum and BSC, covering 8 vulnerability categories. Each case is annotated with the true root cause, vulnerable code, and abundant on-chain evidence.

创建时间：

2026-04-18

原始信息汇总

TxRCA-Bench 数据集概述

数据集简介

TxRCA-Bench 是一个用于评估 AI 代理在 DeFi 漏洞利用交易层面根因分析能力的基准测试。据我们所知，这是首个提出单一问题的基准：仅给定一个交易哈希，前沿 AI 代理能否仅使用链上数据识别 DeFi 漏洞利用的根本原因？

数据集构成

评估案例数量：70 个真实世界的漏洞利用交易。
区块链网络：涵盖以太坊和币安智能链。
漏洞类别：8 个类别。
标注内容：每个案例均标注有真实根本原因、易受攻击的代码以及丰富的链上证据。
评估规模：已评估七种前沿 AI 代理配置，产生了 490 次评分运行，由两个独立的 LLM 法官评分。

数据内容与结构

数据集主要文件位于 data/ 目录下：

eval_set.json：包含 70 个评估案例及其真实标签。
pilot_set.json：包含 11 个试点案例（不用于评估）。
benchmark_pool.json：完整的过滤后候选池。
selectors.json：本地 4byte 函数选择器快照。
phase1_stats.json：数据集构建统计信息。

每个评估案例在 transactions/<chain>/<tx_hash>/ 目录下包含一个自包含的分析工作空间：

raw/：交易数据、收据、解码后的日志。
trace/：完整的调用追踪。
contracts/：每个合约的 ABI 和元数据。
contract_sources/：可用的已验证 Solidity 源代码，否则为反编译的字节码。
workspace_summary.md：上述内容的人工可读摘要。
analysis_prompt.txt：提供给每个代理的确切提示。

评估案例详情

每个案例在 eval_set.json 中包含以下字段： json { "case_id": "案例标识符", "chain": "区块链网络", "tx_hash": "交易哈希", "canonical_category": "标准漏洞类别", "root_cause_narrative": "根本原因叙述", "vulnerable_code": "易受攻击的代码", "flash_loan_used": "是否使用闪电贷", "multi_step": "是否为多步骤攻击", "profile": "案例档案" }

漏洞类别分布

类别	数量	以太坊	BSC	高关注度	闪电贷
价格操纵	10	4	6	0	10
闪电贷	10	2	8	0	10
重入攻击	9	9	0	3	0
访问控制	10	4	6	0	0
业务逻辑缺陷	10	4	6	0	0
验证不足	10	5	5	0	0
精度损失	8	7	1	2	0
配置错误	3	2	1	2	0
总计	70	37	33	7	20

代理输出与评分

已评估的代理配置

七种配置，两种代理运行时：

配置	模型	努力程度
`gpt5_high`	`gpt-5`	高
`gpt53codex_high`	`gpt-5.3-codex`	高
`gpt54_high`	`gpt-5.4`	高
`gpt54_xhigh`	`gpt-5.4`	极高
`sonnet46_high`	`claude-sonnet-4-6`	高
`opus46_high`	`claude-opus-4-6`	高
`opus46_max`	`claude-opus-4-6`	最大

评分标准

每次运行由两个独立的 LLM 法官（Claude Opus 4.6 和 GPT-5.4）按 0–7 分进行评分：

分数	标准
0	无输出，或与交易完全无关
1	错误的根因类别；分析模糊或泛泛
2	类别错误但有一些正确观察
3	类别正确；机制模糊，无具体证据
4	类别正确 + 正确的易受攻击合约/函数
5	分数 4 + 正确机制 + 引用链上证据
6	分数 5 + 正确的端到端攻击链
7	完美：分数 6 + 无虚假类别，影响正确

二进制成功 = 分数 ≥ 5。两条特殊规则：将闪电贷标记为唯一根本原因（当其为资本放大器时）上限为 4 分；将“精度损失”标记为“价格操纵”最多得 2 分。

主要结果

配置	成功率 (Opus 法官)	成功率 (GPT-5.4 法官)
gpt5_high	35.7%	20.0%
gpt53codex_high	56.5%	32.9%
gpt54_high	55.7%	38.6%
gpt54_xhigh	62.9%	34.3%
sonnet46_high	55.7%	31.4%
opus46_high	64.3%	47.1%
opus46_max	72.9%	48.6%

法官间一致性：Cohens κ = 0.58（中等-显著）；精确一致率 53.4%；误差在 1 分以内的一致率 72.8%。

数据使用

读取基准集

python import json with open("data/eval_set.json") as f: cases = json.load(f)

读取代理输出和分数

python from pathlib import Path import json case = cases[0] workspace = Path("transactions") / case["chain"] / case["tx_hash"] output = json.load(open(workspace / "results/opus46_max/analysis_output.json")) score = json.load(open(workspace / "results/opus46_max/score_opus46.json"))

评估自定义代理

由于每个案例仅由 (transaction_hash, chain_id) 加上真实标签定义，任何代理都可以针对该基准进行评估：

向代理提供交易哈希、链 ID 以及每个案例的工作空间目录。
生成符合 schemas/analysis_output.schema.json 的输出。
根据 eval_set.json 中的 canonical_category 和 root_cause_narrative，使用上述评分标准对输出进行评分。

许可证

本仓库中的代码示例根据 MIT 许可证发布。
真实标注和派生的数据集工件根据 CC BY 4.0 发布。
原始链上数据源自公共的以太坊和 BNB Chain 区块链记录。
原始真实标注改编自 SunWeb3Sec DeFi Security Breach RCA 数据集。

搜集汇总

数据集介绍

构建方式

在去中心化金融安全研究领域，TxRCA-Bench的构建遵循了严谨的实证原则。该数据集从以太坊和币安智能链的真实交易记录中，系统性地筛选出70个具有代表性的安全漏洞利用交易作为评估案例。构建过程首先从广泛的候选池中进行过滤，确保每个案例均属于八个明确的漏洞类别之一，例如价格操纵、重入攻击和访问控制缺陷。每个案例均被精确标注了根本原因叙述、易受攻击的代码片段以及丰富的链上证据，并配备了包含原始交易数据、完整调用轨迹、合约ABI和源代码的自包含分析工作区，从而为智能体评估提供了坚实且标准化的数据基础。

特点

TxRCA-Bench作为首个专注于交易层面根因分析的基准测试，其核心特点在于高度的真实性与完整性。数据集囊括了来自现实世界的70个攻击交易，覆盖了八个关键的DeFi漏洞类别，并严格区分了高关注度事件与闪电贷使用情况。每个案例不仅提供了交易哈希和链标识符，还附带了详尽的结构化工作区，包含了从原始交易到解码后日志、调用轨迹及合约源代码的全套链上数据。此外，数据集还包含了由前沿AI智能体在七种不同配置下生成的490次评估运行结果，并由两个独立的大型语言模型法官进行评分，为研究提供了多维度的性能比较基准。

使用方法

研究人员可利用该数据集对AI智能体在DeFi安全分析任务上的能力进行系统评估。使用方法主要包括读取基准测试集、分析现有智能体输出以及评估自定义智能体。通过加载`eval_set.json`文件，用户可以获取所有标注案例；通过遍历`transactions`目录下的工作区，可以访问每个案例的完整链上证据和分析结果。对于自定义评估，开发者需遵循`analysis_prompt.md`中的任务规范，让智能体仅基于提供的交易哈希和工作区数据进行分析，并生成符合预定JSON模式的输出。最终，通过将智能体的分析结果与数据集中标注的根本原因进行比对，并依据提供的评分标准进行量化评分，从而完成性能度量。

背景与挑战

背景概述

在区块链安全领域，去中心化金融（DeFi）生态的蓬勃发展伴随着日益严峻的漏洞利用风险，亟需高效、自动化的根因分析工具。TxRCA-Bench数据集应运而生，作为首个专注于交易层面根因分析的基准测试，由独立研究人员于近期创建，旨在评估前沿人工智能代理在仅依赖链上数据的情况下，针对真实DeFi漏洞交易进行根因诊断的能力。该数据集精心选取了以太坊和币安智能链上的70个真实漏洞交易，覆盖价格操纵、重入攻击、访问控制缺陷等八类常见漏洞，并提供了详尽的标注信息，包括根因叙述、脆弱代码及丰富的链上证据。其构建不仅填补了该领域标准化评估工具的空白，也为推动智能合约安全分析与自动化审计技术的发展提供了关键的数据支撑。

当前挑战

TxRCA-Bench所针对的核心领域挑战在于实现高精度的自动化交易级根因分析，这要求模型能够从复杂的链上交易数据中准确识别漏洞模式、理解攻击链逻辑并定位根本原因，而当前前沿AI代理的成功率仍有较大提升空间。在数据集构建过程中，挑战主要体现在多个方面：首先，需要从海量区块链交易中筛选出具有代表性且标注可靠的漏洞案例，确保数据质量与多样性；其次，构建自包含的分析工作空间涉及原始交易数据、调用轨迹、合约源代码等多模态信息的整合与标准化处理，技术复杂度较高；此外，设计客观、可复现的评估框架，包括制定细致的评分标准与采用双评委机制以保障结果可靠性，也是构建过程中的关键难点。

常用场景

经典使用场景

在去中心化金融（DeFi）安全研究领域，TxRCA-Bench数据集为评估前沿人工智能代理在交易级根因分析任务上的性能提供了标准化基准。该数据集通过构建包含70个真实世界漏洞交易案例的评估集，覆盖价格操纵、重入攻击、访问控制缺陷等八类常见漏洞，并辅以详尽的链上数据工作空间，使得研究者能够系统性地测试AI代理仅凭交易哈希和链上证据识别DeFi攻击根本原因的能力。其经典使用场景在于为各类智能体配置提供统一、可复现的评估框架，从而推动自动化安全分析工具的发展。

解决学术问题

TxRCA-Bench数据集致力于解决DeFi安全分析中自动化根因诊断的学术挑战。传统上，DeFi攻击调查高度依赖专家手动解析交易轨迹与合约代码，过程繁琐且易受主观影响。该数据集通过提供标注真实攻击根本原因、脆弱代码及丰富链上证据的结构化案例，使得研究人员能够定量评估AI模型在复杂链上环境中的推理能力。其意义在于首次建立了交易级根因分析的标准化评估体系，为比较不同模型架构、提示工程策略以及多步推理机制的有效性提供了可靠基础，从而加速智能合约安全领域的算法创新。

衍生相关工作

围绕TxRCA-Bench数据集，已衍生出一系列探索AI代理在链上分析中性能边界的研究工作。例如，基于该数据集的评估结果，研究者深入分析了不同大语言模型（如GPT-5.4与Claude Opus）在理解复杂交易轨迹与合约代码时的表现差异，并提出了针对闪贷滥用误判等问题的评分修正规则。此外，该数据集亦促进了多智能体协作框架、增强型代码语义解析工具以及链上证据检索机制等方向的创新，这些工作共同推动了自动化DeFi安全分析向更高准确度与可解释性迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集