INTENT2TX

Name: INTENT2TX
Creator: 北京大学; 太原理工大学
Published: 2026-04-30 19:52:50
License: 暂无描述

arXiv2026-04-30 更新2026-05-02 收录

下载链接：

https://anonymous.4open.science/r/Intent2Tx_Bench-97FF/

下载链接

链接失效反馈

官方服务：

资源简介：

INTENT2TX是由北京大学团队主导构建的高保真基准数据集，旨在解决自然语言意图到以太坊链上交易的映射问题。该数据集包含29,921个单步操作和1,575个多步操作实例，数据源自300天的真实以太坊主网交易轨迹，覆盖转账、兑换、流动性管理等11类DeFi协议交互场景。通过四阶段构建流程，从原始交易日志解码出结构化模式，并利用大模型逆向生成用户意图，最终形成包含合约地址、函数参数等可执行要素的标准化JSON格式。该数据集主要应用于Web3领域，为开发意图驱动的去中心化应用提供关键评估基准。

INTENT2TX is a high-fidelity benchmark dataset primarily constructed by the Peking University team, aiming to address the mapping task from natural language intents to on-chain transactions on the Ethereum network. This dataset includes 29,921 single-step operation instances and 1,575 multi-step operation instances, with data derived from 300 days of real transaction traces on the Ethereum mainnet, covering 11 categories of DeFi protocol interaction scenarios such as transfers, swaps, liquidity management and more. Through a four-stage construction pipeline, structured schemas are decoded from raw transaction logs, and large language models are utilized to reversely generate user intents, ultimately forming a standardized JSON format that contains executable elements including contract addresses and function parameters. This dataset is mainly applied in the Web3 field, providing a key evaluation benchmark for developing intent-driven decentralized applications.

提供机构：

北京大学; 太原理工大学

创建时间：

2026-04-30

原始信息汇总

好的，这是根据您提供的数据集详情页面内容提炼的关键信息概述。

数据集概述

数据集名称： INTENT2TX (Intent2Tx_Bench)

核心目标： 评估大语言模型（LLM）将自然语言意图转换为结构化以太坊交易计划的能力。

许可证： Apache-2.0

数据来源与构建： 数据集是通过一个包含11个步骤的流水线，从真实的以太坊历史交易数据中逐步构建而成。关键步骤包括从Bitquery获取交易、从Etherscan获取合约ABI、解码交易数据、利用LLM反向生成自然语言意图，并最终构建单步和多步基准数据。

任务定义： 给定一个自然语言的用户意图，模型需输出：

单步任务（Single-step）： 一个包含 contract、contract_address、function、params (类型和值) 和 value (ETH数量) 的 JSON 动作。
多步任务（Multi-step）： 一个有序的、包含多个上述 JSON 动作的列表。

数据集划分与规模：

单步样本（single_step）：约 29.9K 条
多步样本（multi_step）：约 1.6K 条
总计：约 31.5K 条样本

典型数据字段：

单步样本： instruction, input, output, contract, function, primary_category, sub_category, tx_hash, metadata
多步样本： instruction, input, output (有序的动作列表)

Hugging Face 地址： https://huggingface.co/datasets/Intent2Tx/web3_intents_to_ethereum_transactions

搜集汇总

数据集介绍

构建方式

INTENT2TX数据集的构建遵循一条严谨的四阶段流水线，其根基深植于真实的以太坊主网活动。首先，通过Bitquery GraphQL API采集了跨越300天、超过103万条原始交易调用，并从Etherscan获取了13万余个唯一合约地址的ABI与源代码，完成了底层数据的锚定。随后，实施多阶段过滤，仅保留成功执行的顶级原子调用，并利用ABI将原始调用数据解码为包含合约名称、地址、函数及参数的结构化JSON格式，从而获得29,921个高质量的单步交易实例。为了生成贴合真实的用户意图，研究团队采用了一种逆向工程方法，引导Gemini模型模拟Web3用户，从结构化交易中反向推理出其背后的高层目标，而非描述技术细节。最后，通过基于合约元数据的规则系统对单步实例进行双层分类，并根据同一发起者在短时间窗口内的连续操作，将成功交易组合成1,575个多步实例，最终构建了覆盖11个类别、包含长尾DeFi原语的高保真基准测试集。

特点

该数据集最显著的特点在于其高保真度与复杂的任务设计，它真实地映射了Web3生态的多元性与挑战性。其数据源自真实的主网活动，不仅涵盖了Swap、Transfer等主流操作，更深入触及了借贷、质押、治理等复杂的长尾DeFi原语，形成了真实的参数分布与合约交互模式。另外，数据集创新性地引入了单步与多步两种难度级别，后者要求模型具备将高层目标分解为有序执行步骤并处理跨交易依赖关系的规划能力。最为重要的是，INTENT2TX不仅提供了一种结构化的、人类可读的交易输出格式，还设计了一套基于分叉主网环境的执行感知评估框架，通过差分状态分析来验证生成交易能否真正在链上实现预期的状态变更，从而超越了传统的语法匹配，直指功能正确性的核心。

使用方法

该数据集的使用围绕一个核心任务展开：将高层自然语言意图转化为结构化、可执行的以太坊交易。使用者需将输入的自然语言意图（例如“以最小滑点将1000 USDC兑换为ETH”）输入至语言模型，要求模型输出一个遵循特定JSON Schema的调用，其中必须包含合约名称、地址、函数、类型化参数及ETH发送量。此任务可分别进行单步与多步模式的评估。研究团队提供了一套系统化的评估方法论，包括基于与参考标准的结构相似性（格式、逻辑、参数精度）的指标计算，以及更为关键的基于模拟执行的方法，即利用Anvil工具在分叉的以太坊主网上模拟执行模型生成的交易，通过对比账户状态变化（如余额变动）来判定其功能等价性。此外，该数据集也展示了作为高效微调语料库的潜力，用于提升模型在特定品类（如治理、NFT）上的泛化能力。

背景与挑战

背景概述

INTENT2TX数据集由北京大学计算机学院的潘卓然、胡建斌、陈钟等研究人员于2026年创建，旨在填补将用户自然语言意图转化为可执行以太坊交易这一研究领域的空白。随着大语言模型的兴起，Web3交互正从传统的命令式交易模型向意图中心范式转型，用户期望通过自然语言表达复杂金融目标即可自动完成链上操作。然而，现有基准测试如Intent-Tx-18K和EVM-QuestBench，或依赖于无法解码的原始十六进制数据，或提供的是显式步骤而非高层意图，均无法真实反映大语言模型在Web3场景下的能力。该数据集基于2025年3月至2026年1月间300天的真实以太坊主网交易日志，通过独创的逆向工程管道构建了29,921个单步实例和1,575个多步实例，覆盖11类DeFi操作。该数据集的发布为开发自主、可靠的意图中心Web3智能体奠定了关键基础。

当前挑战

INTENT2TX面临的核心挑战首先源于Web3领域的结构性困难：异构的DeFi协议针对相似功能采用截然不同的路由器逻辑，交易签名往往包含嵌套元组和原始十六进制数据而缺乏RESTful API的语义清晰度，且交易有效性高度依赖以太坊虚拟机实时、不可逆的状态。其次，数据构建过程中面临严峻的技术挑战：需从130万条原始交易调用中经过多阶段过滤，仅保留与已验证合约交互的成功顶级原子调用，再通过ABI解码将64,424个候选交易转化为结构化JSON模式，最后借助大语言模型逆向推测高层用户意图并执行人工抽检。此外，多步实例的构建需要根据同一发起者地址和时间窗口组合连续操作，对时间切片的精确性要求极高，且模型的跨类别泛化能力严重不足，在治理、流动性等长尾类别上表现薄弱。

常用场景

经典使用场景

INTENT2TX作为首个面向Web3领域的意图到交易生成基准，其经典使用场景在于评估大语言模型将自然语言描述的高层级用户意图转化为结构化、可执行的以太坊链上交易的能力。该基准涵盖单步与多步两种难度，其中单步任务要求模型为原子操作（如代币兑换）输出合约地址、函数名及精确参数，而多步任务则检验模型对复杂工作流（如先授权后添加流动性）的分解与顺序编排能力。通过提供源自300天真实主网数据的29,921个单步实例和1,575个多步实例，INTENT2TX为衡量LLM在去中心化金融领域的语义理解与结构化推理水平建立了可靠标杆。

衍生相关工作

INTENT2TX的提出催生了一系列衍生工作，其中包括针对多步工作流规划的分解式推理研究、面向长尾协议的函数签名检索增强生成方法，以及基于EVM分叉的差分状态分析评估协议。该基准还启发了对代码预训练模型在交易生成任务中适用性的再思考——实验发现，专为代码生成优化的模型（如GPT-5.2 Codex）并未展现出显著优势，反而凸显了检索增强对提供有效归纳偏置的关键作用。此外，跨类别泛化实验揭示了模型在治理提案、NFT铸造等低频操作上的迁移局限，推动了训练数据多样性增强技术的探索。

数据集最近研究