DeepTx
收藏arXiv2025-10-21 更新2025-10-23 收录
下载链接:
https://arxiv.org/abs/2510.18438
下载链接
链接失效反馈官方服务:
资源简介:
DeepTx数据集包含了与钓鱼攻击相关的交易数据,用于训练和评估DeepTx系统。该数据集由12个钓鱼案例组成,涵盖了恶意代币批准、代理伪装和通过伪造界面进行冒充等不同的语义和欺骗策略。数据集还包括前端网页、JavaScript代码、智能合约代码和原始受害者交易数据。DeepTx系统通过模拟交易执行、提取语义特征、使用LLMs进行推理和分析,从而有效地检测和防御钓鱼攻击。
The DeepTx dataset contains transaction data related to phishing attacks, which is used for training and evaluating the DeepTx system. This dataset consists of 12 phishing cases, covering diverse semantic and deception strategies such as malicious token approval, proxy impersonation, and impersonation via forged interfaces. The dataset also includes front-end web pages, JavaScript code, smart contract code, and original victim transaction data. The DeepTx system can effectively detect and defend against phishing attacks by simulating transaction execution, extracting semantic features, and utilizing LLMs for reasoning and analysis.
提供机构:
南洋理工大学新加坡
创建时间:
2025-10-21
原始信息汇总
DeepTx: Real-Time Transaction Risk Analysis via Multi-Modal Features and LLM Reasoning
基本信息
- 标题: DeepTx: Real-Time Transaction Risk Analysis via Multi-Modal Features and LLM Reasoning
- arXiv标识符: arXiv:2510.18438
- 学科分类: Computer Science > Cryptography and Security (cs.CR)
- 提交日期: 2025年10月21日
- 版本: v1
- DOI: https://doi.org/10.48550/arXiv.2510.18438
作者
- Yixuan Liu
- Xinlei Li
- Yi Li
论文状态
- 会议接受: 已接受至ASE25
摘要
Web3生态系统中的钓鱼攻击日益复杂,利用欺骗性合约逻辑、恶意前端脚本和代币授权模式。DeepTx是一个实时交易分析系统,可在用户确认前检测此类威胁。该系统模拟待处理交易,提取行为、上下文和UI特征,并使用多个大语言模型(LLM)进行交易意图推理。通过带有自反思机制的共识机制确保决策的鲁棒性和可解释性。在钓鱼数据集上的评估显示,DeepTx实现了高精度和高召回率。
资源链接
- PDF文档: https://arxiv.org/pdf/2510.18438
- HTML版本: https://arxiv.org/html/2510.18438
- TeX源码: https://arxiv.org/format/2510.18438
- 演示视频: https://www.youtube.com/watch?v=example
搜集汇总
数据集介绍

构建方式
在区块链安全研究领域,DeepTx数据集的构建采用了多源异构数据融合策略。该数据集通过精心筛选12个典型钓鱼案例,涵盖模拟环境挑战与真实世界攻击场景,其中5例源自UnPhishable平台的仿真测试,7例采集自ScamSniffer数据库及历史钓鱼网站存档。每个案例均包含完整的三维数据要素:前端交互界面及JavaScript代码、经过验证或反编译的智能合约源码、原始受害者交易记录。为构建对比基准,数据集还纳入了来自Aave等已验证协议的良性交易样本,并通过人工复核确保数据质量。
特点
该数据集最显著的特征在于其多维语义标注体系。不同于传统单维度交易数据集,DeepTx完整记录了钓鱼攻击的全生命周期数据,包括前端界面欺骗逻辑、合约层恶意代码、交易层资产流转路径。数据集特别注重行为轨迹的完整性,通过EVM状态分叉技术重现原始执行环境,保留了调用链分析、资产变更追踪、存储状态变更等关键行为特征。此外,数据集还创新性地整合了用户界面元数据与威胁情报信息,形成了覆盖行为、上下文、界面、数据库四维度的多模态特征表示。
使用方法
研究者可通过Python环境配置快速部署DeepTx分析框架。使用前需设置RPC节点连接参数及API密钥,执行python3 main.py <transaction_hash>命令即可启动自动化分析流程。系统将依次执行交易模拟、特征提取、多模型推理等环节,最终生成包含风险等级、置信度、解释性说明及安全建议的结构化报告。对于高级研究需求,用户可灵活调整特征权重配置,选择不同的LLM组合策略,或通过修改共识算法参数来优化检测性能。数据集配套的完整工具链支持从原始交易到可解释报告的端到端分析。
背景与挑战
背景概述
随着区块链技术的普及,Web3生态系统中的钓鱼攻击日益复杂化,攻击者利用欺骗性合约逻辑、恶意前端脚本和代币授权模式进行隐蔽攻击。DeepTx数据集由南洋理工大学的研究团队于2025年创建,旨在通过多模态特征提取和大型语言模型推理,实现交易前的实时风险分析。该数据集聚焦于智能合约交互过程中的语义安全漏洞,通过模拟交易执行轨迹、上下文环境及用户界面特征,构建了覆盖完整钓鱼生命周期的标注数据,为区块链安全领域提供了重要的基准测试资源。
当前挑战
DeepTx数据集致力于解决Web3交易语义安全中的钓鱼检测难题,其核心挑战在于识别低层级调用数据中隐藏的恶意意图,例如伪造用户界面与真实执行逻辑的不一致性。在数据构建过程中,研究者需克服多模态特征对齐的复杂性,包括行为轨迹重建、动态gas模式分析以及前端脚本的静态解析。此外,标注数据的稀缺性与攻击手法的快速演化,进一步增加了高质量样本采集与模型泛化能力验证的难度。
常用场景
经典使用场景
在区块链安全领域,DeepTx数据集主要应用于实时交易风险分析场景。通过模拟待签名交易并提取行为轨迹、上下文信号和用户界面特征,该数据集为多模态特征融合与大型语言模型推理提供了标准化评估基准。其典型使用方式包括对钓鱼交易进行语义解析,识别恶意合约逻辑、伪造前端脚本及异常资产转移模式,为Web3钱包安全防护系统提供关键数据支撑。
衍生相关工作
基于该数据集衍生的经典工作包括改进型交易模拟框架与自适应检测模型。部分研究通过增强UI特征提取模块的覆盖率,提升了针对前端注入攻击的识别精度;另有工作聚焦于优化LLM共识机制,通过引入领域知识图谱强化推理过程的可靠性。这些衍生成果共同推动了区块链语义安全研究向实时化、可解释化方向发展。
数据集最近研究
最新研究方向
随着Web3生态系统中钓鱼攻击日益复杂化,DeepTx数据集推动了区块链安全领域的前沿探索,聚焦于实时交易风险分析。当前研究重点整合多模态特征提取与大型语言模型推理机制,通过模拟交易执行轨迹、上下文环境及用户界面信号,构建动态检测框架。该方向关联2025年Bybit交易所因伪造界面导致巨额资产损失的热点事件,凸显了传统链上防护的局限性。其创新性体现在共识机制与自反思算法的融合,为可解释性安全评估提供新范式,对构建下一代去中心化应用防护体系具有奠基意义。
相关研究论文
- 1DeepTx: Real-Time Transaction Risk Analysis via Multi-Modal Features and LLM Reasoning南洋理工大学新加坡 · 2025年
以上内容由遇见数据集搜集并总结生成



