five

链上资产分析及追踪大模型训练用数据

收藏
浙江省数据知识产权登记平台2025-11-11 更新2025-11-12 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8395936
下载链接
链接失效反馈
官方服务:
资源简介:
本数据基于对以太坊公开交易数据的深度分析与挖掘,用于对链上资产分析及追踪大模型进行训练,帮助公安部门等机构持续监控非法交易资金链和黑产团伙钱包地址,为案件研判的有力线索和可验证的证据链。首先,通过对交易行为进行分析,识别异常资金流向,及时发现链上诈骗行为和链下诈骗资金上链行为;其次,结合时序图路径搜索与地址聚类技术,快速定位洗钱的资金流转轨迹,发现潜在的资金扩散链路,进行洗钱资金追溯;最后,通过动态图风险模型,识别与博彩、毒品等非法交易相关的高风险地址和集群,进行非法交易识别。步骤一:项目通过官方API(公共 RPC / JSON-RPC 接口)获取区块数据; 步骤二:实时解析区块中的原始交易信息,建立以账户地址为节点、以交易信息为有向边的有向属性图数据; 步骤三:基于步骤二解析出的原始数据,通过流式计算引擎计算多维统计指标,包括交易统计指标,合约统计指标,交易关系指标,时序类指标共108个字段。下面以总交易数和接收地址数量为例说明统计方法。 总交易数(Total_transactions):统计指定时间区间内(所有原始交易记录的总条数,仅对每一条独立的交易(即每个唯一hash)计数一次,最终得到该范围内的交易总数。 接收地址数量(Number_of_received_addresses):针对目标账户(可通过from_address或to_address关联),筛选出所有该账户作为接收方(即to_address为目标账户)的交易记录,去重后统计这些交易中from_address(即付款方地址)的唯一数量,得到该账户的接收地址总数。 步骤四:以步骤三的统计指标为特征,通过自动机状态识别算法和机器学习模型分类算法计算地址的标签信息,包含身份标签,角色标签,风险标签。计算方法如下: 身份标签(ID_LABEL):采用自动机状态规则识别,定义标签状态(如 “初始状态”“个人用户特征状态”“机构用户特征状态”“交易所特征状态” 等)及状态转换条件(如单月交易次数≤50 且单笔金额≤10ETH 时从初始状态转入个人用户特征状态),追踪账户交易行为进行,当交易行为满足转换条件时更新身份标签。 角色标签(ROLE_LABEL):采用自动机状态规则识别,设置 “初始角色状态”“合约创建者状态”“流动性提供者状态”“代币分发者状态” 等状态集,通过交易行为触发状态转换(如检测到账户创建合约的交易时从基础角色状态转入合约创建者状态),追踪账户交易行为,当交易行为满足转换条件时更新角色标签。 风险标签(RISK_LABEL):基于随机森林模型进行识别,输入为以上述107个特征,输出为账户的风险标签概率(区间为[0,1])。使用 10000 个小批量地址数据进行训练,设定超参数为:决策树数量 200 棵,每棵树最大深度 15,节点分裂最小样本数为 5,叶节点最小样本数为 1,随机特征子集数量设为总特征数的平方根;通过训练好的模型对地址进行风险判定并输出风险标签。
提供机构:
杭州高新区(滨江)区块链与数据安全研究院
创建时间:
2025-10-10
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是用于链上资产分析及追踪大模型训练的金融业公共数据,规模为252.34条,实时更新。数据包含108个字段,涵盖交易统计、多种加密货币指标以及通过算法生成的身份、角色和风险标签,旨在帮助监控非法交易和洗钱行为,为案件研判提供支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作