DeFi-Protocol-Data-on-Ethereum-2023-2024|去中心化金融数据集|以太坊数据集

huggingface2025-01-24 更新2025-01-25 收录

去中心化金融

以太坊

下载链接：

https://huggingface.co/datasets/mriusero/DeFi-Protocol-Data-on-Ethereum-2023-2024

下载链接

链接失效反馈

资源简介：

该数据集用于分析去中心化金融（DeFi）协议和交易，包含四个主要文件：contracts.parquet、transactions.parquet、market.parquet和users.parquet。数据集涵盖了从2022年12月31日到2024年12月30日的时间范围内的数据。contracts.parquet文件包含选定DeFi协议的合约详细信息；transactions.parquet文件包含以太坊合约的交易数据；market.parquet文件包含带有聚合交易指标的市场数据；users.parquet文件包含基于交易数据的用户配置文件。数据集的目标是分析用户行为、市场趋势和协议性能，支持对DeFi生态系统的深入分析。

创建时间：

2025-01-24

原始信息汇总

数据集概述

数据集基本信息

数据集名称: DeFi-Protocol-Data-on-Ethereum-2023-2024
许可证: MIT
标签: finance
数据规模: 1M < n < 10M

数据集描述

该数据集旨在分析以太坊区块链上的去中心化金融（DeFi）协议和交易。数据集涵盖了用户行为、协议交互、交易动态和市场趋势的分析，提供了对DeFi生态系统的全面洞察。

数据集结构

数据集包含以下文件：

contracts.parquet: 包含选定DeFi协议的合约详细信息。
transactions.parquet: 包含以太坊合约的交易数据。
market.parquet: 包含带有聚合交易指标的市场数据。
users.parquet: 基于交易数据的用户档案。

时间范围

开始时间: 2022-12-31T22:59:59.000Z
结束时间: 2024-12-30T23:00:11.000Z

文件目标

`users.parquet`

目标: 分析用户行为、活动趋势和协议交互。
潜在用例:
- 分析用户在DeFi中的活动生命周期。
- 识别活跃用户或休眠用户。
- 映射用户与各种协议之间的交互。

`market.parquet`

目标: 提供市场相关数据的聚合，洞察协议表现和市场动态。
潜在用例:
- 理解DeFi协议和代币的市场趋势。
- 分析交易量、交易活动和价格波动。
- 识别特定代币或协议的高活动期或低活动期。

`transactions.parquet`

目标: 提供交易级别的数据，理解DeFi生态系统中的资金流动。
潜在用例:
- 追踪地址之间的资金流动。
- 分析交易成本（gas）和失败率。
- 识别异常或欺诈交易。

`contracts.parquet`

目标: 记录与各种DeFi协议相关的智能合约详细信息。
潜在用例:
- 按协议、类型和用例分类合约。
- 分析特定合约标准（如ERC-20、ERC-721）的采用情况。
- 探索合约属性与协议表现之间的关系。

数据来源

CoinGecko API: 用于获取DeFi协议及其市场详细信息的合约数据。
Etherscan API: 用于提取以太坊智能合约的交易数据。
Yahoo Finance API: 用于获取市场数据，包括代币的开盘价、最高价、最低价、收盘价（OHLC）和交易量。
MongoDB: 用于管理和存储大量交易和协议数据。
Ethereum Blockchain: 作为支持这些协议和交易的去中心化金融基础设施。

变量描述

`users.parquet`

address: 用户的钱包地址。
first_seen: 用户的首次活动记录时间。
last_seen: 用户的最近活动记录时间。
protocol_types: 用户交互的协议类型。
protocols_used: 用户交互的具体协议。
received_count: 用户接收的交易总数。
total_received (ETH): 用户接收的ETH总量。
sent_count: 用户发送的交易总数。
total_sent (ETH): 用户发送的ETH总量。
transactions: 用户参与的交易总数。

`market.parquet`

timestamp: 数据记录的时间。
blockchain: 区块链网络（如以太坊、币安智能链）。
protocol_name: 与数据相关的协议名称。
symbol: 加密货币或代币的符号。
type: 资产类型（如代币、NFT）。
contract_address: 与资产相关的合约地址。
open (usd): 时间间隔内的开盘价（美元）。
high (usd): 时间间隔内的最高价（美元）。
low (usd): 时间间隔内的最低价（美元）。
close (usd): 时间间隔内的收盘价（美元）。
volume: 时间间隔内的总交易量。
nb_tx_1h, nb_tx_24h: 过去1小时和24小时内的交易数量。
total_value_eth_1h, total_value_eth_24h: 过去1小时和24小时内转移的ETH总量。
total_gas_used_1h, total_gas_used_24h: 过去1小时和24小时内使用的总gas量。
nb_unique_receivers_1h, nb_unique_receivers_24h: 过去1小时和24小时内的唯一接收地址数量。
nb_unique_senders_1h, nb_unique_senders_24h: 过去1小时和24小时内的唯一发送地址数量。
std_value_eth_1h, std_value_eth_24h: 过去1小时和24小时内交易值的标准差（ETH）。
std_gas_used_1h, std_gas_used_24h: 过去1小时和24小时内使用的gas的标准差。
avg_gas_used_1h, avg_gas_used_24h: 过去1小时和24小时内使用的平均gas量。
avg_value_eth_per_tx_1h, avg_value_eth_per_tx_24h: 过去1小时和24小时内每笔交易的平均ETH值。
max_gas_used_1h, max_gas_used_24h: 过去1小时和24小时内使用的最大gas量。
max_value_eth_1h, max_value_eth_24h: 过去1小时和24小时内转移的最大ETH值。
median_value_eth_1h, median_value_eth_24h: 过去1小时和24小时内交易值的中位数（ETH）。
min_gas_used_1h, min_gas_used_24h: 过去1小时和24小时内使用的最小gas量。
min_value_eth_1h, min_value_eth_24h: 过去1小时和24小时内转移的最小ETH值。
num_errors_1h, num_errors_24h: 过去1小时和24小时内的错误数量。
error_rate_1h, error_rate_24h: 过去1小时和24小时内的错误率。

`transactions.parquet`

timestamp: 交易发生的时间。
transaction_hash: 交易的唯一哈希标识。
from: 发送方的钱包地址。
to: 接收方的钱包地址。
value (ETH): 转移的ETH值。
gas: 交易指定的gas限制。
gas_used: 交易实际使用的gas量。
is_error: 指示交易是否导致错误。
error_code: 错误代码（如果适用）。
metadata: 与交易相关的附加元数据。

`contracts.parquet`

contract_address: 智能合约的唯一地址。
blockchain: 合约部署的区块链网络。
type: 合约类型（如ERC-20、ERC-721）。
protocol_name: 合约所属的协议名称。
protocol_symbol: 协议或代币的符号。
description: 合约用途或功能的描述。
website_url: 合约或协议的官方网站URL。

AI搜集汇总

数据集介绍

构建方式

该数据集的构建过程涵盖了多个关键步骤，旨在为去中心化金融（DeFi）协议和交易的分析提供基础。首先，通过筛选DeFi协议并提取相关合约数据，确保数据的代表性。接着，利用Ethereum区块链上的交易信息，结合CoinGecko API、Etherscan API和Yahoo Finance API等工具，收集并整合市场趋势数据。最后，通过MongoDB进行数据存储与管理，确保数据结构的完整性与可扩展性。整个过程注重数据的多样性与时效性，覆盖了2022年底至2024年底的时间范围。

特点

该数据集的特点在于其多维度的数据覆盖与精细的结构设计。数据集包含四个核心文件：`contracts.parquet`记录智能合约的详细信息，`transactions.parquet`提供交易级别的数据，`market.parquet`聚合市场动态数据，而`users.parquet`则聚焦用户行为分析。每个文件均针对特定分析目标设计，涵盖用户活动、协议交互、市场趋势及交易流动等关键领域。此外，数据集的时间跨度长达两年，能够捕捉DeFi生态系统的长期演变与短期波动。

使用方法

该数据集的使用方法灵活多样，适用于不同层次的分析需求。用户可通过`users.parquet`深入挖掘用户行为模式，识别活跃用户与休眠用户；利用`market.parquet`分析市场趋势与协议表现；通过`transactions.parquet`追踪资金流动与交易成本；借助`contracts.parquet`探索智能合约的标准化与协议性能。数据以Parquet格式存储，支持高效查询与分析，适用于机器学习、数据可视化及市场研究等多种应用场景。

背景与挑战

背景概述

去中心化金融（DeFi）作为区块链和加密货币领域的重要组成部分，近年来迅速崛起。DeFi协议通过消除传统金融中介，为用户提供了借贷、交易、收益耕作等多样化的金融服务。为了深入理解DeFi生态系统的动态，分析用户行为、协议交互及市场趋势显得尤为重要。2023年至2024年间，基于以太坊的DeFi协议数据集应运而生，旨在为研究人员和开发者提供全面的数据支持。该数据集由多个文件组成，涵盖了合约详情、交易数据、市场信息及用户行为分析，为DeFi生态系统的研究奠定了坚实基础。

当前挑战

该数据集在构建过程中面临多重挑战。首先，DeFi生态系统的复杂性使得数据采集和清洗变得尤为困难，尤其是涉及多个协议和智能合约的交互时。其次，以太坊区块链上的交易数据量庞大，如何高效提取、存储和分析这些数据成为技术难题。此外，市场数据的实时性和准确性要求极高，确保数据的一致性和完整性是构建过程中的关键挑战。最后，用户行为分析需要处理大量匿名数据，如何在保护隐私的同时提取有价值的信息，也是数据集构建中的一大难题。

常用场景

经典使用场景

在去中心化金融（DeFi）领域，DeFi-Protocol-Data-on-Ethereum-2023-2024数据集被广泛用于分析用户行为、协议交互和市场趋势。通过该数据集，研究人员可以深入探讨用户在不同DeFi协议中的活动模式，识别高频用户与休眠用户，并绘制用户与协议之间的交互图谱。这些分析为理解DeFi生态系统的动态提供了重要依据。

解决学术问题

该数据集解决了DeFi领域中的多个关键学术问题，包括用户行为模式的量化分析、市场趋势的预测以及协议性能的评估。通过对用户交易数据的深入挖掘，研究者能够揭示用户参与DeFi的生命周期，识别市场波动背后的驱动因素，并评估不同协议在市场竞争中的表现。这些研究成果为DeFi生态系统的优化和创新提供了理论支持。

衍生相关工作

基于该数据集，衍生出了一系列经典研究工作，包括用户行为聚类分析、市场波动预测模型以及智能合约性能优化算法。例如，研究者利用该数据集开发了基于机器学习的用户行为分类模型，能够准确识别高频用户和休眠用户；同时，基于市场数据的波动预测模型也为投资者提供了重要的决策支持。这些工作进一步推动了DeFi领域的研究与应用发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据，收集自多个方言区域的本地方言使用者，涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件，单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别（ASR）和音频说话人识别。

hugging_face 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录