MLNTeam-Unical/NFT-70M_transactions
收藏Hugging Face2025-03-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MLNTeam-Unical/NFT-70M_transactions
下载链接
链接失效反馈官方服务:
资源简介:
NFT-70M_transactions数据集是2021年至2023年间从Web3生态系统中的领先交易平台OpenSea收集的最大且最新的非同质化代币(NFT)交易集合。该数据集包含超过7000万笔交易,并丰富了元数据,旨在支持从序列和交易数据处理/分析到交易者之间复杂关系的图形建模等一系列任务。此外,文本和图像内容的可用性进一步增强了该数据集的建模能力和使用机会,使其成为深入研究NFT领域的独特且全面的多模态信息源。
NFT-70M_transactions数据集是2021年至2023年间从Web3生态系统中的领先交易平台OpenSea收集的最大且最新的非同质化代币(NFT)交易集合。该数据集包含超过7000万笔交易,并丰富了元数据,旨在支持从序列和交易数据处理/分析到交易者之间复杂关系的图形建模等一系列任务。此外,文本和图像内容的可用性进一步增强了该数据集的建模能力和使用机会,使其成为深入研究NFT领域的独特且全面的多模态信息源。
提供机构:
MLNTeam-Unical
原始信息汇总
数据集卡片 for "NFT-70M_transactions"
数据集概述
NFT-70M_transactions 数据集是从 OpenSea 收集的2021年至2023年间最大的非同质化代币(NFT)交易集合。该数据集包含超过7000万笔交易,并附有元数据,旨在支持从顺序和交易数据处理/分析到交易者之间复杂关系的图模型等多种任务。此外,文本和图像内容的可用性进一步增强了该数据集的建模能力和使用机会,使其成为深入研究NFT领域的独特且全面的多模态信息源。
该数据集可以作为加密领域内各种创新和有影响力任务的基准,例如预测NFT价格或检测欺诈和洗钱交易活动。此外,数据集的多模态特性促进了分类模型以及文本和视觉生成模型的发展。
数据匿名化
我们指出,从OpenSea收集的NFT交易和元数据在区块链上是公开分发的。为了重新分发的目的,我们也致力于确保不泄露可能导致识别NFT创建者的信息,以符合隐私保护要求并避免违反数据保护法规和财产权。在此方面,我们采取了以下三项行动:
- 所有描述非敏感信息的变量值保持其原始形式;
- 所有描述敏感信息的变量值以单向、不可逆的方式匿名化;
- 图像数据和文本内容的URL(即NFT图像及其描述)被替换为表示图像/文本内容的加密表示(即嵌入)的标识符。这些嵌入最终代替原始图像和文本数据提供,可以在NFT-70M_image和NFT-70M_text补充数据集中找到。
数据字段
| 变量 | 类型 | 描述 | 处理方式 | 备注 |
|---|---|---|---|---|
| token_id | String | NFT的ID——该值在同一集合内是唯一的 | 匿名化 | 原始值被替换为哈希码 |
| num_sales | Integer | 表示NFT到当前时间戳(参见tx_timestamp)成功交易的次数 | 原始 | 非敏感变量 |
| nft_name | Vector ID | NFT的名称 | 匿名化 | 原始值通过神经文本嵌入加密 |
| nft_description | Vector ID | NFT的描述,由创建者提供 | 匿名化 | 原始值通过神经文本嵌入加密 |
| nft_image | Vector ID | 访问NFT图像向量的ID | 匿名化 | 原始值通过神经视觉嵌入加密 |
| collection_name | Vector ID | 访问集合名称向量的ID | 匿名化 | 原始值通过神经文本嵌入加密 |
| collection_description | Vector ID | 访问集合描述向量的ID | 匿名化 | 原始值通过神经文本嵌入加密 |
| collection_image | Vector ID | 访问集合图像向量的ID | 匿名化 | 原始值通过神经视觉嵌入加密 |
| fees_seller | Float | 卖家从该交易中获得的费用绝对金额,以token表示 | 原始 | 非敏感变量 |
| fees_opensea | Float | OpenSea从该交易中获得的费用绝对金额,以token表示 | 原始 | 非敏感变量 |
| fees_seller_usd | Float | 卖家从该交易中获得的费用绝对金额,以美元(USD)表示 | 原始 | 非敏感变量 |
| fees_opensea_usd | Float | OpenSea从该交易中获得的费用绝对金额,以美元(USD)表示 | 原始 | 非敏感变量 |
| payout_collection_address | String | 卖家费用存入的钱包地址 | 匿名化 | 原始值被替换为哈希码 |
| tx_timestamp | String | 交易的 |
搜集汇总
数据集介绍

构建方式
在非同质化代币(NFT)领域,数据集的构建需兼顾全面性与隐私保护。NFT-70M_transactions数据集通过整合OpenSea平台在2021至2023年间的公开交易记录,汇集了超过七千万条交易数据。构建过程中,团队采用分层处理策略:非敏感字段如交易价格、时间戳等保留原始数值;涉及用户身份与资产标识的敏感信息则通过单向哈希算法进行匿名化处理,确保数据不可逆追溯。此外,文本与图像内容被替换为基于神经网络生成的嵌入向量,这些向量存储于独立的补充数据集中,既保留了语义特征,又规避了版权与隐私风险。整个流程严格遵循数据保护法规,为后续分析提供了可靠且合规的基础。
使用方法
为充分发挥该数据集的潜力,研究者可通过Hugging Face的datasets库直接加载核心交易数据。使用load_dataset函数即可便捷访问结构化字段,涵盖从交易金额到区块链类型等维度。对于文本与图像嵌入向量,需同步加载NFT-70M_image与NFT-70M_text两个辅助数据集,并通过预构建的映射函数将向量标识符转换为对应的嵌入表示。这种设计使得多模态特征能够灵活整合至分析流程中,例如将视觉嵌入用于生成模型训练,或将文本嵌入应用于语义分类任务。数据集支持的时间序列预测、图建模等多种任务范畴,为加密货币与数字资产领域的创新研究提供了坚实的数据基础。
背景与挑战
背景概述
NFT-70M_transactions数据集由意大利卡拉布里亚大学MLNTeam研究团队于2023年构建,旨在系统性地探索非同质化代币经济生态。该数据集汇集了2021年至2023年间OpenSea平台逾七千万笔交易记录,融合了多模态信息,为加密货币与Web3领域的研究提供了前所未有的数据基础。其核心研究问题聚焦于NFT市场的动态行为分析、价格预测模型构建以及欺诈交易检测,通过整合交易序列、图关系与嵌入表示,推动了数字资产经济学的实证研究进展,对区块链金融与多模态机器学习领域产生了深远影响。
当前挑战
该数据集致力于解决NFT市场中的价格预测与洗售交易检测等复杂问题,其挑战在于交易数据的时序非线性、市场操纵行为的隐蔽性以及多模态特征的高维异构性。在构建过程中,研究团队面临数据匿名化与隐私保护的平衡难题,需对敏感信息进行不可逆加密处理,同时确保数据效用不受损;此外,海量异构数据的采集、清洗与对齐亦涉及跨链交易解析与多源元数据融合,技术复杂度较高。
常用场景
经典使用场景
在非同质化代币(NFT)这一新兴数字资产领域,NFT-70M_transactions数据集以其超过七千万条交易记录的庞大规模,为研究者提供了深入探索NFT市场动态的宝贵资源。该数据集最经典的使用场景在于时间序列分析与预测,研究者能够依据交易时间戳、价格及销售次数等字段,构建模型以预测NFT未来价格走势,揭示市场波动规律。同时,其丰富的元数据支持图神经网络建模,用于分析交易者间的复杂网络关系,识别市场中的关键参与者与社区结构。
解决学术问题
该数据集有效解决了NFT研究中的若干核心学术问题。首先,它通过整合交易数据与多模态嵌入,为NFT价格预测提供了基准,克服了以往数据稀疏与异构的挑战。其次,数据集支持对洗售交易与欺诈行为的检测研究,通过分析交易模式与账户关联,助力于市场诚信机制的构建。此外,其匿名化处理保障了隐私,使得大规模实证分析得以合规开展,推动了区块链经济学与计算社会科学在数字资产领域的交叉融合。
实际应用
在实际应用层面,NFT-70M_transactions数据集为加密货币生态中的多个利益相关方提供了决策支持。交易平台可借助其分析用户行为,优化推荐系统与风险管理策略。投资者与分析师能够利用历史交易数据评估资产价值,制定更明智的投资组合。监管机构则可基于数据挖掘技术,监测市场异常活动,促进NFT市场的透明与稳定。这些应用彰显了数据集在连接学术研究与产业实践中的桥梁作用。
数据集最近研究
最新研究方向
在数字资产与区块链技术蓬勃发展的背景下,NFT-70M_transactions数据集作为涵盖2021至2023年间超过7000万笔交易的大规模多模态资源,正推动非替代性代币领域的前沿探索。当前研究聚焦于利用其丰富的交易序列与匿名化图结构数据,构建复杂的交易网络模型,以揭示市场中的洗售交易与欺诈行为模式,为监管科技提供数据驱动的洞察。同时,数据集融合的文本与图像嵌入向量激发了多模态学习方法的应用,学者们正探索结合视觉与语义特征的生成式模型,用于NFT价格预测与创意内容分析,这些进展不仅深化了对NFT经济生态的理解,也为Web3环境下的智能决策系统奠定了实证基础。
以上内容由遇见数据集搜集并总结生成



