pumpfun-real-data
收藏Hugging Face2026-05-17 更新2026-05-19 收录
下载链接:
https://huggingface.co/datasets/blackhawkdragon/pumpfun-real-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含366个样本,每个样本代表一个加密货币或代币(由mint字段标识)的金融与社交行为特征。特征涵盖价格统计(包括均值、标准差、最小值、最大值、总回报率、波动率、最大回撤、早期动量)、交易量(总交易量、平均交易量)、市场行为指标(买入比率、混乱评分)、社交媒体存在(是否拥有Twitter、对数变换的关注者数量、对数变换的浏览量、是否验证)、开发者活动(创建的代币数量、成功率)以及市场表现里程碑(是否达到50%和100%涨幅、是否迁移、峰值价格、最终价格)。数据集适用于加密货币市场分析、代币表现预测、风险管理或社交金融(SocialFi)相关的研究与建模任务。
创建时间:
2026-05-15
原始信息汇总
根据您提供的数据集详情页面地址和README文件内容,以下是对该数据集的总结:
数据集概述
- 名称: pumpfun-real-data
- 提供者: blackhawkdragon
- 地址: https://huggingface.co/datasets/blackhawkdragon/pumpfun-real-data
数据集规模
- 训练集样本数: 366 条
- 训练集大小: 87,818 字节
- 下载大小: 57,892 字节
数据特征
数据集包含25个特征,涵盖代币市场表现、交易行为、开发者信息及社交媒体指标,具体如下:
代币基本信息
mint(string): 代币合约地址
市场表现指标
start_mcap(float64): 初始市值price_mean(float64): 平均价格price_std(float64): 价格标准差price_min(float64): 最低价格price_max(float64): 最高价格peak_price(float64): 峰值价格final_price(float64): 最终价格
交易与回报指标
total_return(float64): 总回报率volatility(float64): 波动率max_drawdown(float64): 最大回撤early_momentum(float64): 早期动量volume_total(float64): 总交易量volume_mean(float64): 平均交易量buy_ratio(float64): 买入比例mayhem_score(float64): 混乱度评分
社交媒体指标
has_twitter(int64): 是否有Twitter账号(0或1)followers_log(float64): 粉丝数对数views_log(float64): 观看数对数verified(int64): 是否认证(0或1)
开发者信息
dev_tokens_created(int64): 开发者创建代币数量dev_success_rate(float64): 开发者成功率
里程碑与迁移状态
reached_50pct(int64): 是否达到50%涨幅(0或1)reached_100pct(int64): 是否达到100%涨幅(0或1)migrated(int64): 是否迁移(0或1)
数据划分
- 仅包含 train 一个数据划分,无验证集或测试集。
- 数据文件路径:
data/train-*
搜集汇总
数据集介绍

构建方式
该数据集源自Solana生态中新兴的pump.fun平台,旨在为迷因币(Meme Coin)市场的微观结构分析提供结构化数据支撑。构建过程中,研究者系统抓取了366个代币样本的链上交易与社交媒体数据,每条记录涵盖从代币铸造(mint)到最终状态的全生命周期指标,包括起始市值、价格时序统计量、动量因子、买卖比率及波动率特征。此外,还整合了开发者行为画像(如代币创建数量与成功率)与Twitter社交信号(如关注者对数、浏览量及认证状态),形成多维度特征矩阵,以捕捉价格发现过程中的异常行为模式。
特点
该数据集的核心特色在于其多维度的风险与收益刻画能力。一方面,通过价格均值、标准差、最大回撤和波动率等传统金融指标,量化了代币的价格波动特征;另一方面,独创的混乱指数(Mayhem Score)与早期动量因子,为识别拉盘-砸盘等市场操纵行为提供了新视角。同时,开发者画像与社交媒体指标的引入,揭示了幕后推手对代币生命周期的影响——例如开发者成功率与代币是否达到50%或100%涨幅门槛间的关联。最终,数据集还标注了代币是否迁移至去中心化交易所(DEX),为流动性演化研究提供了关键节点。
使用方法
该数据集适用于机器学习的分类与回归任务,例如预测代币能否达到特定涨幅门槛(reached_50pct、reached_100pct)或是否成功迁移。用户可直接利用pandas等工具加载train split中的366个样本,以mint为唯一标识符,基于price_mean、volatility、buy_ratio等数值特征构建预测模型。特别地,dev_tokens_created与dev_success_rate可作为评估开发者信誉的关键协变量,而has_twitter与verified等布尔变量则适合作为分组或正则化特征。建议在训练前对volatility、max_drawdown等偏态分布特征进行对数变换,以提升模型收敛效果。
背景与挑战
背景概述
pumpfun-real-data数据集是专注于Solana生态中Pump.fun平台发行的代币(即“pump代币”)领域的开创性数据集。该数据集创建于2024年,由对链上数据与社交媒体信号交叉分析具有深厚积累的研究团队构建。核心研究问题围绕新兴代币的早期价格动量、波动率特征与社会情绪指标的预测能力展开,尤其关注代币从发行到是否达到50%、100%涨幅乃至最终迁移至去中心化交易所(DEX)的完整生命周期。凭借包含代币合约地址、价格统计量、成交量、买卖比、开发者行为及Twitter相关特征等23个精细维度,pumpfun-real-data为探索模因币市场的高波动性、早期流动性陷阱及社交媒体驱动的投机动力学提供了首个系统性实证基础,填补了去中心化金融(DeFi)微观结构与社交媒体金融交叉研究的数据空白。
当前挑战
数据集的挑战首先在于所解决的领域问题——pump代币市场面临极度的信息不对称与操纵风险。现有金融预测模型难以适应其高度投机、快速退潮的特性,而该数据集通过纳入Twitter关注者、验证状态及开发者成功率等元特征,为量化早期名人效应与项目方成功概率开辟了新路径。在构建过程中,团队遭遇了链上数据噪音的严峻考验:需从海量Pump.fun合约中筛选真实交易记录,并准确计算期间内价格均值、标准差及最大回撤等稳健统计量。此外,社交媒体数据的时效性、机器人与虚假账号的干扰,以及如何将非结构化文本(如推文)有效压缩为结构化的粉丝数、阅读量等代理变量,共同构成了数据清洗与特征工程的核心难题。
常用场景
经典使用场景
在去中心化金融(DeFi)与Meme币市场研究领域,pumpfun-real-data数据集为分析新兴代币的早期价格行为提供了珍贵的微观视角。该数据集收录了366个代币样本的全生命周期交易指标,涵盖价格波动性、最大回撤、早期动量及交易量分布等核心特征。研究者常利用这些字段构建代币存活预测模型,或探索社交媒体关注度(如Twitter粉丝数、浏览量)与代币市场表现之间的关联机制,尤其聚焦于代币在Bonding Curve阶段达到50%或100%市值阈值的概率预测。
实际应用
在实际应用层面,该数据集为量化交易策略开发与风险管理工具设计提供了关键支撑。数据中的‘early_momentum’与‘volatility’特征可被用于构建早期预警系统,帮助交易者在代币迁移至去中心化交易所(DEX)前识别异常价格行为。此外,开发者画像字段(如dev_tokens_created与dev_success_rate)能够辅助构建项目可信度评估框架,降低投资者在Pump.fun这类平台上的决策风险。风控机构亦可依据最大回撤与交易占比指标,设计针对Meme币的波动性对冲方案。
衍生相关工作
基于该数据集衍生的经典工作主要集中在代币生存分析领域,例如利用Cox比例风险模型预测代币在24小时内‘rug pull’的概率,或通过随机森林算法识别具有迁移潜力的高价值代币。部分研究进一步引入自然语言处理方法,将Twitter验证状态(verified)与粉丝对数(followers_log)等特征融入注意力机制网络,构建多模态价格预测模型。这些工作不仅深化了对加密市场微观结构的理解,也催生了诸如‘Meme币早期动量因子’、‘开发者信誉评分’等创新投资指标,推动了计算金融学与行为经济学的交叉融合。
以上内容由遇见数据集搜集并总结生成



