five

pump and dump dataset

收藏
github2024-05-24 更新2024-05-31 收录
下载链接:
https://github.com/SystemsLab-Sapienza/pump-and-dump-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了一系列通过Telegram群组组织的加密货币市场操纵事件,即pump and dump事件。数据集中的pump_telegram.csv文件列出了这些事件的详细信息,包括被操纵的货币符号、组织群组的代码、事件日期和时间以及涉及的交易所。所有事件均涉及交易对SYM/BTC。此外,数据集还提供了用于训练机器学习模型的交易数据下载脚本。

This dataset comprises a series of cryptocurrency market manipulation events, specifically pump and dump schemes, organized through Telegram groups. The pump_telegram.csv file within the dataset details these events, including the manipulated currency symbols, the codes of the organizing groups, the dates and times of the events, and the exchanges involved. All events pertain to the trading pair SYM/BTC. Additionally, the dataset provides a script for downloading trading data intended for training machine learning models.
创建时间:
2020-10-22
原始信息汇总

数据集概述

数据集名称

  • Pump and dump dataset

数据集来源

  • 该数据集是用于论文《Pump and Dumps in the Bitcoin Era: Real Time Detection of Cryptocurrency Market Manipulations》的扩展版本。

数据集内容

  • 主要文件

    • pump_telegram.csv: 包含泵和转储事件的详细信息,每行记录包括:
      • symbol: 被泵送的货币符号
      • group: 组织泵和转储的群组代码
      • date: 泵和转储日期
      • hour: 泵和转储时间(UTC)
      • exchange: 目标交易所
  • 附加文件

    • group.csv: 包含泵和转储群组的详细信息,包括:
      • group_name: 群组名称
      • group_code: 群组代码
      • last_time_checked: 上次从Telegram频道检索泵和转储的时间
      • telegram_link: Telegram频道链接

数据集使用

  • 数据集用于训练机器学习模型,提供了下载Binance交易所交易记录的脚本。
  • 提供了用于计算机器学习模型特征的脚本,生成的特征包括:
    • StdRushOrders, AvgRushOrders
    • StdTrades
    • StdVolumes, AvgVolumes
    • StdPrice, AvgPrice
    • AvgPriceMax

数据集贡献

  • 欢迎用户通过创建pull request来帮助维护和更新数据集。

数据集安装与使用

  • 通过克隆仓库并运行特定脚本,可以下载交易数据和计算特征。

数据集注意事项

  • 所有数据集中的泵和转储事件都是针对交易对SYM/BTC。
  • 标记的特征可能比pump_telegram.csv文件中报告的时间早最多120秒,这通常是由于管理员对目标货币的预泵操作。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对Telegram上组织的一系列‘pump and dump’事件的详细记录。具体而言,数据集包括了每个事件的加密货币符号、组织该事件的Telegram群组代码、事件发生的日期和时间,以及目标交易所。此外,数据集还提供了用于训练机器学习模型的交易数据,这些数据通过从Binance交易所下载获得,包含了交易的详细信息如时间戳、交易类型、价格和交易量等。通过这种方式,数据集不仅记录了市场操纵事件的基本信息,还提供了用于分析和模型训练的详细交易数据。
特点
该数据集的一个显著特点是其全面性和实时性。它不仅包含了‘pump and dump’事件的基本信息,还提供了详细的交易数据,这些数据可以用于训练机器学习模型以实时检测市场操纵行为。此外,数据集还包含了不同时间窗口的交易特征,如交易量的标准差和平均值、价格的波动等,这些特征有助于更精确地识别和预测市场操纵行为。数据集的另一个特点是其开放性和可扩展性,用户可以通过贡献新的数据来更新和扩展数据集。
使用方法
使用该数据集的第一步是克隆GitHub仓库并安装所需的依赖包。随后,用户可以通过运行`downloader.py`脚本来下载Binance交易所的交易数据。为了生成用于机器学习模型的特征,用户可以运行`features.py`脚本,该脚本会生成不同时间窗口的交易特征文件。最后,用户可以通过运行`classifier.py`脚本来执行分类器,利用标记的特征数据进行市场操纵行为的检测。通过这些步骤,用户可以充分利用数据集进行市场操纵行为的实时检测和分析。
背景与挑战
背景概述
在加密货币市场中,操纵行为如'pump and dump'(拉高抛售)策略对市场稳定性构成严重威胁。该数据集由M. La Morgia、A. Mei、F. Sassi和J. Stefa等研究人员于2020年创建,旨在通过分析Telegram上的群组活动,实时检测此类市场操纵行为。该数据集的核心研究问题是如何利用机器学习模型有效识别和预测加密货币市场的操纵事件,从而为监管机构提供技术支持。该数据集的发布对加密货币市场的监管和投资者保护具有重要意义,推动了相关领域的研究进展。
当前挑战
该数据集面临的挑战主要包括:首先,数据的真实性和时效性问题,由于加密货币市场的高波动性和匿名性,确保数据的准确性和及时更新是一大难题。其次,数据集的构建过程中,研究人员需从Telegram等社交平台获取大量非结构化数据,并进行清洗和标注,这一过程复杂且耗时。此外,如何处理市场操纵行为的时间延迟问题,即操纵行为可能在信号发布前或后发生,也是该数据集需要解决的关键挑战。最后,机器学习模型的训练和优化需要大量的计算资源和专业知识,这也是该数据集应用中的一个重要挑战。
常用场景
经典使用场景
在加密货币市场中,'pump and dump dataset' 数据集被广泛用于实时检测和分析市场操纵行为,特别是通过Telegram群组进行的'pump and dump'操作。该数据集详细记录了每次市场操纵的时间、涉及的加密货币符号、操作群组的代码以及目标交易所等信息。通过这些数据,研究人员和市场分析师能够构建机器学习模型,以识别和预测潜在的市场操纵行为,从而提高市场的透明度和公正性。
解决学术问题
该数据集解决了加密货币市场中长期存在的学术研究问题,即如何有效检测和预防市场操纵行为。通过提供详细的交易数据和市场操纵事件的时间戳,研究人员能够开发出更为精确的检测算法和模型。这不仅有助于学术界对市场操纵行为的深入理解,也为监管机构提供了有力的工具,以打击此类非法活动,维护市场的健康和稳定。
衍生相关工作
基于'pump and dump dataset',许多相关研究工作得以展开。例如,有研究者利用该数据集开发了新的机器学习模型,以提高市场操纵行为的检测精度。此外,还有学者通过分析数据集中的交易模式,提出了新的市场操纵理论和策略。这些衍生工作不仅丰富了加密货币市场的研究领域,也为实际应用提供了更多创新解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作