five

FinML-Chain|区块链数据集|金融机器学习数据集

收藏
arXiv2024-11-25 更新2024-11-27 收录
区块链
金融机器学习
下载链接:
https://huggingface.co/datasets/StevenJingfeng/FinML
下载链接
链接失效反馈
资源简介:
FinML-Chain是由杜克昆山大学开发的区块链集成数据集,旨在增强金融机器学习。该数据集整合了高频链上数据和低频链下数据,提供了经济机制设计研究的新基准。数据集内容包括以太坊的区块链数据和Discord上的用户讨论文本,总大小为80.4MB和4.92MB、13.4MB。数据集的创建过程结合了区块链技术的透明性、不可篡改性和实时更新特性,确保数据的高质量和可靠性。该数据集主要应用于金融市场的机器学习模型优化,特别是以太坊交易费机制的研究,旨在解决数据缺失、透明度不足等问题,提升预测模型的准确性和可靠性。
提供机构:
杜克昆山大学
创建时间:
2024-11-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
FinML-Chain数据集的构建方式独具匠心,它巧妙地整合了高频的链上数据与低频的链下数据,形成了一个综合性的数据框架。链上数据来源于以太坊区块链,通过Google BigQuery提取,包含时间戳、区块编号、哈希值等详细信息。链下数据则从Discord社区获取,涵盖了用户讨论文本,这些文本通过DiscordChatExporter工具进行采集。这种双源数据的融合,不仅确保了数据的透明性和安全性,还增强了数据的多源兼容性和相互印证性,为经济机制设计中的新型研究问题提供了坚实的基础。
使用方法
FinML-Chain数据集的使用方法多样且灵活,适用于多种金融机器学习模型的训练和验证。研究人员可以利用该数据集进行时间序列分析,采用线性回归、深度神经网络、XGBoost和LSTM等多种机器学习技术,以预测未来的交易费用和优化交易机制。此外,数据集的开源性质使得研究人员可以自由访问和扩展数据,进一步探索区块链驱动的经济系统中的复杂问题。通过提供详尽的数据和代码,FinML-Chain旨在促进研究社区内的可重复性、透明度和协作,推动金融机器学习领域的创新和发展。
背景与挑战
背景概述
FinML-Chain数据集由Duke Kunshan University的Jingfeng Chen、Wanlin Deng、Dangxing Chen和Luyao Zhang等人于2024年创建。该数据集旨在通过整合高频链上数据与低频链下数据,解决金融机器学习中的数据缺失、透明度不足、更新不及时、数据不安全及数据源不兼容等问题。区块链技术的透明性、不可篡改性和实时更新特性为此提供了新的解决方案。FinML-Chain不仅是一个数据集,更是一个集成框架,为经济机制设计中的新研究问题提供基准,推动金融研究的创新和发展。
当前挑战
FinML-Chain数据集面临的挑战包括:1) 解决金融机器学习中的数据缺失、透明度不足、更新不及时、数据不安全及数据源不兼容等问题;2) 在构建过程中,如何有效整合高频链上数据与低频链下数据,确保数据的兼容性和可扩展性;3) 如何利用机器学习模型,如线性回归、深度神经网络、XGBoost和LSTM,对链上数据进行准确预测,以优化区块链交易费用机制,如以太坊的EIP-1559机制。此外,数据集的开放性和可扩展性也是其面临的挑战,需确保框架和输出完全开源,促进研究社区的复现性和协作性。
常用场景
经典使用场景
FinML-Chain数据集的经典使用场景在于其整合了高频链上数据与低频链下数据,为金融机器学习提供了独特的数据框架。该数据集特别适用于研究以太坊的交易费用机制(TFM),通过结合区块链的透明性和不可篡改性,以及链下讨论数据的情感分析,能够有效预测未来的燃气需求,从而优化交易费用的动态调整。
解决学术问题
FinML-Chain数据集解决了金融机器学习中常见的数据缺失、透明度不足、更新不及时等问题。通过引入区块链技术,该数据集确保了数据的透明性、不可篡改性和实时更新,从而提高了预测模型的准确性和可靠性。此外,该数据集还为经济机制设计中的新研究问题提供了基准,推动了区块链驱动经济系统的深入理解。
实际应用
FinML-Chain数据集在实际应用中具有广泛的前景,特别是在去中心化金融(DeFi)领域。通过精确预测燃气需求,该数据集能够帮助优化交易费用机制,提升交易效率和用户体验。此外,该数据集还可用于金融市场的供需预测、交易机制设计等多个金融应用场景,为金融决策提供数据支持。
数据集最近研究
最新研究方向
在金融机器学习领域,FinML-Chain数据集的最新研究方向聚焦于利用区块链技术解决传统金融数据分析中的透明度、实时性和安全性问题。该数据集通过整合高频链上数据与低频链下数据,为经济机制设计提供了新的研究框架。具体而言,研究者们正探索如何通过机器学习模型,如线性回归、深度神经网络、XGBoost和LSTM,来优化区块链交易费用机制,特别是以太坊的EIP-1559机制,从而实现从被动调整到主动预测的转变。此外,该数据集的开源特性促进了研究的可重复性和透明度,为跨学科研究提供了坚实基础,特别是在机器学习、区块链和经济学交叉领域。
相关研究论文
  • 1
    FinML-Chain: A Blockchain-Integrated Dataset for Enhanced Financial Machine Learning杜克昆山大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

BDD100K

数据集推动了视觉的进步,但现有的驾驶数据集在视觉内容和支持任务方面缺乏研究,以研究自动驾驶的多任务学习。研究人员通常只能在一个数据集上研究一小组问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了最大的驾驶视频数据集 BDD100K,包含 10 万个视频和 10 个任务,以评估图像识别算法在自动驾驶方面的令人兴奋的进展。该数据集具有地理、环境和天气的多样性,这对于训练不太可能对新条件感到惊讶的模型很有用。基于这个多样化的数据集,我们为异构多任务学习建立了一个基准,并研究了如何一起解决这些任务。我们的实验表明,现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的学习打开了大门。更多详细信息请参见数据集主页。

OpenDataLab 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

UAV-VisLoc - 用于无人机视觉定位的大规模数据集

UAV-VisLoc数据集由北京邮电大学、中科院和香港城市大学联合构建,旨在解决无人机在失去全球导航卫星系统信号时的精确定位问题。该数据集涵盖了中国11个不同地点的无人机图像,捕获了多样化的地形特征,包括固定翼无人机和多地形无人机在不同高度和方向上拍摄的6742张图像以及11幅卫星地图。每张图像均附有经纬度、高度、拍摄日期和航向角等元数据,为模型的训练与测试提供了丰富多元的数据支持。UAV-VisLoc数据集用于支持无人机视觉定位任务,为无人机视觉定位任务提供了训练和测试样本,通过匹配无人机拍摄的地面向下视角图像与正射卫星地图,实现无人机的自主视觉定位。

github 收录