five

GenChaR

收藏
arXiv2024-12-05 更新2024-12-11 收录
下载链接:
http://arxiv.org/abs/2412.04041v1
下载链接
链接失效反馈
官方服务:
资源简介:
GenChaR数据集是由香港理工大学创建的一个用于股票图表描述任务的新数据集。该数据集包含1972对图表-描述对,旨在通过自动生成描述文本,帮助理解股票市场的动态。数据集的内容主要来源于ElliottWave-Forecast公司发布的分析文章,经过筛选和清理后,确保每对图表-描述对的质量。数据集的创建过程包括样本收集、图表注释和数据清洗,确保数据的准确性和可用性。该数据集主要应用于金融领域的技术分析,旨在通过图像描述生成技术,为投资者提供更直观的市场分析和决策支持。
提供机构:
香港理工大学
创建时间:
2024-12-05
搜集汇总
数据集介绍
main_image_url
构建方式
GenChaR数据集的构建基于ElliottWave-Forecast公司发布的分析文章,该公司是全球顶尖的技术分析公司,涵盖了80多个市场,包括外汇、商品、全球指数以及美国股票和ETF。研究团队采用Elliott Wave Principle(EWP)作为主要工具进行图表分析,并提供预测和指导。数据集从2024年2月发布的文章中提取,每篇文章被拆分为图像和文本,去除无关信息后,最终保留了1972对图表-描述对,并按8:2的比例划分为训练集和测试集。此外,图表中的注释被分类为Degree、Time、Price和Add-on等类别,并进一步标注了预测模式的端点,以便于后续的自动模式完成研究。
特点
GenChaR数据集的显著特点在于其专注于股票图表的描述生成任务,不同于传统的图像描述任务,该数据集要求生成多句描述,涵盖图表的历史价格走势和预测趋势,并提供交易建议。此外,数据集中的图表注释丰富,包括Elliott Wave Principle的波段标注,使得图表的解读更加精确和全面。数据集的多样性和专业性使其成为研究股票图表自动解读的理想资源。
使用方法
GenChaR数据集适用于多模态模型在股票图表描述生成任务中的应用。研究者可以使用该数据集训练和评估模型,以生成准确且信息丰富的图表描述。数据集的图表注释和多句描述特性为模型提供了丰富的上下文信息,有助于提升模型的理解和生成能力。此外,数据集的分割方式和注释分类为模型的训练和测试提供了标准化的评估框架,便于不同模型之间的性能比较。
背景与挑战
背景概述
近年来,随着大型语言模型(LLMs)和视觉语言模型(LVLMs)的快速发展,图像描述生成任务在多个领域取得了显著进展。然而,针对股票图表的图像描述任务仍处于探索阶段。GenChaR数据集由香港理工大学的QIU Le和Emmanuele CHERSONI于2024年创建,旨在通过图像描述技术解读股票图表中的市场情绪,并生成有助于股票交易的描述文本。该数据集基于ElliottWave-Forecast公司的分析文章,涵盖了80多个市场的股票、外汇、商品和全球指数,为股票图表描述任务提供了丰富的数据资源。GenChaR的提出不仅填补了现有图像描述数据集在金融领域的空白,还为金融技术分析领域提供了新的研究方向。
当前挑战
GenChaR数据集的构建面临多重挑战。首先,股票图表的解读需要结合历史价格走势和未来预测趋势,这对模型的多模态理解和生成能力提出了较高要求。其次,传统的图像描述任务通常生成简短的单句描述,而股票图表的描述需要生成多句、信息丰富的文本,以提供全面的交易建议。此外,现有的图像描述评估指标如BLEU、ROUGE等在处理长文本时表现不佳,难以准确衡量生成的描述与参考文本之间的语义相似性。最后,金融领域的敏感性使得模型在生成描述时可能面临服务拒绝等问题,这进一步增加了任务的复杂性。
常用场景
经典使用场景
GenChaR数据集的经典使用场景主要集中在股票图表的自动描述生成任务上。该任务旨在通过分析股票图表中的历史价格走势和预测趋势,生成多句描述文本,为投资者提供清晰且有用的市场洞察。这种自动化的描述生成不仅帮助专业交易员快速获取关键信息,还能为新手投资者提供易于理解的指导,从而在快节奏或非交易时段支持他们的决策过程。
解决学术问题
GenChaR数据集解决了传统图像描述生成(IC)任务中无法满足金融领域需求的学术问题。传统IC任务通常生成简短的单句描述,难以涵盖股票图表中的复杂信息,尤其是历史走势和未来预测。GenChaR通过引入多句描述和详细的图表解读,填补了这一空白,为金融领域的图像描述生成提供了新的研究方向,推动了多模态模型在金融分析中的应用。
衍生相关工作
GenChaR数据集的推出激发了大量相关研究工作,特别是在多模态金融模型的发展方面。例如,基于GenChaR的研究衍生出了如MMCA、FinTral和Open-FinLLMs等定制化多模态大语言模型,这些模型在金融图表分析和市场预测任务中表现出色。此外,GenChaR还推动了图像描述生成任务在金融领域的扩展,促进了更多针对金融数据的图像描述生成方法的研究与应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作