tweet-stock-synthetic-subsampled

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/jinaai/tweet-stock-synthetic-subsampled

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从Kaggle的原始数据集创建的子集，包含不同语言的推文股票文档检索数据。每个文档包含查询、图像、图像文件名和文本描述。文本描述是通过OCR技术从图像中提取的文本。数据集为每个语言版本提供了1000个随机样本的测试集。

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

在金融社交媒体分析领域，tweet-stock-synthetic-subsampled数据集源自Kaggle平台原始推文情感与股票回报关联数据，通过系统化模板渲染生成结构化查询。采用多语言平行构建策略，从完整数据集中为每种语言随机抽取最多1000条样本，确保数据代表性的同时控制规模。图像文本描述通过EasyOCR技术进行光学字符识别提取，形成图文对齐的多模态数据单元。

特点

该数据集突出表现为覆盖十大语种的多语言平行语料特性，包含阿拉伯语、德语、英语、西班牙语、法语、印地语、匈牙利语、日语、俄语及中文版本。每个语言配置均包含查询文本、对应图像、图像文件名及OCR提取的文本描述四维特征，构成跨模态检索研究的完整数据要素。所有样本均整合为统一的测试分割，数据规模保持在44至49MB之间，兼顾深度学习模型训练的效率与需求。

使用方法

背景与挑战

背景概述

随着社交媒体与金融市场联动性研究的深入，推特情感分析对股价预测的价值日益凸显。该数据集由Jina AI团队基于Kaggle原初数据构建，通过多语言合成技术整合了文本查询与可视化金融图表，旨在探索跨语言环境下社交媒体情感与股票收益的关联机制。其创新性地采用OCR技术提取图像中的文本信息，为量化金融与计算语言学交叉研究提供了重要基准。

当前挑战

该数据集核心挑战在于解决多模态金融文本-图像匹配任务的复杂性，需同时处理跨语言情感表达差异与金融图表语义解析。构建过程中面临多语言OCR文本提取精度问题，特别是非拉丁字符的识别准确度；此外需平衡合成数据的真实性与多样性，避免生成偏差影响模型泛化能力。

常用场景

经典使用场景

在金融科技与自然语言处理的交叉领域，该数据集为研究社交媒体情感与股票市场关联提供了多模态实验平台。其经典使用场景集中于训练跨语言文档检索模型，通过查询文本与对应股票市场推文图像的匹配任务，验证多语言环境下图文关联算法的有效性。研究者可借助该数据集构建端到端的检索系统，评估模型在不同语言场景下的泛化能力与鲁棒性。

解决学术问题

该数据集有效解决了跨模态信息检索中的语言多样性挑战，为量化金融领域的社交媒体分析提供了标准化基准。其多语言特性支持研究者探索语言文化差异对情感分析模型性能的影响，同时通过合成查询模板与真实推文数据的结合，缓解了训练数据稀缺性问题。该资源显著推进了金融文本挖掘、跨语言迁移学习及多模态表示学习等方向的方法创新与理论突破。

衍生相关工作

该数据集衍生出多项跨模态检索领域的创新研究，包括基于对比学习的多语言图文匹配框架、融合OCR技术的金融文档理解系统等。相关经典工作扩展了低资源语言下的情感分析模型，推动了注意力机制在多语言环境下的优化研究。部分成果进一步应用于构建跨语言金融知识图谱，为全球资本市场分析提供了新的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集