MiMIC_Multi-Modal_Indian_Earnings_Calls_Dataset
收藏Hugging Face2025-04-18 更新2025-04-19 收录
下载链接:
https://huggingface.co/datasets/sohomghosh/MiMIC_Multi-Modal_Indian_Earnings_Calls_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
MiMIC多模态印度收益电话会议数据集,用于预测股票价格。该数据集包含了公司的财务报告和股市信息,以及与之相关的电话会议文本、图像和表格数据。
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
在金融数据分析领域,多模态信息的整合对市场预测具有重要意义。MiMIC数据集通过系统化采集印度上市公司财报电话会议的多模态数据构建而成,涵盖2015-2023年间200余家企业的完整财务周期数据。研究人员从公开财报会议中提取了结构化财务数据、会议记录文本、演示文稿图像三种模态数据,并采用光学字符识别技术从演示图像中提取表格数据。所有原始数据经过标准化清洗后,通过特征工程构建了包含87个财务指标和宏观经济变量的综合特征集,最终形成包含训练集、验证集和测试集的标准化数据集。
特点
该数据集最显著的特点是实现了财务领域多模态数据的深度融合。文本模态包含完整的财报会议转录内容,视觉模态涵盖演示文稿中的关键图表和数据可视化,结构化数据则整合了企业财务指标与宏观经济变量。数据集特别设计了时序对齐机制,确保不同模态数据与股价变动的时序一致性。所有文本和图像数据均经过128维嵌入表示,并采用均值池化处理多图像实例,为多模态学习提供了统一的特征空间。数据集还包含经过归一化处理的回归目标变量,支持端到端的股价预测建模。
使用方法
使用该数据集时,研究者可通过加载预处理的CSV文件快速获取结构化数据,利用提供的pickle文件直接调用文本嵌入特征。对于多模态实验,建议结合图像嵌入文件(image_embedding_mean_pooled_128_dim_CPU_df.csv)与文本嵌入文件(getting_all_texts_together_embeddings_dim128_CPU.pkl)进行联合建模。数据集已预分割为训练集、验证集和测试集,可直接用于模型训练与评估。配套提供的Jupyter Notebook示例代码展示了完整的分析流程,包括特征工程、多模态融合和预测建模的实现方法。对于高级应用,用户可进一步处理raw_data目录下的原始文本和图像数据,构建定制化的特征表示。
背景与挑战
背景概述
MiMIC_Multi-Modal_Indian_Earnings_Calls_Dataset是由Sohom Ghosh、Arnab Maji和Sudip Kumar Naskar于2025年共同创建的多模态金融数据集,旨在通过整合印度上市公司财报电话会议中的文本、图像和表格数据,预测股票价格走势。该数据集涵盖了公司财务指标、宏观经济数据及技术分析指标等多维度信息,为金融科技领域的研究提供了丰富的多模态数据支持。其核心研究问题在于探索多模态数据融合对股价预测的潜在提升效果,填补了印度市场在该领域的空白,对量化投资和金融信息处理具有重要的学术与实践价值。
当前挑战
该数据集面临的主要挑战包括多模态数据对齐与融合的复杂性,财报电话会议中的文本、图像和表格数据需在时序和语义层面实现有效整合;数据质量控制的难度,原始数据中存在大量非结构化信息,需通过复杂的预处理流程提取有效特征;以及印度市场特有的金融数据噪声问题,如政策变动频繁、市场波动剧烈等因素增加了预测模型的不确定性。构建过程中,研究人员还需克服多源异构数据采集的技术瓶颈,确保不同模态数据在时间维度和语义空间的一致性。
常用场景
经典使用场景
在金融分析领域,MiMIC数据集为研究者提供了一个多模态的印度企业财报电话会议数据集,结合了文本、图像和表格数据。该数据集最经典的使用场景是通过分析财报电话会议中的多模态信息,预测股票价格的短期波动。研究者可以利用该数据集中的文本转录、演示文稿图像和财务表格,构建机器学习模型,捕捉市场情绪和财务指标对股价的影响。
解决学术问题
MiMIC数据集解决了金融领域多个关键学术问题,包括多模态数据融合在股价预测中的应用、财报电话会议中非结构化信息的量化分析,以及宏观经济指标与公司财务表现的关联性研究。该数据集通过提供丰富的多模态数据,填补了传统金融分析中仅依赖结构化数据的局限性,为学术界提供了更全面的研究工具。
衍生相关工作
MiMIC数据集衍生了多项经典研究工作,包括基于多模态融合的股价预测模型、财报电话会议文本的情感分析,以及图像和表格数据的自动提取与分类技术。这些研究不仅推动了金融科技领域的发展,也为自然语言处理和计算机视觉在金融中的应用提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



