MiMIC (Multi-Modal Indian Earnings Calls)

Name: MiMIC (Multi-Modal Indian Earnings Calls)
Creator: 加尔各答贾达普大学
Published: 2025-04-12 23:31:40
License: 暂无描述

arXiv2025-04-12 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/sohomghosh/MiMIC_Multi-Modal_Indian_Earnings_Calls_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MiMIC是一个多模态数据集，专为分析印度金融市场而设计。该数据集包括印度公司 earnings call 的文本记录、伴随的演示文稿、财务基本面、技术指标和随后的股票价格。它旨在通过结合定量变量和来自文本和视觉模态的预测信号，来增强特征表示和分析的全面性。这个数据集涵盖了代表 Nifty 50、Nifty MidCap 50 和 Nifty Small 50 指数的公司的 earnings call，对于促进计算经济学领域的研究具有重要意义。

MiMIC is a multimodal dataset specifically designed for the analysis of the Indian financial market. This dataset includes textual transcripts of Indian companies' earnings calls, accompanying presentation slides, financial fundamentals, technical indicators, and subsequent stock prices. It aims to enhance the comprehensiveness of feature representation and analysis by integrating quantitative variables and predictive signals from both textual and visual modalities. This dataset covers earnings calls of companies listed under the Nifty 50, Nifty MidCap 50, and Nifty Small 50 indices, and is of great significance for promoting research in the field of computational economics.

提供机构：

加尔各答贾达普大学

创建时间：

2025-04-12

搜集汇总

数据集介绍

构建方式

在金融数据分析领域，多模态信息融合已成为提升预测精度的重要途径。MiMIC数据集的构建采用了系统化的多源数据采集策略，覆盖印度Nifty 50、MidCap 50和Small 50指数成分股公司。通过整合2019年至2024年的收益电话会议文本记录、演示文稿视觉素材、结构化财务表格以及技术指标等多元数据，研究人员运用光学字符识别技术处理文本密集型幻灯片，采用图像转表格工具提取关键财务数据，并保留原始图表进行视觉特征分析。数据清洗过程中剔除了文本和视觉材料不完整的实例，最终形成包含1,042条有效样本的跨模态数据集，按时间序列划分为训练集（80%）、验证集（10%）和测试集（10%）三个子集。

特点

该数据集的核心价值在于其独特的跨模态特性与地域专属性。作为首个面向印度市场的多模态金融数据集，MiMIC不仅包含传统的文本转录和数值指标，更创新性地整合了演示文稿中的视觉元素，如信息图表和财务趋势图。数据集涵盖技术指标（如RSI14、SMA均线）、宏观变量（GDP增长率、通胀率）以及详尽的财务基本面数据（包括现金流量表、资产负债表等年度指标），构建了包含133家上市公司五年期多维时间序列的完整生态。特别值得注意的是，数据采集过程保留了原始幻灯片中的视觉语义信息，为研究图文协同效应提供了独特素材，弥补了新兴市场多模态金融数据资源的空白。

使用方法

该数据集支持端到端的多模态金融预测研究，推荐采用级联式分析框架进行开发。实践表明，直接融合文本嵌入与视觉特征可能导致模型性能下降，而分阶段处理策略更为有效：首先利用Nomic 1.5模型分别提取文本和图像的特征嵌入，训练独立的分类器预测次日股价涨跌概率；继而将这些概率作为元特征与原始数值指标共同输入回归模型。研究者在实验中采用三层前馈神经网络架构（隐藏单元20个、丢弃率10%），配合XGBoost（30棵树）和分布式随机森林（40棵树）分类器，实现了最优的MAE（104.787）和RMSE（188.537）指标。对于高级应用，可将原始图文数据输入Llama-4等多模态模型进行零样本预测，但需注意专业金融场景下的性能局限。

背景与挑战

背景概述

MiMIC（多模态印度收益电话会议）数据集由Jadavpur大学的Sohom Ghosh等研究人员于2025年推出，旨在填补印度金融市场多模态数据分析的空白。该数据集聚焦于企业收益电话会议对股票价格的影响这一核心研究问题，整合了文本记录、演示文稿、基本面数据和技术指标等多源信息，覆盖了Nifty 50、Nifty MidCap 50和Nifty Small 50指数的代表性企业。作为首个针对印度市场的多模态金融数据集，MiMIC为研究企业信息披露与市场反应之间的复杂关系提供了重要基础，推动了计算经济学领域多模态机器学习方法的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态金融数据（文本、图像、表格）的异构性融合问题，以及印度市场特有的监管差异和文化语境对信息解读的影响；在构建过程中，数据采集面临企业信息披露不完整、视觉元素标准化程度低等困难，且需通过光学字符识别等技术处理非结构化数据。此外，音频数据的普遍缺失限制了跨模态关联分析的完整性，而印度市场动态的特殊性也要求模型具备更强的领域适应性。

常用场景

经典使用场景

在金融科技领域，MiMIC数据集为研究人员提供了一个独特的多模态分析平台，特别聚焦于印度股市中企业财报电话会议对次日股价的影响。该数据集整合了财报会议的文字记录、演示文稿中的图表、公司基本面数据以及技术指标，使得研究者能够深入探索文本语义、视觉信息与量化指标之间的协同效应。通过跨模态特征融合，该数据集典型应用于开发端到端的股价预测模型，为量化金融领域提供了宝贵的实验基准。

解决学术问题

MiMIC数据集有效解决了新兴市场多模态金融数据分析的空白问题，尤其针对印度股市特有的监管环境和文化语境。其创新性地证明了演示文稿视觉元素（如财务图表）与文本记录的互补价值，突破了传统仅依赖数值或文本的单模态研究局限。该数据集通过提供标准化评估框架，显著推进了跨模态表示学习、时序预测模型优化等关键学术方向的发展，并为新兴市场金融信息处理范式建立了理论基础。

衍生相关工作

基于MiMIC的基准研究催生了多个创新方向，包括融合音频模态的三维分析框架（VolTAGE）、面向印度市场的跨模态注意力机制（Sawhney et al.），以及财务图表语义解析专用模型（FinChart）。该数据集还促进了Nomic Embed等通用嵌入模型在金融领域的适配优化，衍生出针对财报文本的领域自适应预训练技术。后续研究正探索将其扩展至东南亚新兴市场比较分析。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集