FAMMA
收藏arXiv2024-10-08 更新2024-10-09 收录
下载链接:
https://famma-bench.github.io/famma/
下载链接
链接失效反馈资源简介:
FAMMA是一个开源的金融多语言多模态问答基准数据集,由浙江大学和Ant Group共同创建。该数据集包含1758个精心收集的问题-答案对,涵盖了公司金融、资产管理、金融工程等8个主要金融子领域。数据集中的问题以中、英、法三种语言呈现,并结合了文本和异构图像类型,如图表、表格和图示。创建过程中,数据集通过两阶段质量控制确保数据准确性,并根据CFA课程标准进行难度分类。FAMMA旨在评估多模态大语言模型在复杂金融知识问答中的能力,推动金融领域专家系统的研究。
FAMMA is an open-source financial multilingual multimodal question-answering benchmark dataset, co-created by Zhejiang University and Ant Group. It contains 1758 carefully curated question-answer pairs covering 8 major financial sub-fields including corporate finance, asset management, financial engineering and others. The questions in the dataset are presented in three languages: Chinese, English and French, and combine text with heterogeneous image modalities such as charts, tables and diagrams. During the dataset development process, a two-stage quality control mechanism was adopted to ensure data accuracy, and the difficulty of the samples was classified according to the CFA curriculum standards. FAMMA aims to evaluate the capabilities of multimodal large language models in complex financial knowledge question answering tasks, and promote research on expert systems in the financial domain.
提供机构:
浙江大学
创建时间:
2024-10-06
AI搜集汇总
数据集介绍

构建方式
FAMMA数据集的构建基于对金融领域多语言多模态问答能力的评估需求。该数据集精心收集了来自大学教材和考试的1,758个问答对,涵盖了公司金融、资产管理、金融工程等8个主要子领域。这些问答对不仅包括英文,还涵盖了中文和法文,且问题形式多样,结合了文本和异质图像类型,如图表、表格和图示。通过这种方式,FAMMA旨在全面反映金融从业者在日常工作中处理的真实问题。
使用方法
FAMMA数据集适用于评估和提升多模态大语言模型在金融领域的问答能力。用户可以通过该数据集进行模型训练和验证,以提高其在处理多语言和多模态金融问题上的表现。数据集的详细解释和图像支持也为用户提供了丰富的上下文信息,有助于更准确地理解和应用这些问答对。此外,FAMMA的开放性和多样性使其成为研究和开发金融领域专家系统的宝贵资源。
背景与挑战
背景概述
FAMMA数据集由Ant Group和浙江大学联合开发,旨在评估多模态大语言模型在金融领域中的问答能力。该数据集于2024年发布,包含了1,758个精心收集的问题-答案对,涵盖了公司金融、资产管理、金融工程等8个主要子领域。这些问题不仅涉及复杂的金融知识,还结合了文本和异质图像类型,如图表、表格和图示。FAMMA的推出填补了金融推理领域高质量基准的空白,为研究人员提供了一个评估和提升模型性能的平台。
当前挑战
FAMMA数据集面临的挑战主要体现在两个方面。首先,金融领域的复杂性和专业性要求模型具备深厚的领域知识和高水平的推理能力。尽管如GPT-4o和Claude-35-Sonnet等先进模型在FAMMA上的准确率仅为42%,远低于人类表现,这表明现有模型在处理金融问题时仍存在显著不足。其次,数据集的构建过程中,如何确保问题的多样性和高质量是一个重大挑战。FAMMA不仅包含了多语言(如中文和法语)的问题,还涉及多种数据模态,这增加了数据收集和处理的复杂性。
常用场景
经典使用场景
FAMMA数据集的经典使用场景主要集中在评估多模态大语言模型(MLLMs)在金融领域中的问答能力。该数据集通过包含1,758个精心收集的问题-答案对,涵盖了公司金融、资产管理、金融工程等8个主要子领域,旨在测试模型在处理复杂金融知识和推理问题上的表现。这些问题不仅涉及文本,还包括图表、表格和图示等多种图像类型,从而全面评估模型在多模态环境下的性能。
解决学术问题
FAMMA数据集解决了现有金融领域问答基准数据集的不足,特别是那些仅包含文本问题且仅限于英语的数据集。FAMMA通过引入多语言(包括中文和法语)和多模态(图像)的问题,填补了这一领域的空白。这不仅提升了对模型在复杂金融环境中理解和推理能力的评估,还为开发更专业的金融问答系统提供了基础,推动了金融领域人工智能研究的进步。
实际应用
在实际应用中,FAMMA数据集可以用于训练和验证金融领域的智能助手和聊天机器人,这些系统能够帮助金融从业者处理日常工作中的复杂查询。例如,风险管理专家可以使用这些系统来快速获取和分析市场数据,而投资顾问则可以利用这些系统为客户提供更精准的投资建议。此外,FAMMA还可以用于开发自动化的财务报告分析工具,提高金融分析师的工作效率。
数据集最近研究
最新研究方向
近年来,金融领域的多语言多模态问答(QA)系统研究取得了显著进展,其中FAMMA数据集的引入为这一领域带来了新的挑战和机遇。FAMMA数据集不仅涵盖了金融领域的多个子领域,如公司金融、资产管理、金融工程等,还包含了多种语言(如英语、中文、法语)和多模态数据(如图表、表格、图像),旨在评估多模态大语言模型(MLLMs)在复杂金融知识问答中的能力。研究者们通过在FAMMA数据集上的实验,发现即使是如GPT-4o和Claude-35-Sonnet这样的先进系统,准确率也仅为42%,显示出这些模型在处理金融领域复杂问题时的局限性。此外,研究还探索了GPT o1-style推理链以增强模型的推理能力,显著提高了错误纠正的效果。这些研究不仅推动了金融QA系统的发展,也为未来开发更专业的金融问答系统提供了宝贵的参考。
相关研究论文
- 1FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering浙江大学 · 2024年
以上内容由AI搜集并总结生成



