M3FinMeeting

Name: M3FinMeeting
Creator: 苏州大学计算机科学与技术学院, 阿里巴巴云计算栖云点津团队, 南京大学
Published: 2025-06-03 14:41:09
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/aliyun/qwen-dianjin

下载链接

链接失效反馈

官方服务：

资源简介：

M3FinMeeting是一个多语言、多行业和多任务的金融会议理解评估数据集，包含英语、中文和日语三种语言，覆盖全球行业分类标准（GICS）定义的11个行业领域。数据集包括300场英文会议、400场中文会议和100场日文会议的转录文本，每场会议平均时长约1小时。数据集包含三个任务：摘要、问答对提取和问答。数据集由金融分析师进行手动标注，以确保高质量和准确的评估。

M3FinMeeting is a multilingual, multi-industry and multi-task financial meeting understanding evaluation dataset. It covers three languages: English, Chinese and Japanese, and spans 11 industry sectors defined by the Global Industry Classification Standard (GICS). The dataset contains transcribed texts of 300 English meetings, 400 Chinese meetings and 100 Japanese meetings, with each meeting averaging approximately one hour in duration. It includes three tasks: summarization, question-answer pair extraction and question answering. All annotations were manually completed by financial analysts to ensure high-quality and accurate evaluation.

提供机构：

苏州大学计算机科学与技术学院, 阿里巴巴云计算栖云点津团队, 南京大学

创建时间：

2025-06-03

原始信息汇总

数据集概述

📌 基本信息

数据集名称: Qwen DianJin
平台: 阿里云金融智能解决方案平台
主要领域: 金融业务的人工智能应用开发

🚀 最新动态

2025.05.22: "M³FinMeeting"数据集被ACL-2025接受。
2025.04.23: DianJin-R1系列开源发布，包括DianJin-R1-Data数据集及DianJin-R1-7B、DianJin-R1-13B模型。
2025.01.06: CFLUE数据集完全开源。
2024.05.16: CFLUE相关论文被ACL-2024接受。

📊 已发布数据与模型

名称	ModelScope	HuggingFace	论文
DianJin-R1-32B	链接	链接	技术报告
DianJin-R1-7B	链接	链接	技术报告
DianJin-R1-Data	链接	链接	技术报告
CFLUE	链接	链接	ACL-2024

✨ 主要功能

智能应用

金融服务：信用卡还款提醒、手机银行导航等。
投资研究与新闻：研究报告摘要、信息提取等。
运营数据查询：运营指标问答、异常警报等。

开放平台

文档问答：金融场景优化的知识库问答能力。
指标问答：回答指标问题并绘制指标图表。
多代理系统：支持多种节点配置和编排。

📝 引用

bibtex @inproceedings{zhu-etal-2025-finmeeting, title = "M^{3}FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset", author = "Jie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen", booktitle = "Findings of ACL", year = "2025" }

@article{zhu-etal-2025-dianjin-r1, title = {DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models}, author = {Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang}, journal = {arxiv.org/abs/2504.15716}, year = {2025} }

@inproceedings{zhu-etal-2024-cflue, title = "Benchmarking Large Language Models on CFLUE - A Chinese Financial Language Understanding Evaluation Dataset", author = "Jie Zhu, Junhui Li, Yalong Wen, Lifan Guo", booktitle = "Findings of ACL", year = "2024", pages = "5673--5693", }

🤝 联系方式

邮箱: CFLUE@alibabacloud.com
钉钉群: 扫描详情页中的二维码加入

⚠️ 免责声明

用户需自行评估使用DianJin开源模型和数据的潜在风险，并承担相应法律责任。

搜集汇总

数据集介绍

构建方式

M3FinMeeting数据集的构建采用了多阶段精细化的流程，首先通过专业金融合作机构获取覆盖11个GICS行业分类的会议音频，运用Whisper自动语音识别系统转写后，由金融分析师进行双重人工校验与标注。数据采集遵循时效性、长度优先、行业可分类性和权威性四大原则，确保内容涵盖英文、中文和日语的跨语言金融场景。标注过程采用分阶段任务设计，包括会议文本校正、基于主题分割的摘要生成以及问答对提取，所有标注结果均通过资深分析师的质量控制审核，最终形成结构化JSON格式的标准化语料。

特点

该数据集具有三大核心特征：多语言覆盖性支持英语、中文和日语三语种金融会议场景；行业维度完整包含GICS标准下的全部11个行业板块，平均会议时长1小时，文本长度突破10K token；任务多样性设计包含摘要生成、问答对抽取和问题回答三大NLP任务，特别注重长上下文建模能力评估。所有语料均源自真实金融决策场景，与现有基于新闻和财报的金融数据集形成鲜明互补。

使用方法

研究者可通过GitHub开源项目加载标准化JSON格式数据，按照任务类型调用不同评估模块。摘要任务需评估模型对分段主题的覆盖度和信息压缩能力；问答对提取侧重金融相关问题的识别准确率；问答任务则测试模型在长文档中的证据定位能力。基准测试提供基于GPT-4 Judge的自动评估体系，包括覆盖率、冗余度等5项指标，同时支持人工评估验证。使用建议包含零样本提示工程和RAG增强两种范式，特别针对超过15K token的长文档提供分块处理方案。

背景与挑战

背景概述

M3FinMeeting数据集由苏州大学与阿里巴巴云计算团队于2025年联合推出，旨在填补金融领域会议理解评估的空白。该数据集聚焦多语言（英语、中文、日语）、多行业（覆盖GICS 11个行业）及多任务（摘要生成、问答对抽取、问题回答）的金融会议场景，突破了传统金融基准依赖新闻和财报的局限。其核心研究问题在于评估大语言模型对长时程金融会议动态的理解能力，通过真实会议转录文本的精细标注，为金融NLP领域提供了首个面向会议场景的标准化评估框架，显著推动了金融文本理解技术向实时交互场景的延伸。

当前挑战

领域挑战方面，M3FinMeeting需解决金融会议特有的语义复杂性（如专业术语密集、多轮对话交织）和长文本建模难题（平均10K+token），而现有模型在跨语言行业知识迁移和长程依赖捕捉上表现欠佳。构建挑战包括：1) 会议转录文本的语义对齐要求高，需金融专家人工校正ASR错误；2) 多任务标注成本高昂，单个会议需耗时2-3小时完成摘要、问答对等多维度标注；3) 数据敏感性处理，需在保留金融语义的同时脱敏商业机密，平衡研究可用性与合规性。

常用场景

经典使用场景

M3FinMeeting数据集在金融会议理解领域具有广泛的应用价值，尤其在多语言、多行业和多任务场景下表现出色。该数据集支持英语、中文和日语的金融会议转录文本，涵盖全球行业分类标准（GICS）定义的11个行业，适用于金融专业人士、研究人员和大型语言模型开发者。其经典使用场景包括金融会议内容的自动摘要生成、问答对提取以及问题回答任务，为金融领域的自然语言处理研究提供了丰富的实验数据。

衍生相关工作

M3FinMeeting数据集已经衍生出多项经典研究工作。例如，基于该数据集的Qwen2.5-72B-Instruct模型在金融会议理解任务中表现出色，推动了大型语言模型在金融领域的应用。此外，该数据集还被用于研究长文本处理技术，如RAG（检索增强生成）模块的优化，进一步提升了模型在长上下文任务中的性能。这些衍生工作不仅扩展了数据集的应用范围，也为金融自然语言处理领域的技术进步提供了重要参考。

数据集最近研究