FINAUDIO

Name: FINAUDIO
Creator: 史蒂文斯理工学院，哥伦比亚大学，The Fin AI，奥古斯塔大学，曼彻斯特大学，蒙特利尔大学
Published: 2025-03-27 05:07:51
License: 暂无描述

arXiv2025-03-27 更新2025-04-01 收录

下载链接：

http://arxiv.org/abs/2503.20990v1

下载链接

链接失效反馈

官方服务：

资源简介：

FINAUDIO是由史蒂文斯理工学院等机构创建的音频大型语言模型基准数据集，旨在评估金融领域音频数据的处理能力。该数据集包含5个子数据集，涵盖了短音频片段和长音频记录，以及针对金融音频摘要的新数据集FinAudioSum。总数据量超过400小时，包含了金融会议、收益电话会议等音频数据，用于自动语音识别、长音频摘要等任务，以解决金融分析和投资决策中的问题。

FINAUDIO is an audio-focused large language model benchmark dataset developed by institutions including Stevens Institute of Technology, designed to evaluate the processing capabilities of financial audio data. It consists of 5 sub-datasets, covering short audio clips and long audio recordings, as well as a newly proposed dataset FinAudioSum tailored for financial audio summarization. The total corpus exceeds 400 hours, encompassing audio data from sources such as financial meetings and earnings conference calls. It is employed for tasks including automatic speech recognition and long-form audio summarization, aiming to tackle challenges in financial analysis and investment decision-making.

提供机构：

史蒂文斯理工学院，哥伦比亚大学，The Fin AI，奥古斯塔大学，曼彻斯特大学，蒙特利尔大学

创建时间：

2025-03-27

搜集汇总

数据集介绍

构建方式

FINAUDIO数据集的构建基于金融领域音频数据的独特需求，整合了现有开源金融音频数据和新开发的数据集。具体而言，该数据集包含两类短音频剪辑（MDRM-test和SPGISpeech-test）和两类长音频录音（Earning-21和Earning-22），以及专为金融音频摘要任务设计的新数据集FinAudioSum。短音频剪辑来自收益电话会议的句子级分段，而长音频录音则包含完整的收益电话会议内容。FinAudioSum基于ECTSum数据集，通过匹配音频记录和专家生成的摘要构建而成，确保了数据的多样性和代表性。

特点

FINAUDIO数据集的特点在于其专注于金融领域的音频任务，涵盖了短音频自动语音识别（ASR）、长音频ASR以及金融音频摘要三大任务。数据集包含超过400小时的金融音频数据，规模与通用领域的AudioLLM基准相当。其独特之处在于针对金融术语和数值信息的密集性进行了优化，并提供了详细的转录和摘要标签，为金融音频分析提供了全面的评估框架。此外，数据集的多样性和真实性使其能够有效模拟实际金融场景中的音频处理需求。

使用方法

FINAUDIO数据集的使用方法主要包括三个任务：短音频ASR、长音频ASR和金融音频摘要。对于短音频ASR任务，用户可通过输入音频剪辑和提示指令，生成转录文本并使用词错误率（WER）进行评估。长音频ASR任务需将音频分段处理，逐段转录后拼接成完整文本，同样以WER作为评估指标。金融音频摘要任务则需先将长音频转录为文本，再通过大型语言模型生成摘要，并使用Rouge-L和BertScore进行评估。数据集还支持对模型在多样化提示下的鲁棒性分析，为用户提供了全面的评估工具。

背景与挑战

背景概述

FINAUDIO是由Stevens Institute of Technology、Columbia University等机构的研究团队于2025年提出的首个面向金融领域的音频大语言模型（AudioLLM）评估基准。该数据集旨在填补金融音频分析领域的空白，聚焦于收益电话会议、CEO演讲等关键金融场景的语音数据理解。作为金融AI领域的重要基础设施，FINAUDIO定义了三大核心任务：短金融音频的自动语音识别（ASR）、长金融音频的ASR以及金融音频摘要生成，共包含超过400小时的标注数据。其创新性在于首次系统性地构建了金融领域语音理解的评估框架，为投资决策、金融服务等应用场景提供了标准化测试平台。

当前挑战

在领域问题层面，FINAUDIO需解决金融专业术语识别、长时序音频理解、数值信息精确转录等核心挑战，这些要素直接影响投资分析的准确性。构建过程中面临双重困难：一是金融音频数据的稀缺性导致原始语料获取困难，需从零构建FinAudioSum摘要数据集；二是长音频处理存在技术瓶颈，现有模型30秒的输入窗口限制与长达60分钟的收益电话会议形成显著矛盾。此外，专业名词的歧义消除（如"NextEra Energy"误识别为"Era Energy"）和货币数值的精确转换（如"$1.5B"的漏译）等错误类型，暴露出领域适应性的关键挑战。

常用场景

经典使用场景

FINAUDIO数据集作为金融领域首个专注于音频大语言模型（AudioLLMs）评估的基准，其经典使用场景集中在金融音频数据的多维度分析。该数据集通过精心设计的三个核心任务——短金融音频片段自动语音识别（ASR）、长金融录音ASR以及金融音频摘要生成，系统性地评估模型在真实金融场景下的表现。尤其在收益电话会议、CEO演讲等高价值金融音频的转录与分析中，FINAUDIO为研究者提供了标准化的评估框架，填补了金融音频缺乏专业评估工具的空白。

衍生相关工作

FINAUDIO的发布催生了多个标志性衍生研究：基于其构建的FinAudio-LLM系列探索了金融领域适配的音频编码架构；后续工作ECCAnalyzer进一步将转录文本用于股价波动预测；而PIXIU-X项目则整合该数据集扩展了多模态金融大模型的评估维度。这些工作共同推动了AudioLLMs在量化金融、风险预警等垂直场景的落地应用，形成从基础研究到产业实践的完整链条。

数据集最近研究