five

Finance Massive Text Embedding Benchmark (FinMTEB)

收藏
arXiv2025-02-16 更新2025-02-19 收录
下载链接:
https://github.com/yixuantt/FinMTEB
下载链接
链接失效反馈
官方服务:
资源简介:
FinMTEB是一个专为金融领域设计的文本嵌入基准,由香港科技大学的研究人员创建。该数据集包含64个金融领域特定的嵌入数据集,覆盖了中英两种语言的7个不同任务,如财务新闻文章、公司年度报告、ESG报告、监管文件和收益电话会议记录等。数据集的创建旨在为金融NLP应用提供一个稳健的评价框架,并针对开发特定领域嵌入模型提供重要见解。

FinMTEB is a text embedding benchmark specifically designed for the financial domain, created by researchers from the Hong Kong University of Science and Technology. This dataset includes 64 finance-specific embedding datasets, covering 7 distinct tasks across both Chinese and English languages, such as financial news articles, corporate annual reports, ESG reports, regulatory documents, earnings conference call transcripts, and more. The dataset is developed to provide a robust evaluation framework for financial NLP applications, and offer critical insights for the development of domain-specific embedding models.
提供机构:
香港科技大学
创建时间:
2025-02-16
原始信息汇总

FinMTEB: 财经大规模文本嵌入基准

FinMTEB是一个财经领域的文本嵌入基准,包含以下关键信息:

  • 数据集组成:包含64个财经领域特定文本数据集,涵盖英文和中文两种语言,涉及七个不同任务

  • 数据集来源:所有数据集要么之前用于金融NLP研究,要么由作者新开发。

  • 论文链接

  • 排行榜FinanceMTEB排行榜

  • 使用方法:基于MTEB构建的基本流程。

  • 新模型开源:开源了一个新的财经适配型LLM基础嵌入模型FinE5

  • 安装步骤: bash conda create -n finmteb python=3.10 git clone https://github.com/yixuantt/FinMTEB.git cd FinMTEB pip install -r requirements.txt

  • 任务选择:提供7个任务和64个数据集,可根据需求选择。

  • 运行基准测试: python from finance_mteb import MTEB task = "FinSTS" evaluation = MTEB(tasks=[task]) evaluation.run(model, output_folder=f"results/{model_name_or_path.split(/)[-1]}")

  • 示例用法: bash python eval_FinanceMTEB.py --model_name_or_path BAAI/bge-en-icl --pooling_method last

  • 引用信息

    @misc{tang2024needdomainspecificembeddingmodels, title={Do We Need Domain-Specific Embedding Models? An Empirical Investigation}, author={Yixuan Tang and Yi Yang}, year={2024}, eprint={2409.18511}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.18511}, }

搜集汇总
数据集介绍
main_image_url
构建方式
FinMTEB,即Finance Massive Text Embedding Benchmark,是一个专门为金融领域设计的文本嵌入评估基准。它包含了64个金融领域特定的嵌入数据集,涵盖了7个任务,包括分类、聚类、检索、配对分类、重排序、摘要和语义文本相似度。这些数据集覆盖了中文和英文两种语言,包括金融新闻文章、公司年报、ESG报告、监管文件和收益电话会议记录等多种文本类型。FinMTEB的构建旨在填补金融领域NLP应用评估框架的空白,并推动领域特定嵌入模型的发展。
特点
FinMTEB具有以下特点:首先,它是一个全面的评估框架,包含了64个金融领域特定的嵌入数据集,涵盖了7个任务,可以全面评估嵌入模型在金融领域的性能。其次,FinMTEB的数据集涵盖了中文和英文两种语言,可以评估嵌入模型在多语言环境下的性能。最后,FinMTEB的开发团队还开发了一个名为Fin-E5的金融自适应嵌入模型,该模型在FinMTEB基准上取得了最先进的性能,为金融领域NLP应用提供了强有力的支持。
使用方法
FinMTEB的使用方法如下:首先,用户可以从FinMTEB的官方网站下载数据集和评估脚本。然后,用户可以使用这些数据集和脚本评估他们自己的嵌入模型在金融领域的性能。最后,用户可以将他们的模型与FinMTEB基准上的其他模型进行比较,以评估他们的模型在金融领域的性能。FinMTEB的使用可以帮助用户了解他们的模型在金融领域的性能,并推动领域特定嵌入模型的发展。
背景与挑战
背景概述
在自然语言处理(NLP)领域中,文本嵌入模型作为将文本序列转换为密集向量表示的基础组件,对于信息检索、语义理解和下游应用的有效性至关重要。然而,尽管近年来大型语言模型(LLM)在通用基准测试中表现出色,但在特定领域,尤其是金融领域的有效性仍需深入探讨。金融文本分析要求精确处理领域特定术语、时间敏感性和复杂的数值关系。为了填补这一空白,香港科技大学的研究人员Yixuan Tang和Yi Yang创建了Finance Massive Text Embedding Benchmark (FinMTEB),这是一个专门针对金融领域的文本嵌入模型评估框架。FinMTEB包括64个金融领域特定的嵌入数据集,涵盖7个任务,涉及中英文的多种文本类型,如金融新闻文章、公司年度报告、ESG报告、监管文件和收益电话记录。该数据集的创建旨在为金融NLP应用建立一个稳健的评估框架,并为开发特定领域的嵌入模型提供关键洞察。
当前挑战
FinMTEB数据集的创建和使用面临着一系列挑战。首先,金融语义与通用语言使用存在差异,例如术语“负债”在金融语境中具有负面含义,而在通用使用中则表示法律上的责任。这要求嵌入模型能够准确捕捉领域特定信息。其次,尽管领域适应在实现专业领域最佳性能方面至关重要,但缺乏全面的领域特定评估框架,难以全面评估嵌入模型在金融领域的表现。此外,金融文本的独特特征,如模板语言的存在,为语义表示引入了噪声,增加了模型区分有意义商业洞察和常规合规文本的难度。最后,FinMTEB目前主要针对英语数据集,限制了其在非英语金融文本中的应用。这些挑战表明,尽管FinMTEB为金融NLP领域带来了重要的评估工具,但仍有待进一步改进和发展。
常用场景
经典使用场景
FinMTEB作为金融领域文本嵌入模型的评估基准,被广泛应用于评估和比较不同文本嵌入模型在金融文本任务上的性能。它涵盖了七个任务,包括文本分类、聚类、检索、成对分类、重新排序、摘要和语义文本相似度。这些任务涵盖了金融领域中的各种文本类型,例如金融新闻文章、公司年度报告、ESG报告、监管文件和盈利电话记录等。FinMTEB提供了64个金融领域特定的嵌入数据集,包括中英文数据,使得研究者可以全面评估文本嵌入模型在金融领域的表现。
衍生相关工作
FinMTEB的发布引发了金融领域文本嵌入模型研究的热潮。基于FinMTEB,研究人员开发了针对金融领域的文本嵌入模型,例如Fin-E5。Fin-E5是一个基于FinMTEB训练的金融领域自适应文本嵌入模型,它在FinMTEB基准上取得了优异的性能。此外,FinMTEB还促进了金融领域文本嵌入模型的评估方法的研究,例如基于语义文本相似度、分类、检索等任务的评估方法。这些研究有助于推动金融领域文本嵌入模型的发展和改进,为金融领域自然语言处理技术的应用提供更准确和可靠的文本嵌入模型。
数据集最近研究
最新研究方向
在自然语言处理领域,文本嵌入模型是理解和检索信息的基础工具。随着大规模语言模型(LLMs)的兴起,嵌入模型在通用数据集上的性能得到了显著提升。然而,在特定领域,尤其是金融领域,现有模型的适用性仍待验证。金融文本分析对术语、时效性和数值关系的精确处理要求极高,这促使了领域特定的嵌入模型的发展。FinMTEB数据集的引入填补了这一领域的空白,它包含64个金融领域特定的嵌入数据集,涵盖了7个任务,包括金融新闻文章、公司年度报告、ESG报告、监管文件和收益电话记录等。通过评估15个嵌入模型,包括Fin-E5,研究发现了三个关键点:通用基准上的性能与金融领域任务的关联性有限;领域适应模型始终优于通用模型;在金融语义文本相似性(STS)任务中,简单的词袋(BoW)方法优于复杂的密集嵌入技术。这些发现强调了开发领域特定嵌入模型的重要性,并为金融NLP应用提供了宝贵的见解。
相关研究论文
  • 1
    FinMTEB: Finance Massive Text Embedding Benchmark香港科技大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作